(DUNOD) Evaluer L'Intelligence Logique

Philippe Chartier Even Loarer
valuer lintelligence logique

APPROCHE COGNITIVE
ET DYNAMIQUE
CHELLES DINTELLIGENCE
(WISC-III, WISC-IV, WAIS III)
TESTS DE FACTEUR G
(RAVEN, DOMINOS)
BATTERIES FACTORIELLES
(NV5, NV7, DAT5)
Table des matires
TABLE DES MATIRES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . INTRODUCTION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Premire partie Aspects historiques, thoriques et mthodologiques CHAPITRE 1 LES CONCEPTIONS THORIQUES DE LINTELLIGENCE ET DE SA MESURE . . . . . . . . . . . . . . . . . . . . . . . .
1. Dfinir et mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . .
V 1
7 9 9 11 12 12 13 15 21 21 24 27
Dfinir lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Dunod La photocopie non autorise est un dlit
2.
Repres historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les premiers tests mentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . De la mesure des processus lmentaires celle des fonctions suprieures . . . . Lapproche factorielle de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. Principaux repres actuels de la psychomtrie de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
La structure factorielle de lintelligence : modles de synthse . . . . . . . . . . . . Le niveau intellectuel est-il stable dune gnration lautre ? . . . . . . . . . . . . Le niveau intellectuel est-il stable chez ladulte ? . . . . . . . . . . . . . . . . . . . . . .
VI
Une ou plusieurs intelligences ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31 35 37 37 39 39 40 43 45 47 47 50 51 54 56 56 57 63 64 65 66 66 67 69
CHAPITRE 2 DFINITION ET PROPRITS DES TESTS . . . . . . . .

1. Dfinitions pralables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quest-ce quun test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comment se prsente un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comment passer dun comportement un score ? . . . . . . . . . . . . . . . . . . . . . Les diffrents types de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La notion de psychomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. La notion de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Le principe de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Peut-on amliorer la fidlit dun test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les diffrentes formes de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. 4. La notion de sensibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La notion de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diffrents types de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Lanalyse des items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lindice de difficult . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lindice de discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6. La notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quest-ce quun biais ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diffrents types de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur la notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table des matires
VII
7.
La notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70 70 73 81 83 87 88 92 94 98 99
Principes de ltalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Plusieurs types dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur la notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. 9. Comment valuer un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les volutions des modles psychomtriques . . . . . . . . . . . . . .
Prsentation gnrale de lapproche des modles MRI . . . . . . . . . . . . . . . . . . Les trois modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intrts et limites des modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur les modles MRI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Deuxime partie Les principaux tests dintelligence CHAPITRE 3 LES CHELLES DINTELLIGENCE . . . . . . . . . . . . . . . .
1. De lchelle mtrique de Binet & Simon aux chelles de Weschler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
103
105 105 108 112 113 115 119 120 132 142 143
Lchelle Mtrique dIntelligence de Binet & Simon . . . . . . . . . . . . . . . . . . . Les chelles de Wechsler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.
Le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les talonnages disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . Les bases de linterprtation du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . Une version abrge du WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VIII
3.
Le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
144 144 146 149 151 152 162 172 173 174 176 179 184 190
Pourquoi une nouvelle version du WISC ? . . . . . . . . . . . . . . . . . . . . . . . . . . Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les talonnages disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les bases de linterprtation du WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. La WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les bases de linterprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur la WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CHAPITRE 4 LES TESTS DE FACTEUR G (ET DINTELLIGENCE FLUIDE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1. Les tests de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
191 194 196 209 214 215 215 219 225 228 231
Prsentation de la version SPM de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . La version APM des matrices de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusions gnrales sur les tests de Raven (versions SPM et APM) . . . . . . .
2. Le test NNAT (Test dAptitude Non Verbal de Nagliri) . . . . . .
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques du NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les bases de linterprtation du ou des scores . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur le test NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table des matires
IX
3.
Les tests D48, D70 et D2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
231 231 233 234 235 237 238 243 244 244 245 246 247 248 248 248 249 250 250 253 255 255 261 264 267 270
Prsentation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les items des tests de dominos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linterprtation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Propositions pour une analyse du profil de rponse . . . . . . . . . . . . . . . . . . . . . Conclusion sur les tests de dominos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Le test R85/R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linterprtation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur le test R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5. Quelques autres tests de facteur g . . . . . . . . . . . . . . . . . . . . . . . .
Le test Culture Fair de Cattell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le BLS 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le test B53 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le test RCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CHAPITRE 5 LES BATTERIES FACTORIELLES . . . . . . . . . . . . . . . . .

1. La batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation de lpreuve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques de la batterie NV7 . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linterprtation des scores de la NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur la batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.
La batterie NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
271 271 276 278 281 283 283 283 286 288 292 293 296
Prsentation de la NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les bases dinterprtation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur la NV5 R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3. La batterie DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les autres preuves de la DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les qualits psychomtriques de la DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . La standardisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Linterprtation des scores de la DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur la DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Troisime partie Utilisation des tests dintelligence CHAPITRE 6 DE LA MESURE DES PERFORMANCES LANALYSE DES STRATGIES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1. 2. 3. La notion de stratgie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vicariance et affordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comment identifier les stratgies ? . . . . . . . . . . . . . . . . . . . . . . .
299 302 305 307 308 309 311 311 311 318
Lanalyse de la structure des temps de rsolution . . . . . . . . . . . . . . . . . . . . . . Lanalyse dynamique de la rsolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La cration dun matriel spcifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. De lanalyse des stratgies dans lpreuve des cubes de Kohs au logiciel SAMUEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lanalyse des stratgies dans lpreuve des cubes . . . . . . . . . . . . . . . . . . . . . . . Le logiciel SAMUEL de Rozencwajg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table des matires
XI
Conclusion sur SAMUEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion sur lanalyse des stratgies dans les tests . . . . . . . . . . . . . . . . . . . .
324 326 327 329 329 329 330 331 333 334 335 336 336 337 338 339 340 341 341 342 346 346 347
CHAPITRE 7 LVALUATION DYNAMIQUE . . . . . . . . . . . . . . . . . . .

1. Les principes de lvaluation dynamique . . . . . . . . . . . . . . . . . . .
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lvaluation dynamique : les prcurseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. 3. Les procdures dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les conceptions du potentiel dapprentissage . . . . . . . . . . . . .
Le potentiel dapprentissage comme meilleure mesure de lintelligence . . . . . Le potentiel dapprentissage comme mesure de la zone proximale de dveloppement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le potentiel dapprentissage comme valuation de la modifiabilit cognitive .
4. Les objectifs de lvaluation dynamique . . . . . . . . . . . . . . . . . . .
1r objectif : Amliorer la mesure de lintelligence . . . . . . . . . . . . . . . . . . . . . 2e objectif : valuer lducabilit cognitive de lindividu . . . . . . . . . . . . . . . . 3 objectif : Pronostiquer la russite dans les apprentissages ultrieurs . . . . . .
e
4e objectif : Recueillir des indications utiles lintervention pdagogique . . . Les mrites de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.
Les difficults pratiques et mthodologiques de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Problmes mthodologiques relatifs la procdure ACT . . . . . . . . . . . . . . . . Problmes mthodologiques relatifs la procdure T-A-R . . . . . . . . . . . . . . .
6. Les problmes thoriques de lvaluation dynamique : que mesure t-on exactement ? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Les rapports entre le potentiel dapprentissage et lintelligence . . . . . . . . . . . . La nature et la signification des progrs conscutifs lapprentissage valu . .
XII
La nature des contenus et oprations cognitives qui sont valus et entrans dans le cadre de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La validation du potentiel dapprentissage et des critres de validit . . . . . . . .
7. 8. Quels usages des preuves de potentiel dapprentissage ? . Prsentation dpreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
348 349 352 354
Lpreuve de type Aide au cours du test de Ionescu et collaborateurs fonde sur les cubes de de Kohs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355 preuve dvaluation dynamique base sur le SPM de Raven . . . . . . . . . . . . . Le Test dvaluation Dynamique de lducabilit, 6 dition (T.E.D.E.6) de Pasquier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9. Conclusions sur le potentiel dapprentissage . . . . . . . . . . . . . .
e
358 359 363 365 367 367 370 373 374 375 378 380 380 383 394 394 396
CHAPITRE 8 UTILISATION DES TESTS DINTELLIGENCE . . . . .

1. Les conditions dutilisation des tests . . . . . . . . . . . . . . . . . . . . . .
Qui peut utiliser des tests en France ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Le code de dontologie des psychologues . . . . . . . . . . . . . . . . . . . . . . . . . . . . Qui diffuse les tests en France ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La formation lutilisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lapproche par la dfinition de normes et par lanalyse des comptences des utilisateurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les recommandations internationales sur lutilisation des tests . . . . . . . . . . .
2. La pratique des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La pratique des tests : de lanalyse de la demande la restitution des rsultats
3. Exemples de contextes dutilisation des tests dintelligence logique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dans le systme ducatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dans le recrutement et les ressources humaines . . . . . . . . . . . . . . . . . . . . . . .
Table des matires
XIII
Dans les pratiques de conseil, daccompagnement et dorientation tout au long de la vie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405 Dans la formation des adultes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. diteurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
407 409 411 411 411 411 412 412 412 412 413 413 413 414 414 414 414 415 415 415 415 416 416
FICHES PRATIQUES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1. Le test DAT5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Les tests de dominos : D48, D70 et D2000 . . . . . . . . . . . . . . . . . .

3. Les tests NNAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.
Le test R2000 (R85) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5. Les tests de Raven : la version SPM . . . . . . . . . . . . . . . . . . . . . . . .
XIV
6.
Les tests de Raven : la version APM . . . . . . . . . . . . . . . . . . . . . . . .
417 417 417 418 418 418 419 419 419 419 420 420 421 421 422 422 423 423 424 424 424 424 425 426 426 426 427

7. Le test Samuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8. Le test TEDE 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9. Les tests de WECHSLER : le WISC-III . . . . . . . . . . . . . . . . . . . . . . .

10. Les tests de WECHSLER : le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . .

11. Les tests de WECHSLER : la WAIS-III . . . . . . . . . . . . . . . . . . . . . . .

12. Le test NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Table des matires
XV
Informations diverses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13. Le test NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
427 427 427 428 428 429 429 429 429 431 436 439 439 444 450
ANNEXES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1. Code de dontologie des psychologues praticiens . . . . . . . . . .
Prambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Titre I. Principes gnraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Titre II. Lexercice professionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Titre III. La formation du psychologue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Recommandations internationales sur lutilisation des tests [extrait] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction et contexte dorigine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Les Recommandations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prendre ses responsabilits pour un usage thique des tests . . . . . . . . . . . . . . . Assurer une pratique correcte dans lutilisation des tests . . . . . . . . . . . . . . . . . Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
452 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 461 469
BIBLIOGRAPHIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Introduction
L

ES tests dintelligence datent du dbut du XXe . Depuis cette poque
de trs nombreux ouvrages sont parus sur le sujet, destination des chercheurs, des tudiants et/ou des praticiens. Alors... pourquoi un livre de plus ? La premire ambition de cet ouvrage est dapporter une vision la fois large et actualise de lvaluation de lintelligence logique, qui intgre la fois la prsentation des standards classiques et celle des volutions plus rcentes dans le domaine, et cela, tant du point de vue des connaissances thoriques que des mthodes et outils dvaluation. La seconde ambition est quil fournisse une aide et un soutien thorique et mthodologique au travail du praticien dans toutes les tapes et dans tous les aspects du processus dvaluation de lintelligence logique :
pour le choix des preuves (selon les objectifs, les personnes, les contraintes
et conditions de passation, la qualit des preuves et des talonnages...) ; pour la mise en uvre de lvaluation (en temps libre ou limit, en individuel ou collectif...) ; pour la correction et linterprtation des rsultats (indices, talonnages, scatters, mise en relation avec des critres...) ; pour la restitution aux personnes values (manire de le faire, supports...) ; pour le respect des rgles de dontologie et la mise en ouvre de pratiques non discriminatoires.
La troisime ambition est quil puisse tre un bon support pdagogique la formation des tudiants de psychologie dans ce domaine. La place accorde lenseignement de la mthodologie de la mesure en psychologie, et en particulier la formation la mthode des tests, est assez htrogne selon les universits, alors mme que lon observe depuis quelques annes un fort regain dintrt des praticiens, et futurs praticiens, pour ce domaine,
mais aussi une augmentation de la demande sociale et de celle des particuliers, en manire dvaluation. Une formation solide la pratique des tests est dautant plus importante dans le contexte actuel o les pratiques dvaluation, en particulier via Internet, mais galement dans de nombreux cabinets spcialiss, ne satisfont souvent pas aux critres qui leur garantissent un minimum de validit1 . Les pratiques peu valides ne prservent pas le droit des personnes values bnficier dun traitement quitable, chaque fois quune dcision est prise sur la base de ces valuations. Elles trompent galement la personne qui cherche plus simplement mieux se connatre . Louvrage vise donc faire le point sur les principaux lments thoriques et mthodologiques sur lesquels reposent les pratiques dvaluation de lintelligence logique. Il dresse un panorama des tests dans ce domaine et fournit un certain nombre dindications concernant les spcificits, qualits, utilisations et limites de ces diffrents tests2 . Plus prcisment, nous avons souhait prsenter : 1. Les cadres historiques, thoriques, mthodologiques et dontologiques qui nous semblent indispensables pour garantir la fiabilit dune valuation psychologique ; 2. Une large slection dpreuves utilisables en France, certaines dj largement connues et utilises (chelles de Wechsler, Matrices de Raven...), dautres sans doute moins (le logiciel Samuel, les pratiques dvaluation dynamique...), afin de regrouper, dans un mme ouvrage, un ensemble assez vaste doutils aujourdhui disponibles et utilisables. Dans la mesure du possible, nous avons illustr ces preuves par des exemples ditems3 ; 3. Une analyse de ces preuves. Il ne sagissait pas pour nous de lister uniquement des preuves mais dapporter, en toute modestie et en nous appuyant sur leur analyse et sur lexprience de leur mise en uvre, un regard critique et des suggestions et recommandations sur ces outils et
1. En la matire, le pire ctoie souvent le meilleur et le peu de communication des socits sur les mthodes utilises, sous couvert de protection concurrentielle, ne permet souvent pas de faire un choix clair. 2. Ce qui le distingue par exemple de louvrage de Zurfluh (1976) qui tait certes exhaustif, mais ne fournissait quune information limite sur chaque test. En outre, cet ouvrage ne constitue plus aujourdhui, du fait de son anciennet, une rfrence suffisante la pratique. 3. Nous remercions vivement les ECPA pour leur aimable autorisation de reproduire certains exemples ditems de tests
Introduction
leurs usages. Dans tous les cas, le prsent ouvrage nest pas destin remplacer les manuels dutilisation de ces preuves. Nous souhaitons, au contraire quil renforce lenvie de sy reporter et quil constitue galement une invitation la consultation de documents complmentaires (livres, articles, ...) relatifs aux approches et preuves que nous prsentons ; 4. Dautres approches valuatives relativement mconnues, telles que lanalyse des stratgies de rsolution ou encore lvaluation dynamique de lintelligence, qui apportent des perspectives de renouvellement des pratiques (et des outils) dvaluation (Huteau et Lautrey, 1999a). Mme si ces preuves sont encore rares, et quelles restent souvent perfectibles, elles tmoignent de rapprochements intressants entre thories et pratiques et peuvent apporter des solutions pratiques trs utiles certaines problmatiques. Cet ouvrage prsente bien entendu certaines limites. Il est limit dans son primtre : centr sur la question de lvaluation de lintelligence logique il naborde pas la question de lvaluation dautres formes dintelligence (sociale, pratique, motionnelle...). Il est galement limit dans les niveaux dges pris en compte : il concerne lvaluation des adolescents et adultes et ne prsente donc pas les preuves utilisables auprs des enfants dge prscolaire et scolaire. Enfin, tous les test dintelligence logique ny figurent pas, par ncessit de faire des choix (par exemple les tests sur support verbal, tels que ceux labors par Bonnardel (cf. Thibaut, 2000, pour une prsentation), ou encore les tests inspirs de la thorie de Piaget (mieux adapts pour les plus jeunes). Louvrage est organis en trois parties :
1. La premire partie prsente les aspects historiques et thoriques de lintelligence logique (chapitre 1) ainsi que les principes mthodologiques de sa mesure (chapitre 2) ; 2. La seconde partie est consacre la prsentation des principales familles de tests dintelligence : les chelles dintelligence (chapitre 3), les tests de facteur g (chapitre 4) et les batteries factorielles (chapitre 5) ; 3. La troisime partie porte sur lutilisation des tests. Au-del des approches classiques dutilisation des tests qui consistent recueillir et analyser des scores de performance et qui sont largement voques lors de la prsentation des preuves, deux orientations plus contemporaines de lvaluation sont prsentes dans cette partie : lanalyse des stratgies de rsolution (chapitre 6) et lapproche de lvaluation dynamique
(chapitre 7). Enfin un dernier chapitre est consacr aux diffrents cadres dutilisation des tests ainsi quaux aspects dontologiques relatifs lvaluation des personnes. En annexe figurent des fiches synthtiques des preuves prsentes ainsi que la reproduction de deux documents : le Code de Dontologie des Psychologues et les recommandations internationales sur lutilisation des tests. Conu comme un manuel pratique, chacune de ses parties peut tre lue de faon indpendante. De nombreux renvois sont faits dans le texte pour permettre de multiples itinraires de lecture. La pratique de lvaluation ncessite nos yeux la matrise dun ensemble de connaissances souples, et articules, ainsi quune pratique rflexive. Il est essentiel de ne pas appliquer de faon mcanique des procdures standard (comme par exemple le calcul des scores) mais de comprendre et matriser tous les aspects de lvaluation (des conditions de standardisation linterprtation des scores) afin de pouvoir sajuster au mieux chaque situation prise dans sa complexit, sans pour autant mettre en pril les principes de la standardisation. Cela est ncessaire pour sassurer la fois de la validit de la mesure et des conditions de respect des droits de la personne value. Si cet ouvrage contribue lun des objectifs fixs dans les recommandations internationales sur lutilisation des tests de promouvoir une bonne utilisation des tests et dencourager des pratiques exemplaires dans le domaine de lvaluation (SFP, 2003, p. 9), nous pourrons considrer avoir atteint notre but.
PREMIRE PARTIE
Aspects historiques, thoriques et mthodologiques
CHAPITRE 1
Les conceptions thoriques de lintelligence et de sa mesure
Sommaire
L L L
1. Dfinir et mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Repres historiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Principaux repres actuels de la psychomtrie de lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 9 Page 12
Page 21
1.
Dfinir et mesurer lintelligence

Comprendre la nature et les proprits de lintelligence humaine est lune des grandes proccupations de la psychologie depuis ses origines. La notion a fait lobjet de nombreuses tentatives de modlisation et a t au centre de nombreux dbats, tant thoriques ou mthodologiques quidologiques. Elle a galement donn lieu la production dun grand nombre de mthodes et doutils dvaluation. Dans ce premier chapitre, nous prsenterons les principaux modles de lintelligence proposs par diffrents auteurs tout au long du XXe sicle. Nous verrons quils ont t conus dans certains contextes scientifiques, mais aussi sociaux et idologiques et sont associs, dans la majorit des cas des techniques et modalits dvaluation dont les principales seront prsentes dans la suite de cet ouvrage.
Dfinir lintelligence
La diversit des modles produits et des approches retenues par les auteurs tmoigne de la difficult rencontre cerner cette notion. Lintelligence humaine est en effet une abstraction. Cest un construit thorique labor pour rendre compte dun ensemble de conduites humaines perues comme efficientes. Etymologiquement, le terme vient du latin intelligere qui signifie comprendre. Mais la simple fonction de comprendre ne suffit pas lvidence rendre compte de lintelligence humaine. En 1921, soucieux dy voir plus clair, les diteurs du Journal of Educational Psychology demandrent un groupe dexperts reconnus dans le domaine de la psychologie de donner une dfinition de lintelligence. Il en rsulta une grande varit de rponses. Ritrant lexercice soixante-cinq ans plus tard, Sternberg et Detterman (1986) firent le mme constat dune absence de consensus. Nanmoins, dans ces deux tudes, ainsi que dans une troisime (mene un an plus tard par deux chercheurs amricains (Snyderman et Rothman, 1987) selon un principe analogue auprs dun large chantillon de plusieurs centaines dexperts), les caractristiques prsentant le plus fort consensus concernent les capacits
10
mener des raisonnements abstraits, rsoudre des problmes nouveaux, acqurir de nouvelles connaissances, sadapter lenvironnement (cf. tableau 1.1). Viennent ensuite les capacits de mmorisation, de vitesse mentale, les capacits linguistiques et mathmatiques ou encore la culture gnrale et la crativit. Lintelligence serait donc principalement comprise comme ce qui permet de comprendre, connatre, raisonner et rsoudre des problmes.
Tableau 1.1 Classement des caractristiques essentielles de lintelligence selon un chantillon de 661 experts (tude de Snyderman et Rothman 1987). 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Pense ou raisonnement abstrait Aptitude rsoudre des problmes Capacit acqurir des connaissances Mmoire Adaptation lenvironnement Vitesse mentale Capacit linguistique Capacit en mathmatiques Culture gnrale Crativit 99 % 98 % 96 % 81 % 77 % 72 % 71 % 68 % 62 % 60 %
On peut cependant constater, plus gnralement, que la finalit adaptative de lintelligence est prsente dans la grande majorit des dfinitions, comme lindiquait dj Wechsler en 1944 lintelligence est la capacit complexe ou globale dun individu dagir en fonction dun but, de penser rationnellement et davoir des rapports efficaces avec son environnement (cit par Grgoire, 2004, p. 150) ou encore Piaget en 1970 en affirmant que : lintelligence cest ladaptation . Cette dfinition, trop gnrale pour pouvoir tre fausse, ne doit cependant pas masquer les divergences entre auteurs que nous avons voques. Plusieurs explications peuvent tre donnes ces divergences (cf. Lautrey, 2006). Une premire serait de considrer que lintelligence est une notion trop gnrale, trop floue, trop abstraite (comme il en est de mme actuellement, par exemple, pour la notion de comptence), pour donner lieu une vritable investigation scientifique, seule voie possible llaboration
11
dun consensus. La seconde, qui a la prfrence de nombreux chercheurs contemporains en psychologie cognitive et diffrentielle, est que lintelligence est une fonction adaptative de haut niveau qui se manifeste travers une multiplicit de mcanismes et qui peut donc tre apprhende sous de trs nombreux angles. Cianciolo et Sternberg (2004) illustrent cette position par la clbre fable bouddhiste des aveugles et de llphant : chacun en touche une partie diffrente et conclut que llphant a les proprits de la partie quil dcouvre. Lunit de lintelligence peut-elle merger de la somme des modles qui la dcrivent ? Ce nest probablement pas si simple, car la question principale est celle de lintgration des diffrentes fonctions et processus. Nanmoins, des travaux existent qui visent proposer des visions synthtiques de plusieurs modles1 .
Mesurer lintelligence
La mesure de lintelligence a, depuis ses premires origines, servi deux objectifs distincts bien qutroitement complmentaires. Le premier objectif est dordre pistmologique. Il concerne la production de connaissances sur ce quest lintelligence humaine. Dans ce domaine comme dans beaucoup dautres, la construction dune connaissance scientifique et la mesure des phnomnes concerns sont, comme la soulign Bachelard (1934, 1938), troitement lies. voquant le dveloppement des sciences, Ullmo (1969, cit par Gillet, 1987) rappelle qu un pas dcisif a t franchi lorsquon a compris que cest la mesure qui dfinit la grandeur mesurer, celle-ci ne prexiste pas sa mesure, comme une intuition sommaire la fait longtemps croire (p. 24). Le second objectif est dordre pratique. Il correspond un besoin dapporter des rponses des demandes sociales. Dans lhistoire contemporaine des recherches sur lintelligence, cest souvent le second objectif qui a prcd le premier. Cest par exemple le cas des travaux de Binet. Si Binet est lgitimement considr comme lun des pres de lintelligence, il est remarquable de noter que son souci premier ntait pas de dfinir et modliser lintelligence mais de trouver des solutions pour mieux scolariser
1. Cest par exemple le cas des travaux au sein de lapproche factorielle qui proposent des modles hirarchiques synthtiques (Gustaffson (1984), Caroll (1993), ou encore de ceux de Lautrey (2001) qui rapprochent le courant psychomtrique classique et ltude des processus cognitifs. On peut galement mentionner la tentative rcente de Rozencwajg (2005) de proposer une vision intgrative de lintelligence.
12
les enfants prsentant des difficults et des retards dapprentissage et des dficits de russite scolaire (Binet, 1911). Ainsi, la mesure, forme standardise et instrumente dobservation, est ncessaire pour construire la connaissance. Mais la connaissance est galement ncessaire llaboration de mthodes et doutils de mesure. Le paradoxe est bien l : construire de bons instruments de mesure ncessite une bonne connaissance de ce que lon cherche mesurer mais cette connaissance est elle-mme dpendante des mthodes et instruments de mesure disponibles. Ce nest donc que par un ajustement progressif et souvent laborieux de ces deux approches que la connaissance progresse. En outre, llaboration thorique et la construction dinstruments de mesure ne se font quen fonction dun certain contexte intellectuel et social. Celui-ci voluant dans le temps, les dfinitions et conceptions de lintelligence ont galement volu. Nous donnerons dans ce chapitre un rapide aperu des principales tapes de cette volution et des conceptions proposes par diffrents auteurs et voquerons, lorsquelles existent les mthodes de mesure correspondantes.
2.
Repres historiques
Les premiers tests mentaux
Les premires tentatives de mesure quantitative des processus mentaux sont apparues la fin du XIXe sicle avec la naissance de la psychologie scientifique. Dans cette perspective, Wilhem Wund (1932-1920), psychologue allemand, cre Leipzig en 1879 le premier Laboratoire de psychologie exprimentale. Il dveloppe des mthodes prcises de mesure des seuils perceptifs et des temps de ractions et cherche comprendre les processus luvre dans ces tches sensorielles lmentaires De nombreux tudiants europens et nord-amricains viendront se former dans son laboratoire aux mthodes de la psychologie exprimentale. Lun des tudiants, venu des tats-Unis est James McKeen Cattel (1960-1944). Alors que Wund est essentiellement proccup par ltablissement de lois gnrales des processus sensoriels, Cattel sintresse aux diffrences entre les individus et constate que celles-ci ont tendance prsenter une certaine stabilit. De retour aux tats-Unis, il slectionne certaines situations exprimentales et les utilise
13
pour tudier les diffrences interindividuelles. En 1890 il utilise le terme de test mental pour dsigner ces situations exprimentales standardises. la mme poque, en Angleterre, Francis Galton (1822-1911), qui est cousin de Darwin, fait galement des travaux sur les diffrences interindividuelles dans les processus sensoriels lmentaires. Il le fait dans loptique de vrifier que la thorie de lvolution de Darwin sapplique aussi au dveloppement de lintelligence dans lespce humaine. Galton cre des tests physiques et sensoriels quil applique de faon standardise de grands chantillons et invente les talonnages. Il tudie les performances des parents et des enfants dans loptique de montrer que les diffrences individuelles sont hrditaires et labore, cette occasion, les principes de la rgression et du coefficient de corrlation. Si les premiers tests mentaux ont t crs en fonction de proccupations essentiellement scientifiques (comprendre les lois de la perception, tester la thorie de Darwin...), il est rapidement apparu quils taient susceptibles de contribuer rpondre certains besoins de la socit de lpoque. La fin du XIXe sicle est marque par une forte industrialisation et par une volont de gnraliser lducation. De nouveaux besoins en dcoulent en matire dvaluation des personnes des fins dorientation vers des formations ou vers des emplois. En France, les lois Ferry de 1881 et 1882 rendant linstruction lmentaire obligatoire, ont fait merger dautres besoins dvaluation, en particulier celui de distinguer parmi les lves dcole lmentaire, ceux qui navaient pas les moyens intellectuels pour suivre lenseignement gnral et leur fournir un enseignement adapt afin de remdier ces retards de dveloppement. Cest en rponse cette demande sociale quAlfred Binet a t amen crer son test dintelligence avec Thodore Simon.
De la mesure des processus lmentaires celle des fonctions suprieures
Binet tait trs critique vis--vis des tests issus dexpriences de laboratoire et portant sur des processus lmentaires comme moyen dvaluer les capacits intellectuelles quil percevait comme plus complexes. Dailleurs, les premires tentatives de Cattel, dvaluer laide de ses tests mentaux les tudiants de luniversit de Columbia donnrent raison Binet : elles dmontrrent quil ny avait pas de relation entre les rsultats dans ces tests et la russite dans les tudes universitaires.
14
Binet tait convaincu que les diffrences individuelles dans les capacits intellectuelles seraient mieux estimes par des tches de mmorisation, de raisonnement, de jugement ou dimagerie mentale. Encore fallait-il concevoir les tches adaptes. Binet commence alors avec Simon, qui tait mdecin dans un institut pour enfants retards , mettre au point des preuves nouvelles et les essayer dans les coles. Ils constatent que certains items chous par des enfants retards sont russis par des enfants normaux de mme ge. La russite ces items, ou groupes ditems, doit alors permettre de diagnostiquer un retard, ou une avance, de dveloppement intellectuel. Chaque enfant peut ainsi tre caractris la fois par son ge rel et par un ge mental correspondant son niveau de russite (voir dans le chapitre 3 la prsentation de la notion dge mental). En 1904, une commission ministrielle, la commission Bourgeois, charge officiellement Binet dtudier le problme du diagnostic de la dbilit mentale. Il ne mettra, avec Simon quun an mettre au point leur premire chelle mtrique de dintelligence. Nous reviendrons plus en dtail sur cette chelle dans le chapitre 3. Lchelle de Binet-Simon a eu un succs immdiat et fulgurant. Elle permettait de sortir de limpasse o se trouvait le problme de lvaluation de lintelligence et fournissait enfin des moyens de rpondre aux demandes sociales en matire dvaluation des personnes. Une seconde version du BinetSimon est publie en 1908 et lchelle est adapte aux tats-Unis ds 1909. Lewis Terman (1977-1956), professeur luniversit de Stanford, produit en 1916 le Stanford-Binet et lpreuve fait ensuite lobjet de nombreuses adaptations. Durant la premire guerre mondiale (1914-1918), Arthur S. Otis (1886-1964), lve de Terman, sinspirera du Binet-Simon pour produire, la demande de larme amricaine deux tests collectifs utilisables pour la slection et lorientation des recrues : lArmy alpha (niveau normal) et lArmy Beta (niveau illettr). Grce ces possibilits de passation collective, 1,7 million de recrues ont t tests entre 1916 et 1918. En 1912, Stern prolonge lide dage mental de Binet en inventant un nouvel indice appel quotient intellectuel (QI), rapport entre lge mental et lge chronologique. Il propose ainsi un indice de vitesse de dveloppement intellectuel, interprtable en termes davance ou de retard. Cet indice sera trs utilis, et pas toujours bon escient, et donnera lieu de nombreuses controverses au XXe sicle (voir Gould, 1983 ; Tort, 1974, Huteau et Lautrey, 1975) et encore actuellement (Lautrey, 2007).
15
Lapproche factorielle de lintelligence
Un facteur gnral unique ? peu prs la mme priode o Binet et Simon travaillaient en France leur chelle dintelligence, Charles Spearman (1863-1945), chercheur londonien, envisage une autre approche de lintelligence. Il est lui aussi lve de Wundt et est influenc par Galton et par ses dcouvertes statistiques. Il va en particulier perfectionner la mesure des corrlations et inventer lanalyse factorielle. Il pense que lon peut sappuyer sur cette analyse mathmatique des performances des individus pour identifier les dimensions intellectuelles sur lesquelles les individus peuvent tre compars. Il publie en 1904 un article intitul General intelligence, objectively determined and mesured , dans lequel il expose les principes de sa mthode et les premiers lments de sa thorie du facteur gnral dintelligence. Aprs avoir fait passer diffrentes tches trs varies, essentiellement scolaires, un chantillon de sujets et analys les notes obtenues avec sa mthode de calcul, il obtient un facteur de variation commun lensemble des preuves et un facteur spcifique chaque preuve. Il appelle ce facteur commun facteur gnral dintelligence ou facteur g. Son modle factoriel de lintelligence est prcis dans un ouvrage publi en 1927 ( The abilities of man, their nature and measurement ). Pour Spearman, le facteur g rvl par lanalyse factorielle correspond de lnergie mentale . Spearman met en vidence que les tches les plus fortement satures en facteur g sont des tches dduction de relations et de corrlats , cest--dire dextraction et dapplications de rgles. Le facteur g reflte donc une capacit trs gnrale tablir et appliquer des relations.
duction de relations Consiste trouver des relations entre plusieurs lments. Ex : Quy a-t-il de commun entre une voiture et un avion ? duction de corrlats Consiste trouver un objet partir dun autre, lorsque lon connat les relations qui les unissent. Ex : Truite est pcheur ce que lapin est ... ?
Ce modle factoriel, appel aussi monarchique , est donc un modle en deux niveaux de facteurs (modle bi-factoriel) : le premier niveau correspond aux facteurs spcifiques chaque tche et le second niveau est celui du facteur commun lensemble des tches (facteur g). Ce modle suppose donc que les tches possdent une part de variance commune. La russite dans lune,
16
covarie avec la russite dans les autres. La figure 1.1. fournit une illustration schmatique de ce modle.
1 10 9
4 5 6
G
8 7
Figure 1.1 Reprsentation schmatique du modle de Spearman : les diffrentes preuves (numrotes de 1 10) saturent pour partie dans un facteur unique appel facteur g .
On peut noter que, bien quayant adopt des approches mthodologiques et thoriques trs diffrentes, Binet et Spearman partagent une conception globale et unidimensionnelle de lintelligence. Cette position se retrouvera galement dans lapproche de Daniel Wechsler (1896-1981) qui, partir de 1939 proposera plusieurs chelles composites de mesure de lintelligence. Weschler propose en 1939 une alternative au Binet Simon. Il adopte une nouvelle mthode de questionnement et une autre faon de calculer le QI que celle propose par Stern (voir chapitre 3). Il existe plusieurs tests qui ont t conus en rfrence aux travaux de Spearman. Nous en prsentons un certain nombre dans le chapitre 4 de cet ouvrage. En particulier John Raven sinspirera de ces travaux de Spearman pour crer une preuve fortement sature en facteur g : lpreuve des matrices (SPM). On peut galement noter que le facteur g et le QI sont tout deux des indices dune intelligence unidimensionnelle, qui, bien quobtenus de faon trs diffrente sont sur le fond trs proches. De fait, les rsultats aux Matrices de Raven corrlent en moyenne .80 avec des scores de QI (chelles de Weschler par exemple).
17
Des aptitudes primaires indpendantes ? Il est important de noter que les rsultats de Spearman ont t obtenus en liminant soigneusement, dans les preuves choisies, toutes celles pouvant faire double emploi. Il a bien not que lorsquil maintenait par exemple plusieurs tests verbaux dans sa batterie dpreuve, ceux-ci saturaient certes dans le facteur G mais corrlaient galement entre eux. Les tests verbaux saturaient donc galement dans un facteur appel facteur de groupe propre aux tests verbaux. Spearman a minimis limportance de ces facteurs de groupe. Au contraire, dans les annes trente, laccent a t mis sur lexistence et limportance de ces facteurs de groupes par diffrents psychologues amricains et en particulier par Louis, L. Thurstone (1887-1955). Thurstone a utilis les techniques danalyse factorielles, quil a contribu perfectionner, et a constat que lorsque lon ne slectionne pas comme le faisait Spearman de faon systmatique les preuves prises en compte, des facteurs de groupe apparaissent. Le facteur g serait donc le produit dune slection des preuves et sa mise en vidence artificielle. Les facteurs que Thurstone identifie, et quil appellera facteurs primaires ont t par la suite retrouvs par la plupart des auteurs. Dans un ouvrage de 1935 intitul The vectors of the mind il prsente lensemble de son modle et tablit une liste de 9 facteurs primaires. Dans la suite de ses travaux, il en retiendra principalement 7 (voir tableau 1.2.). Pour Thurstone, ces facteurs sont indpendants et correspondent des aptitudes primaires ou capacits intellectuelles qui structurent lintelligence. Pour cet auteur lintelligence nest donc pas unidimensionnelle mais multidimensionnelle (ou multifactorielle), chaque aptitude primaire constituant une forme particulire dintelligence. De nombreux tests dintelligence vont tre inspirs de ce modle. Tout dabord, en 1938 parat une premire version de la batterie factorielle Primary Mental Abilities (PMA) mise au point par Thurstone lui-mme. Cette preuve est encore disponible et utilise aujourdhui. Dautres batteries factorielles sont prsentes dans le chapitre 5.
Peut-on concilier facteur G et aptitudes primaires ? Lopposition entre le modle de Spearman et celui de Thurstone nest en ralit quapparente. En effet, dans le modle de Thurstone, bien que les aptitudes soient prsentes comme indpendantes les unes des autres, les recherches indiquent que des corrlations existent entre les facteurs primaires.
18
Tableau 1.2 Les sept aptitudes primaires (capacits intellectuelles) identifies par Thurstone (1941). Capacits N V W S M R P Aptitude numrique Comprhension verbale Fluidit verbale Visualisation spatiale Mmorisation Raisonnement infrentiel Vitesse perceptive Dfinition Rapidit et prcision dans le traitement dinformation chiffre. Comprhension du langage et du vocabulaire. Production dinformations langagires nombreuses et varies. Reprsentation mentale et traitement des objets, des lieux, des proprits gomtriques. Stockage et restitution dinformations. Rsoudre des problmes par raisonnement logique (identifier les rgles, appliquer les rgles, faire des hypothses). Reprer rapidement des similitudes ou des diffrences sur des units dinformation lmentaires.
Thurstone na pas accord beaucoup dimportance ce fait, mais dautres auteurs sont venus ensuite proposer des modles plus complets qui vont rconcilier les points de vue de Spearman et de Thurstone dans des modles hirarchiques de la structure factorielle de lintelligence. Cest le cas de Burt et Vernon (cf. Vernon, 1950, 1952) ou encore de Cattel et Horn (Horn et Cattel, 1966, Cattel, 1971). Ces auteurs analysent non seulement les saturations des tests dans les facteurs de groupe mais aussi les corrlations entre facteurs de groupes. Cattel et Horn, deux psychologues qui travaillent aux tats-Unis, procdent par analyses factorielles successives. Aprs avoir extrait la variance explique par les facteurs primaires de Thurstone, ils mnent une seconde analyse factorielle (dite de second ordre) visant extraire la variance commune aux facteurs primaires. Ils obtiennent ainsi plusieurs facteurs gnraux, dont les 3 principaux sont : un facteur gnral dintelligence fluide, un facteur gnral dintelligence cristallise et un facteur gnral dintelligence visuo-spatiale. Les aptitudes de ces registres ont des proprits distinctes. Celles qui relvent de lintelligence fluide sont, selon les auteurs, des produits de lquipement neurologique et des apprentissages incidents. Ils conditionnent la russite dans les activits qui impliquent la manipulation de relations complexes, la formation de concepts, le raisonnement et la
19
N
2
V
6 4
3 R 8
P
9
S
10
Figure 1.2 Reprsentation schmatique du modle de Thurstone : les diffrentes preuves (numrotes de 1 10) saturent pour partie dans des facteurs de groupe appels facteurs primaires qui correspondent des registres intellectuels distincts.
rsolution de problmes nouveaux. Celles qui relvent de lintelligence cristallise dpendraient de la culture, de la pratique scolaire, des apprentissages intentionnels, des habitudes, de lexprience. Lintelligence fluide serait donc plus fortement dtermine par lhrdit que lintelligence cristallise. Cette distinction quils introduisent entre intelligence fluide et cristallise, sera ensuite reprise par de nombreux auteurs (cf. par exemple Baltes & Baltes, 1990). Burt et Vernon, psychologues travaillant Londres, procdent galement par des analyses factorielles mais optent pour une mthodologie diffrente. Alors que Cattel et Horn ont procd lanalyse des donnes du bas vers le haut, eux vont aller du haut vers le bas. Ils extraient tout dabord la variance du facteur gnral dans la batterie de test utilise, puis observent que la variance restante se partage entre deux grands facteurs de groupe. Ils appellent le premier Verbal-Education (V-E) et le second Kinesthsique-Moteur
20
(K-M). Une fois retire la variance de ces deux grands facteurs, la variance restante se rpartit entre plusieurs facteurs plus spcifiques qui correspondent aux facteurs primaires de Thurstone (cf. figure 1.3).
Figure 1.3 Reprsentation schmatique du modle hirarchique de Burt et Vernon.
Les deux modles hirarchiques de ces auteurs prsentent des points communs mais aussi plusieurs diffrences qui sont restes longtemps non rsolues. Le modle de Burt et Vernon comprend trois niveaux alors que celui de Cattel et Horn nen contient que deux : il ne fait pas figurer de facteur gnral coiffant lensemble. Ce nest que plus rcemment que Gustaffson (1984) a apport les lments permettant dexpliquer les contradictions entre ces deux modles. Grce aux possibilits offertes par les analyses factorielles confirmatoires, il montre que le modle le mieux ajust aux donnes dune batterie de tests (analyse factorielle restrictive) est bien un modle en 3 niveaux comportant un facteur gnral. Il montre aussi que le facteur gnral de Burt et Vernon explique la mme part de variance que le facteur dintelligence fluide (Gf) de Cattel et Horn. Il parvient donc un modle stabilis de la structure factorielle de lintelligence, modle qui sera confirm et affin quelques annes plus tard par Carroll (1993). Nous prsentons le modle de Carroll, qui constitue la meilleure rfrence ce jour sur la question, dans la partie suivante.
21
3.
Principaux repres actuels de la psychomtrie de lintelligence
La structure factorielle de lintelligence : modles de synthse
John B. Carroll, procde par mta-analyse, cest--dire quil collecte les donnes issues de nombreuses tudes publies relatives la structure factorielle des tests dintelligence et retraite ces donnes afin de trouver le modle hirarchique qui reflterait le mieux lensemble de ces donnes. Il obtient les informations relatives 460 tudes (ce qui correspond plus de 130 000 sujets !) et constate que le modle qui rend le mieux compte de ces donnes est un modle en 3 niveaux (3 strates) qui intgre lensemble des modles prcdemment fournis. On y retrouve ainsi le facteur g de Spearman, ainsi que la structure multifactorielle de Thurstone et une structure hirarchique qui concilie la fois le modle de Cattel et Horn et celui de Burt et Vernon. Ce modle prsente bien des similitudes avec celui de Gustaffson, mais offre une vision plus exhaustive et dtaille de la structure hirarchique. Ce modle, dont lorganisation est prsente dans la figure 1.4, fait aujourdhui lobjet dun large consensus. La strate I correspond aux facteurs spcifiques (une trentaine), la strate II aux facteurs de groupe (8), et la strate III au facteur gnral. Les facteurs de la strate II sont hirarchiss en fonction de leur niveau de saturation dans le facteur g. Ainsi, par exemple, les tests dintelligence fluide sont de meilleurs reprsentants de lintelligence gnrale que les tests de vitesse de traitement. Nous pouvons noter que ce modle distingue des formes varies dintelligence (identifies en particulier par les facteurs de la strate II). Ils prsentent entre eux une relative indpendance qui rend compte du fait quun individu peut tre performant dans un domaine sans ncessairement ltre dans tous les autres. Cela permet danalyser les diffrences individuelles autrement qu travers un score unique sur une chelle unique et justifie le recours aux batteries factorielles dintelligence. Nanmoins, la prsence dans le modle dun facteur gnral tmoigne dune tendance statistique non nulle ce que les rsultats obtenus dans lensemble des preuves corrlent ente eux, ce qui donne galement un sens lutilisation des preuves de facteur g. Les modles multifactoriels hirarchiques peuvent fournir une aide prcieuse au praticien de lvaluation. La slection des tests ou des tches utiliser pour mener bien une valuation peut tre claire par un
22
Strate III
Strate II
Strate I Raisonnement Gnral Induction Raisonnement quantitatif Raisonnement Piagtien Dveloppement du langage Comprhension verbale Connaissance lexicale Comprhension de lecture Codage phontique Empan mnmonique Mmoire associative Mmoire visuelle Visualisation Relations spatiales Vitesse de clture Flexibilit de structuration Discrimination auditive Jugement musical Mmoire des sons Originalit / crativit Fluidit idationnelle Fluidit dassociation Fluidit verbale Facilit numrique Vitesse perceptive Temps de raction Vitesse de comparaison mentale
Intelligence fluide
Intelligence cristallise
Mmoire et apprentissage Intelligence gnrale G
Reprsentation visuo-spatiale
Reprsentation auditive
Rcupration en mmoire long terme Rapidit cognitive Vitesse de traitement
Figure 1.4 Structure hirarchique des capacits cognitives (daprs Caroll 1993. Facteurs de vitesse en italiques et de puissance en caractres normaux).
positionnement des preuves existantes, ou des types de tches, en fonction de la place quoccupent les capacits correspondantes dans le modle hirarchique (identifie par lanalyse des saturations des items de ces tests dans les diffrents facteurs).
23
Nous prsentons dans la figure 1.5 une cartographie de tests dintelligence propose par Snow, Kyllonen et Marshalek (1984), Snow et Lohman (1989) qui sappuie sur une reprsentation en Radex labore partir des travaux de Guttman (1957, 1965).
Numrique
Addition Multiplication Soustraction Division Jugement numrique Empans de chiffres, de lettres Raisonnement numrique Srie de nombres Analogies de nombres Rotation mentale Matrices Dveloppement Voc. Srie Reconstruction de Raven de surfaces df. de lettres de formes Analogies Analogies Formation verbales gomtriques de concepts Assemblage mcanique Comprhension Cubes lcoute de Kohs dun texte Rappel de paragraphe Comprhension de lecture Assemblage dobjets Compltion dimages Comparaison de chiffres de symboles de figures identiques
Anagrammes Voc. reconn
Sp a t ial
Figure 1.5 Reprsentation selon le modle du Radex dun ensemble fini de tests dintelligence (daprs Snow et Lohman, 1989 et Lohman, 2000, cit par Juhel, 2005).
La figure reprsente doit se voir comme un cne divis en 3 grandes parties. Le radex fournit des informations sur la nature de ce qui est valu et sur le niveau de simplicit ou de complexit cognitive des tches. Il se lit de la faon suivante :
Plus le test est proche du sommet du cne (centre de la figure), mieux il
l rba e V
mesure le facteur g ;
24
linverse, plus un test est situ vers la priphrie, mieux il mesure des
aptitudes spcifiques ; La nature des aptitudes values dpend de la zone o est situe lpreuve. Une premire rgion concerne les preuves offrant un contenu figuratif ou dont les items sont des figures gomtriques (domaine spatial), une seconde rgion rassemble les preuves du domaine verbal (comprhension, lecture, vocabulaire...) et la troisime rgion correspond aux preuves contenu numrique (tches impliquant des chiffres, des nombres, des calculs...). La position du test dans lespace de la figure informe donc sur la nature de la dimension quil value. La position du test informe galement sur le degr de complexit cognitive des preuves (cf. Guttman et Lvy, 1991) :
Les tests situs vers le sommet, requirent de la puissance de raisonnement
et sont intellectuellement plus complexes ;

Le niveau intermdiaire marque des tches plus simples o il est
simplement ncessaire dappliquer des rgles sans avoir les dcouvrir ; La base du cne correspond des tches plus spcifiques, sacqurant principalement par apprentissages et pour lesquels la vitesse de ralisation est gnralement importante. Il est possible de choisir les diffrents subtests constitutifs dune batterie en fonction de leur position dans lespace du Radex. Cela constitue alors un lment supplmentaire de validit de lpreuve par le choix de tches non redondantes et couvrant plus largement lensemble des domaines et des niveaux dvaluation. On peut galement le faire titre confirmatoire sur une batterie dj existante. Une dmarche de validation de ce type a t mene pour la batterie NV5R que nous prsentons dans le chapitre 5.
Le niveau intellectuel est-il stable dune gnration lautre ?
Le psychologue no-zlandais James R. Flynn a dit en 1984 et 1987 deux premires publications faisant tat dun phnomne peu pris en compte jusqu ce jour : une tendance laugmentation des rsultats moyens dans les tests dintelligence au fil des dcennies et des gnrations. Ce phnomne a des consquences importantes au plan thorique mais aussi au plan des pratiques de lvaluation et mrite que lon sy attarde. Une trs bonne synthse sur le sujet a t publie par Flieller en 2001.
25
Description de leffet Flynn Flynn a constat que des cohortes de naissance testes au mme ge et dans les mmes conditions laide dune mme preuve dintelligence obtiennent des scores moyens qui sordonnent comme leur anne de naissance (Flieller, 2001, p. 43). Flynn a men des travaux dans quatorze pays situs sur 4 continents et aboutit la conclusion que la progression moyenne est denviron 5 points de QI par dcade, cest--dire un cart-type par gnration. Dautres tudes, ralises depuis par divers auteurs un peu partout dans le monde, parviennent aux mmes conclusions (voir par exemple Raven, 2001). Leffet Flynn, mme sil fluctue selon les pays, les priodes et les tests considrs, savre nanmoins un phnomne trs gnral. Curieusement, la progression est plus importante dans les tests dintelligence fluide que dans les tests dintelligence cristallise, ce qui parat surprenant, puisque le registre de lintelligence cristallise est a priori mieux mme de profiter des apprentissages. En France, le phnomne a galement t observ par plusieurs tudes : Flieller et al. (1986) observent une augmentation de 24 points de QI sur une priode de 40 ans ou encore Baudelot et Establet, analysant les rsultats des tests passs par les conscrits lors de leur incorporation, constatent une progression moyenne de 5 points de QI entre 1968 et 1982 (sur 14 ans). En outre, des donnes anciennes attestent de la prsence de ce phnomne ds la fin de la premire guerre mondiale et montrent quil sest prolong un rythme trs rgulier jusqu nos jours, concernant tous les ges de la vie (groupes de jeunes, dadultes mais aussi de personnes ges). La grande gnralit du phnomne est donc atteste et ne laisse pas dinterroger.
Tentatives dexplications du phnomne
Les tentatives dexplications sont nombreuses mais lon doit bien admettre, comme le rappelle Flieller (2001), que le phnomne demeure encore une nigme. Plusieurs hypothses sont candidates lexplication de leffet Flynn. On retiendra en particulier : laugmentation du brassage gntique des populations ; lamlioration de la nutrition et des conditions dhygine et de sant ; laugmentation des exigences et sollicitations cognitives de lenvironnement ; les progrs de lducation.
26
Chacune de ces hypothses est plausible. Cependant, les tentatives de validations menes pour chacune dentre elles nont pas permis daboutir des confirmations satisfaisantes. Le problme de lorigine de leffet Flynn demeure donc entier. Plusieurs pistes sont envisages pour lucider le mystre. Certains privilgient lhypothse dune origine plurifactorielle : plusieurs facteurs contribueraient conjointement lexplication du phnomne. Dautres auteurs prfrent remettre en cause linterprtation du phnomne comme tmoignant dune augmentation du niveau intellectuel des populations : leffet observ serait un artfact du en particulier la banalisation des tests (familiarisation des individus vis--vis des tests) ou encore un changement dattitude face aux situations dvaluation par les tests. Dautres encore, et Flynn lui-mme en fait partie, sappuient sur la difficult rencontre identifier les facteurs explicatifs du phnomne pour remettre plus fondamentalement en cause la capacit mme des tests valuer lintelligence.
Consquences pour lvaluation de lintelligence
Quelles que soient les origines effectives de ce phnomne, celui-ci a des consquences importantes dune part pour notre connaissance de lintelligence et dautre part pour la qualit de sa mesure. Concernant le premier point, leffet Flynn, complique fortement les tudes dveloppementales de lintelligence et en particulier celles qui concernent le vieillissement cognitif. En effet, chaque fois que lon est amen tudier le dveloppement en comparant des groupes dges diffrents (approche transversale), il devient difficile de savoir si les groupes sont rellement comparables et dans quelle mesure les rsultats obtenus renseignent sur les effets de lge et ne sont pas dus cet effet de cohorte. Nous reviendrons sur ce point dans le prochain paragraphe. Concernant le second point, laugmentation moyenne rgulire des rsultats aux tests dintelligence acclre lobsolescence des talonnages des tests. On remarquera que, dans ce cas prcis, le risque est, fort heureusement, de surestimer les rsultats des individus dans les tests, et non linverse. Nanmoins, la validit de la mesure sen trouve affaiblie et il est donc indispensable pour les auteurs et les diteurs de rtalonner trs rgulirement les tests et, pour le praticien de se garder dutiliser des tests dont les talonnages ne seraient pas rcents (infrieurs 10 ans). Les rtalonnages successifs, outre le cot quils reprsentent, risquent de poser des problmes mthodologiques relatifs au pouvoir discriminant des tests (lorsque le test devient par exemple trop facile pour tous). Nous voquerons ces difficults mthodologiques dans le chapitre 2 de cet ouvrage.
27
Le niveau intellectuel est-il stable chez ladulte ?
Les premiers travaux portant sur lvolution de lintelligence chez ladulte sont apparus avec le dveloppement de la mthode des tests. Ils ont tout dabord t mens principalement loccasion des talonnages, cest-dire selon la mthode transversale. La mthode consiste donc comparer les performances de groupes de sujets dges diffrents et infrer le dveloppement de lintelligence durant la vie partir des performances moyennes obtenues aux diffrents ges (par ex. Jones & Conrad, 1933 ; Miles & Miles, 1932, Wechsler, 1939). Les donnes fournies par ces tudes ont tay un modle du dveloppement de lintelligence de ladulte se prsentant sous la forme dun accroissement des capacits intellectuelles jusqu environ 20 ans, ge partir duquel dbute un dclin rgulier qui sacclre ensuite vers 60 ans. Cest en se rfrant ce modle que certains auteurs ont pu mettre des doutes quant la plasticit de lintelligence de ladulte de plus de 20 ans. Cest galement ce modle qui alimente encore trs largement la reprsentation que le grand public a de lintelligence de ladulte. On sait cependant aujourdhui que les tudes transversales sont affectes par un biais mthodologique rsultant de leffet Flynn. Dans ces tudes, en effet, on ne compare pas seulement des sujets dges diffrents mais aussi des sujets de gnrations diffrentes. Les rsultats caractrisant les diffrents ges ntant pas obtenus sur les mmes sujets, leffet attribu lge peut en ralit tre d, pour tout ou partie, aux diffrences de conditions de vie (ducation, sant, activits, stimulations) entre gnrations. En raison de ce biais, le modle de lvolution de lintelligence issu de lapproche transversale, a t lobjet de nombreuses controverses (cf. Botwinick, 1977) et remplac par un autre, issu dtudes longitudinales. Un vaste courant de recherche sest dvelopp partir des annes soixante-dix aux tats-Unis (Birren, Dixon, Schaie, Willis...) et en Europe (notamment en Allemagne : Baltes et coll.) et a contribu, par des tudes longitudinales, renouveler les connaissances sur lintelligence de ladulte. Lapproche adopte y est celle dun dveloppement tout au long de la vie ( life span development ) en rupture avec lide dun dveloppement sarrtant la fin de ladolescence et dun ge adulte principalement marqu par le dclin. Dans leur forme la plus simple, ces tudes longitudinales consistent en un suivi des mmes sujets sur une certaine priode, laide dvaluations rptes. Mais une difficult demeure alors puisque le contrle de leffet
28
de cohorte nest effectif que pour une seule gnration. Pour pallier cette difficult, les tudes visant lobtention dune vue densemble de lvolution life-span de lintelligence ont eu recours un plan plus sophistiqu (appel squentiel) qui est une combinaison des plans transversaux et longitudinaux. Ltude longitudinale est alors mene simultanment sur plusieurs cohortes, ce qui permet disoler les effets de cohorte des effets propres du vieillissement. Nous pouvons retenir de ces travaux trois grandes conclusions : 1. Le dclin savre gnralement plus tardif que ne le laissaient penser les tudes transversales La plus importante tude longitudinale a t mene sous la responsabilit de Schaie (1979, 1983, 1994) : cest l tude longitudinale de Seattle . Ltude a dbut en 1956 sur un chantillon de 500 sujets adultes gs de 20 70 ans valus laide de diffrents tests dintelligence dont les PMA de Thurstone. Ensuite, tous les sept ans, les auteurs ont procd la constitution dun nouvel chantillon similaire et lvaluation des chantillons existants. Les dernires valuations ont port sur 8 cohortes de sujets gs de 22 95 ans et, au total, prs de 5000 personnes ont particip ltude. Ltude de Schaie montre ainsi que les performances dans les PMA de Thurstone ne commencent en moyenne dcrotre quentre 50 et 60 ans (Schaie, 1994) (voir figure 1.6). 2. Le dclin naffecte pas de la mme faon les diffrents registres dactivit cognitive Dj dans les annes soixante, Cattel et Horn avaient signal une volution diffrente avec lge des capacits relevant de lintelligence fluide et de lintelligence cristallise (Horn, & Cattel, 1966) : les premires ayant tendance dcliner et les autres se maintenir, voir continuer de crotre progressivement. Ces diffrences ont t confirmes par un grand nombre dtudes. Par exemple, Fontaine (1999) publie un tableau (voir tableau 1.3) issu des travaux de McGhee (1993) qui prcise pour 9 grands domaines de capacits cognitives leur sensibilit aux effets ngatifs du vieillissement (voir tableau 1.3). Des volutions dans la structure factorielle des aptitudes ont galement t dcrites. Symtriquement au processus de diffrenciation des aptitudes qui se manifeste dans lenfance et ladolescence (Larcebeau, 1967 ; Nguyen-Xuan, 1969), un phnomne de ddiffrenciation est observ en relation avec le vieillissement. Il se traduit par une diminution du poids des facteurs primaires et par une augmentation du poids du facteur g. Ce phnomne
29
60
55
Moyenne T-scores
50
45
Comprhension verbale Aptitude spatiale Raisonnement inductif Aptitude numrique Fluidit verbale
40
35
25
32
39
46
53
60
67
74
81
88
Age
Figure 1.6 Courbes moyennes dvolution avec lge des rsultats dans les PMA de Thurstone observes dans ltude longitudinale de Seattle (daprs Schaie, 1994).
initialement dcrit par Balinsky (1941) a t confirm et prcis par plusieurs tudes (Poitrenaud, 1972, Baltes et al., 1980). Balinsky (cit par Fontaine, 1999) avait compar des groupes dges diffrents et observ une diminution progressive des corrlations entre les subtests de la WAIS de 9 30 ans, puis une augmentation progressive de ces corrlations de 30 60 ans. Poitrenaud (1972) a observ une telle diffrence de structure factorielle entre deux groupes de sujets gs respectivement de 64-69 ans et de 74-79 ans, alors que Lindenberger et Baltes (1997), comparant deux groupes gs respectivement de 70-84 ans et de 85-103 ans, ne lobservent pas. On peut donc penser que cette ddiffrenciation dbuterait vers 30 ans et serait acheve vers 75 ans. Ce phnomne reste cependant controvers dans la mesure o il a principalement t observ par des tudes transversales et na pas trouv de confirmation dans ltude longitudinale conduite par Schaie. En outre, son tude prsente un certain nombre de difficults mthodologiques (Nesselroade et Thompson, 1995, Baltes et al. 1999).
30
Tableau 1.3 Tableau des domaines de capacits intellectuelles et de leur sensibilit au vieillissement (McGhee, 1993, Fontaine, 1999). Nom Connaissance quantitative Comprhension, connaissance Mmoire court terme Dfinition Sensibilit au vieillissement
Capacit comprendre les concepts quantitatifs Faible et leurs relations. Profondeur des connaissances. Capacit enregistrer des informations et les utiliser dans les secondes suivantes. Insensible Sensible Sensible
Rcupration long Capacit enregistrer des informations et les terme rcuprer aprs un dlai suprieur quelques secondes. Processus auditif Vitesse de dcision correcte Capacit analyser et synthtiser des stimulis auditifs. Capacit rpondre des questions portant sur des problmes de difficult modre ncessitant raisonnement et comprhension.
Sensible Trs sensible
Raisonnement fluide Capacit raisonner, construire des concepts, Trs sensible rsoudre des problmes dans des contextes nouveaux. Processus visuel Capacit analyser et synthtiser des stimulis visuels Sensible Trs sensible
Processus de rapidit Capacit raliser rapidement des tches cognitives automatiques sous pression et maintenir lattention
3. Une grande variabilit inter individuelle apparat dans la faon de vieillir intellectuellement La dispersion des rsultats dans les tests augment avec lge (Nelson & Annefer, D., 1992). Lorsque lon analyse cette variabilit on constate que lavance en ge ne se traduit pas pour tous les individus par les mmes effets : les capacits intellectuelles ne dclinent pas de la mme faon chez tous, pas ncessairement dans le mme ordre, pas ncessairement au mme ge, et pas avec la mme intensit.
31
Laugmentation des diffrences interindividuelles avec le vieillissement pose assez logiquement la question des facteurs susceptibles dinfluencer, de faon diffrentielle, ces volutions cognitives lies lge. Plusieurs sources de variation ont t identifies comme pouvant, seules ou en combinaison, contribuer expliquer cette htrognit. Les facteurs les plus frquemment voqus sont relatifs aux conditions de vie actuelles de la personne, telles que son tat de sant (cf. Herzog et al., 1978 ; Perlmutter et Nyquist, 1990), lintensit de sa vie sociale (cf. Moritz, 1989), ou son tat marital (cf. Rogers, 1990), mais aussi aux caractristiques de la personne avant quelle ne vieillisse, telles que son niveau culturel, la longueur de sa scolarit, ses activits professionnelles, son niveau intellectuel, ses antcdents de sant... (cf. Craik et al., 1987 ; Schaie, 1987 ; Ska et al., 1997). Ces dernires variables, que Schaie (1990) appelle antcdents des diffrences interindividuelles peuvent ainsi jouer le rle de prdicteur de la qualit du vieillissement. Depuis une quinzaine dannes, des travaux ont t conduits visant mieux connatre ces facteurs et la faon dont ils agissent, afin de dterminer les conditions optimales dun vieillissement russi ( successful aging ). Lune des hypothses retenues par ces auteurs est que lactivit mene dans tel ou tel domaine puisse venir attnuer, voire totalement prserver de, certains effets ngatifs du vieillissement et contribuer ainsi expliquer les diffrences inter-individuelles dans la faon de vieillir (cf. Marqui, 1996, Loarer, 2000). Par ailleurs des travaux mens dans le cadre de la psychologie cognitive ont permis didentifier un certain nombre de processus cognitifs lmentaires particulirement sensibles aux effets du vieillissement. Il sagit en particulier de lattention, de la mmoire de travail, de linhibition cognitive et de la vitesse de traitement. Ce dernier facteur apparat essentiel (Salthouse, 1994, 1996) : la vitesse de traitement diminuant avec lge, le ralentissement cognitif pourrait contribuer fortement la diminution des performances avec lge dans un grand nombre de registres. Pour un approfondissement de ces aspects, voir Lemaire et Behrer (2005).
Une ou plusieurs intelligences ?
La question de lunicit ou de la pluridimentionnalit de lintelligence tait dj prsente dans lopposition entre Spearman et Thurstone. On pourrait penser quelle a t rsolue par les modles hirarchiques synthtiques que
32
nous venons de prsenter. On peut pourtant sinterroger sur le fait que ces modles reflteraient la totalit de ce qui caractrise lintelligence humaine. En particulier, ds lors que lon considre lindividu engag dans des tches et des situations pratiques de la vie quotidienne, lintelligence value par les tests peut sembler insuffisante pour rendre compte de lensemble de ses fonctionnements adaptatifs. Linterrogation nest pas rcente et de nombreux auteurs ont opt pour une vision largie de lintelligence. Dj, en 1920, Edward L. Thorndike (1874-1949) identifiait 3 facettes lintelligence. Il la dfinissait comme lhabilet comprendre et grer 1/ les ides (intelligence abstraite), 2/ les objets (intelligence concrte ou mcanique) et 3/ les personnes (intelligence sociale). Cette dernire facette est ainsi dfinie par Thorndike comme la capacit comprendre et grer les autres personnes et agir sagement dans les relations humaines (1920, p. 228). Lintelligence classiquement value par les tests dintelligence ne correspond donc principalement qu la premire de ces facettes. Par ailleurs, Weschler sest galement un temps intress ce quil appelait les facteurs non-intellectifs de lintelligence (1943, p. 108). Il dsignait par l en particulier lintelligence sociale. Il conclura cependant quelques annes plus tard que lintelligence sociale nest rien dautre que de lintelligence gnrale applique aux situations sociales (1958, p. 75). Cette question a cependant repris de la vigueur dans la priode rcente. Elle correspond la tendance de plus en plus affirme ne pas considrer lintelligence uniquement sous langle de la pense logicomathmatique mais daccorder une place plus importante aux diffrentes facettes des activits mentales qui contribuent ladaptation de lindividu et son efficacit dans les diffrentes sphres de ses activits. Cette tendance sexprime notamment dans le modle de lintelligence de Sternberg, en particulier par la prise en compte de formes dintelligence dites pratiques ou non acadmiques (Sternberg, 1985, Sternberg et al., 2000), ainsi que dans le modle des intelligences multiples de Gardner (1996, 1999) ou encore dans les travaux mens sur lintelligence motionnelle (Salovey & Mayer, 1990) et sur lintelligence sociale (voir Loarer, 2005 sur ces deux aspects). Ces modles et ces travaux prsentent notre avis lintrt dlargir la notion dintelligence pour chercher mieux prendre en compte ltendue de la palette des ressources adaptative des individus et mieux saisir ce qui sous-tend lorganisation des conduites dans les situations de la vie quotidienne. Lintelligence cognitive, celle qui prend appui sur le traitement logique de linformation, joue lvidence un rle essentiel pour
33
permettre aux individus de dvelopper des conduites intelligentes , mais dautres registres, notamment motionnel et sensori-moteurs, y contribuent lvidence galement et gagnent tre mieux tudis, en particulier dans leurs interactions avec la cognition. Ils gagneraient galement tre mieux valus, mais actuellement, notamment en France, les tests dans ces domaines restent malheureusement encore peu nombreux. Dans le cadre de cet ouvrage, nous avons fait le choix de nous centrer uniquement sur lintelligence cognitive et son valuation.
34
Points de repres cls dans lapproche psychomtrique de lintelligence 1879 1884 1890 1904 1905 1912 1916 1917 1935 1938 1939 1947 1952 1966 1984 1985 1983 1993 Wundt cre Leipzig le premier Laboratoire de Psychologie Exprimentale. Galton applique grande chelle des tests standardiss anthropomtriques et sensoriels et ralise des talonnages. Cattel propose le terme de mental tests pour des preuves valuant encore principalement les fonctions lmentaires. Spearman introduit lanalyse factorielle et la notion de facteur g (facteur gnral dintelligence). Binet et Simon crent la premire chelle de mesure de lintelligence valuant les fonctions suprieures et proposent la notion dge mental. Stern propose la notion de Quotient Intellectuel (QI). Terman adapte lchelle de Binet et Simon aux tats-Unis. Otis cre les premiers tests collectifs : lArmy alpha et lArmy beta. Thurstone publie The vectors of the mind qui dcrit un modle multifactoriel de lintelligence. Raven publie la premire version des Matrices Progressives inspire des travaux de Spearman. Weschler cre le Weschler-Bellevue et propose une autre faon de calculer le QI. Bennet et coll. publient le Differential Aptitude Test (DAT), batterie multifactorielle inspire des travaux de Thurstone. Burt et Vernon proposent un modle hirarchique en 3 niveaux conciliant les positions de Sperman et de Thurstone. Cattel et Horn proposent un second modle hirarchique dans lequel ils distinguent lintelligence fluide (Gf) et lintelligence cristallise (Gc). Gustaffson utilise lanalyse factorielle confirmatoire pour concilier les modles de Cattel-Horn et de Burt-Vernon. Naglieri publie aux tats-Unis le NNAT. Kaufman et Kaufman, publient le K-ABC, version amricaine (version franaise en 1993). Caroll propose un modle synthtique hirarchique de lintelligence fond sur une vaste mtaanalyse.
Ces quelques repres nont pas la prtention dtre exhaustifs mais correspondent aux principaux auteurs et preuves cits dans cet ouvrage qui ont marqus lhistoire de lvaluation de lintelligence.
CHAPITRE 2
Dfinition et proprits des tests
Sommaire
L L L L L L L L L L
1. Dfinitions pralables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. La notion de fidlit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. La notion de sensibilit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. La notion de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Lanalyse des items . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. La notion de biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. La notion dtalonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8. Comment valuer un test ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Les volutions des modles psychomtriques . . . . . . . . . . . . . . . . . . . 10. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 37 Page 47 Page 54 Page 56 Page 63 Page 66 Page 70 Page 83 Page 87 Page 99
37
et thoriques de la notion dintelligence et de sa mesure. Nous allons maintenant aborder les aspects mthodologiques relatifs cette mesure. En effet, ds le dbut du XXe sicle apparaissent les premiers tests dintelligence qui permettent dvaluer, de mesurer et de rendre compte des diffrences interindividuelles dans ce domaine. Il va sagir alors dlaborer des dispositifs dobservation qui prsentent un bon niveau de fiabilit. Les tests, et spcifiquement ici les tests dintelligence, ne relvent donc pas dune approche magique comme nous le signalent Huteau et Lautrey mais peuvent tre considrs comme des techniques dobservation :
Les tests ne rvlent pas des proprits mystrieuses et caches des individus. Ils permettent simplement de dcrire des comportements sous langle de leur efficience. Ils ne sont rien dautre que des techniques dobservation. (Huteau et Lautrey, 1997, p. 3.)
ANS le chapitre 1 nous venons de prsenter les lments historiques
Les tests sont donc des outils de mesure qui doivent prsenter, comme tout instrument de mesure, certaines qualits mtrologiques (appeles ici psychomtriques), que nous allons dtailler dans ce chapitre1 . Lobjectif principal ici est dexposer les principaux lments mthodologiques relatifs aux tests dintelligence. Le lecteur intress par lapprofondissement du sujet pourra se rfrer des ouvrages plus complets comme par exemple celui de Dickes et al. (1994) ou de Laveault et Grgoire (2002).
1.
Dfinitions pralables
Quest-ce quun test ?
Il convient, pour commencer, de dfinir prcisment ce quon entend par test psychologique. Parmi les nombreuses dfinitions proposes, prenons par exemple celle de Pichot :
On appelle test mental une situation exprimentale standardise servant de stimulus un comportement. Celui-ci est compar statistiquement celui dautres individus placs dans la mme situation, de manire classer
1. Nous remercions Pierre Vrignaud pour sa lecture critique dune premire version de ce chapitre.
38
le sujet examin par rapport ceux constituant le groupe de rfrence. (Pichot, 1997, p. 5.)
Pour Pichot, un test correspond donc un certain type de situation (une situation exprimentale standardise ), situation qui vise produire chez le sujet un certain comportement. Cest ce comportement qui va tre mesur. Mais la mesure en elle-mme na gure de sens, car cest par la comparaison statistique de ce comportement celui dautres individus placs dans la mme situation que cette mesure va acqurir une signification. Cette notion de situation standardise apparat galement dans la dfinition propose par Huteau et Lautrey en 1997. Pour ces auteurs :
Un test est un dispositif dobservation des individus qui prsente quatre proprits : il est standardis ; il permet de situer la conduite de chaque sujet dans un groupe de rfrence ; le degr de prcision des mesures quil permet est valu (fidlit) ; la signification thorique ou pratique de ces mesures est prcise (validit). (Huteau & Lautrey, 1997, p. 19.)
Cette dfinition indique clairement les principales caractristiques des tests avec les notions de standardisation, de groupe de rfrence, de fidlit et de validit. Nous allons dvelopper et illustrer ces diffrentes notions mais nous pouvons dj donner quelques indications sur ce quelles recouvrent : La standardisation est la dfinition prcise des conditions de passation (matriel, consignes, temps...) et des conditions de cotation (modalits de correspondance entre une conduite et un score, calcul des scores...) ; Le groupe de rfrence est un groupe de sujets qui prsentent les mmes caractristiques que le sujet examin (au niveau de lge et/ou du sexe et/ou du niveau dtude...) et qui a t confront au mme test. Lensemble des scores obtenus par ce groupe de sujets va permettre de situer les performances dun sujet examin dans ce groupe de rfrence (principe de ltalonnage) ; La fidlit correspond lune des qualits psychomtriques attendues dun instrument de mesure : la stabilit de la mesure. Nous verrons que lon peut distinguer plusieurs types de fidlit ; La validit correspond ce qui est mesur par le test. Par exemple pour les tests dont il sera question dans cet ouvrage il faut sassurer quils valuent
39
tous lintelligence. Nous verrons galement quil existe plusieurs types de validit. Ces deux dfinitions de la notion de test indiquent bien, dune part, quun test nest pas un instrument magique et mystrieux (il sagit dun dispositif prcis, explicite, visant mesurer un comportement) et, dautre part, quun test doit prsenter certaines qualits (ce qui permet de distinguer les tests dautres situations dvaluation, comme par exemple les questionnaires de magazines, qui ne prsentent pas ces caractristiques...).
Comment se prsente un test ?
Un test est constitu dun ensemble de petites situations dvaluation. Ces situations sont le plus souvent des questions auxquelles le sujet doit rpondre, ou des petits problmes auxquels il est confront. Ces problmes peuvent galement prendre la forme de tches accomplir, comme par exemple dans le test des cubes de Kohs o le sujet doit reproduire une figure dessine laide de cubes colors. Chaque question ou chaque problme est appel item. Un test comporte ainsi plusieurs items, entre une vingtaine et une soixantaine selon les tests. Le psychologue dispose gnralement de plusieurs documents pour un mme test : le test proprement dit, qui peut prendre par exemple la forme dun cahier de passation o figurent les items, une feuille de rponse (ou protocole) ; Le manuel du test, qui comporte un ensemble dinformations relatives la passation et la cotation, mais galement des informations sur llaboration et la validation de lpreuve. Ce manuel peut ventuellement comporter des annexes dites postrieurement au manuel, et destines le complter.
Comment passer dun comportement un score ?
Pour chaque item, la performance du sujet est value en fonction de la qualit de sa rponse (bonne ou mauvaise) ou de la qualit de la tche ralise. On accorde ainsi, le plus souvent, un point par bonne rponse. Le temps de rsolution peut galement tre pris en compte (soit par item, soit sur
40
lensemble de lpreuve). Au final, on fait la somme de lensemble des points obtenus par le sujet dans ce test pour obtenir un score, appel score brut. Ce score brut na pas de valeur en soi. Par exemple, si le test comporte 60 items et que le sujet obtient 43 points (donc 43 bonnes rponses), comment interprter ce score brut de 43 ? Est-ce une bonne performance ? Sans informations sur le niveau de difficult du test, et/ou sur le degr de russite dautres sujets confronts la mme preuve, il nest pas possible dinterprter ce score de 43 points. Pour cela, il faut utiliser un talonnage qui va nous permettre de situer la performance du sujet par rapport aux rsultats dun groupe de sujets comparables au sujet examin. Cest par cette comparaison que lon pourra interprter le niveau de performance du sujet. En reprenant notre exemple de 43 points, ltalonnage va nous indiquer si ce score de 43 se situe en dessous ou au-dessus de la moyenne du groupe, ce qui est un lment de rponse. Les talonnages tant en gnral dtaills, ils permettent de situer plus prcisment le niveau de performance du sujet quen le rfrent simplement la moyenne. Par exemple, si ltalonnage utilis nous indique que seulement 10 % des sujets obtiennent un score gal ou suprieur 43 points, ce score brut de 43 refltera alors un trs bon niveau de performance. Ltalonnage permet donc de transformer une note brute en note talonne et ainsi de positionner prcisment la performance du sujet au regard de celle dun groupe de rfrence. Cela permet linterprtation du rsultat obtenu au test. Nous verrons plus loin (en 2.10) quil existe diffrents types dtalonnages. Les scores talonns permettent galement de comparer les performances dun mme sujet face des preuves diffrentes lorsque la comparaison directe sur les scores bruts nest pas possible : par exemple, un sujet confront deux tests qui comportent le mme nombre ditems mais qui ne sont pas du mme niveau de difficult ou confront des tests qui ne comportent pas le mme nombre ditems.
Les diffrents types de tests
Il existe de nombreux tests et lon peut les classer selon diffrents critres : en fonction du domaine valu, du mode de passation, du format ou du type de rponse. Nous allons voquer ces classifications en les illustrant par quelques exemples de tests dintelligence.
41
Classification des tests en fonction du domaine valu On peut distinguer les preuves en fonction du domaine ou des dimensions qui sont values : tests dintelligence, tests de personnalit (intrts, motivation, traits de personnalit), preuves de crativit, tests de connaissances (connaissances scolaires et/ou connaissances relatives un domaine prcis comme par exemple la mcanique ou linformatique...), tests psychomoteurs (tests defficience motrice, de latralit...). Au sein de chaque domaine, une catgorisation plus fine peut tre effectue. Ainsi, dans le domaine des tests dintelligence, il est possible de distinguer les chelles dintelligence, les tests de facteur g, les batteries factorielles, les tests verbaux... en lien direct avec les conceptions thoriques sous jacentes (voir chapitre 1).
Classification des tests en fonction du format Le format du test correspond au type de support utilis ou au type de matriel de passation :
Lorsque le sujet dispose dun feuillet ou dun livret de passation et doit
indiquer sa rponse par crit, on parle de test papier/crayon ; Si le sujet doit effectuer une tche (comme par exemple reproduire une figure laide de cubes colors ou remettre en ordre des images) on parle alors de test de performance ; Enfin, lorsquun ordinateur est utilis pour la passation, pour les questions et/ou pour les rponses, ou pour proposer des tches effectuer, il sagit de test informatis.
Classification des tests en fonction du mode de passation : individuel ou collectif Certains tests sont conus pour tre administrs en situation individuelle, comme par exemple les cubes de Kohs, les chelles de Wechsler... Dans ce cas, un seul sujet est face au psychologue. Tous les tests de performance, tests dans lesquels le sujet doit effectuer une tche, sont des tests individuels car le psychologue ne peut observer quun seul sujet la fois. Dautres preuves sont conues pour une passation collective, ce sont gnralement des tests papier/crayon , comme par exemple les matrices de Raven. Dans ce cas, chaque sujet dispose dun cahier de passation et dune
42
feuille de rponse. Par cette procdure, plusieurs sujets peuvent tre tests en mme temps par un seul psychologue. Bien entendu, un test collectif peut toujours tre utilis en passation individuelle, linverse ne lest pas forcment. Le test individuel permet de recueillir davantage dinformations telles que le comportement du sujet au cours du test, et plus particulirement ses ractions face une difficult, le non verbal, le reprage des erreurs... Le test collectif permet quant lui un gain de temps aussi bien pour la passation que pour la cotation.
Classification des tests en fonction du type de rponse Dans certains tests, et plus frquemment dans les tests dintelligence, il nexiste quune seule bonne rponse chaque item1 . Mais cette catgorisation de type 0/1 (1 point en cas de bonne rponse, 0 point pour toute autre rponse) peut tre affine comme par exemple dans certains subtests des chelles de Wechsler dans lesquels, en fonction de la qualit de la rponse (spcificit ou gnralit des propos...), une bonne rponse compte pour 1 point ou pour 2 points ; ou encore dans dautres tests qui envisagent de retirer des points pour les mauvaises rponses (et tentent dviter ainsi les rponses au hasard). On distingue les questions ouvertes des questions fermes :
Par question ouverte il faut entendre rponse construire, comme par
exemple dans le test D2000 o le sujet doit crer sa rponse (voir la prsentation de ce test dans le chapitre 4) ; Par question ferme il faut entendre Q.C.M (Question Choix Multiples) dans lesquels le sujet doit choisir sa rponse parmi plusieurs possibilits, comme par exemple dans les matrices de Raven (voir la prsentation de ce test dans le chapitre 4). Les questions ouvertes prsentent lavantage de recueillir un maximum dinformations, les questions fermes prsentent lavantage dune rapidit, et dune fidlit, de la cotation. Mais il semble que les avantages et inconvnients relatifs de ces deux possibilits de rponse sont en ralit un peu plus complexes (voir Vrignaud, 2003).
1. Dans dautres tests, la notion mme de bonne rponse na pas de sens : tests de personnalit, questionnaire dintrts...
43
La notion de psychomtrie
Le terme psychomtrie voque sans doute chez beaucoup de psychologues les tests, et uniquement les tests. On peut cependant considrer que cette notion concerne plus largement lensemble des thories et des mthodes de la mesure en psychologie (Dickes et al., 1994, p. 11). La psychomtrie dpasse ainsi lanalyse des tests et concerne plus largement toute approche psychologique visant attribuer des nombres des objets dtude. Dailleurs ces mmes auteurs affirment, de faon sans doute un peu provocatrice, quil est possible de traiter de la psychomtrie sans rfrence aux tests !
La psychomtrie peut se concevoir sans aucune rfrence aux tests. Ltude des tests et de leur construction fait certes partie de la psychomtrie, mais elle nen est quune partie limite : les tests ne sont quune classe dinstruments de mesure parmi dautres. (Dickes et al., 1994, p. 11).
Dans ce cadre, comme nous lillustrerons plus loin, diffrents modles de mesure peuvent tre utiliss. Nous retiendrons ici que la psychomtrie reprsente les thories et les mthodes qui permettent dlaborer les instruments de mesure psychologique que sont les tests et den interprter les rsultats. Nous ne prsenterons dans cet ouvrage que certains aspects de la psychomtrie, ceux qui nous semblent tre en lien direct avec notre propos. Les lecteurs intresss par une prsentation plus complte des diffrents aspects de la psychomtrie peuvent consulter louvrage de Dickes et al. (1994) ou celui de Laveault et Grgoire (2002). Les thories et les mthodes psychomtriques permettent dlaborer des tests dans lobjectif de garantir une objectivit de la mesure. Il sagit alors, aussi bien dans les phases dlaboration et de validation des preuves que lors de lutilisation de ces tests, de sassurer de la fiabilit de la mesure. La psychomtrie ncessite lusage, et la comprhension, de quelques connaissances en statistiques et, en particulier, la notion de corrlation. En effet, les coefficients de corrlation sont trs souvent utiliss comme indicateurs de la fiabilit dun test. Pour revoir ces notions statistiques le lecteur peut consulter des ouvrages de base (voir par exemple Guguen, 2005 ; Corroyer et Wolff, 2003 ; Beaufils, 1996a et b).
44
Rappel sur la corrlation La corrlation est un indicateur statistique qui permet de juger du degr de liaison existant entre deux sries dobservation. Lindicateur le plus connu est le coefficient r de Bravais-Pearson (appel par la suite r de B-P) qui estime le sens et lintensit du niveau de liaison linaire existant entre deux variables quantitatives, comme par exemple la liaison entre les scores dun mme groupe de sujet confront deux tests. Cet indicateur r peut, par construction, prendre les valeurs comprises entre 1 et +1. Rappelons quil sagit ici, avec cet indicateur r de B-P, danalyser une liaison linaire et quil peut exister dautres formes de liaison entre deux variables, comme par exemple une liaison quadratique... Le sens de la liaison est indiqu par le signe du r de B-P : un r positif signifie que les deux variables varient dans le mme sens, un r de B-P ngatif signifie que les deux variables varient en sens inverse. Par exemple, si on calcule un r de B-P entre deux tests dintelligence on sattend obtenir une valeur positive : les sujets ayant un score lev dans un des tests devraient avoir un score lev dans lautre test, et inversement pour les scores faibles. Les deux variables varient bien dans le mme sens car il sagit de la mme dimension : ces deux tests valuant le mme domaine. Lintensit (la force) de la liaison est estime par la valeur du r de B-P : plus le r de B-P est proche de 1, plus la liaison est forte ; plus il est proche de 0, plus la liaison est faible. Un r de B-P gal 1 exprime donc une liaison parfaite (dans la ralit un r de 1 est quasiment impossible observer), un r de B-P gal (ou proche) de 0 exprime une absence de liaison entre les deux variables. Par exemple, si on calcule un r de B-P entre deux tests dintelligence, on doit observer une valeur plus proche de 1 que de 0 car les deux tests valuent la mme dimension : les sujets ayant un score lev dans lun des tests doivent galement avoir un score lev dans lautre test. Le sens et la force de la liaison peuvent aussi sinterprter partir dun diagramme de corrlation : plus le diagramme des points est proche dune ellipse troite, plus la liaison est forte ; plus le diagramme des points est proche dun cercle, plus la liaison est faible. Comme nous le verrons par la suite, la corrlation, et principalement le r de B-P, est souvent utilise pour qualifier les qualits psychomtriques des preuves (validit, fidlit...). Des valeurs sont alors indiques dans les
45
notices des tests mais le problme important est celui de linterprtation : comment interprter ces valeurs ? Linterprtation du r de B-P va tout dabord dpendre de la situation. Par exemple, sil sagit de qualifier la relation entre deux passations dune mme preuve sur les mmes sujets (situation de la fidlit test-retest) on sattend une valeur de r trs proche de 1 et au minimum de .801 . Par contre, lorsque lon souhaite analyser la relation entre une preuve et un critre, comme par exemple la russite scolaire (situation danalyse de la validit prdictive) on sattend alors des valeurs de r plus faibles, autour de .50, car on sait que dautres variables que lefficience intellectuelle ont des effets sur la russite scolaire et que cette multiplicit de facteurs a comme effet de rduire le pouvoir explicatif dune seule variable. La valeur dun coefficient de corrlation est donc toujours interprter en fonction de la situation. En labsence de normes clairement dfinies nous indiquerons, chaque fois que cest possible, des valeurs repres qui permettront aux psychologues de juger des valeurs quil peut trouver dans les notices des tests (les manuels) ou dans des articles.
La standardisation
Les dfinitions du test que nous avons prsentes dans notre introduction insistent sur la standardisation de la situation dvaluation. On peut en effet dire que la standardisation conditionne la possibilit de comparaison des rsultats. Dans une situation standardise tout est soigneusement dfini : de la prsentation du test aux modalits de calcul des scores.
Pour les modalits de passation : le matriel, les consignes, les temps
de prsentation et de rsolution, les items exemples, lattitude du psychologue, les ventuelles aides ou relance en cas dchec, les ventuelles rgles dautocorrection de ses erreurs2 , les conditions darrt de passation... Pour les modalits de cotation : les conditions dattribution des points, les conduites tenir face aux mauvaises rponses (parfois elles peuvent venir en dduction des scores), les modalits de calcul du ou des scores...
1. Lusage veut que pour les indices statistiques infrieurs 1 (en valeur absolue) on utilise une notation de type .80 au lieu de 0,80. Nous adopterons donc cette notation car cest celle que le lecteur trouvera par exemple dans les manuels de tests. 2. Comme par exemple la possibilit ou non de revenir en arrire afin de corriger une rponse...
46
Tous ces lments, aussi bien pour la passation que pour la cotation, sont gnralement clairement dfinis, voire illustrs par des exemples, dans le manuel du test. Ces informations permettent de placer tous les sujets exactement dans la mme situation, et plus particulirement, de les placer dans la mme situation que les sujets de lchantillon dtalonnage. Si ces conditions sont quivalentes, la standardisation est assure : on peut alors se reporter avec confiance ltalonnage pour situer le niveau de performance du sujet. Cest cette standardisation qui permet la comparabilit des rsultats. Sinon, si lun des lments de standardisation est dfectueux, la situation dvaluation est diffrente de celle qui est prvue (par exemple, si on fournit des aides au sujet pendant la passation, si on lui laisse plus de temps...) et on ne peut plus utiliser ltalonnage. Lun des objectifs de la standardisation est dviter un certain nombre de biais potentiels, et plus particulirement les biais de cotation relatifs lobservateur. Par exemple, la standardisation permet de garantir une fidlit inter juge de la cotation : deux psychologues confronts au mme protocole doivent aboutir au mme rsultat (cest--dire au mme score). Dans les preuves de type QCM cette fidlit devrait tre parfaite. Dans les preuves comportant des questions ouvertes, si le psychologue suit correctement les consignes de cotation, cette fidlit doit galement tre trs bonne. Par exemple, dans le manuel du WISC-III, cette fidlit a t vrifie par la cotation de 60 protocoles par deux psychologues. Les coefficients de fidlit inter cotateurs observs sont trs levs avec des valeurs autour de .99 pour les preuves verbales (manuel WISC-III, p. 185). Cest cette standardisation qui distingue les valuations psychologiques dautres valuations, comme par exemple les valuations scolaires dont on sait, depuis Piron, quelles prsentent un certain nombre de biais (Piron, 1963). Dailleurs, pour des valuations scolaires il existe des tests normaliss de connaissances, de type Q.C.M, qui reposent sur les mmes mthodologies psychomtriques que les tests psychologiques (voir par exemple les tests T.A.S1 diffuss par les ECPA) et qui garantissent ainsi un niveau de fiabilit plus lev que les valuations scolaires classiques (pour la comparaison entre lvaluation scolaire et lvaluation psychologique voir Huteau, 1996). Le psychologue doit donc bien comprendre lutilit du respect des consignes qui sont nonces dans le manuel du test, aussi bien comme nous venons de le voir pour la passation que pour la cotation. Mme si
1. Test dAcquisition Scolaire.
47
ces consignes peuvent parfois sembler rigides, le praticien doit se garder de prendre quelques liberts avec celles-ci. Le respect de la standardisation intervient, comme nous allons le voir, dans la fidlit dun test.
2.
La notion de fidlit
Le principe de fidlit
La fidlit de la mesure (on parle aussi de fiabilit) concerne la constance des rsultats obtenus :
On considre quun instrument de mesure est fidle si le rsultat quil produit est reproductible. (Dickes et al., 1994, p. 165).
Cette notion est importante car elle conditionne la fiabilit du test : un test qui nest pas fidle ne peut tre ni fiable, ni valide. Une mesure est fidle si, confronts plusieurs fois cette mesure, les sujets obtiennent des rsultats comparables (en liminant les possibles effets dapprentissage entre les passations). La fidlit est une qualit de tout instrument de mesure : par exemple, une balance doit indiquer un mme poids quelques minutes dintervalle, une toise doit indiquer une mme taille, un mtre ruban doit indiquer une mme longueur. Il en est de mme pour les tests. En restant dans le domaine de la psychomtrie, lexemple le plus simple est la notion de fidlit dans le temps. Si un mme groupe de sujets passe le mme test quelques semaines dintervalle on doit observer les mmes rsultats ou, au moins, des rsultats comparables. Il sagit ici de la fidlit, ou stabilit, temporelle par la mthode dite test/retest . On peut valuer cette fidlit par le calcul dun r de B-P entre les deux passations. Nous verrons quil existe plusieurs types de fidlit. La fidlit de la mesure contribue la fiabilit de la mesure. Mais cette fidlit nest jamais parfaite. La mesure rpte plusieurs reprises dun mme objet aboutit gnralement de petites diffrences. Par exemple, si vous mesurez plusieurs fois les dimensions dune pice avec un mtre ruban, lhypothse la plus probable nest pas de retrouver exactement les mmes dimensions mais dobserver de lgres variations entre les diffrentes mesures. Plus un instrument de mesure sera prcis (par
48
exemple sil prsente de nombreuses graduations) plus ces variations seront faibles. Ce qui explique ces phnomnes de variation est lerreur de mesure. Il convient ici de prciser que nous nous situons dans la thorie classique des tests et du modle du score vrai . Cest dans ce cadre thorique que se situent la plupart des tests proposs actuellement en France. Modle du score vrai La thorie classique des tests diffrencie le score vrai et le score observ . Ce que lon mesure par un test est un score observ. Ce score observ nest quune estimation du score vrai du sujet. Le score vrai est inconnu. La variation entre score vrai et score observ correspond lerreur de mesure (voir formule F1) score observ = score vrai + erreur de mesure (F1) Lerreur de mesure est alatoire. Elle se distribue donc selon une courbe de Gauss (loi normale). De mme, le score observ se distribue normalement autour du score vrai. Autrement dit, sil tait possible de faire passer un mme test un mme sujet un trs grand nombre de fois, et quil ny ait aucun effet dapprentissage, la meilleure estimation du score vrai du sujet serait alors la moyenne des diffrents scores observs. Les sources principales de lerreur de mesure sont les suivantes :
Effets propres lindividu : tat de sant, implication dans le test,
rponses au hasard... ; Effets propres au psychologue : non respect des conditions de standardisation, initiatives malheureuses, erreurs de calcul de scores... On retrouve ci limportance du respect des conditions de standardisation qui a t souligne dans la partie prcdente ; Effets ventuels du contexte ou de la situation de passation (caractristiques de la pice, bruits ventuels du voisinage...) qui peuvent tre plus ou moins propices la concentration du sujet... On notera que lerreur de mesure peut jouer dans les deux sens. Par exemple, si le sujet est un peu fivreux le jour de passation ou proccup par un vnement personnel, il est probable alors que son score observ sera infrieur son score vrai ; par contre, un sujet qui donne plusieurs rponses au hasard dans un test Q.C.M peut, avec un peu de chance, gagner quelques points et obtenir au final un score observ plus lev que son score vrai .
49
Ainsi le psychologue doit toujours garder lesprit que ce quil mesure, nest pas le score vrai du sujet mais nest quune des estimations de celui-ci. Autrement dit il faut toujours considrer que le sujet pourrait avoir un score vrai plus faible ou plus lev que le score effectivement observ. Il est possible destimer cette marge de variation par le calcul dun intervalle de confiance. Il est en effet possible destimer lerreur de mesure dun test partir de son coefficient de fidlit et de calculer alors les limites dun intervalle dans lequel se trouvera le score vrai. Cette erreur de mesure doit tre fournie par les concepteurs du test et figure le plus souvent dans les manuels sous le terme S.E.M (Standard Error of Measurement) ou E.M . En fonction du seuil de confiance choisie, le psychologue peut ainsi calculer diffrents intervalles de confiance grce aux formules suivantes F2 et F3. Au seuil de .10 (qui correspond 10 chances sur 100 de se tromper, cest--dire que sur 100 mesures effectues sur le mme sujet, 90 se situeront dans cet intervalle) : score vrai = score observ +/ 1,65 x EM (F2) Au seuil de .05 (qui correspond 5 chances sur 100 de se tromper : sur 100 mesures, 95 se situeront dans cet intervalle) : score vrai = score observ +/ 1,96 x EM (F3)
Par exemple, pour lchelle de Wechsler pour enfants (WISC-III), le manuel franais indique lerreur standard de mesure pour chaque subtest et pour les indicateurs de QI. Par exemple, sur lensemble des groupes dges, cette erreur de mesure est de 3,54 points pour le QI Total, de 3,85 points pour le QI Verbal et de 5,02 points pour le QI Performance. partir de ces estimations de lerreur de mesure il est possible de calculer, pour chaque QI observ un intervalle de confiance. Par exemple, pour un QI Total observ de 105, il y a donc 95 chances sur 100 (seuil de .05) pour que le score vrai du sujet se situe entre [105 (1,96 x 3,54)] et [105 + (1,96 x 3,54)], cest--dire entre 98 et 112.
50
Si lon pense que le seuil est trop exigeant et que lon choisisse alors un seuil de .10, on va alors rduire cet intervalle. Le score vrai se situant alors entre 991 et 1112 . Au seuil .10 nous observons bien que lintervalle est un peu plus rduit, ce qui sexplique par le fait que lon prend alors un risque plus important quau seuil de .05. Cet exemple nous indique quil est ncessaire de moduler le niveau de prcision de la mesure effectue, cest--dire le score observ, et quil est prfrable, et plus valide, de caractriser le niveau de performance du sujet par un intervalle de confiance que par un score prcis. De plus, un score unique prsente linconvnient de crer artificiellement des diffrences entre des sujets. Ainsi, Huteau et Lautrey indiquent que :
On voit combien sont contestables les pratiques qui prconisent des traitements diffrents pour des individus que ne sparent que quelques points de Q.I. (Huteau et Lautrey, 1999a, p. 105).
En effet, comment tre sr quun QI observ de 81 sur un sujet A reflte rellement des capacits intellectuelles suprieures celles observes sur un sujet B qui obtiendrait un QI de 79 ? Mme sil est possible, et souhaitable, de calculer un intervalle de confiance pour tout score observ, trs peu de tests facilitent et/ou encouragent ce calcul. notre connaissance ce calcul nest propos explicitement que dans les chelles de Wechsler qui incitent fortement le psychologue calculer cet intervalle et le faire figurer en premire page du protocole du sujet. Dans les autres tests lerreur type de mesure est indique dans le manuel mais ensuite, le plus souvent, les auteurs ny font plus jamais rfrence ! Pourtant, quand il sagit de situer le sujet dans un talonnage, il nous semble essentiel de prendre en compte cette marge derreur.
Peut-on amliorer la fidlit dun test ?
On peut retenir le principe gnral suivant : plus une preuve comporte ditems, plus elle sera reprsentative de la dimension valuer, donc plus sa fidlit augmente. En effet, la consistance de la mesure samliore avec le nombre ditems. Mais les concepteurs de tests sont limits ici par des
1. [105 (1,65 x 3,54)] 2. [105 + (1,65 x 3,54)]
51
considrations pratiques relatives au temps de passation : plus une preuve comporte ditems et plus la dure de passation est leve, et lon sait quune preuve trop longue a peu de chances dtre utilise par les praticiens. Il convient alors, dans la phase dlaboration dun test de considrer la fois les contraintes de fidlit et les contraintes pratiques de dure de passation. On notera ce sujet, et cest un paradoxe, que de nombreux diteurs de tests, notamment sur le march des tests en ligne, trouvent un argument commercial dans la brivet (parfois extrme) des passations de leurs preuves. Cet argument doit pourtant alerter lutilisateur du risque daffaiblissement de la validit que cela entrane.
Les diffrentes formes de fidlit
On distingue principalement trois formes de fidlit : la fidlit dans le temps, la fidlit interne et la fidlit de la cotation. 1. La fidlit dans le temps (ou stabilit temporelle) Un test doit donner des rsultats quivalents quel que soit le moment de passation, condition bien entendu de prendre en compte les ventuels effets dapprentissage entre les passations. Cette fidlit peut se mesurer par deux applications successives du mme test aux mmes sujets : mthode dite du test/retest. Un test sera fidle sil indique les mmes rsultats pour chaque sujet, au plutt le mme classement des sujets, dans les diffrentes mesures effectues avec ce mme test. Lindicateur de cette fidlit est ici le coefficient r de B-P, appel galement dans cette situation coefficient de stabilit ou de constance. Pour valuer la fidlit dun test par la mthode test/retest il est fortement conseill de ne pas dpasser un intervalle de six mois entre les passations, car dans le cas dun intervalle trop long des variables parasites peuvent intervenir et biaiser le calcul des indicateurs. Gnralement les tests dintelligence prsentent une bonne fidlit temporelle avec des coefficients de stabilit autour de .90 (Huteau et Lautrey, 1999a, p. 101). 2. La fidlit interne (ou homognit interne) Il sagit ici de vrifier que tous les items dune mme preuve mesurent bien la mme dimension. Par exemple, si un test souhaite valuer le raisonnement dductif, tous les items de ce test doivent faire appel ce type de raisonnement. Mais les items sont diffrents les uns des autres (par leur contenu, par le problme rsoudre...) et il faut alors vrifier que, malgr ces diffrences, tous ces items valuent bien la mme
52
dimension, la mme variable psychologique. Si ce nest pas le cas, certains items mesurent, au moins en partie, autre chose que ce que mesurent les autres items et lhomognit de lpreuve nest alors plus garantie. Pour vrifier cette fidlit interne (ou homognit interne) on distingue principalement deux mthodes1 : La premire mthode, diviser lpreuve en deux parties ou mthode split-half (partage par moiti). Par exemple, en runissant les items pairs dun ct et les items impairs de lautre, on aboutit deux formes parallles de lpreuve, mais rduite chacune 50 % des items de lpreuve originale. Lindicateur de ce type de fidlit est encore un coefficient de corrlation, un r de B-P, appel ici coefficient dhomognit. Attention ici dans linterprtation de la valeur du r car comme chaque partie ne comporte que la moiti des items de lpreuve complte et que, comme nous lavons dj signal, la fidlit dpend (en partie) du nombre ditems, la valeur du coefficient dhomognit peut en tre affecte. De plus, cette mthode prsente linconvnient de ne prendre en compte quun seul type de rpartition des items (items pairs/impairs dans notre exemple) alors que de nombreuses autres partitions des items sont possibles. Cest pour cette raison quil est prfrable dutiliser la seconde mthode ; La seconde mthode prsente lavantage de prendre en compte lensemble des rpartitions possibles des items de lpreuve en deux parties gales. En fonction du type ditem il est possible dutiliser le coefficient dit KR20 de Kuder-Richardson (pour des items dichotomiques) ou le coefficient alpha de Cronbach. On considre gnralement que lhomognit interne est satisfaisante si lindicateur est ici au moins gal .80 et on peut considrer lhomognit comme acceptable si la valeur de lindicateur est suprieure .70 (daprs Vrignaud, 2002b ; voir galement Rolland, 2001). En dessous de cette valeur on peut considrer lhomognit comme trop faible. Mais attention, il faut encore moduler ces critres en fonction du nombre ditems : toutes choses gales par ailleurs, lalpha de Cronbach est lui aussi dpendant du nombre ditems ( homognit quivalente, un test A possdant plus ditems quun test B prsentera une valeur plus leve de cet indicateur alpha).
1. En plus de ces deux mthodes principales il existe dautres possibilits de vrifier lhomognit comme par exemple les techniques danalyses factorielles (voir Dickes et al., 1994).
53
3. La fidlit de la cotation Il sagit ici de la troisime forme de fidlit que doit prsenter un test psychologique. Cette fidlit inter-juges est requise car, pour que la mesure soit fiable, il faut que face un mme protocole ( une mme performance du sujet) des psychologues diffrents aboutissent au mme rsultat, cest--dire au mme score. Cette exigence peut sembler vidente et allant de soi mais cest loin dtre le cas. Nous prendrons deux exemples : Le premier exemple, bien connu des tlspectateurs, est celui de lvaluation des preuves sportives de patinage artistique. Chacun dentre nous a pu, au moins une fois, tre tmoin des carts de notation entre des juges face une mme performance. Rappelons que dans ces comptitions lvaluation de chaque juge est publique et consiste brandir une note la fin de la prestation de chaque sportif. Et le cas le plus rare est bien celui o tous les juges indiquent la mme note ! On observe le plus souvent des carts de notation entre les juges, alors quils ont pourtant t tmoins de la mme performance du candidat. Mme lorsque ces carts sont minimes, ils existent ; Le second exemple fait rfrence un domaine moins connu qui est celui des valuations scolaires. Les expriences de multi-correction (une mme copie, ou un mme lot de copie, corrige par diffrents enseignants) sont rares. Mais quand elles sont ralises, elles aboutissent la mise en vidence de variabilit dans la notation. En effet, tous les travaux de docimologie et cela depuis fort longtemps, montrent, une faiblesse de la fidlit inter-juges dans les valuations scolaires (voir sur ces points Piron, 1963, Noizet et Caverni, 1978, et Chartier, 2005).
Les valuations psychologiques, et plus particulirement les tests dintelligence, ne doivent pas prsenter ce type de biais. Comme nous lavons dj indiqu, du fait mme de leur conception, ils garantissent cette forme de fidlit. En effet, dans le cas de Q.C.M, la cotation est simple. Elle est mme quelque fois automatise (feuille auto-corrective ou cotation informatise), ce qui rduit trs fortement la possibilit de biais. Dans le cas de rponse construire, le psychologue doit trouver dans le manuel du test des indications prcises afin de pouvoir procder la cotation du protocole du sujet avec confiance. Par exemple, le manuel doit indiquer des exemples de bonnes et de mauvaises rponses afin dviter toute ambigut dans la cotation. Un bon exemple ici concerne les chelles de Wechsler. En
54
effet, dans les chelles verbales de ces preuves, certains subtests prennent la forme de rponses construire avec une cotation prcise et assez fine car elle aboutit des scores de 0, 1 ou 2 points. Pour procder cette cotation, le psychologue doit se rfrer au manuel qui propose, dune part, les rgles gnrales de dfinition des trois catgories de rponse, dautre part, pour chaque item les rponses les plus frquentes (observes lors de la phase dexprimentation) avec les cotations correspondantes. Par exemple, pour le subtest vocabulaire du WISC-III, on accorde 0, 1 ou 2 points selon le type de rponse : 0 point : rponse incorrecte, 1 point : rponse correcte mais non gnralisable, 2 points : rponse correcte et gnralisable. Et le manuel indique, pour chaque item, une liste de rponses possibles avec les scores attribuer. Le psychologue dispose ainsi de tous les lments pour procder avec confiance la cotation du protocole. Comme nous lavons dj signal, cette fidlit de la cotation a t value pour la version WISC-III avec le calcul dune corrlation entre les cotations indpendantes de plusieurs protocoles par deux psychologues avec au final un r de BP quasiment parfait (r = .99). Comme cet exemple le prouve, la fidlit de la cotation des tests dintelligence est garantie, mme lorsque lpreuve nest pas de type Q.C.M, condition toutefois que le psychologue suive scrupuleusement les indications de correction fournies dans le manuel et que les rponses soient courtes. Face une preuve prsentant des questions ouvertes, le psychologue doit donc sintresser de trs prs aux consignes de correction et aux tudes prsentes dans le manuel qui doivent vrifier ce type de fidlit.
3.
La notion de sensibilit
Lobjectif principal dun test est bien dobserver des diffrences interindividuelles. Cette capacit de diffrenciation des sujets correspond la notion de sensibilit. La sensibilit reprsente le pouvoir discriminatif de linstrument de mesure. Un test est sensible sil permet bien de distinguer des sujets de niveaux diffrents sur une mme dimension psychologique, comme par exemple lintelligence. Un des postulats de base en psychomtrie, et plus globalement en psychologie, et valable quel que soit le type de test,
55
consiste considrer que les dimensions psychologiques se rpartissent dans la population selon une loi normale (une courbe de Gauss) comme lindique la figure 2.1.
effectifs des sujets
10
20
30
40
50
60
scores lpreuve
Figure 2.1 Exemple dune rpartition de scores conformes une courbe de Gauss (Daprs Guguen, 2005, Statistiques pour psychologues, Dunod, p. 80).
Soit une preuve note sur 60 points, la rpartition thorique des scores des sujets est prsente sur la figure 2.1.Un test doit donc aboutir une telle rpartition des sujets : une faible proportion de sujet doit se trouver sur la gauche de la courbe (cest--dire obtenir des scores faibles au test), symtriquement une proportion identique doit se situer sur la droite (scores levs), avec vers le centre, une majorit de sujets (scores autour de la moyenne), et une dcroissance progressive des effectifs des sujets du centre vers les deux extrmits. Dans la phase dlaboration dune preuve, les items sont donc slectionns pour assurer cette discrimination entre les sujets. Un test dintelligence comportera ainsi des items de niveaux de difficult variables de manire diffrencier efficacement les sujets en fonction de leur russite. Ici va intervenir la notion de difficult de lpreuve. Pour assurer une sensibilit maximale, un test doit prsenter un niveau moyen de difficult par rapport au niveau de la population auquel il est destin. Il faut viter par exemple leffet plafond , qui correspond une preuve trop facile (tous les sujets obtiennent alors de bons scores, il ny a donc pas discrimination), ainsi que leffet inverse, leffet plancher , qui correspond une preuve trop difficile dans laquelle tous les sujets obtiennent des notes basses. Dans ces deux situations la diffrenciation des sujets nest pas ralise de faon satisfaisante et le test na alors que peu dutilit. Cette finesse de la mesure est galement lie au nombre ditems de lpreuve : plus une preuve comportera ditems, plus elle permettra deffectuer une diffrenciation fine entre les sujets.
56
Enfin, cette sensibilit est lie au pouvoir discriminant des items (voir plus loin). Dans les tests dintelligence, on accorde le plus souvent un point par item russi et on additionne ces points pour obtenir le score brut. Les sujets doivent donc se diffrencier sur ce score.
4.
La notion de validit
Principes
Cette notion est fondamentale.

En psychomtrie, la validit a toujours t considre comme le concept le plus fondamental et le plus important. (Angoff, 1988, cit par Laveault et Grgoire, 1997, p. 189.)
Quest-ce que la validit ? Elle correspond ce que mesure le test. Par exemple, une balance mesure bien un poids (ou une masse) et non un volume. De mme un test de raisonnement particulier doit mesurer ce type de raisonnement et seulement ce type de raisonnement. Mais cette validit ne va jamais de soi, elle doit toujours tre dmontre, vrifie. Des lments de validation du test doivent tre prsents par ses concepteurs. Lutilisateur du test doit pouvoir vrifier dans le manuel la prsence et la pertinence de ces lments de validation. Il sagit le plus souvent de rsultats de recherches menes lors de la phase dexprimentation de lpreuve. Mais ces recherches sont souvent en nombre assez rduit lors de la premire dition dun test et il convient alors, afin de complter ces premires preuves de validit, de prendre en compte les informations ultrieures sur le test (tudes, recherches, articles...) publies aprs la publication du manuel du test (et qui ne figurent donc pas dans ce manuel). Un bon exemple est celui des matrices de Raven : depuis llaboration en 1938 de la premire version de ces matrices, des tudes viennent rgulirement sajouter aux lments de validation dj connus (voir sur ce point Raven, 2001, qui prsente une synthse des nombreuses recherches sur ce test). Ainsi, progressivement, les connaissances sur ce que mesure une preuve, et ventuellement aussi sur les aspects quelle ne mesure pas, vont se cumuler et enrichir notre connaissance du test. Cest pour cette raison que certains
57
auteurs prfrent actuellement utiliser la notion de validation, qui exprime ce processus cumulatif :
Dans la conception actuelle, le terme de validit est abandonn au profit de celui de validation. Sous ce changement terminologique qui peut sembler anodin, on trouve en fait un changement radical de conception : la validation devient un processus de recherche continu qui sappuie sur un faisceau convergent darguments et de preuves. (Dickes et al., 1994, p. 49).
Tout psychologue devrait ainsi se tenir inform des rsultats des recherches sur les outils quil utilise afin de mettre jour ses connaissances (voir en Annexes le code de dontologie et les recommandations internationales).
Diffrents types de validit
On distingue habituellement trois grandes formes de validit : la validit de contenu, la validit critrielle et la validit thorique.
La validit relative au contenu du test Dans cette premire forme de validit, il sagit de vrifier dans quelle mesure le test est reprsentatif du domaine valuer. Une dfinition pralable du domaine est ncessaire et doit comporter des informations prcises sur les aspects, ou facettes, censs tre valus par le test. Pour vrifier cette forme de validit une analyse de la liaison entre le domaine, ou les sous-domaines, viss par le test et le contenu du test doit tre mene (format et contenu des items, type de rponse...). Pour garantir un bon niveau de validit de contenu, un test doit comporter un chantillon reprsentatif des tches caractrisant le domaine considr. Cette forme de validit est particulirement pertinente pour les valuations de connaissances. Par exemple, un test de mathmatiques pour des lves de niveau de la classe de 3e de collge aura une bonne validit de contenu si les exercices (items) quil contient correspondent un chantillon reprsentatif du programme de mathmatique de ce niveau scolaire. Elle est en revanche moins pertinente dans le domaine des tests dintelligence car il y est plus difficile de slectionner un tel chantillon reprsentatif de lunivers des items, cest--dire de lensemble des items constituant le domaine. Comment sassurer de la reprsentativit de lchantillon des items qui constituent le test si lon ne connat pas lensemble des items possibles ? On peut noter ici les travaux originaux de Dickes sur la dfinition de lunivers des items
58
pour la tche des cubes de Kohs (voir sur ce point Dickes, 1988 et Dickes, Houssemand et Reuter, 1996) mais ce type de recherche, et nous pouvons le regretter, reste une exception. De ce fait, concernant les tests dintelligence, on accordera plus dimportance la validit thorique (voir plus loin). Il faut donc toujours garder lesprit que le test, et les items qui le composent, ne sont quun chantillon des situations caractristiques du domaine considr et que la reprsentativit de ces items nest gnralement pas value de faon prcise. Le plus souvent, partir de rfrences thoriques (voir plus loin la notion de validit thorique), le concepteur du test va slectionner un certain type de tche (donc un certain type ditems) qui sera en rapport direct avec ce cadre thorique. Mais dans cette slection ditem, la reprsentativit est plus ou moins bien assure. Cest ce qui explique, par exemple, quun test dintelligence prsente toujours une spcificit (on peut faire ici le lien avec le facteur spcifique distingu par Spearman, voir chapitre 1 de ce livre) et que, mme lintrieur dun cadre thorique identique, une preuve ne sera jamais parfaitement quivalente une autre : chacune ayant slectionn, parmi lensemble des possibles, certaines situations qui vont alors dfinir les caractristiques des items du test. Ainsi par exemple, si lon prend deux tests de facteur g, le D2000 et le SPM de Raven, et bien que leur cadre thorique soit identique (rfrence lapproche de Spearman, avec comme objectif commun dvaluer le facteur g) le type ditems est diffrent (domino pour le D2000, matrice pour le PMS), ainsi que les modalits de rponse (rponse construire pour le D2000, rponse choisir QCM pour le SPM). Ces deux preuves valuent bien la mme dimension (ici, le facteur g) mais partir de situations diffrentes. Cette mme dimension peut en outre tre galement value, et de manire aussi satisfaisante, laide dautres tests. Autrement dit, chaque preuve de facteur g propose des tches qui ne sont quun chantillon de lensemble des tches permettant dvaluer le facteur g. Ce principe est valable quel que soit le cadre thorique de rfrence. Nous avons pris ici pour exemple deux tests de facteur g dont la validit est prouve et reconnue. Mais il faut cependant tre toujours attentif au contenu dun test, sa validit de contenu, car elle va, tout au moins en partie, conditionner la gnralisation que lon peut faire partir des rsultats obtenus dans le test. Ainsi, nous verrons plus loin que certains biais dvaluation sont en rapport direct avec le contenu des items.
59
La validit critrielle en rfrence un critre externe Il sagit ici danalyser les liaisons existant entre le niveau de russite au test et le niveau de russite dans une autre situation prise comme critre. Ce peut-tre par exemple le lien entre les rsultats un test dintelligence et la russite scolaire, ou avec lobtention dun examen, ou encore la liaison avec ladaptation un poste de travail... Un test a une bonne validit critrielle lorsquil prsente une liaison leve avec le critre considr. En fonction de lintervalle de temps entre les deux mesures, on distingue la validit concomitante et la validit prdictive. La validit concomitante (ou concurrente1 ) rend compte de la liaison entre le test et le critre lorsque les deux mesures se situent dans un mme temps. Il va sagir, par exemple, de procder la passation dun test dintelligence au 1er trimestre scolaire et danalyser les liaisons avec les rsultats scolaires du 1er trimestre ; La validit prdictive consiste valuer les sujets, dans un premier temps avec le test puis, aprs un intervalle plus ou moins long, de recueillir, dans un second temps, les donnes sur le critre. On cherche ainsi savoir si le test permet de prdire, avec plus ou moins de confiance, les rsultats obtenus sur le critre. Pour reprendre notre exemple il sagira alors danalyser, par exemple, les liaisons entre le test pass au 1er trimestre et lobtention dun diplme en fin de 3e trimestre : les lves qui avaient eu de bons rsultats au test ont-ils mieux russi le diplme que les lves qui avaient eu de plus faibles rsultats au test ? Si cest le cas, alors ces rsultats iront dans le sens dun bon niveau de validit prdictive du test car il sera possible de prdire lobtention du diplme, et plus gnralement de prdire le niveau dans le critre, partir des rsultats au test. Le test peut alors faire office de prdicteur. Lindicateur de validit critrielle est le plus souvent un coefficient de corrlation. Deux points sont retenir ici : dune part, plus cette validit est leve et plus la prdiction sera prcise, dautre part, la qualit de cette prdiction ralise partir dune seule variable (le test) peut tre amliore en prenant en compte plusieurs variables au lieu dune seule (prendre en compte, par exemple, les rsultats plusieurs tests pour prdire un vnement). Pour les tests dintelligence, cette validit est, en moyenne de .50 avec des indicateurs de russite scolaire (Reuchlin, 1991) ainsi quavec des
1. On trouve galement le terme de concourrente.
60
indicateurs de russite professionnelle (Robertson & Smith, 2001 ; Salgado, 1999 ; Smith & Hunter, 1998). Ces valeurs de validit pronostique dpendent la fois du test (toute chose gale par ailleurs, deux tests peuvent prsenter des valeurs diffrentes de validit pronostique par rapport un mme vnement) mais dpendent galement du type dindicateur utilis pour le critre. Par exemple, dans le cas de la validit prdictive des tests dintelligence par rapport la russite scolaire, les validits (cest--dire les coefficients r de B-P) sont gnralement plus leves quand on utilise, pour le critre de russite scolaire, des preuves normalises de connaissances que lorsquon utilise les notes quotidiennes des enseignants (en raison, principalement, dune fidlit plus faible de ces notes).
La validit thorique en rfrence un concept ou un modle thorique On parle aussi de validit de construct, de validit conceptuelle, de validit hypothtico-dductive. Ce type de validit questionne directement les prsupposs thoriques qui sont la base de lpreuve. Effectivement toute preuve est base sur des ides, sur des concepts qui peuvent tre plus ou moins labors. Ces ides sous jacentes, ces thories, conditionnent la validit dun test :
Les tests valent ce que valent les ides qui ont prsid leur construction. (Huteau & Lautrey, 1997, p. 3).
Cest cette forme de validit qui permet de donner du sens ce qui a t valu, de donner une signification un score. On parle de validit convergente et de validit divergente : un test valide doit prsenter une corrlation forte avec une preuve qui mesure le mme domaine (validit convergente), et une corrlation nulle, ou faible, avec une preuve valuant un autre domaine ou une autre dimension indpendante (validit divergente). Par exemple, deux tests dintelligence doivent prsenter une corrlation leve car ils sont censs valuer tous les deux une mme dimension : lintelligence (validit convergente). Par contre, en labsence dhypothse spcifique ce niveau, ils ne doivent pas prsenter un tel niveau de liaison avec, par exemple, un test de personnalit, car il sagit dun domaine diffrent, relativement indpendant de lintelligence (validit divergente). Un test doit ainsi spcifier les bases thoriques sur lesquelles il repose et prsenter des informations qui viennent tayer les propos. Il sagit le
61
plus souvent de situer le test parmi les modles thoriques de rfrence (voir le chapitre 1) et de confronter les rsultats dun groupe de sujets des tests comparables. Par exemple : un test cens valuer le facteur gnral dintelligence (facteur G) doit prsenter une forte corrlation avec un test dj connu (et valid) qui value ce mme facteur (validit convergente). Si ce nest pas le cas, si les liaisons ne sont pas assez fortes entre les deux preuves, alors ce nouveau test ne peut pas affirmer quil value lui aussi le facteur g : sa validit thorique nest pas assure. Comme nous venons de le voir dans lexemple, on retrouve ici comme indicateur de validit le coefficient de corrlation. Mais attention dans linterprtation de ces coefficients : on ne pourra jamais obtenir ici des valeurs trs proches de 1 car il existe une relation entre fidlit et validit : les fidlits rciproques de deux mesures dterminent les limites suprieures de leur corrlation. Autrement dit, la corrlation maximale entre deux tests est limite par le fait quaucun deux nest une mesure parfaitement fidle (voir lexemple de Laveault et Grgoire, 1997, p. 205). Une autre facette de la validit thorique est la validit structurale dun test. De quoi sagit-il ? Dans le cas o le modle thorique de rfrence envisage plusieurs dimensions, comme par exemple dans les tests de Wechsler qui distinguent chelle verbale (et QIV) et chelle de performance (et QIP), on doit retrouver des indicateurs statistiques qui viennent confirmer (valider) cette distinction thorique. Plusieurs mthodologies sont utilisables, et principalement les techniques danalyse factorielle. Partons dun exemple : lpreuve de Wechsler WISC-III est organise autour de deux chelles afin de pouvoir calculer ces deux Q.I. Pour valider cette structure, les subtests dune chelle doivent alors prsenter entre eux des corrlations plus leves quavec les subtests de lautre chelle. Ce qui doit se traduire dans une analyse factorielle par la mise en vidence de deux facteurs distincts, qui viennent alors confirmer, et valider, le calcul de ces deux indices (QI V et QI P). Autrement dit, on doit retrouver au niveau mme de lorganisation des donnes, le regroupement des subtests en deux blocs, correspondant la distinction thorique propose par Wechsler. Effectivement, comme nous le prsenterons dans un autre chapitre, nous retrouvons dans le manuel du WISC-III des analyses factorielles qui valident la distinction propose par lauteur de ce test. Il sagit bien ici de la validit structurale du test, validit relative la structure interne de linstrument. Un autre exemple de validation de la structure dun test nous est donn par le test K-ABC (Kaufman et Kaufmann, 1993). Le cadre de rfrence thorique principal de cette preuve repose sur des travaux de
62
psychologie cognitive et de neuropsychologie, mens dans les annes 1980, qui proposaient de distinguer deux grands types de processus cognitifs : les processus simultans et les processus squentiels. Les processus simultans sont utiliss lorsque les caractristiques de la situation ncessitent de traiter en mme temps plusieurs informations, les processus squentiels correspondent eux un traitement pas pas des informations. Les concepteurs du test K-ABC ont donc souhait laborer une preuve qui permette dvaluer chaque type de processus. Ils ont alors slectionn des items pour valuer les processus simultans et dautres items pour valuer les processus squentiels. Au final, le K-ABC se prsente un peu comme la structure des chelles de Wechsler avec deux chelles1 distinctes : lune pour les processus simultans, lautre les processus squentiels. Mais dans la phase dexprimentation de leur preuve, les analyses ont montr quun des subtests, conu lorigine pour faire partie de lchelle des processus squentiels, tait en fait corrl plus fortement avec les items de lautre chelle. Pour conserver un bon niveau de validit structurale leur preuve les auteurs ont alors dplac ce subtest vers lchelle de processus simultans (Kaufman et al., 1993, p. 55). Sils navaient pas modifi ainsi la structure de leur preuve exprimentale, la validit structurale du test en aurait t affecte. Cette validit structurale est galement exige dans tous les domaines concerns par les tests, comme par exemple dans les questionnaires dintrts bass sur la thorie de Holland, o il va sagir alors de retrouver les six types RIASEC postuls par ce modle thorique, organiss en hexagone (Vrignaud et Bernaud, 2005). Les tests dintelligence doivent donc prsenter des lments de validation selon ces trois axes : validit de contenu, validit critrielle, validit thorique. Dans la ralit, comme nous lavons indiqu, les manuels de tests accordent une part plus importante aux deux dernires formes de validit. Mais, comme nous le verrons dans la partie consacre la prsentation de tests, ces informations sont plus ou moins compltes selon les preuves.
1. En ralit le K-ABC comporte galement une chelle de connaissance mais nous nen parlerons pas ici afin de faciliter la comprhension de lexemple.
63
Pour terminer, signalons quune autre forme de validit est souvent cite : la validit apparente (face validity). Cette validit est en quelque sorte une validit de surface (on parle aussi de validit cologique) et correspond une analyse intuitive du test. Cest par exemple, une analyse du contenu du test effectue par un juge non spcialiste du domaine qui aboutirait un jugement de type ce test value lintelligence parce que a se voit ! . Ce type de validit, mme sil est pertinent dans le cadre par exemple de la phase de restitution des rsultats, nest bien entendu pas suffisant. Un test qui ne prsenterait que ce type de validit ne serait pas automatiquement valide, car il ny a ici aucune vrification objective sur ce qui est rellement mesur par ce test.
5.
Lanalyse des items

Dans le processus de cration dun test, cinq tapes peuvent tre distingues (Laveault et Grgoire, 1997) : la dtermination des utilisations prvues du test, la dfinition de ce que lon souhaite mesurer, la cration des items, lvaluation des items, la dtermination des proprits mtriques du test dfinitif.
La forme exprimentale dun test doit comporter un nombre suffisant ditems de manire pouvoir slectionner les items les plus pertinents qui constitueront la version dfinitive du test. Par exemple, si un test doit comporter au final 30 items, il faudra en crer environ 45, mener une exprimentation tous et ne retenir que les 30 meilleurs. Sur quelles bases est effectue cette slection ditems ? Aprs avoir analys la fidlit de la mesure, et ventuellement retir les items qui ont t identifis comme responsables dune ventuelle faiblesse de lpreuve ce niveau, chaque item va tre caractris par deux indicateurs principaux : un indice de difficult et un indice de discrimination. Cest souvent, en grande partie, partir de ces deux indicateurs que la slection finale des items sera ralise. Ce quil faut noter cest que, pour chaque item constituant lpreuve dfinitive, les valeurs de ces indicateurs doivent figurer dans le manuel.
64
Il est donc important de connatre ce que reprsentent ces indicateurs. De plus, dans certains cas, il peut tre ncessaire de revenir vers ces indices pour mieux comprendre la russite ou lchec dun sujet un item particulier.
Lindice de difficult
Cet indicateur est trs simple calculer et interprter : partir du nombre de sujets ayant russi litem, et le nombre total de sujets, on peut calculer une frquence de russite litem. Cette frquence de russite, exprime le plus souvent sous la forme dun pourcentage, reprsente lindice de difficult de litem.
Exemple Si 56 sujets sur 109 russissent un item A, lindicateur de difcult de A est donc de 56/109 = 0,514 soit 51,4 % de russite. Autrement dit cest un item de difcult moyenne car il a t russi par un peu plus de la moiti des sujets de cet chantillon. Et si seulement 32 sujets russissent litem B, lindice de difcult de B est donc de 32/109 = 0,294 soit 29,4 %. Litem B, qui prsente un indicateur de russite plus faible, est donc plus difcile que litem A.
Cet indicateur est en lien direct avec la notion de sensibilit : il permet de juger de la capacit de litem diffrencier les individus. Lindice de difficult est directement dpendant du niveau de lchantillon. On considre quun item a un bon pouvoir diffrenciateur lorsque lindice de difficult est proche de 50 % (cas de litem A de notre exemple). Une valeur plus leve tmoigne dun niveau de difficult plus faible et inversement, une valeur plus faible tmoigne dun niveau de difficult plus lev (cas de litem B de notre exemple). Pour assurer un bon niveau de sensibilit du test on considre quil faut que lpreuve, au total, prsente un niveau de difficult moyen. Pour arriver ce rsultat on slectionne les items dont la frquence de russite est comprise entre 30 et 70 % environ. Mais lpreuve doit comporter galement des items plus faciles, qui seront placs gnralement en dbut dpreuve (afin de motiver les sujets), et qui permettent de distinguer les sujets de faible niveau, et des items plus difficiles, placs gnralement plutt en fin dpreuve, qui serviront diffrencier les sujets de niveau de comptence plus leve. Cet indice de difficult, au niveau de litem comme au niveau global de lpreuve, dpend donc des caractristiques du groupe de sujets sur lequel seffectue la passation : le niveau de difficult dun item, ou dun test, peut ainsi varier en fonction du niveau des sujets de lchantillon. Cest ce qui
65
explique que, pour un mme test, il existe souvent plusieurs talonnages : chacun correspondant un groupe prcis de sujets (voir plus loin la notion dtalonnage). Cette dpendance entre caractristiques des sujets et caractristiques des items ne permet pas dtablir des chelles de mesures absolues. Pourtant ce type dchelle prsenterait un certain nombre davantages : comparaison possible de sujets diffrents sur une mme chelle, comparaison de sujets nayant pas pass les mmes preuves, calibrage des items pour constituer des banques ditems... Cest en grande partie pour cette raison que dautres modles de mesure, comme les Modles de Rponse lItem (ou M.R.I), ont t dvelopps (voir plus loin une prsentation de ces modles).
Lindice de discrimination
La discrimination dun item reprsente sa capacit diffrencier les sujets qui obtiennent un niveau lev de russite lensemble du test des sujets qui prsentent un niveau plus faible de russite. On parle du pouvoir discriminant dun item. Un bon item est ici un item qui permet bien de distinguer les sujets sur leur niveau de russite globale lpreuve. On analyse ainsi, au niveau de litem, la relation entre la russite cet item et le score total obtenu au test. On cherche bien entendu une liaison forte : les sujets ayant russi litem doivent prsenter en moyenne un score total plus lev que les sujets ayant chou litem. Lindicateur utilis ici est la corrlation item/test. Il sagit plus prcisment de la corrlation point bisrial entre litem (cod en 0/1) et le score total, corrlation corrige pour la prsence de litem dans le score (cette corrlation revient calculer la corrlation entre litem et le score total sans prendre en compte litem considr). Un item qui prsente une valeur leve cet indice sera un item conserver. Au contraire, un item qui prsente une valeur faible, sera exclure. Mais quelles sont les valeurs seuils ? Il est assez difficile de trouver des valeurs seuils dans la littrature, car, comme nous lavons dj indiqu, dautres variables sont prendre en compte. On peut nanmoins considrer que cette discrimination est trs satisfaisante si lindice est suprieur .40 ; quelle est satisfaisante entre .20 et .40 ; quelle est faible entre .10 et .20 ; quelle est insuffisante en dessous de .10 (Vrignaud, 2002b). Autrement dit, thoriquement un test ne devrait comporter aucun item prsentant un indice de discrimination infrieur .10. Mais pratiquement
66
un item prsentant un trop faible niveau de discrimination peut nanmoins tre conserv condition quil ait un apport significatif un autre niveau danalyse (par exemple, on peut dcider de conserver un item en raison de son contenu spcifique...).
6.
La notion de biais
Avant de dfinir et dillustrer cette notion de biais, il faut, dune part, rappeler que lusage des tests a t souvent questionn par la prsence, relle ou suppose, de biais sociaux, ou de biais culturels, dans ces preuves (voir par exemple Bacher, 1982 ; Huteau et Lautrey, 1999a), dautre part, les tentatives dlaboration de tests indpendants de la culture : test culture free ou culture fair. Actuellement, sil semble difficile dlaborer un test qui soit compltement indpendant dun contexte culturel, il est par contre possible, et hautement souhaitable, de sassurer de labsence de biais. On retrouve dailleurs cet objectif dans les recommandations internationales sur lutilisation des tests, qui prconise au psychologue de sassurer de labsence de biais systmatiques au dtriment de lun des groupes de sujets auxquels le test sera administr (section 2.2.2, paragraphe d, page 19). Des tudes doivent donc tre menes sur ce plan et doivent figurer dans le manuel.
Quest-ce quun biais ?
On dit quune mesure est biaise ds lors quelle ne mesure pas, ou quimparfaitement, ce quelle est cense mesure. On est en prsence dun biais lorsque la mesure met en vidence des diffrences entre des groupes de sujets et que ces diffrences ne peuvent tre mises en relation avec la ou les variables mesures. (Vrignaud, 2002a, p. 626).
Il est important de distinguer ici clairement ce qui est cens tre mesur par le test (la variable ou dimension) qui doit expliquer les diffrences de performances observes entre les sujets et/ou entre des groupes de sujets, et linfluence ventuelle dune autre source de variation (un biais) qui pourrait galement expliquer certaines diffrences observes. Par exemple, si la rsolution dun item de test dintelligence ncessite de connatre un terme
67
spcifique (ou technique), la russite ou lchec cet item ne dpendra donc plus uniquement du niveau dintelligence (variable cense tre mesure par le test) mais galement de la connaissance ou non de ce terme (variable ici considre comme un biais : variable parasite). Autrement dit, niveau comparable dintelligence, les sujets connaissant ce terme technique seront avantags par rapport aux sujets ne connaissant pas ce terme. Dans ce cas, cette situation dvaluation est donc biaise. Cet exemple renvoie la notion de validit de contenu. Dune faon plus gnrale, on peut retenir quun test est biais, ou prsente un biais, sil avantage, ou dsavantage, de faon systmatique un groupe particulier de sujets.
Diffrents types de biais
Il est possible de distinguer plusieurs types de biais : les biais de construit, les biais de mthode et les biais ditem (Van de Vijver et Poortinga, 1997). Nous ne pouvons pas ici dtailler lensemble de ces biais possibles mais nous en indiquerons uniquement les points essentiels (pour approfondir ce sujet voir Vrignaud, 2002a et 2001 ; Grgoire, 2004).
Les biais de construit, ou biais conceptuels Ce qui est questionn ici, ce sont non seulement les bases thoriques auxquelles le test se rfre (conception thorique de lintelligence sous jacente) mais, aussi, le sens que prend ce modle thorique dans le contexte social et culturel particulier dans lequel est labor le test et dans lequel sera utilis le test. Ce sont ces modles de rfrence qui vont dfinir les indices prendre en compte, les caractristiques des situations dvaluation... La fiabilit de ces modles des sujets de culture diffrente nest pas ncessairement garantie : la dfinition dun comportement intelligent peut varier dune culture lautre. Ainsi par exemple, mme si lon a de bonnes raisons de penser que le modle de lintelligence propos par Carroll (voir chapitre 1) est universel (Grgoire, 2004, p. 90), il est fort probable que certains contextes culturels vont accorder plus dimportance certaines aptitudes spcifiques qu dautres. Labsence de prise en compte de ces spcificits culturelles peut aboutir ces biais de construit, do la ncessit de procder des tudes rigoureuses lors de ladaptation de tests. On peut citer ici lexemple de la structure factorielle du test WISC-III qui comporte
68
quatre Indices Factoriels dans la version amricaine mais nen comprend plus que trois dans la version franaise (voir le chapitre 3 qui dtaille cet aspect).
Les biais de mthode Un premier biais de mthode concerne ici des biais lis aux chantillons et principalement, pour ce qui nous concerne, les biais dtalonnage des sujets. Le groupe de rfrence, qui constitue ltalonnage, doit prsenter des garanties quant son niveau de reprsentativit. Sinon, la comparaison des rsultats dun sujet avec ce groupe de rfrence ne peut pas tre effectue de manire fiable. Un deuxime biais de mthode repose sur le matriel utilis. Les sujets ne doivent pas se diffrencier sur le degr de familiarit avec le matriel du test. Sinon, un biais est ici possible : les sujets prsentant un haut niveau de familiarit avec ce matriel, ou avec le type de tche, peuvent tre avantags. Do la ncessit de ne pas diffuser le matriel de test. Enfin, un troisime type de biais de mthode est relatif aux conditions de passation. Par exemple, la situation mme de passation peut sembler trange certains sujets, ou des sujets dune certaine culture, qui peuvent tre tonns que le psychologue reste en face deux sans leur apporter une aide (Reuning et Wortley, 1973, cit par Grgoire, 2004). La comprhension de la situation et donc limplication du sujet dans cette situation peuvent alors tre source de biais.
Les biais ditems Les deux types de biais prcdents, biais de construit et biais de mthode, affectaient lensemble du test. Par contre le biais ditem peut jouer uniquement sur un item isol. On parle de biais ditem lorsque, niveau de comptence comparable des sujets (estim par le mme score total au test), le niveau de difficult dun item particulier va varier en fonction des sujets, en raison de leffet dune variable parasite. Cest lexemple que nous avons dj prsent en introduction qui illustrait les effets de la connaissance dun terme technique (variable parasite) dans un test dintelligence (variable value). Ainsi, un item sera biais en faveur ou en dfaveur dun groupe particulier de sujets. Dans ce cas une variable diffrente de celle qui est cense tre value peut intervenir et favoriser un groupe par rapport un autre.
69
Pour reprer les effets ventuels dune variable parasite, plusieurs mthodes sont utilisables dans le cadre de ltude du Fonctionnement Diffrentiel de lItem (F.D.I) : la statistique de Mantel-Haenszel ; la rgression logistique ; lapproche par les Modles de Rponse lItem (M.R.I) ; lapproche de Stout.
(Pour une prsentation dtaille de ces approches Vrignaud, 2002a. Pour des exemples prcis danalyse de FDI : Vrignaud, 2001). Quelle que soit la mthode utilise, lobjectif est le mme : reprer les items prsentant un F.D.I. Ensuite, plusieurs solutions sont envisageables : Retirer les items biaiss ; Modifier les caractristiques de litem de manire annuler les effets de la variable parasite ; Analyser le test dans son ensemble pour vrifier leffet cumul des diffrents items biaiss. Par exemple, dans lexprimentation de la version WISC-III des chelles de Wechsler, une analyse de F.D.I a t ralise en comparant les rsultats denfants franais et denfants belges. Sur le subtest information quatre items prsentant un F.D.I ont nanmoins t conservs car deux de ces items avantageaient les lves Franais et les deux autres avantageaient les Belges. Dans ces conditions, on peut considrer que les effets cumuls des F.D.I ont tendance sannuler (Grgoire, 2000a).
Conclusion sur la notion de biais
Dans cette partie nous avons montr les effets possibles dun certain nombre de biais potentiels sur la mesure ralise par un test. Une attention particulire sur ces diffrents points doit donc tre mene dans les diffrentes phases dlaboration dun test. Plusieurs mthodologies existent, plus particulirement pour identifier les biais ditems, mais on peut remarquer que, en France, ces analyses de biais sont encore assez rares (Vrignaud, 2002a).
70
7.
La notion dtalonnage
Principes de ltalonnage
Comme nous lavons dj indiqu, ltalonnage est llment qui va permettre de situer les rsultats dun sujet en rfrence ceux obtenus par un groupe de sujets comparables (une population de rfrence). En effet, le score brut du sujet (qui correspond la somme des points obtenus dans un test) ne veut rien dire en soi. Il ne peut tre interprt quau regard dune rfrence. Le rle de ltalonnage est de fournir cette rfrence. Pour talonner un test il faut le faire passer un chantillon de sujets de manire obtenir la rpartition des rsultats ce test sur cet chantillon de sujets. Cest cette distribution des rsultats qui va servir de rfrence, de norme. Il faut donc que lchantillon de sujets prsente des caractristiques comparables celles de la population de rfrence (par exemple par rapport au niveau dtude, au sexe...). Un mme test peut tre utilis pour des populations diffrentes, et gnralement on dispose de plusieurs talonnages pour un mme test qui permet de distinguer ces populations (voir notre exemple plus loin). Bien entendu, comme nous lavons indiqu lors de la prsentation de la notion de sensibilit, les conditions dapplication et de cotation doivent tre strictement comparables, sinon la comparaison des rsultats serait biaise. Les caractristiques des sujets qui constituent les chantillons des talonnages doivent tre soigneusement dcrites : nombre de sujets, ges moyens, niveaux scolaires, dates de passation... Le psychologue peut alors slectionner, parmi les talonnages disponibles, celui qui lui semble le plus proche des caractristiques du sujet examin Gnralement, un talonnage se prsente sous la forme dun tableau dans lequel figurent les scores bruts et les scores talonns . Les scores talonns prennent souvent la forme de classes et permettent alors de situer le sujet dans lune des classes. Nous verrons plus loin que les talonnages peuvent prsenter un nombre diffrent de classes. Prenons, par exemple, un score de 44 points obtenu dans un test comportant 60 items. Pour ce test nous disposons ventuellement de plusieurs talonnages en fonction de la profession exerce. Nous avons reproduit dans le tableau 2.1 un talonnage (fictif) correspondant une population de niveau cadre.
71
Tableau 2.1 talonnage (fictif) dun test de 60 items, niveau cadre. Classes (scores talonns) 1 2 3 4 5 6 7 8 9 % thorique de sujets dans chaque classe 4 6,6 12,1 17,5 19,6 17,5 12,1 6,6 4 Notes Brutes (scores mesurs) 0-38 39-41 42-44 45-48 49-51 52-53 54-56 57-58 59-60
Sur ce tableau apparaissent les notes brutes (ou scores bruts) dans la troisime colonne, les classes (ou notes talonnes) dans la premire colonne, et le pourcentage de sujets appartenant chaque classe dans la colonne centrale (colonne % thorique). Le principe de ltalonnage est de regrouper certains scores bruts au sein dun mme score talonn. Par exemple ici, une note brute de 44, correspond une note talonne de 3 (classe 3). Que signifie cette classe 3 ? Dans cet talonnage, savoir que le sujet se situe dans la classe 3 nous permet de situer prcisment la place du sujet parmi une population de rfrence (ici : les cadres). Pour effectuer ce positionnement il faut utiliser la seconde colonne du tableau (% thorique). La classe 3 comporte 12,1 % des sujets, on peut donc indiquer ici que 12,1 % des sujets (cadres) obtient une note quivalente, que 10,6 % des sujets (4 % + 6,6 %) obtient une note infrieure et donc que 77,3 % des sujets [100 % (12,1 % + 10,6 %)]1 obtient une note suprieure. Autrement dit, en premire analyse, le sujet qui obtient 43 points ne se situe pas parmi les meilleurs si on le compare aux rsultats des sujets exerant le mme mtier, cest mme plutt linverse : le score brut de 44 points le situant en classe 3 donc dans les scores plutt bas.
1. On aurait pu trouver ce mme pourcentage, 77,3, en additionnant les autres pourcentages du tableau : 17,5 + 19,6 + 17,5 + 12,1 + 6,6 + 4 = 77,3 %.
72
Mais si notre sujet qui a obtenu toujours ce score brut de 44 points nest pas cadre mais est un jeune sans qualification, il convient donc dutiliser un autre talonnage : un talonnage qui correspond cette population de rfrence (voir tableau 2.2).
Tableau 2.2 talonnage (fictif) du mme test de 60 items, en neuf classes normalises, sujets sans qualifications. Classes 1 2 3 4 5 6 7 8 9 % thorique 4 6,6 12,1 17,5 19,6 17,5 12,1 6,6 4 Notes Brutes 0-9 10-17 18-24 25-32 33-38 39-43 44-48 49 50 et +
Quest-ce qui a chang entre ces deux talonnages ? Uniquement la troisime colonne, celle qui correspond la rpartition des scores bruts dans la population de rfrence. Que peut-on dire de ce score brut de 44 points ? Cette fois, ce score brut de 44 correspond un trs bon score, une note talonne de 7, score qui nest atteint que par environ 23 % des sujets. Le score brut (la performance) na pas chang, par contre cest la population de rfrence qui est diffrente et qui explique cette variation du score talonn. Cet exemple illustre bien lobjectif de ltalonnage qui est de transformer le score brut (ici de 44 points) en un score talonn. Et ce score talonn dpend, comme nous venons de le voir, de la population de rfrence. Le niveau de performance observ nest donc quune mesure relative : cest un indicateur de positionnement du sujet dans une certaine population. Comme nous venons de lillustrer, une mme performance (ici un score brut de 44) sera alors interprte diffremment selon ltalonnage considr. Il convient donc toujours de sinterroger sur la population de rfrence quil faut utiliser en fonction de la question pose : sagit-il de comparer le sujet
73
aux sujets du mme niveau de qualification ? ou aux sujets du mme ge ? ou de comparer les performances du sujet une population gnrale ? Mais attention, il existe diffrents types dtalonnages : des talonnages normaliss et des talonnages par quantilages. Et selon le type dtalonnage, comme nous allons le voir, linterprtation de la note talonne peut varier.
Plusieurs types dtalonnage
On distingue deux grandes catgories dtalonnages : les talonnages normaliss et les talonnages par quantilages.
Les talonnages normaliss Dans ce type dtalonnage, chaque classe ne comporte pas le mme pourcentage dindividus mais la rpartition est effectue selon la loi Normale. Les limites des classes sont dfinies ici de manire respecter cette rpartition thorique (courbe de Gauss) : une majorit de sujets dans la classe centrale (qui correspond aux scores proches de la moyenne) et progressivement de manire symtrique de moins en moins de sujets de part et dautre de cette classe centrale. Cest le type dtalonnage qui correspond aux talonnages des tableaux 2.1 et 2.2 de notre exemple de dpart : un talonnage normalis en 9 classes, avec une majorit de sujets dans la classe centrale (prs de 20% des sujets dans cette classe 5 contre 4% dans chaque classe extrme). Les talonnages normaliss comportent toujours un nombre impair de classes (5, 7, 9 ou 11 classes) car ils sont centraliss sur une classe centrale, ce qui les diffrencie des talonnages par quantilage. Le tableau 2.3 indique les proportions thoriques de sujets dans les talonnages normaliss les plus utiliss (on parle de proportion thorique car les effectifs rellement observs peuvent lgrement varier). Les limites de chaque classe sont dtermines en rfrence lcart type de la distribution. Par exemple, pour un talonnage normalis en 5 classes, les bornes correspondent : 1,5 cart type ; 0,5 ; +0,5 ; +1,5. partir des donnes de ce tableau, il est possible de calculer plus prcisment la position dun sujet particulier dans une population de rfrence. Pour interprter plus facilement ces positionnements, certains talonnages procdent des regroupements de notes talonnes avec des catgories en nombre plus limits sous la forme de codage : , , 0, +, ++ .
74
Tableau 2.3 Rpartition thorique des talonnages normaliss.

5 classes 7 classes 9 classes 11 classes 1 6,7 % 1 4,8 % 1 4% 2 24,2 % 2 11,1 % 3 21,2 % 3 Classe centrale 38,2 % 4 Classe centrale 25,8 % 4 24,2 % 5 21,2 % 6 17,5 % 7 14,6 % 7 12,1 % 6 11,1 % 8 6,6 % 5 6,7 % 7 4,8 % 9 4%
2 3 4 5 6,6 % 12,1 % 17,5 % Classe centrale 19,6 % 6 Classe centrale 16 %
1 2 3 4 5 3,6% 4,5% 7,7% 11,6% 14,6%
8 9 10 11 11,6% 7,7% 4,5% 3,6%
Tableau 2.4 Codage des scores partir dun talonnage en 9 classes normalis.
Notes talonnes 1 4,4 % 2 6,6 % 3 12,1 % 4 17,5 % 0 5 19,6 % 6 17,5 % 7 12,1 % + 8 6,6 % ++ 9 4,4 %
En plus du positionnement classique en 9 classes, on dispose ici dun autre codage de la performance du sujet. Il sagit presque dun autre talonnage, qui repre ici 5 niveaux de russite (de la classe - - la classe ++) : une russite moyenne, la classe centrale, la classe 0, regroupant plus de la moiti des sujets (54,6 %)1 ; une russite au-dessus de la moyenne, la classe +, regroupant elle un peu moins de 20 % des sujets (18,7 %)2 ; symtriquement, une russite en dessous de la moyenne, la classe ; et enfin, les deux classes extrmes, qui correspondent des niveaux de russite trs infrieurs (classes ), ou trs suprieurs (classe ++), la moyenne.
1. 17,5 + 19,6 + 17,5 = 54,6 % 2. 12,1 + 6,6 = 18,7 %
75
Attention ici ne pas faire de faux-sens un score 0 correspond ici un score moyen, ou autour de la moyenne, et non pas un score nul !
Les talonnages par quantilages Dans ce type dtalonnage chaque catgorie talonne (chaque classe) comporte le mme pourcentage dindividus. On utilise habituellement des talonnages en 10 classes : les dcilages. Dans un talonnage de type dcilage, chaque classe comporte alors 10 % des individus. Cet talonnage est trs simple raliser. Il est galement simple utiliser car on peut situer trs rapidement la position du sujet. Prenons un exemple dun test comportant 40 items (voir tableau 2.5).
Tableau 2.5 Exemple dtalonnage en dciles pour un test de 40 items.
Notes talonnes Notes brutes 1 014 2 3 4 2324 5 25 6 2627 7 2829 8 3032 9 3334 10 35 et +
1519 2022
Un sujet qui obtient un score brut de 28 se situe alors dans la classe 7 de cet talonnage : on sait que 10 % des sujets ont un score quivalent au sien, que seulement 30 % des sujets ont un score suprieur au sien et 60 % ont un score infrieur. On trouve galement des rfrences en terme de percentile ou de rang percentile. Dans un talonnage en rang centile il y a 100 classes, chacune comportant 1 % des sujets (classe 1 classe 100). Ce type dtalonnage va situer le sujet par son rang : le 50e centile correspondant, par exemple, une position mdiane : 50 % des sujets ont un score infrieur ou gal et 50 % des sujets ont un score suprieur. Cest pour cette raison que le 50e centile correspond la mdiane de la distribution. De la mme manire, dire que le sujet se situe au percentile 75 cest dire quil occupe la 75e place sur 100, partir du score le plus bas. Autrement dit, 75 sujets (soit 75 %) ont un score infrieur ou gal au sien et 25 (soit 25 %) un score suprieur au sien. Ce type dtalonnage permet de situer globalement le sujet parmi les quartiles1 de la distribution dtalonnage : le premier quartile correspondant
1. Les quartiles permettent de diviser une distribution en quatre classes deffectifs gaux : on trouve 25 % des sujets entre chaque quartile.
76
au percentile 25, le second quartile la mdiane, le troisime quartile au centile 75. Certains tests, comme les matrices de Raven, proposent de tels talonnages en rang centiles (ou percentile) : voir un exemple sur le tableau 2.6.
Tableau 2.6 Extrait de ltalonnage INETOP en rang percentile pour le test SPM et pour des lves de 3e de collge.
Percentile 5 Score brut 36 10 38 25 42 50 46 75 48 90 51 95 53
Si un lve de troisime obtient un score brut de 42 points, il se situe alors au 25e centile, cest--dire en 25e position par rapport au score le plus bas : 25 % des sujets ont donc un score infrieur ou gal au sien et 75 % obtiennent un score suprieur au sien. Il est donc situ juste la limite du premier quartile. Si un lve obtient un score brut de 44, il se situe donc entre le 25e centile et le 50e centile, cest--dire entre le premier et le deuxime quartile. Son score le situe donc en dessous de la moyenne. Pour qualifier la performance du sujet il est possible ici aussi procder une catgorisation des scores. Un exemple dune telle catgorisation figure dans le manuel du SPM (tableau 2.7). On peut remarquer sur ce tableau que les scores peuvent tre catgoris de la classe I la classe V, la classe centrale III regroupant 50 % des sujets, et que les classes extrmes (classe I et classe V) regroupant chacune 5 % des sujets.
Avantages et inconvnients de ces deux types dtalonnage Lavantage principal des talonnages normaliss cest quils diffrencient de manire plus fine les scores extrmes. Mais ils sont moins discriminants sur les scores moyens. Par contre, cest linverse pour les talonnages de type quantilages. Mais, gnralement, le praticien ne peut pas choisir entre ces deux types dtalonnages car les talonnages fournis avec un test diffrent sur la composition des chantillons dtalonnage (on dispose alors de plusieurs populations de comparaison) mais pas sur le type dtalonnage.
77
Tableau 2.7 Catgorisation des scores au test SPM (daprs le manuel SPM, section 3, p. 51).
Catgorisation Classe I : capacit intellectuelle suprieure Classe II : capacit intellectuelle nettement au-dessus de la moyenne Classe III : capacit intellectuelle moyenne Classe IV : capacit intellectuelle nettement infrieure la moyenne Classe V : dficience intellectuelle Conditions si le score atteint ou dpasse le centile 95 des sujets de son groupe dge si le score atteint ou dpasse le centile 75 (classe II+ si le score atteint ou dpasse le centile 90) si le score se situe entre les centiles 25 et 75 (plus de 50 : classe III+ ; moins de 50 : classe III ) si le score se situe au centile 25 ou au dessous (classe IV si le score se situe au centile 10 ou en dessous) si le score se situe au centile 5 ou au dessous
Les talonnages de type Q.I. Les talonnages de type Q.I. sont en fait des talonnages normaliss avec une moyenne de 100 et un cart type de 15. Nous avons vu prcdemment (dans le chapitre 1) que la notion de Q.I. est hrite de la notion dge mental propose par Binet. lorigine le Q.I. Quotient Intellectuel est bien un quotient, cest-dire le rsultat dune division. Cest Stern en 1913 qui propose ce calcul de Q.I. comme tant le rapport entre lge mental dun enfant (valu par un test) et son ge rel (son ge biologique) : Q.I. = ge mental x 100 ge rel Avec cette formule, si lge mental correspond lge rel, lenfant a donc un Q.I. de 100. Si son ge mental est suprieur son ge rel son Q.I. sera suprieur 100. Et inversement, si son ge mental est infrieur son ge rel son Q.I. sera infrieur 100. Mais cet indicateur prsentait des limites, comme par exemple celle de ne pas tre applicable des adultes. Dans les preuves cres ensuite, comme par exemple les chelles de Wechsler, la notion de Q.I. va tre reprise mais elle ne fera plus rfrence cette notion dge mental, la notion de Q.I. indiquera uniquement un indicateur de positionnement dans une population de rfrence (principe de ltalonnage).
78
Avec le Q.I., la population de rfrence est toujours la population du mme ge, que ce soit pour les enfants (par exemple le WISC-III ou le WISC-IV) ou pour les adultes (la WAIS-III). Mais Wechsler, par construction, conserve la rfrence 100, qui constitue alors le score moyen. Lautre indicateur important de cette distribution de Q.I. est lcart type : il est ici de 15. Comme la distribution suit une loi normale, ces deux valeurs (moyenne et cart type) nous permettent de calculer des rpartitions de sujets. La figure 2.2 nous permet de visualiser ces rpartitions thoriques pour diffrents types de scores.
effectifs des sujets
2,2 % -3 55 0 -2 70
scores 13,6 % 34,13 % 34,13 % -1 85 0 100 50 +1 115 13,6 % +2 130 2,2 % +3 145 100 notes Z notes QI rangs percentile
Figure 2.2 Rpartition thoriques des sujets en fonction des diffrents types de scores.
La figure 2.2 indique les proportions de sujets relatives diffrents indicateurs de test. La premire ligne concerne les notes z, notes centres rduites (moyenne de 0 et cart type de 1). La deuxime ligne concerne les notes de Q.I. de moyenne 100 et dcart type 15. Enfin, figurent en quatrime ligne les rangs percentiles. Les proportions indiques permettent de mieux situer les performances des sujets. Par exemple, sur une chelle de QI, entre 85 et 100, soit un cart type en dessous de la moyenne, se situent 34,13 % des sujets. Comme la courbe normale est symtrique, on peut donc calculer trs rapidement la proportion de sujets situs dans lintervalle [moyenne un cart type ;
79
moyenne + un cart type], donc ici entre 851 et 1152 : environ 68,3 % des sujets ont ainsi un Q.I. compris entre 85 et 115. De mme, toujours pour les scores de Q.I., la figure F1 nous indique galement que : 15,73 % des sujets a un Q.I. suprieur 115 (moyenne plus un cart type), et la mme proportion a un Q.I. infrieur 85 (moyenne moins un cart type) ; 2,14 % des sujets se situent au-del de 130 (moyenne plus deux carts type), et la mme proportion a un Q.I. infrieur 70 (moyenne plus deux carts type). partir de cette rpartition des Q.I. dans la population, il est possible, l encore, dtablir des catgorisations. Mais cette catgorisation peut varier, dune part selon lpoque, dautre part selon lauteur de cette catgorisation. Par exemple, dans la catgorisation propose en 1928 par Levine et Marks (cit par Bernaud, 2000a) les catgories allaient de idiot (pour un Q.I. situ entre 0 et 24) prcoce (score suprieur 175) et dans la catgorisation de Terman (cit par Wechsler, 1956, p. 47) de dbilit mentale caractrise (pour un Q.I. au-dessous de 70) gnie ou sujet proche du gnie (Q.I. suprieur 140). On peut galement observer des diffrences dans la dnomination des catgories entre deux versions dune mme preuve, comme par exemple entre les versions WAIS-R et WAIS-III : on peut remarquer que, si les bornes nont pas chang, la dnomination des classes elle a t modifie (voir tableau 2.8). Plusieurs remarques :
Un Q.I gal ou suprieur 130, qui correspond au score denviron 2 %
des sujets, est qualifi de trs suprieur et correspond gnralement lun des critres pour diagnostiquer une prcocit intellectuelle (sur cette problmatique de prcocit intellectuelle voir le numro spcial de la revue Psychologie Franaise de 2004 coordonn par Lautrey) ; Lune des modifications entre les deux catgorisations concerne les deux catgories de part et dautre de la moyenne : Normal Fort devient Moyen Suprieur et, symtriquement, Normal Faible devient Moyen Infrieur ; La seconde modification, sans doute la plus visible, concerne la catgorie la plus basse : Dficient mental devenant Trs faible. Lexplication
1. 100 15 = 85 2. 100 + 15 = 115
80
Tableau 2.8 Classification des Q.I. aux chelles de Wechsler pour adultes (daprs Wechsler, 1989, p. 24 et Wechsler, 2000, p. 280).
Pourcentage thorique de sujets 2,2% 6,7% 16,1% 50% 16,1% 6,7% 2,2% Classification WAIS-R (1989) Trs suprieur Suprieur Normal fort Moyen Normal faible Limite Dficient mental Classification WAIS-III (1997) Trs suprieur Suprieur Moyen suprieur Moyen Moyen infrieur Limite Trs faible
Q.I 130 et plus 120129 110119 90109 8089 7079 69 et moins
est donne dans le manuel de la WAIS-III : les auteurs justifient ce changement afin quun Q.I. trs faible ne soit pas considr comme refltant obligatoirement une dficience mentale (manuel WAIS-III, p. 280). Dautres classifications existent comme par exemple celle de lO.M.S (Organisation Mondiale de la Sant) qui distingue retard mental lger (Q.I. compris entre 50 et 70) et retard mental moyen (Q.I. compris entre 35 et 49) (voir sur ce point Lathoud, 1997). Enfin, et pour terminer avec les talonnages de type Q.I., il faut rappeler que le Q.I. est un indicateur du positionnement du sujet dans sa classe dge. Il ne sagit donc pas dune mesure absolue des capacits cognitives du sujet dans le sens o, par exemple, un enfant de 12 ans qui prsente un Q.I. de 115 a, en ralit, des performances infrieures celles dun enfant plus g qui prsente pour tant ce mme score de 115. Par contre, ce que veut dire ce score de 115 cest que ces deux enfants se situent de la mme manire dans leur population respective, et plus prcisment, un cart type au-dessus de la moyenne. Cette remarque vaut galement pour les adultes : un indicateur de type Q.I. est un positionnement dans une classe dge, mme pour des adultes. Signalons quil existe encore dautres talonnages, mais beaucoup moins utiliss en France, comme par exemple des talonnages utilisant les scores T (avec une distribution de moyenne gale 50, et un cart type de 10) et les stanines (moyenne de 5 et cart type de 2).
81
Conclusion sur la notion dtalonnage
Nous voudrions ici conclure sur trois aspects importants : la fiabilit des talonnages, le type dtalonnage choisi et la prise en compte de lerreur de mesure. Il convient, avant toute passation de sassurer de la qualit des talonnages accompagnant le test que lon veut utiliser. Le psychologue sera attentif aux caractristiques des populations dtalonnage afin, dune part, de juger de la fiabilit des normes, et, dautre part, de vrifier quau moins un des talonnages proposs correspond aux caractristiques du sujet devant passer le test (condition minimum de la comparabilit des rsultats). Concernant le premier point, lanalyse de la fiabilit des normes, il faut particulirement tudier : 1. Le nombre de sujets composant ltalonnage. Le nombre minimum de sujets dpend du type dchantillonnage choisi (Laveault et Grgoire, 1997) mais on peut retenir quun talonnage comportant moins dune centaine de sujets ne prsente pas une fiabilit satisfaisante. 2. La slection de ces sujets. Lchantillon dtalonnage doit tre reprsentatif de la population quil est cens reprsenter. Selon les cas, cette population est plus ou moins vaste. Par exemple, dans le cas des chelles de Q.I., la population de rfrence est constitue par les sujets de mme ge. Lchantillon dtalonnage doit donc comporter, pour chaque niveau dge, les mmes caractristiques que la population parente (rpartition des sexes, des CSP, des niveaux scolaires...). Sil sagit dun talonnage spcifique, comme par exemple un talonnage par niveau dtude ou par profession, la population parente est alors plus rduite mais lchantillon dtalonnage doit toujours en tre un bon reprsentant. 3. la date de ltalonnage. Un talonnage trop ancien ne prsentera pas une rfrence fiable. On peut retenir comme seuil une dizaine dannes : un test qui prsenterait des talonnages datant de plus de 15 ans sera utiliser avec prudence. En effet, une augmentation progressive des scores aux tests dintelligence a t observe au cours du XXe sicle. Cet effet, connu sous le terme deffet Flynn a t prsent dans le chapitre 1). Utiliser un talonnage trop ancien peut avoir alors comme consquence de surestimer les capacits du sujet par rapport sa population de rfrence.
82
Il faut indiquer ici que les talonnages figurent dans le manuel du test mais quil existe souvent des talonnages complmentaires, sous formes dannexes, qui ont t raliss aprs le manuel et que les diteurs de tests peuvent fournir. Nous encourageons donc le praticien sinformer auprs des diteurs des talonnages les plus rcents disponibles pour le test quil souhaite utiliser. Il est aussi trs important de reprer le type dtalonnage que lon va utiliser de manire situer sans erreur la position du sujet dans la population de rfrence. Par exemple, un score talonn de 3 dans un talonnage de type dcilage, ne correspond pas un score talonn de 3 dans un talonnage normalis en 5 classes. Dans le premier cas, seulement 20 % des sujets obtiennent un score infrieur, la performance se situe donc largement en dessous de la moyenne, tandis que, dans le second cas, ce score correspond un score moyen (voir tableau 2.3). Il est regrettable dailleurs que, parfois, le type dtalonnage ne soit pas clairement indiqu dans le manuel. En labsence dinformation explicite sur ce point, il faut se rappeler que les talonnages par quantilages sont le plus souvent des dcilages (10 classes), et que les talonnages normaliss comportent toujours un nombre impair de classes (5, 7, 9 ou 11 classes). En cas de doute, le praticien doit demander une clarification auprs de lditeur du test afin dviter toute erreur dinterprtation ce niveau. Enfin, il faut galement prendre en compte la notion derreur de mesure et la distinction entre score vrai et score observ. Lidal est de calculer un intervalle de confiance pour situer plus prcisment le score vrai du sujet partir du score observ, mais, dfaut, il faut au moins se rappeler que si le score brut du sujet est situ proximit dune des bornes de la classe talonne, le score vrai du sujet pourrait se situer de lautre ct de cette borne. Il convient alors de nuancer linterprtation du score observ. Cette capacit danalyse critique des talonnages fournis, et plus globalement danalyse de toute information figurant dans le manuel, cette capacit dinterprtation dun score observ, de recul par rapport une mesure, reprsente lun des fondements dune pratique professionnelle de psychologue. Nous allons dvelopper ce point dans la partie suivante.
83
8.
Comment valuer un test ?

Un test doit toujours tre accompagn dune documentation technique, prenant le plus souvent la forme dun manuel dans lequel figurent les informations ncessaires la passation du test (consignes, modalits de cotation, talonnages...). Mais ce manuel doit galement comporter toutes les informations relatives aux diffrentes phases dlaboration du test et de sa validation (cration des items, slection des items, analyse des biais, tudes de fidlit, de validit...). Cest en prenant connaissance de toutes ces informations quun psychologue pourra juger, dune part, de la pertinence dutiliser ce test par rapport la situation dans laquelle il se trouve, dautre part, de la fiabilit du test. En effet le psychologue ne doit utiliser que des outils dont la fiabilit a t value :
Les techniques utilises par le psychologue pour lvaluation, des fins directes de diagnostic, dorientation et de slection, doivent avoir t scientifiquement valides. (Code de dontologie des psychologues article 18).
Mais le psychologue ne doit pas sen tenir un niveau trop superficiel dinformation sur le test, il doit faire preuve de professionnalisme en recherchant dans la documentation technique qui accompagne le test (le ou les manuels, les annexes...) les lments qui doivent tmoigner de la fiabilit de ce test. Ce sont ces lments de validation, dvaluation de la qualit de la mesure qui distingue lvaluation psychologique dautres pratiques vise valuative (comme, par exemple, la graphologie...). Cest dailleurs cette dmarche de recherche des lments de validation qui est prconise dans les recommandations internationales sur lutilisation des tests, en particulier dans la section 2 : Assurer une pratique correcte dans lutilisation des tests (pages 19 24). Quelques citations : Se garder de lutilisation de tests qui ont une documentation technique inadapte ou peu claire ; se garder de porter un jugement sur un test seulement sur la base de sa validit apparente, des tmoignages des utilisateurs, ou du conseil de personnes qui y ont des intrts commerciaux ; apprcier la prcision de la mesure , la fidlit , la validit , labsence de biais ... ; sassurer que les tests ne sont pas biaiss et sont adapts pour les diffrents groupes qui vont tre tests. ...
84
Nous retrouvons, sous une autre forme, certaines de ces recommandations dans les questions formules par Rolland (2001) concernant lanalyse de la fiabilit dun test : 1. Quelle est la prcision de ce test ? Quelle est sa marge derreur ? 2. Le test mesure-t-il rellement ce quil est cens mesurer ? 3. Les informations recueillies par ce test sont-elles pertinentes (utiles) pour lobjectif suivi ? 4. Les scores fournis par ce test permettent-ils de bien diffrencier les sujets ? Nous reprendrons ces questions qui nous permettent de synthtiser les principaux points que nous venons daborder dans ce chapitre. 1. Quelle est la prcision de ce test ? Quelle est sa marge derreur ? Ces questions renvoient la notion de fidlit. Il convient danalyser deux critres : la stabilit et lhomognit de la mesure. Un test fiable doit prsenter des indices de stabilit et dhomognit dau minimum de .70. 2. Le test mesure-t-il rellement ce quil est cens mesurer ? Cette question fait rfrence la notion de validit que lon peut en particulier apprcier sous langle de la validit de structure et de la validit convergente. La validit de structure : la corrlation dun item sur une dimension (on parle de saturation de litem sur la dimension) doit tre de .30 au minimum et la liaison avec la dimension attendue doit tre plus leve que la liaison avec une autre dimension. Les dimensions ne doivent pas tre trop lies les unes aux autres car des dimensions fortement corrles sont redondantes. La validit convergente (analyse des liaisons entre 2 preuves censes valuer la mme dimension) : une corrlation autour de .70 est considre comme satisfaisante, avec une valeur minimale de .40. 3. Les informations recueillies par ce test sont-elles pertinentes (utiles) pour lobjectif suivi ? Cette question se rfre la validit prdictive, ou validit critrielle, de lpreuve. La question ici est de savoir ce que permet de prdire le test : russite scolaire pour les enfants et les adolescents, russite en formation pour les adultes, russite professionnelle, par exemple. titre de rfrence utile pour linterprtation des coefficients de validit, nous retiendrons que les tests daptitude cognitive corrlent en moyenne .50
85
avec des critres de russite scolaire et de performances professionnelles. Cet aspect sera abord plus en dtail dans le chapitre 8. 4. Les scores fournis par ce test permettent-ils de bien diffrencier les sujets ? Cette dernire question, fait rfrence la sensibilit du test et son adquation la personne value. Rolland (2001) rappelle que la distribution des scores doit suivre une courbe de Gauss et quil faut analyser ici la qualit des talonnages fournis. Si ltalonnage est un talonnage gnral il doit tre reprsentatif des caractristiques de la population. Il faut donc sassurer des modalits de slection des chantillons dtalonnage : sexe, ge, niveau dtude, profession... (dmarche identique celle utilise dans les sondages pour crer un chantillon reprsentatif dune population). Dans ce cas lchantillon dtalonnage doit comporter au minimum 500 sujets. Si ltalonnage est spcifique, il correspond alors une catgorie de la population (talonnage par ge, par profession, par niveau dtude...) il doit comporter au minimum 200 sujets. Enfin, Rolland nous indique que des tests dont les normes (les talonnages) datent de plus de 10 ans ne devraient pas tre utiliss en raison de leffet Flynn. Rolland prcise que les valeurs seuils indiques pour les diffrentes corrlations doivent tre prises avec souplesse car il convient de prendre galement en compte, dans lanalyse de la fiabilit dun test, lensemble des lments fournis par le manuel. Ainsi, vaut-il souvent mieux utiliser un test qui prsente des valeurs un peu plus faibles quattendues sur ces indices, quutiliser un test pour lequel nous naurions pas de donnes statistiques concernant sa validation... Les indicateurs qui viennent dtre voqus comme pertinents pour valuer un test font directement rfrence aux notions de base de la psychomtrie prsentes dans ce chapitre. Il est donc indispensable que le praticien les matrise afin de pouvoir analyser de faon critique les outils quil utilise. Cette analyse est mener partir des informations prsentes dans les manuels des tests. Une lecture attentive des manuels doit galement permettre damliorer linterprtation des indicateurs de la performance dun sujet recueillis par le test. Nous en donnerons deux exemples, lun relatif aux sous scores du test NNAT et lautre aux conditions de passation des matrices de Raven (cf. encadr). Ces deux exemples illustrent bien tout lintrt dune lecture approfondie des diffrents documents accompagnant le test car la qualit de
86
linterprtation des scores du sujet va dpendre en grande partie de la prise en compte de ces informations. On peut remarquer ici que la nature et la qualit de ces informations diffrent selon les tests : certains proposent des manuels riches dinformation, avec parfois plusieurs manuels pour une mme preuve (en distinguant par exemple, un manuel dutilisation et un manuel dinterprtation), tandis que dautres tests ne proposent quun manuel sommaire. Le choix du test par le praticien doit prendre en compte cet lment.
Exemples Dans le test NNAT (qui sera prsent dans le chapitre 4) il est possible de calculer, en plus du score total, quatre sous-scores qui correspondent quatre types de raisonnement. Mais attention ici lanalyse de ces sous-scores car ils ne prsentent pas la mme fiabilit que le score total :
Les sous-scores devront tre interprts que de faon qualitative partir des notes brutes. (Manuel du NNAT, p. 12)
Deux raisons sont avances dans le manuel : le nombre ditems de chaque sous-score et la validation de ces sous-scores. En effet, dune part, le nombre ditems est variable selon les sous-scores et reste un peu trop faible pour garantir un bon niveau de fiabilit de la mesure, dautre part, les analyses statistiques rendent discutable la distinction mme de ces quatre types de raisonnement (manuel NNAT, p. 49). Pour ces deux raisons les auteurs indiquent quil na pas t possible de raliser un talonnage spcifique de chaque sous score ce qui, selon nous, retire alors beaucoup dintrt au calcul de ces sous-scores. On peut voir clairement ici quune dmarche automatique de calcul, et dinterprtation, de ces sous-scores aboutirait alors des interprtations qui ne reposeraient pas sur des lments suffisamment fiables. Par contre, une lecture attentive des informations du manuel du NNAT devrait aboutir relativiser ces indicateurs de sous-scores et les interprter avec prudence. Pour le test SPM (PM38) de Raven (galement prsent dans le chapitre 4), il est indiqu dans le manuel quil est plus fiable de faire passer lpreuve en temps libre en raison de leffet possible du style de rponse du sujet. En effet, certains sujets peuvent sauter les items difficiles et rpondre dabord aux items les plus faciles, quitte effectuer ensuite un retour en arrire sils ont du temps, tandis que dautres sujets vont
87
prendre du temps afin de rechercher la rponse ces items difficiles, mais du coup, nauront peut-tre pas le temps daborder des items plus faciles, situs vers la dernire partie de lpreuve (Manuel Matrice de Raven, Section 1, p. 66). Nous reviendrons plus loin, lors de la prsentation de ce test, sur ces styles de rponse. Si le praticien utilise ce test en temps limit il est donc souhaitable quil analyse le patron de rponse du sujet afin de sassurer de labsence dune stratgie de ce type. Le praticien connat-il toujours lexistence de ce biais possible ? Sil na pas pris connaissance de ces lments qui figurent dans le manuel gnral des Matrices de Raven, il est fort probable quil ignore cette possibilit de biais.
9.
Les volutions des modles psychomtriques

Comme nous lavons indiqu au tout dbut de ce chapitre, la quasi-totalit des tests utiliss actuellement en France reposent sur la thorie classique des tests, fonde sur la notion de score vrai et derreur de mesure. Dautres modles de mesure existent que nous ne pouvons pas prsenter ici car ils dpassent largement lobjectif de cet ouvrage. Les lecteurs intresss par une prsentation de ces diffrents modles de mesure pourront consulter les ouvrages spcialiss comme celui de Dickes et al. (1994), ou celui de Laveault et Grgoire (2002). Nanmoins, il nous a sembl intressant daborder ici lun de ces modles : le modle de Rponse lItem (M.R.I). En effet, lutilisation de ce modle, ou plutt de ces modles MRI (nous verrons quil existe plusieurs modles MRI), ou modles I.R.T1 , est croissante, au moins au niveau international et dans le domaine de lvaluation des connaissances scolaires, et il est fort probable que dici quelques annes des tests reposant sur ces modles MRI soient disponibles en France. Il est donc important de connatre les principes de base de ces modles de mesure. Avec les modles M.R.I il sagit dun autre modle de la mesure, un modle probabiliste dans lequel certaines notions classiques de psychomtrie, comme par exemple les notions de difficult de litem, dtalonnage, ou encore de score du sujet, vont tre profondment modifies.
1. En anglais on utilise le terme IRT pour Item Response Theorie. Mais le terme de modle semble plus appropri (Vrignaud, 1996).
88
Notre objectif ici est de donner une information minimale sur ces modles MRI, accessible tout psychologue. Pour cette raison nous viterons lutilisation dquations et de formules mathmatiques, qui servent lestimation des paramtres des modles (voir plus loin) que le lecteur pourra trouver dans les ouvrages spcialiss de psychomtrie (dj cits) ou dans des publications traitant spcifiquement de ces modles (voir par exemple le numro spcial de la revue Psychologie et Psychomtrie coordonn par Juhel en 1999 ; larticle de Vrignaud de 1996 ; ou encore lannexe consacre aux MRI dans louvrage de Reuchlin de 1997).
Prsentation gnrale de lapproche des modles MRI
Dans lapproche classique de la mesure les principaux indices psychomtriques qui vont caractriser lpreuve (indices de difficult des items, talonnages...) vont dpendre de lchantillon de sujets utilis. Par exemple, dans un test de facteur g comme le SPM de Raven qui peut tre utilis sur des populations de niveaux trs diffrents (collgiens, lycens, adultes...), un mme item sera considr comme difficile pour des collgiens, mais comme facile (ou plus facile) pour des tudiants. Autrement dit, on ne connat pas le niveau absolu de difficult dun item car il sagit toujours un niveau relatif de difficult qui va dpendre directement du niveau des sujets ayant pass le test. Paralllement, pour un sujet confront aux items dun test, le niveau de sa performance (le score observ) ne peut sinterprter que par comparaison avec le niveau de russite dautres sujets prsentant les mmes caractristiques (par exemple sujets de mme ge) : cest le principe de ltalonnage. Il sagit l aussi de mesure relative. En dautres termes, les caractristiques des items (en particulier leur niveau de difficult) sont dpendantes des caractristiques des sujets mais les caractristiques des sujets (en particulier leur niveau de russite, cest--dire leurs scores) sont dpendantes des caractristiques des items. Dans la thorie classique des tests, il y a donc interdpendance entre caractristiques des items et caractristiques des sujets. Cest lune des diffrences principales avec les modles MRI dont lobjectif principal est de permettre une valuation indpendante de ces deux sries dlments : caractristiques des sujets et caractristiques des items. Avec ces modles il devient donc possible, aprs une phase de calibrage des items (voir
89
plus loin), dvaluer le niveau de performance du sujet, quels que soient les niveaux de difficult des items (donc le test) quil aura pass. Les modles MRI sont des modles probabilistes : des modles dans lesquels on cherche estimer des probabilits de russite. La principale proprit des MRI est de placer les difficults des items et les comptences des sujets sur une mme dimension : le trait latent (theta). Ce trait latent reprsente la variable value qui peut tre, selon les cas, une aptitude cognitive, une comptence scolaire, voire un trait de personnalit... Lun des postulats de base est le suivant : les diffrences de russite entre les sujets sexpliquent par ce trait latent et uniquement par celui-ci. Dans les tests dintelligence, le trait latent reprsente donc lintelligence telle quelle est value par le test. Dans ce cadre on utilise prfrentiellement le terme comptence pour dsigner ce trait latent. . Chaque sujet peut donc tre caractris sur ce trait, par son niveau de comptence, et paralllement, chaque item peut tre situ sur cette mme chelle par son niveau de difficult. Ainsi, plus le sujet se trouve un niveau lev sur ce trait, plus son score est lev, et plus sa probabilit de russir un item particulier augmente (modle probabiliste du niveau de comptence du sujet). Paralllement, plus litem se situe un niveau lev sur ce mme trait , plus son niveau de difficult augmente et donc, plus sa probabilit dtre russi diminue (modle probabiliste du niveau de difficult de litem). Chaque sujet a, selon son niveau de comptence estim, une certaine probabilit de russir un item donn dont la difficult a t estime sur cette mme chelle de comptence . Les modles de rponse litem (MRI) visent prdire la probabilit quun individu I fournisse une bonne rponse un item i. Pour bien comprendre la logique de ces modles MRI, il faut prendre en compte quil sagit dune modlisation des probabilits de russite, modlisation effectue partir des observations sur la frquence des bonnes rponses (russite) observes par un groupe de sujets une srie ditems constituant un test.
Exemple Soit un test X pass par un ensemble de sujets. Ce test comporte 60 items, le score total de chaque sujet se situe donc entre 0 et 60. Nous pouvons reprsenter sur une gure les frquences de russite un item A du test en fonction du score total au test X. On obtient gnralement la tendance suivante : plus les sujets ont un score total lev au test X, plus la frquence de russite cet item A est leve.
90
Inversement, plus les sujets ont un score total faible au test, plus la frquence de russite un item donn diminue. La gure 2.3 permet de visualiser cette relation : le score total est port en abscisse, la frquence de russite litem A tant en ordonne.
1 0,8 0,6 item A 0,4 0,2 0 0 10 20 30 40 50 60 score au test X
Figure 2.3 Frquences de russites observes litem A en fonction du score total obtenu un test X (daprs Vrignaud, 1996, p. 8).
Sur la figure 2.3 chaque carr reprsente la frquence de russite observe pour un score total donn. Par exemple, les sujets ayant un score total infrieur 25 points (donc les sujets de bas niveau ici) ont une frquence de russite litem A assez faible, infrieure .20 (soit 20 % de russite pour ces sujets cet item A). Par contre, les sujets de bon niveau, ayant un score total au test X suprieur 40 points, russissent beaucoup plus frquemment cet item A avec une frquence de russite ici de lordre de .90 (soit environ 90 % de russite pour ces sujets). Cet exemple illustre bien le fait que la frquence de russite observe un item est faible pour les sujets de bas niveau, puis cette frquence augmente rapidement pour les sujets de niveau moyen (ici autour du score de 30 points) et atteint un plateau, proche de la frquence de 1, pour les sujets de niveau lev. Le principe fondamental des modles MRI est de proposer un modle mathmatique permettant de modliser cette forme de relation. Le modle
frquence russites
91
mathmatique retenu, le plus reprsentatif de la relation illustre par les carrs dans la figure 2.3, est la fonction logistique. La courbe en pointill de la figure 2.3 reprsente une telle modlisation. Cette courbe est appele la courbe caractristique de litem (CCI). Une telle courbe est prsente dans la figure 2.4.
1 probabilit de russite P 0,8 0,6 0,5 0,4 0,2 0 -3 -2 -1 0 score q 1 2 3
Figure 2.4 Exemple de courbe caractristique dun item (CCI).
La figure 2.4 reprsente bien une modlisation mathmatique de la relation reprsente dans la figure 2.3. On remarquera que maintenant en ordonn figurent les probabilits de russite P estimes (et non plus les frquences de russite observes) et en abscisse le score correspondant au niveau de comptence des sujets (et non plus le score total au test). La probabilit de russite P varie donc, comme toute probabilit, de 0 1, le niveau de comptence des sujets variant lui denviron1 3 +3, avec une moyenne de 0. Les courbes CCI de tous les items du test dfinissent les caractristiques de ces items. Elles sont estimes par des logiciels spcialiss partir de donnes relles de passation : cest la phase dite de calibrage des items. Chaque item sera alors caractris par diffrents paramtres (voir plus loin) dont le principal est son niveau de difficult exprim sur lchelle theta .
1. En ralit, comme il sagit dun modle probabiliste, le score peut thoriquement varier de moins linfini plus linfini, mais on estime que 99,8 % des sujets se situent entre -3 et +3 (Laveault et Grgoire, 1997, p. 292).
92
Lorsquun regroupement ditems calibrs est ralis pour laborer un test, les sujets peuvent alors tre galement caractriss par un score reprsentant leur niveau de comptence. Par convention, on considre quun score de 0 correspond au score moyen, un score positif correspond alors un score au-dessus de la moyenne, un score ngatif un score en dessous de la moyenne. Comme nous venons de lindiquer, le niveau de difficult ne reprsente quune des caractristiques possibles pour dfinir un item. Nous allons maintenant prsenter succinctement les trois principaux modles MRI qui diffrent sur le nombre de caractristiques (ou paramtres) pris en compte.
Les trois modles MRI
Le modle un paramtre (indicateur b) Dans ce modle, dit modle de Rasch1 , propos par cet auteur ds les annes 1950, on considre que les items ne peuvent se diffrencier que sur leur niveau de difficult appel paramtre b. Par convention on dfinit cette valeur de difficult dun item par la valeur de pour laquelle la probabilit de donner une rponse correcte est de P = 0,5. Ainsi dans la figure 2.4 litem reprsent a une difficult gale 0 (b = 0) car cest la valeur de qui correspond une probabilit de russite de 0,5. Les CCI des diffrents items sont donc toutes parallles et ne se diffrencient que sur la valeur de ce paramtre b. Ainsi, plus la valeur de b augmente, plus la CCI se situe sur la droite, et plus litem a un niveau de difficult lev. Cest ce qui est illustr dans la figure 2.5. Sur la figure 2.5, les CCI des deux items sont bien parallles mais elles sont dcales. Pour litem A, qui correspond litem reprsent sur la figure 2.4, son niveau de difficult (paramtre b) est toujours de 0 ; pour litem B, situ plus droite, son niveau de difficult est plus lev avec un paramtre b ici denviron 0,4.
Le modle deux paramtres (indicateurs b et a) Ce modle de Rasch a t complexifi en 1968 par Birnbaum (cit par Dickes et al., 1994) qui prend en compte les variations possibles du pouvoir
1. Mathmaticien Danois.
93
0,5
item A item B
A B 1
-3
-2
-1
0,4
score q
Figure 2.5 CCI de deux items de niveau de difficult diffrents dans le cas du modle MRI un paramtre (daprs Vrignaud, 1996, p. 8, figure modifie par nos soins).
discriminant des items. Do un deuxime paramtre : le paramtre a. Il sagit donc ici dun modle deux paramtres dans lequel les items peuvent se diffrencier sur leur niveau de difficult (paramtre b) mais galement sur leur pouvoir discriminant (paramtre a). Cette variation dans la discrimination est reprsente dans la CCI par la diffrence de pente : plus la pente est abrupte, plus litem est discriminant. La figure 2.6 illustre ce modle. Sur la figure 2.6, les CCI ne sont plus parallles car les items peuvent se diffrencier sur leur pente. Litem A, qui a la pente la plus abrupte, est plus discriminant que les deux autres items en raison dune augmentation plus rapide des probabilits de russite. Litem D, avec la pente la plus faible, est le moins discriminant des trois. La valeur du paramtre a se situe habituellement entre 0 (faible discrimination) et 2 (forte discrimination). On considre quune valeur de 0.7 correspond un bon niveau de discrimination (Vrignaud, 1996).
94
1 probabilits de russite 0,8 0,6 0,4 0,2 0 -3 -1,5 0 theta q 1,5 3 item A item C item D
Figure 2.6 CCI de trois items dans le modle MRI deux paramtres (daprs Vrignaud, 1996, figure 3, p. 9).
Le modle trois paramtres (indicateurs b, a et c) : Enfin, dans certains tests, et particulirement dans les tests de type QCM, il existe une certaine probabilit de trouver la bonne rponse en slectionnant au hasard une rponse parmi celles proposes. Par exemple, si dans un item donn on propose cinq possibilits de rponse, cette probabilit peut tre estime une chance sur cinq. Le modle a trois paramtres va donc intgrer cette nouvelle source de variation possible entre les items : le paramtre c ou paramtre de pseudo-chance (Laveault et Grgoire, 1997, p. 294). Cest au concepteur de lpreuve de choisir parmi ces trois modles MRI celui qui correspond le mieux ses objectifs et/ou aux donnes de lexprimentation. Les logiciels de traitement statistique fournissent pour cela des indicateurs de conformit des donnes par rapport ces trois modles thoriques MRI. Il faudra tre attentif ces indicateurs.
Intrts et limites des modles MRI
Les principales limites des modles MRI concernent leurs trois principales contraintes dutilisation :
95
nombre de sujets minimum, unidimensionnalit de la mesure, indpendance locale des items.
Nombre de sujets Pour pouvoir effectuer le calibrage des items par les modles MRI, il est ncessaire de disposer dun nombre important de sujets (de 600 1000 selon les auteurs). Ces sujets devant tre de niveau de comptence variable afin dtre reprsentatif de lensemble de la population et reprsenter alors un ensemble assez exhaustif des diffrents niveaux de comptence. De plus, il convient de vrifier ensuite, sur un autre chantillon de sujets, que lon obtient bien les mmes indicateurs des caractristiques des items (a, b et c selon le modle choisi). Cette exigence reprsente probablement lun des freins les plus importants lutilisation de ces modles.
Unidimensionnalit de la mesure et indpendance locale des items Les modles MRI ncessitent certaines conditions mathmatiques pour tre utiliss, en particulier une condition dunidimensionnalit et une condition dindpendance locale. Lunidimensionnalit1 est obtenue si tous les items mesurent bien un seul et mme trait : le trait latent (la comptence). Autrement dit, les diffrences individuelles entre les sujets ne doivent tre expliques que par leur diffrence de comptence. Lune des possibilits de vrifier cette condition est de procder une analyse factorielle des donnes qui doit aboutir un seul facteur commun (Laveault et Grgoire, 1997). Lindpendance locale est obtenue si la rponse un item est indpendante de la rponse aux autres items. Cette condition implique que tous les items doivent tre indpendants les uns des autres. Par exemple, si pour donner la rponse un item le sujet doit prendre en compte un rsultat obtenu un item prcdant, cette condition nest pas respecte. On parle alors de violation des conditions dindpendance locale en raison des principes de construction de ces items.
1. Des modles MRI multidimensionnels ont galement t dvelopps (Vrignaud, 1996).
96
Malgr ces limites contraignantes, les modles MRI prsentent plusieurs intrts. Nous prsenterons en particulier les avantages de ces modles pour lanalyse des items, pour la possibilit quils offrent de cration de banques ditems, de tests sur mesure et enfin de tests adaptatifs.
Analyse des items Pour lanalyse psychomtrique des items, les modles MRI permettent diffrents types danalyse : lanalyse de linformation apporte par un item, lanalyse de linformation apporte par un test et lanalyse des biais. On considre que linformation apporte par un item est maximale lorsque son niveau de difficult (paramtre b) correspond au niveau de comptence du sujet valu : ainsi un item de difficult moyenne (b = 0) apportera un maximum dinformation pour des sujets de niveau moyen , car un cart modr de comptence entre ces sujets permettra de distinguer ceux qui ont une bonne probabilit de le russir (en donnant la bonne rponse) de ceux qui ont une faible probabilit de le russir. Tandis que pour ce mme item moyen , linformation apporte sera limite pour les autres sujets : les sujets de faible niveau de comptence ayant une forte probabilit de lchouer, et les sujets plus comptents une forte probabilit de le russir. Par ailleurs, cette quantit dinformation dpend aussi du pouvoir discriminant de litem, donc de la valeur de sa pente (paramtre a). Ainsi, un item peu discriminant (pente faible) avec une volution lente de sa probabilit de russite, nous apportera peu dinformation. Par contre un item fort pouvoir discriminant sera plus informatif. La quantit dinformation apporte par chaque item peut tre value ainsi que le niveau pour lequel cette information est maximale (Vrignaud, 1996). Il devient alors possible de slectionner les items les plus informatifs pour un niveau de comptence donn. partir des estimations de linformation apporte par chaque item il est possible dvaluer la quantit dinformation du test, ainsi que le niveau de comptence o cette information est maximale. partir de ces analyses, il est possible de comparer diffrentes combinaisons ditems de faon obtenir une preuve correspondant des objectifs prcis (cration dpreuves sur mesure). Ainsi, par exemple, si lobjectif de lvaluation est de slectionner les sujets les plus performants il faudra conserver les items qui apportent un maximum dinformation un niveau lev de comptence. Par contre, si lobjectif est dobtenir une valuation fine de tous les sujets, le test devra apporter de linformation sur toute lchelle de comptence.
97
Enfin, concernant lanalyse des biais, les modles MRI reprsentent lune des possibilits pour reprer les items prsentant un fonctionnement diffrentiel (F.D.I). Le principe gnral est le suivant : aprs avoir effectu lopration de calibrage des items, on vrifie que pour deux groupes de sujets de niveau de comptence quivalent un mme item ne doit pas se diffrencier sur ses paramtres (et en particulier sur son paramtre de difficult). Sinon, il y a un FDI, quil faut alors essayer de comprendre. On trouvera dans Flieller (1999) et dans Vrignaud (2002a et 2001) des exemples danalyse des biais par ces modles MRI.
Banques ditems, tests sur mesure et tests adaptatifs Un autre intrt majeur de ces modles MRI concerne la possibilit de crer, et de grer, des banques ditems. Quest-ce quune banque ditems ?
Une banque ditems est une collection ditems organiss, classs et catalogus, tels des livres dans une librairie, en vue de faciliter la construction dune grande varit de tests de performance et dautres types de tests mentaux (Choppin, 1988, cit par Dickes et al., 1994, p. 76).
partir dune telle rserve ditems, dont on connat les principales caractristiques (opration de calibrage des items), la construction dun ensemble assez vaste de tests est donc possible (constitus ditems ventuellement diffrents, mais provenant de la mme banque), adapt chacun une population particulire et/ou un objectif dtermin. Cette possibilit de tests sur mesure apporte une grande flexibilit dans llaboration dpreuves et/ou dans leur utilisation. Quelques exemples :
Il devient possible de comparer deux sujets (ou deux groupes de sujets),
mme sils nont pas pass les mmes preuves, sur leur score ; Il est galement possible de crer des versions strictement parallles de tests dont on est assur de lquivalence du niveau de difficult ; Il est galement possible de slectionner certaines combinaisons ditems, combinaisons adaptes des objectifs diffrents : cest la notion de tests sur mesure. Lintrt et les limites des banques ditems ont t abords dans louvrage de Dickes et al. (1994, p. 76- 78).
98
Dune manire plus gnrale, ces modles MRI apportent une flexibilit aux outils et procdures dvaluation que ne permet pas la thorie classique des tests. Il est galement possible denvisager des tests adaptatifs, le plus souvent informatiss, qui vont permettre de slectionner les items les plus proches du niveau du sujet. Dans ce cas, le logiciel slectionne toujours litem le plus adapt en fonction des rponses du sujet : en cas de russite le logiciel slectionne alors un item plus difficile, en cas dchec, le logiciel slectionne un item plus facile. Ainsi, par rapport un test classique on maximise ici le nombre ditems pertinents par rapport au niveau du sujet, et/ou on rduit le temps de passation. De plus, avec cette approche plus fine du niveau du sujet on diminue galement lerreur de mesure. Pour des exemples concrets dapplications des MRI on peut consulter Devouche (2003) et Martin (2003). Ces deux exemples concernent des valuations de connaissances mais le parallle avec des valuations psychologiques est ais raliser. Un autre intrt de ces modles MRI repose sur le fait que le niveau de comptence du sujet ne se dfinit plus comme sa position dans une certaine population (principe de ltalonnage) mais se dtermine par rapport sa probabilit de russir les items. Do la possibilit danalyser finement le contenu des items et la nature de la tche demande. La capacit du sujet peut donc se dfinir en fonction de tches prcises et non plus en rfrence au niveau de russite des autres sujets. On peut alors dfinir plus aisment la zone de comptence du sujet, par exemple en dlimitant les items pour lesquels il a une bonne probabilit de russite (P suprieur .70 par exemple). Enfin, les modles MRI permettraient de diagnostiquer de manire plus prcise les sujets haut potentiel (Caroff, 2004).
Conclusion sur les modles MRI
Si, pour certains auteurs ces modles constituent un progrs majeur dans le champ de la psychomtrie (Dickes et al., 1994, p. 201) dautres auteurs, comme Reuchlin, sinterrogent sur la pertinence mme de ces modles MRI en psychologie (Reuchlin, 1997). Lune des critiques de Reuchlin concerne les bases mme du modle probabiliste. partir de la possibilit dvaluer le niveau des sujets par des items diffrents, il donne lexemple suivant : un sujet qui fournit frquemment des bonnes rponses des items dun seuil donn de difficult sera crdit du mme niveau de comptence
99
quun autre sujet qui fournit moins souvent des bonnes rponses des items plus difficiles. Si, nous dit Reuchlin, il est incontestable quun sujet qui rpond correctement, mme rarement, des questions difficiles, est capable de rpondre correctement des questions plus faciles, linverse nest pas du tout vident. En effet, ce nest pas parce quun sujet rpond souvent correctement des questions faciles, quil pourra rpondre, mme rarement, correctement des questions difficiles. Reuchlin touche ici lun des fondements des modles MRI :
Lquivalence, fondamentalement postule par le modle, entre la frquence des rponses et le niveau daptitude quexige chacune delles nest quune convention formelle hautement contestable lorsquon passe du modle aux ralits psychologiques auxquelles on lapplique. (Reuchlin, 1997, p. 234).
Selon cet auteur lapplication de ces modles MRI reste limite pour les psychologues :
Ltude des modles de rponse litem a suscit un vif intrt chez certains mathmaticiens trouvant des thmes de recherche dans les problmes poss par la mesure en psychologie. Il est possible que des psychologues puissent, dans certains cas, utiliser les rsultats de leurs travaux. (Reuchlin, 1997, p. 235).
Malgr les limites indiques, il est fort possible que dans un avenir trs proche des tests utilisables en France reposent sur ces modles MRI. Le psychologue doit alors en connatre les bases, les intrts mais aussi les limites afin de conserver, malgr la complexification mthodologique, ses capacits danalyse critique des outils quil utilise. Esprons que ces futurs tests soient accompagns de documents explicatifs et/ou de formation had hoc favorisant cette analyse critique.
10. Conclusion
Nous avons prsent dans ce chapitre les principales notions de psychomtrie utiles tout praticien des tests, pour lui permettre une utilisation valide et raisonne des outils quil utilise, notamment en ayant ce regard critique qui lui permettra de mieux en cerner les conditions dutilisation et de mieux en matriser les modalits de mise en uvre et dinterprtation.
100
Ce chapitre rappelle, en particulier, pourquoi il est ncessaire de respecter scrupuleusement les consignes de passation, pourquoi il est prfrable (et plus fiable) dentourer le score observ dun intervalle de confiance, pourquoi il est utile de connatre les diffrents types dtalonnages pour interprter correctement le score dun sujet... Il souligne galement la ncessit de lire attentivement les manuels de tests et les informations quils contiennent. Ces recommandations viennent en conformit avec ce que prconise le Code de dontologie des psychologues (voir en annexe). Ce code insiste par exemple sur la ncessit de porter une apprciation critique sur les mthodes et techniques utiliss par les psychologues (article 17), et indique que les techniques utilises par le psychologue (...) doivent avoir t scientifiquement valides (article 18). Nous dvelopperons plus loin (dans le chapitre 8) les points essentiels de ce code, ainsi que ceux figurant dans les recommandations internationales sur lutilisation des tests.
DEUXIME PARTIE
Les principaux tests dintelligence
CHAPITRE 3
Les chelles dintelligence
Sommaire
L L L L
1. De lchelle mtrique de Binet & Simon aux chelles de Weschler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Le WISC-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Le WISC-IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. La WAIS-III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 105 Page 112 Page 144 Page 173
105
1.
De lchelle mtrique de Binet & Simon aux chelles de Weschler

Lune des principales caractristiques des chelles dintelligence est quelles reposent sur une conception globale de lintelligence et sur une approche empirique de sa mesure :
Lvaluation porte sur les processus suprieurs (mmoire, raisonnement...)
censs intervenir dans un ensemble varis de situations, ce qui explique le recours diffrents types ditems pour valuer cette capacit globale ; La dmarche est qualifie dempirique car la slection de ces diffrents types ditems repose plus sur des constats relatifs aux capacits de ces items diffrencier des sujets dges diffrents que sur une approche thorique explicite de lintelligence. Les meilleurs reprsentants de cette approche, sont bien sr Alfred Binet et Thodore Simon, ainsi que Daniel Weschler. Aprs une prsentation synthtique de lpreuve de Binet-Simon, nous prsenterons plus en dtail les chelles de Wechsler : versions WISC pour enfants et WAIS pour adultes. Toutes ces preuves ont deux principaux points communs. Il sagit dune part, de leur caractre composite : ces preuves regroupent des items trs diffrents les uns des autres (on utilise dailleurs galement le terme dchelle composite pour les dcrire), et dautre part de la rfrence historique la notion dge mental, qui donnera lieu ensuite celle de Quotient Intellectuel (Q.I.).
Lchelle Mtrique dIntelligence de Binet & Simon
Nous avons voqu dans le premier chapitre de ce livre comment, au tout dbut du XXe sicle, suite une demande sociale, Alfred Binet et Thodore Simon ont labor lchelle mtrique dintelligence. Pour ces auteurs, lintelligence repose principalement sur des capacits de jugement :
Il y a dans lintelligence, nous semble-t-il, un organe fondamental, celui dont le dfaut ou laltration importe le plus pour la vie pratique, cest le jugement, autrement dit le bon sens, le sens pratique, linitiative, la capacit de sadapter. Bien juger, bien comprendre, bien raisonner, ce
106
sont les ressorts essentiels de lintelligence. (Binet et Simon, 1905b, p. 196-197).
Pour laborer leur preuve, les auteurs ont slectionn les items selon deux critres principaux, qui illustrent les fondements de leur approche empirique :
Ces items doivent correspondre un ensemble vari de situations, proches
de situations relles, de faon prendre en compte un ensemble vaste de conduites. Lensemble de ces items forme alors une preuve composite et htrogne :
Les tests doivent tre htrognes, cela va de soi, afin dembrasser rapidement un vaste champ dobservation , crivent Binet et Simon (1905b, p. 196) ;
Ces items doivent galement permettre didentifier les enfants prsentant
un retard de dveloppement mental (dnomms lpoque enfants anormaux ) et plus globalement, de diffrencier les enfants selon leur ge. Cela est rendu possible par une gradation de la difficult des items au sein dune preuve progressive que lon appelle chelle . La russite un item donn, ou un ensemble ditems, correspond ce que les auteurs appellent un niveau mental . Ce niveau mental, ou niveau de dveloppement, correspond ce qui sera plus tard appel ge mental :
Bien que Binet, comme lont relev Zazzo et al. (1966), nutilise pas lexpression ge mental mais parle de niveau mental, il peut nanmoins tre considr comme linventeur de la notion dge mental. (Huteau et Lautrey, 1999a, p. 23).
Aprs une premire version de lchelle mtrique dintelligence labore en 1905, une seconde version parat en 1908 puis une troisime version qui sera la version dfinitive en 1911. Dans cette chelle, des rfrences en termes dge moyen de russite sont indiques, ce qui permet alors de calculer lge mental du sujet. Cet indicateur dge mental permet de situer les performances dun enfant par rapport aux russites moyennes observes dans les diffrentes catgories dge. Par exemple, si un enfant g de 9 ans (ge biologique) russit les preuves qui ne sont, en moyenne, russies que par des enfants de 10 ans, on dira alors quil a un ge mental de 10 ans. Il sera donc en avance dun an dans son dveloppement mental. loppos, sil choue la plupart des preuves caractristiques de son ge et quil ne russit que les items russis,
107
en moyenne, par des enfants de 8 ans, on dira alors quil a un ge mental de 8 ans. Dans ce cas, il prsentera un retard de dveloppement de 1 an. Cette premire chelle mtrique, qui ne concernait que des enfants dge scolaire, va connaitre un succs considrable tant en France qu ltranger, et plus particulirement en Amrique du Nord. Une premire adaptation sera ralise aux tats-Unis ds 1909 par Goddard (Huteau et Lautrey, 1999a), puis en 1916 par Terman, dans une version connue sous lappellation Stanford-Binet , rvise en 1937, 1960, 1972 et 1986 (Bernier et Pietrulewicz, 1997). Cependant, en France, et malgr le succs de cette premire chelle, il faudra attendre 1966 et les travaux de Zazzo et de son quipe, pour quune version rnove apparaisse : la Nouvelle chelle Mtrique dIntelligence ou NEMI (Zazzo et al., 1966). Depuis cette date, aucune autre rnovation ou rtalonnage na eu lieu jusquau rcent travail de Cognet et sa proposition de NEMI-II (Cognet, 2005). Cette situation explique que la NEMI ne soit actuellement quasiment plus utilise en France, ni sans doute enseigne dans les Universits. La diffusion de la NEMI-II va peut-tre redonner toute sa place cette preuve franaise. linverse de la France, paradoxalement, les adaptations du test de Binet-Simon ont bnfici aux tats-Unis de rvisions rgulires et de plusieurs mises jour des talonnages et sont encore largement utilises, Par exemple, le Stanford-Binet, preuve adapte de lchelle Binet-Simon en 1916 par Terman, psychologue luniversit de Stanford, en est actuellement sa quatrime version (Stanford-Binet-IV). Cette dernire version de 1986, permet dvaluer des sujets gs de 2 ans 23 ans laide de 15 subtests1 qui reprsentent quatre grandes capacits intellectuelles : raisonnement verbal, raisonnement quantitatif, raisonnement abstrait-visuel et mmoire court terme. Dans cette preuve, le sujet est donc caractris par une note pour chacun de ces quatre domaines cognitifs, ainsi que par une note globale. Bien que les bases thoriques de cette version Stanford-Binet-IV, et donc la fiabilit de ces quatre indicateurs, ne semblent pas tre suffisamment tablies (Kaufman, 2001) il est regrettable, selon nous, que les praticiens franais naient pu bnficier dune telle version rnove de lpreuve de Binet-Simon. Ce manque de disponibilit en France dpreuve issue de lchelle de Binet et Simon est sans doute lune des raisons du grand succs des preuves
1. En fonction de son ge, le sujet ne passe quune partie des subtests (de 8 12).
108
de Wechsler, qui na pas rellement de concurrents. Larriv de la NEMI-II1 risque de modifier cet tat de fait.
Les chelles de Wechsler
Daniel Wechsler (1896-1981) est avant tout un psychologue clinicien. Il est connu pour ses chelles dintelligence qui sont parmi les tests les plus utiliss dans le monde : WPPSI pour les jeunes enfants ; WISC pour les enfants dge scolaire ; WAIS pour les adultes. Ces diffrentes preuves ont t labores aux tats-Unis et ont ensuite t adaptes dans de nombreux pays. Nous naborderons ici que les versions WISC et WAIS. Lapproche de lintelligence de Wechsler reste trs proche de lapproche de Binet. En effet pour Wechsler :
Lintelligence est la capacit globale ou complexe de lindividu dagir dans un but dtermin, de penser dune manire rationnelle et davoir des rapports utiles avec son milieu. (Wechsler, 1956, p. 3)
Pour valuer cette capacit globale, il faut alors, comme dans lchelle mtrique de Binet-Simon, prendre un compte un ensemble vari de situations. Cest pour cette raison que les chelles de Wechsler comportent des situations dvaluation assez diffrentes les unes des autres et constituent ainsi, comme nous lavons dj indiqu, des preuves composites. Les chelles de Wechsler, comme lchelle mtrique, ont t cres afin dvaluer une intelligence globale, une intelligence gnrale qui peut tre dfinie comme la rsultante dun ensemble daptitudes :
Lintelligence gnrale est en effet la rsultante de linteraction dun nombre thorique infini daptitudes diffrentes. (Grgoire, 2000a, p. 13)
On retrouve bien ici la mme volont que celle qui tait affiche par Binet de crer des preuves htrognes afin de mieux valuer cette capacit globale
1. La NEMI-II est utilisable pour des enfants gs de 4 ans 1 12 ans 1 . Elle comporte quatre 2 2 preuves obligatoires (Connaissances, Comparaisons, Matrices analogiques et Vocabulaire) et trois preuves facultatives (Adaptation sociale, Copie de figures gomtriques et Comptage de cubes).
109
du sujet. Nous retrouvons ici un exemple de lien troit entre conception thorique de lintelligence et caractristiques du test. Mais lapproche de Wechsler se distingue de celle de Binet sur les deux points suivants :
Labandon de la notion dge mental ; La distinction de deux domaines dintelligence.
Concernant le premier point rappelons que depuis Stern, le Q.I. est un rapport (quotient) entre lge mental observ au test et lge rel (chronologique) du sujet. Ce quotient a un sens lorsque le sujet est dans une priode de dveloppement, ce qui est le cas pour des enfants. Il en a par contre beaucoup moins pour des adultes car, au-del de 18-20 ans, le niveau de performance dans les exercices proposs ne progresse plus, en moyenne, en fonction de lge chronologique mais a mme tendance plafonner puis ventuellement dcliner ultrieurement sous leffet du vieillissement (voir chapitre 1). Le calcul dun Q.I. chez ladulte selon la mthode de Stern, aboutirait donc une baisse progressive du Q.I. avec lavance en ge. Cest lune des raisons pour lesquelles Wechsler abandonne la notion dge mental et la dfinition du Q.I. qui en dcoule, et opte pour la comparaison des scores du sujet avec les scores des sujets de la mme classe dge. Il conserve la traduction du score obtenu en Q.I. mais celui-ci nest plus un quotient mais une indication de la place du sujet (son rang) dans une population de rfrence. Cest le principe de ltalonnage qui est appliqu ici. Avec Weschler, le Q.I. devient un indicateur de la position du niveau du sujet par rapport celui des sujets de mme ge et non plus un indicateur relatif une comparaison entre un ge mental et un ge chronologique.
Si Wechsler dcide de conserver le terme de Q.I., cest que cette notion est dj trs largement utilise cette poque. Le terme est donc une concession aux pratiques tablies :
Le petit tour de passe-passe est dappeler Quotient Intellectuel un score qui nest pas un quotient mais un rang dans un groupe de rfrence. Huteau et Lautrey (1999a, p. 124).
Ce nouvel indicateur Q.I se distribue selon une loi Normale (distribution Gaussienne). Pour faciliter le rapprochement avec le Q.I traditionnel, Wechsler dcide de fixer la moyenne de ce nouvel indice 100 avec un cart type de 15.
110
Attention ! Le Q.I. nest pas une valuation absolue du niveau intellectuel mais une valuation relative de ce dernier en rfrence une classe dge. Par exemple, si un enfant de 8 ans et un enfant de 12 ans obtiennent tous les deux la mme valeur de Q.I. (par exemple, 115) il ne faut pas en conclure quils ont les mmes capacits intellectuelles ! Lenfant de 12 ans aura ici des capacits suprieures lenfant de 8 ans, mme sil a le mme Q.I. La mme valeur de Q.I., signifie simplement que ces deux enfants se situent tous les deux dans la mme position vis--vis de leur groupe de rfrence, mais chacun dans son groupe dge. La valeur de 115 nous indique que ces deux enfants se situent au-dessus de la moyenne de leur groupe dge (moyenne de 100 dans chaque groupe dge), et plus prcisment un cart type au-dessus de celle-ci (100 + 15). La seconde diffrence fondamentale entre lchelle de Binet-Simon et les chelles de Wechsler, repose sur la prsence de deux chelles distinctes, verbale et performance , dans les preuves de Wechsler car ce dernier remet en cause la forme monolithique de lintelligence du modle de Binet (voir chapitre 1). En effet, Wechsler considre que :
Les tests dAptitude Verbale, de Raisonnement Abstrait, et tous tests de mme genre quand ils sont utiliss seuls pour un examen de lintelligence gnrale, donnent seulement une image incomplte de la capacit dun individu sadapter et russir effectivement. (Wechsler, 1956, p. 14)
Pour pouvoir procder une valuation plus complte de lintelligence gnrale il dcide dintgrer dautres types ditems et en particulier des items qui ne ncessitent pas lusage du langage pour tre rsolus. Cela permet dvaluer une intelligence non verbale (ou de raliser une valuation non verbale de lintelligence). Ces items sont regroups dans une chelle dite chelle de Performance alors que les autres items forment une chelle Verbale . Chaque chelle fait lobjet dune valuation spare, avec au final, trois indicateurs des performances de sujet : un indicateur global (le Q.I.T ou Q.I. Total), et un indicateur dans chacune des chelles (Q.I Verbal , ou QIV et Q.I de Performance , ou QIP). Par la suite, dans les versions les plus rcentes (le WISC-IV) des indicateurs factoriels viendront remplacer ces indicateurs de type Q.I.
111
Les diffrentes chelles de Wechsler La premire chelle de Wechsler est diffuse aux tats-Unis en 1939 sous le nom de Wechsler-Bellevue. Cette chelle dintelligence est destine aux adultes. Pour laborer cette chelle, Wechsler sinspire fortement de tests existants, et en particulier des tests de larme amricaine Army Alpha test et Army Beta Test (Wechsler, 1956). Cette premire chelle sera ensuite rvise sous le terme de WAIS (Wechsler Adult Intelligence Scale ) en 1955, puis de WAIS-R (R pour Rvise) en 1981 et enfin de WAIS-III (3e version de la WAIS) en 19971 . Une version pour enfants et adolescents parat aux tats Unis en 1949 : le WISC (Wechsler Intelligence Scale for Children). Rvise en 1974 (WISC-R), puis en 1991 (WISC-III) et enfin en 20022 (WISC-IV). Avant de prsenter plus en dtail les versions les plus rcentes (WISC-III, WISC-IV et WAIS-III) interrogeons-nous sur ces rnovations : pourquoi ces chelles sont rgulirement rnoves ? Pourquoi est-il ncessaire de rnover rgulirement les tests dintelligence ? Nous pouvons distinguer trois raisons principales ces rnovations : 1 Obsolescence des items Certains items peuvent vieillir au niveau du contenu, et tre alors en dcalage avec lenvironnement actuel des sujets. Mais ils peuvent galement vieillir au niveau de la forme : type de graphisme, type de reprsentation, utilisation dimages en noir et blanc...Avec un effet nfaste possible sur le niveau dintrt du sujet pour les preuves, donc sur son niveau dimplication dans les tches proposes. Par exemple, on peut remarquer lapparition de la couleur dans certains items imags du WISC-III alors que des reprsentations en noir et blanc taient utilises pour les items de la prcdente version WISC-R.
1. Toutes les dates concernent ici les versions originales amricaines. Les dates des adaptations franaises seront donnes plus loin dans la prsentation de ces preuves. 2. Idem note prcdente.
112
2 Perte du pouvoir discriminant et obsolescence des talonnages Du fait de leffet Flynn (voir chapitre 1), un certain nombre de tests ne permettent plus de distinguer de faon satisfaisante les sujets car ils sont devenus en moyenne trop faciles. Un relvement du niveau de difficult par remplacement dun certain nombre ditems peut savrer ncessaire. Pour cette raison il est ncessaire dtablir rgulirement de nouveaux talonnages. Sinon, en utilisant un talonnage trop ancien, on risque de surestimer les capacits intellectuelles du sujet. 3 Progrs des connaissances thoriques et mthodologiques Paralllement lutilisation des tests, des tudes et des recherches sont menes sur les preuves et sur les dimensions values. Pour prendre en compte les rsultats de ces recherches il est parfois ncessaire dapporter des modifications concernant la structure mme de lpreuve afin de rapprocher ce qui est valu par lpreuve des modles thoriques les plus rcents et/ou des avances mthodologiques. Cest pour cette raison par exemple, dont nous exposerons plus loin les lments explicatifs, que le WISC-IV comporte de nouveaux items et de nouveaux subtests par rapport lancienne version WISC-III, qui comportait lui-mme de nouvelles situations dvaluation par rapport la version prcdente WISC-R.
2.
Le WISC-III
Bien que les psychologues Francophones disposent depuis 2005 de la version WISC-IV, nous avons choisi dintgrer une prsentation du WISC-III avant de prsenter la version la plus rcente. Il nous semble en effet ncessaire de connatre les bases du WISC-III afin de mieux comprendre les changements (importants) effectus avec larrive du WISC-IV. Le lecteur familier du WISC-III, et de linterprtation de ses scores, pourra ventuellement survoler cette partie et/ou passer directement au chapitre suivant consacr au WISC-IV. Le WISC1 , dans ses diffrentes versions, est lchelle dintelligence de Wechsler utilisable pour des enfants et adolescents de 6 16 ans. Cest
1. Wechsler Intelligence Scale for Children.
113
probablement lun des tests les plus connus et les plus utiliss dans le monde. En France il est trs utilis, par exemple, dans le cadre de consultations en cabinet, en structure hospitalire et dans lducation nationale (voir Castro et al., 1996). Nous prsenterons ici les principales caractristiques de la version WISCIII. Pour une prsentation plus exhaustive on peut consulter le manuel de lpreuve (Wechsler, 1996) ainsi que louvrage trs complet de Grgoire1 qui comporte une mthodologie dinterprtation des rsultats (2000a). On peut galement consulter louvrage de Arbisio (2003) pour une analyse des rsultats orientation plus psychanalytique.
Prsentation de lpreuve
Historique La premire version WISC date de 1949, adapte en France en 1958. Cette version a t rnove en 1974, version WISC-R, et adapte en France en 1981. La version WISC-III parat ensuite en 1991, adapte en France en 1996. La dernire version WISC-IV est sortie en 2002 aux tats-Unis, avec une diffusion en France en 2005. Ces versions sont diffuses par les ECPA.
Le matriel Le WISC-III se prsente dans une mallette qui regroupe le matriel de passation. Le psychologue dispose dun manuel trs complet (294 pages) qui donne toutes les indications ncessaires la passation et la cotation de lpreuve (Wechsler, 1996). Comme dans la plupart des tests passation individuelle, cest le psychologue qui consigne les rponses du sujet sur le cahier de passation, avec sur la premire page, des espaces rservs pour reporter les scores du sujet. Le praticien peut aussi utiliser la grille dinterprtation des scores propose par Grgoire (Grgoire, 1996).
1. Jacques Grgoire est le conseiller scientifique des ECPA pour les adaptations franaises des chelles de Wechsler.
114
Les subtests Lpreuve se compose de plusieurs preuves indpendantes, appeles subtests. Chaque subtest comporte plusieurs items, prsents dans un ordre hirarchis en fonction de leur niveau de difficult. Au total le WISC-III comporte 13 subtests, 6 pour lchelle verbale et 7 pour lchelle de performance. La passation de trois de ces subtests est optionnelle car les rsultats seulement 10 subtests sont ncessaires pour calculer les Q.I. Chaque subtest est reprsentatif dun certain type de situation, dun certain type de raisonnement.
Les subtests de lchelle Verbale Information : il sagit de rpondre des questions orales portant sur
des connaissances que lenfant a eu loccasion dacqurir. Ces connaissances sont utiles lenfant pour bien comprendre son environnement (30 items) ; Similitudes : la tche consiste trouver en quoi deux notions (ou deux objets) se ressemblent, trouver ce quil y a de commun entre deux termes (19 items) ; Arithmtique : petits problmes arithmtiques simples, rsoudre mentalement (24 items) ; Vocabulaire : consiste indiquer la dfinition de mots (30 items) ; Comprhension : lenfant doit rpondre des questions concernant des situations relatives la vie sociale (adaptation par rapport des situations de la vie courante) (18 items) ; Mmoire immdiate des chiffres : lenfant doit rpter haute voix une srie de chiffres qui est lue par le psychologue (mesure de lempan mnsique). Dans une premire partie lenfant doit rpter les chiffres dans lordre de prsentation, dans une seconde partie il doit les rpter dans lordre inverse. Les sries comportent de 2 9 chiffres.
Les subtests de lchelle de Performance Compltement dimages : lenfant doit indiquer la partie manquante dun
objet reprsent par une image (30 items) ; Code : lenfant doit associer, par crit, des chiffres des symboles en respectant des rgles dassociation ; Arrangement dimages : srie dimages prsentes dans le dsordre remettre dans un ordre logique et chronologique (14 items) ;
115
Cubes : reproduction de configurations gomtriques laide de cubes
bicolores (12 items) ; Assemblages dobjets : sorte de puzzle reconstruire (5 items) ; Symboles : lenfant doit indiquer ici sil retrouve des symboles cibles au milieu dautres symboles ; Labyrinthes : lenfant doit tracer avec un crayon un itinraire correct dans un labyrinthe (10 items).
Standardisation
La passation La passation est individuelle et ncessite un temps denviron 1 h 15 1 h 45 (dure variable en fonction de lge du sujet et de son niveau de russite). La passation des subtests est effectue selon un ordre dtermin, avec alternance entre les subtests verbaux et les subtests de performance afin de prserver chez le sujet un certain niveau de motivation. En fonction de lge de lenfant il est prvu de ne pas prsenter les premiers items de certains subtests (considrs comme trop faciles pour les enfants plus gs). Pour chaque subtest des rgles darrt sont aussi indiques afin, l encore, dadapter la passation au niveau de performance des enfants. Par exemple, dans le subtest information le psychologue doit arrter la passation aprs 5 checs conscutifs : on considre ainsi quaprs cinq checs la probabilit de fournir une bonne rponse est quasi-nulle et quil est donc inutile de faire passer les autres items, plus difficiles. Enfin, certains subtests sont chronomtrs, dautres en temps libre. Le manuel indique trs prcisment les rgles de passation pour chaque subtest.
La cotation et les indicateurs de la performance du sujet

Cotation
Du fait du nombre de subtests, et de leur diversit, la cotation du WISC-III est plus complexe que la cotation dun simple test de type QCM mais le manuel donne toutes les indications pertinentes pour effectuer cette cotation de manire fiable. Pour certains subtests, la cotation des items est classique : 1 point par bonne rponse et 0 point en cas dchec. Si le temps est limit on accordera ventuellement un bonus en fonction du temps rel de ralisation,
116
do la ncessit de prendre en compte ce temps de ralisation (utilisation dun chronomtre pour ces subtests). Pour trois subtests de lchelle Verbale la cotation est plus fine : on accorde 0, 1 ou 2 points en fonction de la qualit de la rponse du sujet. Par exemple, dans le subtest similitude si la rponse un item repose sur une proprit ou une fonction spcifique commune aux deux objets ou concepts (Wechsler, 1996, p. 87) on accordera 1 point, mais si la rponse est plus labore et quelle repose sur une gnralisation pertinente relative un aspect important des deux lments de la paire (Wechsler, 1996, p. 87) on accordera 2 points. De manire garantir la fidlit de la cotation, le manuel indique, pour chaque subtest, les rgles gnrales de cotation ainsi quune liste dtaille des principales rponses possibles avec les cotations affrentes.
Calcul du score par subtest
Une fois la cotation des items ralise, on calcule les notes chaque subtest en additionnant lensemble des notes obtenues aux diffrents items du subtest. On obtient alors un score pour chaque subtest, qui est en fait une note brute. Pour convertir ces notes brutes en notes talonnes, dites notes standard, il faut consulter les tables dtalonnage fournies dans le manuel. Bien entendu, on aura calcul au pralable lge du sujet afin dutiliser les tables pertinentes. Les notes standard sont donc des notes normalises (talonnage normalis), pouvant varier de 1 19, avec une moyenne de 10 et un cart type de 3. Le fait que les scores tous les subtests soient exprims dans la mme mtrique (notes standard) va permettre alors deffectuer des comparaisons du niveau de russite du sujet en fonction des subtests (voir plus loin le dtail de linterprtation des scores).
Calcul des Q.I.
Pour le calcul des Q.I., on peut distinguer deux tapes : le calcul des notes de chaque chelle, la transformation de ces notes en Q.I. Pour le calcul des notes dchelles, il faut additionner, pour chaque chelle, les notes standard des cinq subtests de lchelle. On obtient alors une note comprise entre 5 et 95, quil faut ensuite transformer en Q.I. grce aux tables du manuel. On obtient alors deux Q.I., un Q.I. pour lchelle Verbale, dit Q.I.V., et un Q.I. pour lchelle de Performance, dit Q.I.P. Pour obtenir le Q.I. Total, ou QIT, il faut additionner les deux notes dchelles et nouveau consulter les tables correspondantes. Attention, ce QIT ne correspond pas
117
exactement la moyenne arithmtique des deux Q.I. Par exemple, une note standard verbale de 58 (qui correspond un QIV de 110), additionne une note standard de performance de 64 (qui correspond un QIP de 120), va donner une note totale de 122, ce qui correspond un QIT de 117 (Wechsler, 1996, Table A.4, p. 254) alors que la moyenne arithmtique des deux Q.I. est de 115. Ces trois indicateurs de Q.I. sont exprims dans la mme mtrique : moyenne de 100 et cart type de 15. Cet talonnage normalis des Q.I. nous permet de situer le sujet par rapport aux autres sujets de mme ge : par exemple, un Q.I.T de 115 nous indique que le sujet se situe, sur cet indicateur, un cart type au-dessus de la moyenne, ce qui signifie que ce score nest obtenu, ou dpass, que par 15,85 % des sujets (voir dans le chapitre 2 de ce livre les caractristiques des talonnages de type Q.I.).
Calcul de lintervalle de confiance
Pour tous ces indicateurs de Q.I., comme plus globalement pour tout score un test, il est souhaitable de prendre en compte lerreur type de mesure afin dentourer le score observ dun intervalle de confiance. Rappelons que tout score observ nest quune estimation de la vraie valeur de la comptence du sujet sur la dimension value (cf. la thorie classique du score vrai, voir chapitre 2) et quil est prfrable de caractriser le niveau dun sujet par un intervalle de confiance plutt que par une valeur ponctuelle correspondant au score observ. Le WISC-III, comme les autres chelles de Wechsler, est lun des rares tests, sinon le seul, inciter fortement le psychologue prendre en compte cette erreur de mesure. En effet, dune part, le manuel comporte des tableaux qui donnent pour chaque Q.I. observ (QIT mais aussi QIV et QIP) les intervalles de confiance correspondants (aux seuils .05 et .10) ; dautre part, le psychologue doit indiquer ces intervalles en premire page du protocole du sujet, juste ct des scores observs. Par exemple, pour un QIT observ de 110, lintervalle de confiance au seuil .10 est de 104-115. Autrement dit, si on observe un score de 110 on peut estimer que le score vrai du sujet se situera 90 fois sur 100 entre 104 et 115. Le manuel fournit donc toutes les informations permettant au psychologue de prendre en compte cette erreur de mesure.
Calcul des Indices Factoriels
Enfin, sur cette version III du WISC, il est galement possible de calculer des Indices Factoriels, indices qui permettent de cerner plus prcisment un aspect spcifique du fonctionnement intellectuel du sujet. Nous prsenterons plus loin les bases thoriques (et les limites) de ces indices, et nous indiquons
118
ici uniquement les principes de calcul. Ces Indices Factoriels sont au nombre de trois : Indice Comprhension verbale (ou I.C.V), Indice Organisation perceptive (I.O.P), Indice Vitesse de traitement (I.V.T). Le calcul de ces indices suit la mme logique que le calcul des QIV et QIP : il faut additionner les valeurs des notes standards des subtests concerns puis consulter les tables du manuel afin de convertir ces notes en indicateurs. Ces indicateurs sont exprims dans la mme mtrique que les Q.I. (moyenne de 100 et cart type de 15) et il est galement prvu, dans le manuel et sur le protocole, dentourer ces indices dun intervalle de confiance. Le tableau 3.1 indique le rattachement des diffrents items aux Q.I. et aux indices factoriels.
Tableau 3.1 Rpartition des subtests sur les diffrents indicateurs du WISC-III.
a
Les 3 Q.I Subtests Information Similitudes Arithmtique Vocabulaire Comprhension Mmoire des chiffres Compltement dimages Code Arrangement dimages Cubes Assemblages dobjets Symboles Labyrinthes QIV X X X X X (X) X X X X X (X) (X) QIP QIT X X X X X (X) X X X X X (X) (X)
Les 3 Indices Factoriels ICV X X X X X X X X X X IOP IVT
a. Les parenthses signalent les subtests optionnels.
Ce tableau nous indique que le calcul de chaque Q.I. spcifique (QIV et QIP) repose sur cinq subtests, mais que le calcul des Indices Factoriels repose sur un nombre plus faible de subtests : quatre pour ICV et IOP et seulement deux pour IVT.
119
De ces six scores, seul le Q.I.T prend en compte lensemble des subtests. Cest donc bien lindicateur le plus complet et le plus fiable de cette chelle. On peut remarquer galement que lIndice Factoriel ICV reprend globalement les mmes subtests que le QIV (il manque juste le subtest arithmtique ), de mme pour lIndice Factoriel IOP et le QIP (il manque ici uniquement le subtests code). Certains subtests sont optionnels et sont destins soit remplacer un subtest dont le rsultat nest pas utilisable (en raison, par exemple, dun problme lors de la passation), soit investiguer une situation spcifique. Enfin, on remarque galement, et nous en verrons plus loin les raisons, que trois subtests (le subtest arithmtique et deux subtests optionnels : mmoire des chiffres et labyrinthes) ne sont rattachs aucun Indice Factoriel.
Les talonnages disponibles
Comme dans les autres chelles de Wechsler, on peut signaler la qualit des talonnages : ils sont raliss sur un nombre important de sujets, dont la reprsentativit est contrle. Pour le WISC-III, ltalonnage Franais repose sur 1 120 sujets, gs de 6 16 ans. Cet talonnage a t ralis en 1994-1995. Ces sujets ont t slectionns afin de former un chantillon reprsentatif de la population franaise des enfants de cet ge (type de scolarit suivie, CSP des parents...). Lge et le sexe ont galement t contrls. Au final, le manuel propose des talonnages par classes dges de 4 mois. Par exemple on utilisera ltalonnage [13 ans, 4 mois, 0 jour 13 ans, 7 mois, 30 jours] pour obtenir les notes standard dun enfant g de 13 ans, 6 mois. Les notes standard, les notes de Q.I. et les Indices Factoriels sont tous des scores talonns, qui suivent une loi Normale. Le tableau 3.2 indique les valeurs caractristiques de ces indicateurs.
Tableau 3.2 Valeurs caractristiques des indicateurs du WISC-III.
Indicateurs Notes standards Q.I.T QIV et QIP IOP, ICV, IVT Valeur mini 1 40 46 50 Valeur maxi 19 160 155 150 Moyenne 10 100 100 100 cart type 3 15 15 15
120
partir des valeurs du tableau 3.2 il est possible de calculer trs prcisment la position du sujet par rapport aux sujets du mme ge (voir galement le chapitre 2 de ce livre). On sait par exemple que seulement environ 16 % des sujets atteignent ou dpassent la valeur seuil moyenne + un cart type , soit 115 pour les Q.I. (et Indices Factoriels) et 13 pour les notes standard, et seulement environ 2 % des sujets atteint ou dpasse le seuil moyenne + deux carts types , soit 130 pour les Q.I. et 16 pour les notes standard. Dans les tableaux dtalonnages du manuel, les rangs percentiles sont indiqus pour toutes les valeurs des Q.I. et des Indices Factoriels. Pour les rangs percentiles des notes standard on peut consulter le tableau propos par Grgoire (Grgoire, 2004, tableau 23, p. 163). On saperoit alors, par exemple, que seulement 9 % des sujets atteignent o dpassent la note standard de 14. Il est trs important que le psychologue consulte ces rpartitions thoriques des scores au WISC-III afin de mieux interprter les rsultats du sujet. Par exemple, la rpartition des notes standard (variation de 1 19) peut sembler proche de la rpartition des notes scolaires (qui peuvent varier thoriquement de 0 20) mais en ralit, le plus souvent, cette rpartition est loin dtre comparable, en raison des valeurs caractristiques (moyenne et cart type) souvent diffrentes, ou inconnues, des notes scolaires. Lanalogie avec les rsultats scolaires est donc viter en labsence de vrification de leur distribution1 .
Les qualits psychomtriques du WISC-III
Le manuel du WISC-III contient de nombreuses informations relatives aux qualits psychomtriques du test, assorties, le plus souvent, dun rappel thorique des diffrentes notions utilises Nous analyserons ici les informations concernant la sensibilit, la fidlit et la validit du WISC-III.
La sensibilit La sensibilit dun test reprsente sa capacit diffrencier les sujets. Dans un test comme le WISC-III on peut distinguer deux aspects :
1. Pour reprendre notre exemple dune note de 14 dans un subtest du WISC-III, pour pouvoir effectuer un rapprochement avec une note scolaire de 14, il faudrait vrifier que lon observe bien le mme pourcentage de sujets (9 %) qui atteint ou dpasse cette note dans le cas dvaluations scolaires.
121
Une sensibilit dveloppementale 1 , qui reprsente la capacit du test
diffrencier des enfants dge diffrents ; Une sensibilit interindividuelle dans chaque classe dge, qui reprsente la capacit du test diffrencier les enfants du mme ge. Au niveau de la sensibilit dveloppementale, il faut vrifier quon observe bien une difficult progressive des items de chaque subtest afin que le WISCIII puisse tre vritablement considr comme une chelle de dveloppement. Lobservation de niveaux de russite diffrents en fonction de la classe dge permet galement de dterminer, et de valider, les rgles de dpart et darrt de chaque subtest. Rgles qui permettent, rappelons-le, de ne prsenter chaque enfant que les items les plus en relation avec son niveau de comptence et de rduire au final la dure de passation. Sans rentrer ici dans le dtail, on peut indiquer que les donnes des exprimentations prsentes dans le manuel confirment ces caractristiques dveloppementales du WISC-III. Au niveau de la sensibilit interindividuelle, il faut sassurer que les scores permettent bien de diffrencier les enfants du mme ge. Nous pouvons vrifier sur le tableau 3.2 (plus haut) que cette diffrenciation est assure par ltendue des diffrents scores possibles et la rpartition gaussienne de ces scores. Par exemple, au niveau des notes standards, elles varient de 1 19 (moyenne de 10 et cart type de 3) et couvrent ainsi trois carts types de part et dautre de la moyenne, ce qui assure un bon niveau de diffrenciation des sujets. On observe cette mme qualit de diffrenciation au niveau des Q.I. Les indices factoriels prsentent une tendue un peu plus rduite que les Q.I. mais assurent un bon degr de diffrenciation.
La fidlit Rappelons que la fidlit concerne la constance de la mesure. Nous trouvons dans le manuel (Wechsler, 1996) des informations sur diffrents types de fidlit :
La fidlit, ou consistance, interne, est value par la mthode pair-impair.
Les coefficients varient entre .64 et .84 selon les subtests, mais de .89 .95 selon les Q.I. (p. 178). Il est tout fait normal que les valeurs de fidlit soient plus importantes au niveau des Q.I. car ils sont constitus par davantage de scores ;
1. Dans le manuel cette sensibilit est nomme sensibilit gntique (Wechsler, 1996, p. 16).
122
La fidlit temporelle a t value par la mthode test-retest environ
30 jours dintervalle. Les coefficients varient ici de .57 .89 selon les subtests, et de .87 .94 selon les Q.I. La fidlit intercotateur varie de .95 .99 selon les subtests, ce qui est quasiment parfait ! Lerreur type de mesure est calcule pour chaque subtest et pour chaque indicateur global. partir de ces valeurs, il est possible de calculer les intervalles de confiance qui entourent le score observ. Comme nous lavons dj indiqu, le manuel facilite ici la tche du psychologue en donnant directement les valeurs de ces intervalles pour chaque valeur de Q.I. (aux seuils .10 et .05), ainsi que pour chaque Indice Factoriel. Ces diffrents indicateurs tmoignent dun bon niveau de fidlit du WISC-III.
La validit Que mesure le WISC-III ? Quel est la fiabilit des Q.I. et celle des Indices Factoriels ? Ces questions renvoient la validit du test. Nous prsenterons dans un premier temps des lments danalyse de la validit du WISC-III comme preuve dintelligence, puis, dans un second temps, nous questionnerons la validit de ses diffrents indicateurs (Q.I. et Indices Factoriels).
La validit du WISC-III comme mesure de lintelligence
Il sagit ici danalyser les liaisons observes entre les scores obtenus par les mmes sujets au WISC-III et dautres tests dintelligence. Nous trouvons dans le manuel diffrentes tudes ce sujet, la plupart portent sur des populations amricaines et sur le WISC-R, prdcesseur du WISC-III. Nous ne pouvons pas ici prsenter une synthse de toutes ces tudes mais nous retiendrons, dune part, que la validit des chelles de Wechsler, et donc du WISC-III, comme mesure de lintelligence nest plus dmontrer (de nombreux travaux portent sur ces chelles, et confirment la validit de ces dernires), et dautre part, que les principaux rsultats des recherches portant sur le WISC-R peuvent raisonnablement tre appliqus au WISC-III du fait des similitudes entre ces deux preuves. Sans vouloir tre exhaustifs, nous ne prsenterons ici que certains rsultats de recherches concernant le WISC-III et principalement les donnes sur des populations franaises en distinguant trois approches :
123
Les liaisons entre le WISC-III et les autres chelles de Wechsler (dont le
WISC-R) ; Les liaisons avec dautres tests dintelligence ; Les liaisons entre le WISC-III et la russite scolaire. La premire approche consiste vrifier la nature des liaisons entre lancienne version de lpreuve (WISC-R) et la nouvelle version (WISC-III). On sattend observer des corrlations trs leves. Le manuel du WISC-III rapporte les rsultats dune telle tude, portant sur 99 enfants.
Tableau 3.3 Validit du WISC-III : corrlations avec le WISC-R (daprs Wechsler, 1996).
Q.I.V r .89 Q.I.P .80 Q.I.T .88
Les valeurs des corrlations observes, entre .80 et .89, tmoignent bien de la similitude entre les deux versions du test : ces deux preuves mesurent bien les mmes domaines, aussi bien au niveau global de lpreuve (QIT) quau niveau de chaque chelle (QIV et QIP). Il est galement intressant de comparer les rsultats avec les deux autres chelles de Wechsler pour des sujets situs aux extrmes des classes dges. Nous trouvons l encore des donnes dans le manuel avec des valeurs de corrlations trs satisfaisantes (voir tableau 3.4).
Tableau 3.4 Validit du WISC-III : corrlations avec la WPPSI-R et la WAIS-R (Wechsler, 1996).
WISC-III
Q.I.V WPPSI-R WAIS-R .86 .84
Q.I.P .68 .78
Q.I.T .87 .84
Enfin, dans le manuel de la dernire version de la WAIS, version WAIS-III, figurent des donnes avec cette version WISC-III. L encore nous observons des corrlations importantes, au niveau des Q.I comme au niveau des deux Indices Factoriels communs aux deux preuves. La corrlation entre les QIT est ici encore plus leve ici avec une valeur de .91 (tableau 3.5). Toutes ces donnes entre le WISC-III et les autres chelles de Wechsler confirment, sil en tait besoin, la validit du WISC-III comme mesure de lintelligence gnrale.
124
Tableau 3.5 Validit du WISC-III : corrlations avec la WAIS-III (Wechsler, 2000).

Q.I.V r .91 Q.I.P .79 Q.I.T .91 I.C.V .88 I.O.P .76
La deuxime approche consiste comparer les rsultats obtenus au WISCIII avec les rsultats obtenus dautres preuves dintelligence. On sattend ici observer des corrlations leves, mais infrieures celles que nous venons de prsenter : chaque test dintelligence, sil mesure bien le mme domaine (lintelligence) possde galement ses propres spcificits (rfrences thoriques, matriel...). Nous trouvons dans le manuel du WISC-III les rsultats dune tude comparative avec le test K-ABC. Ce dernier test permet dvaluer deux types de processus mentaux : les Processus Squentiels et les Processus Simultans. La runion de ces deux chelles permet dvaluer un indice global defficience, ou Processus Mentaux Composites (PMC), qui peut tre compar au QIT du WISC. Cette preuve comporte galement une chelle de connaissance (Kaufman et Kaufman, 1993).
Tableau 3.6 Corrlations entre WISC-III et K-ABC (Wechsler, 1996).
WISC-III Q.I.V P. Squentiels K-ABC P. Simultans P.M. Composites Connaissance .66 .68 .74 .81 Q.I.P .46 .61 .62 .46 Q.I.T .64 .72 .77 .72 I.C.V .63 .66 .73 .79 I.O.P .51 .69 .69 .54 I.V.T .20 .22 .27 .19
On peut remarquer, au niveau des deux indicateurs globaux, QIT pour le WISC-III et chelle composite PMC pour le K-ABC, une valeur assez leve de corrlation (.77) pour deux tests dintelligence qui ne relvent pas de la mme approche thorique : malgr leurs diffrences, ces deux preuves mesurent bien une mme ralit. Une autre valeur est remarquer sur ce tableau 3.6, cest la corrlation leve (.81) entre QIV et lchelle de connaissance du K-ABC. Nous y reviendrons. Nous trouvons galement, dans le manuel du WISC-III, des corrlations observes avec un autre test dintelligence : la batterie factorielle DAT. La
125
batterie DAT1 permet dvaluer diffrentes aptitudes cognitives : aptitude verbale, numrique, spatiale, raisonnement... Dans ltude prsente dans le manuel, seules trois aptitudes ont t mesures : verbale, numrique et raisonnement abstrait.
Tableau 3.7 Validit du WISC-III : corrlations avec la DAT (daprs Wechsler, 1996).
WISC-III Q.I.V Verbal DAT Numrique Abstrait .33 .52 .43 Q.I.P .25 .47 .37 Q.I.T .31 .54 .43
Nous pouvons observer que les corrlations sont trs infrieures celles observes dans les tableaux prcdents avec des valeurs comprises entre .25 .54 selon les indicateurs. Ce nest pas surprenant, compte tenu du fait quil sagit ici de deux preuves trs diffrentes : lune, le WISC-III, value une intelligence gnrale, lautre, la DAT, des aptitudes plus spcifiques. On pouvait cependant sattendre obtenir une corrlation plus leve entre QIV et aptitude verbale (.33) qui sont, a priori, deux dimensions assez proches. Ce point est soulign dans le manuel du WISC-III :
La corrlation entre le Q.I. Verbal et le Raisonnement Verbal apparat anormalement faible. Considrant le contenu des deux tests, une corrlation denviron .50 pouvait tre attendue. (Wechsler, 1996, p. 214).
Ces rsultats ne remettent nullement en cause la validit du WISC-III. Dune part, on peut effectivement remarquer, comme lindique le manuel, que lchantillon est restreint (ltude porte sur seulement 41 sujets) et peut expliquer cette faiblesse. Dautre part, on pourrait galement souligner que la version DAT utilise est assez ancienne (1974 pour la version franaise), et quil conviendrait alors de mener une nouvelle tude en utilisant une version plus rcente de la DAT et/ou une autre batterie factorielle. On ne trouve, par contre, aucune tude, et on peut le regretter, qui confronte le WISC-III et un test de type facteur g sur une population franaise. Enfin, la troisime approche de la validit consiste comparer les rsultats obtenus au WISC-III avec des indicateurs de russite scolaire (notion
1. Une version rnove de cette batterie, la DAT-5, a t depuis dite (voir chapitre 5).
126
de validit prdictive ou concomitante). Une tude est rapporte dans le manuel qui utilise le test TNO (Test de Niveau dOrthographe). On peut stonner du choix de cet indicateur de russite scolaire qui ne prend en compte ici quune mesure spcifique (lorthographe) : un test portant sur des connaissances plus larges aurait probablement mieux convenu, comme par exemple les tests TAS (Test dAcquisition Scolaire, diffuss par les ECPA) qui permettent dvaluer les connaissances en franais mais aussi en mathmatiques. Lanalyse de la liaison entre WISC-III et russite scolaire nous parat donc assez incomplte mme si lon observe, comme attendu, des corrlations modres, autour de .50 (Wechsler, 1996, p. 216). ces donnes nous pourrions rajouter les liaisons observes entre lchelle de connaissance du test K-ABC et le QIV que nous avons dj prsentes (voir tableau 3.6). Les valeurs leves (.81 avec le QIV et .72 avec le QIT) tmoignent galement de la validit du WISC-III, et principalement ici celle du QIV, dans le domaine des acquisitions scolaires. Remarquons que ces lments ne sont pas comments dans cette partie du manuel du WISC-III.
La validit des indicateurs du WISC-III (Q.I. et Indices Factoriels)
Lorsquun test permet, comme ici, de calculer diffrents indicateurs du niveau de performance du sujet, il convient de vrifier les bases sur lesquelles reposent ces diffrents indicateurs (notion de validit structurale). Pour les Q.I. du WISC-III, des tudes doivent confirmer, dune part, la validit de la distinction de deux chelles, et donc le calcul spar de deux scores (QIV et QIP), dautre part, la validit dun indice total, le QIT. Pour les Indices Factoriels, qui nexistaient pas dans la version WISC-R, ils doivent correspondre, comme leur nom lindique, aux facteurs mis en vidence par des mthodes statistiques appropries (les mthodes danalyse factorielle). Examinons les informations fournies dans le manuel sur ces aspects.
La validit des indicateurs de type Q.I.
Le manuel propose une synthse de diffrentes tudes qui dmontrent que les regroupements des subtests pour aboutir deux chelles distinctes, QIV et QIP, reposent sur des donnes solides : les liaisons sont plus importantes entre les subtests dune mme chelle quentre les subtests dchelles diffrentes. Ce qui confirme la validit du calcul spar des deux Q.I. Cependant, tous les subtests prsentent une corrlation significative entre eux, ce qui montre quils valuent tous une mme dimension, que lon
127
peut effectivement considrer comme une mesure gnrale de lintelligence. Laddition des scores de tous les subtests pour le calcul du Q.I.T est donc aussi valide. Nous pouvons considrer que ces trois indicateurs classiques du WISC-III (QIV, QIP et QIT) sont bien des indicateurs valides :
Les rsultats sont relativement stables au travers des groupes et justifient clairement lusage des QIV et des QIP au WISC-III. (Wechsler, 1996, p. 202)
On peut remarquer ce propos que les saturations (corrlations) des subtests sur leur chelle prsentent des valeurs diffrentes. Le tableau 3.8 prsente les subtests dans lordre des saturations observes.
Tableau 3.8 Saturations des subtests du WISC-III sur les QI (Wechsler, 1996).
QIV Vocabulaire (.86) Information (.73) Similitudes (.73) Comprhension (.70) Arithmtique (.50) Mmoire chiffres (.33) Cubes (.74) Assemblages dobjets (.67) Compltement dimages (.49) Arrangements dimages (.47) Symboles (.45) Labyrinthes (.41) Code (.39) QIP
Les donnes du tableau 3.8 apportent des informations sur la force de la liaison entre chaque subtest et son chelle de rattachement (son Q.I.). Par exemple, le subtest vocabulaire (avec une saturation de .86) est un meilleur reprsentant de lchelle Verbale que le subtest mmoire des chiffres (qui prsente une saturation beaucoup plus faible). De mme, pour lchelle de performance, le subtest cubes est le meilleur reprsentant de cette chelle avec une valeur de saturation de .74 (voir plus loin les critres de slection des subtests slectionns pour laborer une version rduite du WISC-III). Ces diffrences entre subtests se retrouvent galement dans les valeurs de saturation concernant le QIT (voir Grgoire, 2000a). Ces diffrences, comme nous le verrons plus loin, sont prendre en compte dans la phase dinterprtation des rsultats aux subtests.
128
La validit des Indices Factoriels
Avant daborder la validit de ces indices il faut en prsenter rapidement lhistorique, car ces indices ne figuraient pas dans la prcdente version WISC-R. Plusieurs recherches portant sur le WISC-R mettent en vidence, par des mthodes factorielles, trois facteurs (voir par exemple les recherches de Kaufman, cites pages 193-194 dans le manuel WISC-III). Ces trois facteurs sont interprts comme : la comprhension verbale, facteur qui sature la plupart des subtests de lchelle Verbale ; lorganisation perceptive, qui lui sature la plupart des subtests de lchelle Performance ; lattention, ou rsistance la distraction, troisime facteur qui sature les subtests arithmtique, mmoire des chiffres et code. partir des rsultats de ces recherches, il devient possible de calculer des indices reprsentant chacun de ces facteurs. Ces indices factoriels viendraient complter les informations classiques exprimes en terme de Q.I. Mais le troisime facteur repr semble peu fiable, car il ne repose que sur trois subtests. Do lun des objectifs affichs dans llaboration du WISC-III :
Renforcer la structure factorielle sous-jacente du WISC-R. (Wechsler, 1996, p. 12).
On retrouve ici lun des objectifs gnraux, que nous avons noncs plus haut, dans la rnovation dpreuves : prendre en compte les rsultats de recherches. Dans ce but, les concepteurs du WISC-III ont labor un nouveau subtest, le subtest symboles, qui devrait tre rattach ce troisime facteur hypothtique, dans lobjectif den obtenir un indicateur plus fiable, compos alors de quatre subtests. Les auteurs pensaient pouvoir observer ces trois facteurs dans lexprimentation du WISC-III. Mais sur lchantillon de sujets de la population amricaine, la meilleure solution factorielle comporte quatre facteurs au lieu des trois attendus ! En effet, le nouveau subtest symboles sassocie en fait avec le subtest code pour donner au final un facteur supplmentaire. Cest pour ces raisons que la version originale (amricaine) du WISC-III comporte quatre Indices Factoriels : Comprhension Verbale, Organisation Perceptive, Attention/Concentration (qui correspond aux subtests arithmtique et mmoire des chiffres) et ce quatrime facteur interprt comme Vitesse
129
de Traitement (qui sature les subtests codes et symboles) [voir Wechsler, 1996, p. 200-201]. Lors de ladaptation du WISC-III la population franaise, les chercheurs pensaient donc retrouver ces quatre facteurs. Mais l encore, les donnes sont surprenantes : sils retrouvent bien les facteurs Comprhension Verbale (C.V), Organisation Perceptive (O.P) et Vitesse de Traitement (V.T), le facteur Attention/Concentration ne sature plus ici que le seul subtest mmoire des chiffres. De plus, cette solution quatre facteurs se rvle tre instable avec lge. En conclusion, pour cette population franaise, la fiabilit et la signification du quatrime facteur pose donc problme (Wechsler, 1996, p. 202). Cest pour cette raison que, pour la version franaise du WISC-III, une structure en trois facteurs a finalement t retenue en lieu et place de la structure en quatre facteurs du WISC-III amricain. Cest cette diffrence dans la structure factorielle des donnes qui explique que, comme nous lavons dj indiqu, trois subtests (arithmtiques, mmoire des chiffres et labyrinthes) ne sont pas utiliss dans ladaptation Franaise pour le calcul des Indices Factoriels (voir tableau 3.1). Au final, la version franaise du WISC-III ne comporte donc pas lIndice Factoriel Attention/Concentration mais uniquement les trois Indices Factoriels suivants :
Comprhension Verbale (I.C.V), qui reprend les subtests de lchelle
Verbale sauf Arithmtique et Mmoire des chiffres ; Organisation perceptive (I.O.P), qui reprend les subtests de lchelle Performance sauf Code, Symbole et Labyrinthe ; Vitesse de traitement (I.V.T), form de deux subtests Code et Symbole. Ces trois Indices Factoriels se trouvent donc bien valids, comme nous venons de lexpliquer, par le rsultat danalyses factorielles, mais nous pouvons nanmoins mettre trois remarques les concernant. La premire concerne lindice I.V.T. Dune part, cet indicateur ne reposant que sur deux items, sa fiabilit nest pas assure. Dautre part, comme lindique Grgoire, le terme mme de vitesse de traitement peut se discuter car ce subtest ne mesure pas exclusivement une vitesse de traitement sa dnomination Vitesse de Traitement est sans doute trompeuse (Grgoire, 2000a, p. 114). De plus il y a dautres subtests dans le WISC-III qui valuent galement, au moins en partie, cet aspect du fonctionnement cognitif. La deuxime remarque concerne la logique mme de calcul de ces Indices. Nous avons vu plus haut que la liaison (la valeur de la saturation) entre un
130
subtest et son chelle tait plus ou moins leve en fonction du subtest (voir tableau 3.4). De la mme faon, la liaison entre un subtest et son indice factoriel est plus ou moins forte. Ainsi, nous trouvons dans le manuel le classement des subtests en fonction des valeurs de saturation (Wechsler, 1996, p. 208). La logique de calcul de ces indices factoriels devrait tre alors de pondrer le poids de chaque subtest en fonction des saturations observes (voir Chartier, 2001, sur ces points). Par ce mode de calcul, les indices obtenus seraient plus proches des rsultats des analyses factorielles. Cette possibilit de pondration a bien t envisage par les auteurs, mais au final, pour le calcul de ces indices, ils retiennent laddition classique des subtests (sans effectuer de pondration) en fournissant lexplication suivante :
Malgr ces diffrences de saturations factorielles, le mme poids a t attribu tous les subtests pour le calcul des indices factoriels afin de simplifier le travail des praticiens. Ceux-ci doivent tre conscients que ce mode de calcul conduit une estimation imparfaite des facteurs. (Wechsler, 1996, p. 208)
On ne peut que regretter cette dcision car il nous semble quun calcul pondr nest pas si complexe raliser et permettrait au final dobtenir des indices plus fiables. Ces deux premires remarques concernant les limites des Indices Factoriels du WISC-III devront tre prises en compte lors de la phase dinterprtation de ces indices. Enfin, la troisime remarque concerne le problme plus gnral de ladaptation des tests dautres populations et la recherche de biais. Nous avons abord cette problmatique dans le chapitre 2 mais nous avons ici un bel exemple de biais potentiel. Comme nous venons de le dcrire, lors de la phase dadaptation du WISC-III sur la population franaise, et grce la qualit des analyses statistiques ralises, les auteurs ont repr une mauvaise adquation du modle suppos (en quatre facteurs) et nont pas retenu ce modle pour la version franaise de lpreuve. Autrement dit, une adaptation moins rigoureuse de ce test aurait sans doute gnralis abusivement le calcul des quatre indices toutes les populations. Or cette dmarche serait entache de biais. Cet exemple illustre et confirme la ncessit, lors de ladaptation dun test, de toujours mener des telles tudes.
131
La recherche de biais dans le WISC-III
On ne trouve gure dtudes particulires sur ces aspects, sauf la rfrence une tude comparative entre enfants franais et enfants belges afin de vrifier que la version franaise du WISC-III pouvait tre applique aux enfants belges. Des tudes sur lanalyse de biais sont prsentes dans louvrage de Grgoire (Grgoire, 2000a). Cet auteur prcise quelles concernent essentiellement la version WISC-R, et les populations amricaines, et que globalement nous pouvons considrer que le WISC-R nest pas un test biais pour les principaux groupes qui composent la socit amricaine (Grgoire, 2000a, p. 94). Concernant les populations francophones, Grgoire dveloppe ltude sur lanalyse du Fonctionnement Diffrentiel des Items (F.D.I) du WISC-III dans la comparaison des rsultats des enfants belges et franais. Nous avons prsent la notion de FDI, dans le chapitre 2. Rappelons quil est ncessaire de sassurer, lors de llaboration dun test, que les items sont bien du mme niveau de difficult pour des sujets de mme niveau de comptence. Sinon, litem, ou le groupe ditem, prsente un FDI, et favorise alors certains sujets, ou certains groupes de sujets. Dans ltude prsente par Grgoire, qui porte sur une version exprimentale du WISC-III, sur 40 items de lpreuve dinformation, huit ont t reprs comme biaiss (porteur de FDI). Dans la version dfinitive, qui ne comporte que 30 items, quatre items ont t conservs sur les huit reprs, mais dans la mesure o deux items avantagent les Franais, et deux, les Belges, Grgoire considrent que limpact final est assez limit.
Conclusion sur lanalyse des qualits psychomtriques du WISC-III Comme nous lavons dj indiqu, la validit du WISC-III comme mesure de lintelligence, et plus globalement la validit des chelles de Wechsler, nest plus dmontrer. Le manuel est complet et donne de nombreuses preuves des qualits psychomtriques de ce test. Mais une lecture attentive de ce manuel nous a permis de relever quelques limites, comme par exemple celles relatives aux Indices Factoriels. Ces lments gagneront tre pris en compte par le praticien dans la phase dinterprtation des rsultats.
132
Les bases de linterprtation du WISC-III
Aprs avoir effectu la cotation du protocole, le psychologue dispose de plusieurs indicateurs quantitatifs : les notes standards aux subtests, les trois Q.I. (QIV, QIP et QIT), sans oublier les trois Indices Factoriels (ICV, IOP et IVT). Il dispose galement de donnes plus qualitatives qui regroupent lensemble des rponses donnes par le sujet, mais aussi ses procdures de rsolution, son comportement face une difficult, sa motivation, son niveau de fatigabilit... Enfin, travers les entretiens, et lanalyse ventuelle de diffrentes sources informations, il dispose dautres lments concernant le sujet (comme par exemple lanamnse, le dossier scolaire...). Ltape suivante va donc consister tenter darticuler toutes ces informations afin de mieux comprendre le fonctionnement cognitif de lindividu singulier qui a pass le WISC-III. Nous traiterons principalement dans cette partie de linterprtation des indicateurs quantitatifs. Dans le cas du WISC-III, comme dans le cas des autres chelles de Wechsler, cette phase dinterprtation des rsultats est relativement complexe de par la multiplicit des indicateurs et leur signification. Le praticien trouvera dans le manuel des indications assez sommaires sur le processus dinterprtation des diffrents scores et nous conseillons de complter ces informations par la lecture de louvrage de Grgoire qui est plus complet sur ces aspects et qui propose, linverse du manuel, des tudes de cas (Grgoire, 2000a). Nous prsenterons ici uniquement les grandes lignes de cette phase dinterprtation car cette partie, elle seule, mriterait un ouvrage particulier. Le principe gnral danalyse des rsultats est le suivant : dbuter lanalyse par lindicateur global defficience, en loccurrence ici le QIT, puis par les indicateurs plus spcifiques (QIV, QIP et les Indices Factoriels) avant danalyser les rsultats dans chaque subtest. Ce sera dailleurs, nous le verrons plus loin, le principe gnral danalyse des autres chelles de Wechsler (WISC-IV et WAIS-III). Lobjectif gnral est de reprer quels sont les points forts et les points faibles du sujet examin et, si possible, dmettre quelques hypothses sur les spcificits ventuelles de son fonctionnement intellectuel. Nous pouvons dailleurs esprer que ce travail dinterprtation des rsultats du WISC-III, la fois riche et complexe, fasse lobjet dune relle formation dans le cadre des tudes de psychologie. Formation qui sera progressivement complte par lexprience acquise tout au long de lactivit professionnelle,
133
les stages de formation continue, les changes avec dautres praticiens. Cest ainsi que va se dvelopper la comptence du psychologue dans ce domaine.
tape 1 : analyse du Q.I. Total (QIT)

La notion de Q.I.
Commenons par rappeler que le Q.I. est un indice de la position des performances1 du sujet par rapport aux performances des sujets de mme ge. Cet indicateur se distribue selon la courbe de Gauss, avec une moyenne de 100 et un cart-type de 15. Une classification des valeurs des Q.I. a t propose dans le chapitre 2 de ce livre (tableau 2.8) . Nous retrouvons dans le manuel du WISC-III une classification analogue allant de la catgorie retard mental pour des Q.I. infrieurs 69 la catgorie trs suprieur pour des Q.I. suprieurs 130. Bien entendu, comme nous lavons dj signal, il convient dentourer le QIT observ dun intervalle de confiance dans lequel va se trouver le score vrai du sujet. Le tableau 3.9 reprend les catgories utilises dans le manuel du WISC-III.
Tableau 3.9 Classification des Q.I. au WISC-III C (daprs Wechsler, 1996).
Q.I. 130 et plus 120-129 110-119 90-109 80-89
% thorique de sujets 2,2 % 6,7 % 16,1 % 50 % 16,1 % 6,7 % 2,2 %
Classification Trs suprieur Suprieur Normal fort Moyen Normal faible Limite Retard mental
70-79 69 et moins
Nous pouvons remarquer dans ce tableau que les catgories extrmes sont dfinies par rapport un seuil statistique :
Moyenne plus deux carts type2 , pour le seuil infrieur de la catgorie
trs suprieure ;
1. Performance ici est comprendre dans son sens large et non pas en lien avec lchelle de Performance. 2. 100 + (2x15) = 130
134
Moyenne moins deux carts types1 , pour le seuil suprieur de la
catgorie retard mental. Ces deux catgories ne sont donc pas dfinies par un type particulier de fonctionnement cognitif, mais par une proportion de population (en loccurrence ici 2,2 % pour chaque groupe). En dautres termes, les seuils adopts ici, et particulirement ceux relatifs ces deux catgories extrmes, mme sils sont, comme nous le verrons plus loin, repris et utiliss dans les pratiques dvaluation sont finalement assez arbitraires car ils ne reposent pas sur une limite identifie entre deux types diffrents, ou deux niveaux distincts, de fonctionnement cognitif. Par exemple, dans le cas de la prise en compte dun QIT de 130 comme seuil au-del duquel la personne sera considre comme surdoue , Lautrey indique bien que ce seuil na aucune vertu particulire (Lautrey, 2004, p. 227). Nous pourrions faire la mme analyse propos du seuil partir duquel est dfinie la catgorie retard mental . Cependant, ces seuils et les dnominations correspondantes sont, dans la pratique, largement utiliss et permettent dinterprter de manire qualitative des rsultats quantitatifs. Le praticien dispose galement dans le manuel du WISC-III de donnes plus prcises indiquant, pour chaque valeur de Q.I. le rang percentile correspondant (Wechsler, 1996, p. 251-254). Ces informations vont permettre de situer trs prcisment une valeur observe de QIT.
Exemple Prenons un sujet obtenant un Q.I.T de 112. Une premire tape consiste entourer cette valeur dun intervalle de conance : un QIT de 112 correspond lintervalle de [106-117] au seuil .10. Une deuxime tape consiste situer le QIT dans la classication propose : le sujet peut ici tre catgoris dans la classe moyen si on se base sur la limite infrieure de cet intervalle (106), mais il serait class en normal fort , si on se base cette fois sur le QIT de 112 ou sur la limite suprieure de lintervalle de conance (117). Enn, la rfrence au rang percentile nous permet de situer plus prcisment le niveau de performance observ : un QIT de 112, correspond le rang percentile 79, ce qui signie que 79 % des sujets obtiennent un QIT infrieur ou gal 112 (Wechsler, 1996, tableau A.4, p. 254). Autrement dit, seulement 21 % des sujets du mme ge obtiennent un QIT suprieur au QIT observ ici (112).
1. 100 (2x15) = 70
135
Que reprsente le Q.I.T ?
Linterprtation de lindicateur principal du WISC-III est rapprocher des principes de construction de ce test et des conceptions sous-jacentes de lintelligence de Wechsler. Ce Q.I.T est donc un indice dune intelligence globale, dune capacit gnrale dadaptation, value travers un ensemble de tches varies (les subtests), chacune faisant appel un ensemble daptitudes diverses. Il faut alors comprendre ce Q.I.T comme tant la rsultante dun grand nombre de facteurs. Le Q.I.T peut tre considr comme un indice proche, bien quun peu plus complexe, du facteur g de Spearman (Grgoire, 2000a). Nous pouvons finalement retenir que cet indicateur QIT reflte le niveau global de fonctionnement intellectuel dun individu. Rappelons que le Q.I., et spcialement ici le Q.I.T, est souvent utilis comme prdicteur de russite. En effet :
Le QI est un des meilleurs prdicteurs de la russite des apprentissages et des performances professionnelles. Aucune autre mesure du fonctionnement intellectuel na pu, ce jour, offrir une validit prdictive suprieure. (Grgoire, 2004, p. 83)
Nous garderons cependant lesprit que, mme si le Q.I.T est un bon reprsentant de ce qui est communment appel l intelligence , compte tenu du nombre limit des situations dvaluation retenues1 (mme si elles sont varies) il ne rend pas obligatoirement compte de tous les aspects2 de lintelligence, notamment de ce que Wechsler appelle les facteurs non intellectuels de lintelligence (voir chapitre 1) et dont il souligne limportance (Grgoire, 2000a ; Loarer, 2006).
Q.I.T et diagnostic
Le Q.I.T est souvent utilis, nous lavons dj soulign, comme critre de diagnostic pour reprer un retard mental ou, linverse, une prcocit intellectuelle . Cest en particulier lpreuve la plus utilise comme rfrence dans les commissions administratives destines orienter les lves en grande difficult vers les structures de lenseignement spcialis (voir chapitre 8 de ce livre). Concernant le diagnostic de retard mental (comme dj indiqu, cf. tableau 3.9), cette catgorie concerne les sujets pour lesquels un score QIT
1. Limite de tout test. 2. Ces limites sont signales ds les premires pages du manuel du WISC-III.
136
maximum de 69 a t observ, ce qui reprsente environ 2,2 % dune classe dge. Rappelons que ce seuil est conventionnel et ne repose pas sur une dfinition prcise de cette catgorie en termes de fonctionnement cognitif1 . La prudence simpose donc et le psychologue doit, avant de poser un tel diagnostic, dune part, prendre en compte lerreur de mesure, dautre part, complter cet indicateur QIT par dautres informations concernant les capacits cognitives du sujet. Nous rapprochons dailleurs cette ncessaire prudence dans le diagnostic de retard mental, avec les volutions terminologiques dans la dnomination des scores trs faibles (scores infrieurs 69) entre la version WAIS-R qui utilisait le terme de dficient mental et les versions WAIS-III et WISC-IV, plus rcentes, qui prfrent utiliser le terme de trs faible . Ce changement de dnomination, comme nous lavons dj voqu dans le chapitre 2, a t adopt afin dviter quun Q.I. trs faible ne soit considr comme un indice suffisant pour tablir le diagnostic de dficience mentale. Concernant le diagnostic de prcocit intellectuelle, on peut remarquer que ce terme nest pas utilis dans la classification des rsultats au WISC-III. Pour des Q.I. gaux ou suprieurs 130, seuil qui correspond habituellement au seuil conventionnel utilis pour reprer une prcocit intellectuelle (Lautrey, 2004) et qui reprsente environ 2,2 % dune classe dge2 , les auteurs du manuel du WISC-III utilisent le terme de trs suprieur (voir tableau 3.9). Nous devons cependant signaler que ce seuil de 130 ne fait pas lobjet dun consensus, selon les auteurs, ce seuil peut varier de 120 140, voire plus (Caroff, 2004, p. 238). Effectivement, et nous lavons dj indiqu, il nexiste pas de seuil prcis permettant didentifier formellement un fonctionnement mental qualitativement suprieur ou diffrent. Ainsi :
Ce seuil na aucune vertu particulire et compte tenu de la nature conventionnelle de la dfinition, les discussions sur la proportion denfants surdous dans la population ou sur la vraie valeur du QI partir de
1. Par exemple, rien ne distingue fondamentalement un fonctionnement cognitif qui aboutirait un QIT de 68, donc situ en dessous du seuil de .69/.70 dun fonctionnement cognitif correspondant un QIT de 72, situ lui au dessus de ce seuil. 2. Cest dailleurs la catgorie symtrique la catgorie retard mental que nous venons de prsenter.
137
laquelle on peut considrer quun enfant est surdou (135 ? 150 ?) sont dnues de sens. (Lautrey, 2004, p. 227).
De plus, la seule valeur du QIT nest pas suffisante car il convient danalyser plus prcisment comment ce score a t atteint. Ainsi, un QIT lev mais obtenu avec une diffrence importante entre QIV et QIP, au bnfice du QIV, nest pas obligatoirement un indice fiable de prcocit intellectuelle car ce score lev dans lindicateur QIV peut ventuellement rsulter dun effet de surentranement ou de sur-stimulation du milieu, notamment du milieu familial. Avant de porter un diagnostic de prcocit intellectuelle il faut donc, comme dans le diagnostic de retard mental, complter le score de QIT par la prise en compte dautres lments dinformation sur le sujet, le QIT ntant alors que lun des critres disponibles pour porter un tel pronostic. Par exemple, Ziegler et Raul (cits par Caroff, 2004, p. 235) ont isol quatre catgories de critres complmentaires au traditionnel critre de Q.I : les performances scolaires, les dimensions de la personnalit, la crativit, les intrts.
Le lecteur intress par cette problmatique de prcocit peut consulter la revue de questions, coordonne par Jacques Lautrey, qui a donn lieu un numro spcial de la revue Psychologie Franaise (Lautrey, 2004b) ainsi que louvrage de Lubart (2006).
tape 2 : analyse du QIV et du QIP Lanalyse du QIT va ensuite tre complte par ltude du profil global des rsultats. On regardera en particulier si ce profil est homogne (faible diffrence entre QIV et QIP) ou htrogne (diffrence plus importante entre ces deux Q.I.). Le premier problme rencontr dans cette analyse est relatif aux seuils de diffrences : partir de quelle valeur peut-on considrer que la diffrence entre ces deux Q.I. mrite notre attention et notre analyse ?
138
Lapproche prconise par le manuel est de sappuyer sur la notion de diffrence significative et de proposer alors, pour chaque classe dge, les valeurs minimales de diffrences entre QIV et QIP aux seuils de signification de .15 et .05 (Wechsler, 1996, tableau B.1, p. 261). Nous pensons, comme Grgoire (2000a), que lon peut plus simplement considrer quune diffrence de 12 points entre QIV et QIP est suffisamment importante pour mriter une analyse. Ce seuil est prendre avec souplesse et une diffrence plus faible, de 10 ou de 11 points par exemple, peut galement tre commente mais avec plus de prudence dans son interprtation. Un second problme concerne la signification de cette diffrence. Nous pouvons dj indiquer quune diffrence de score entre QIV et QIP correspond au fonctionnement cognitif normal (non pathologique). Le manuel fournit dailleurs les pourcentages observs pour chaque valeur de diffrences et, fait qui pourrait sembler surprenant, aucun sujet de lchantillon ne prsente un QIV strictement gal au QIP (Wechsler, 1996, tableau B.2, p. 262). Au contraire, on observe une diffrence de 11,3 points en moyenne entre ces deux Q.I., avec des proportions non ngligeables de sujets prsentant des diffrences plus importantes. Par exemple, 16 % des sujets (soit prs dun sujet sur six) prsentent une diffrence dau moins 20 points entre QIV et QIP. Contrairement sans doute aux conceptions de nombre de praticiens (Grgoire, 2000a), la rgle gnrale est bien dobserver une diffrence entre QIV et QIP, et non pas dobserver un profil plat , cest--dire une absence de diffrence entre ces deux indicateurs. Autrement dit, une diffrence dune dizaine de points entre QIP et QIV est donc assez frquente, et avant de commenter toute diffrence observe entre ces deux indicateurs il est conseill de se reporter aux donnes du manuel afin destimer la singularit du profil. Ainsi ce nest qu partir dune diffrence QIV/QIP suffisamment importante, et suffisamment rare, que lon pourra ventuellement envisager lexistence dun rel trouble de type dysfonctionnement cognitif .
En rsum Si le profil du sujet est homogne, avec une faible diffrence entre QIV et QIP, linterprtation des rsultats portera sur le QIT, les deux Q.I. spcifiques tant alors considrs comme quivalents cet indice global. Si le profil est plus htrogne, avec une diffrence suprieure 12 points entre QIV et QIP, il sera alors pertinent dinterprter sparment chaque
139
Q.I. car le dcalage observ peut reflter une relle diffrence defficience entre les deux aspects de lintelligence valus par ces deux chelles. lextrme, une diffrence trop importante entre ces deux Q.I. retirerait toute validit linterprtation du Q.I.T.
Que reprsentent le QIV et le QIP ?
Il faut ici se rappeler les bases de la construction du WISC : le QIV a t labor pour tre une mesure de lintelligence verbale, le QIP comme une mesure de lintelligence non verbale (et/ou comme une mesure non verbale de lintelligence). On peut aussi considrer le QIV comme une estimation de lintelligence cristallise, le QIP tant lui plus proche de lintelligence fluide. Mme si le recouvrement entre ces diffrentes notions nest pas parfait, une quivalence approximative nest pas absurde (Grgoire, 2000a, p. 51). partir de ces informations, linterprtation de la diffrence QIV/QIP dpendra, bien sr de son importance, mais galement de son sens afin de dterminer, parmi ces deux grandes dimensions de lintelligence, quelle est celle qui semble, chez un sujet donn, plus efficiente. Bien entendu, comme pour le QI.T, lutilisation dun intervalle de confiance pour chaque Q.I. sera prfrable lutilisation dune estimation ponctuelle.
tape 3 : Analyse des rsultats aux diffrents subtests (analyse du scatter) La troisime tape de lanalyse consiste reprer les rsultats du sujet dans chaque subtest de manire construire son profil de notes standard. Ce profil, sous forme de graphique, figurera dailleurs en premire page du protocole du sujet. Lobjectif gnral ici est de reprer les points forts et les points faibles du sujet et de tenter de les expliquer. Pour ce processus danalyse on utilise le terme danalyse de scatter (en franais : analyse de la dispersion). Comme dans ltape prcdente, lanalyse va porter sur la variabilit du profil, mais ici il ne sagit plus danalyser la diffrence entre QIV et QIP mais danalyser les diffrences entre toutes les notes standards lintrieur de chaque chelle. En effet, un sujet peut prsenter un profil de notes assez homogne, avec un niveau de russite comparable travers les diffrents subtests, ou au contraire, prsenter un profil plus htrogne avec des subtests particulirement chous et dautres, au contraire, particulirement russis. Dans le second cas, une telle variabilit des rsultats est alors souvent considre comme lindicateur dun fonctionnement cognitif singulier.
140
Pour pouvoir interprter ces ventuelles variations, on dispose ici de deux types de rfrences :
Une rfrence interindividuelle : il sagira ici de situer le score observ
chaque subtest par rapport la valeur moyenne de 10 (comparaison des rsultats du sujet au niveau moyen de russite observ dans la population de rfrence) ; Une rfrence intra-individuelle : il sagira ici de situer chaque score par rapport la moyenne individuelle du sujet (moyenne propre du sujet calcule partir de ses diffrentes notes standard). Ces deux analyses demandent tre confrontes car il faut la fois situer le niveau de performance du sujet par rapport aux sujets de mme ge, et reprer ses propres points forts et ses points faibles.
Exemple Prenons le cas dun sujet qui a un QIT assez lev, avec une moyenne individuelle de 13 sur lensemble des subtests. Un score de 11 un subtest sera alors peru comme un subtest relativement chou (comparaison ici intra-individuelle par rapport sa moyenne personnelle de 13) mais il ne faut pas oublier que cet chec est relatif car il correspond en ralit un score plus lev que la moyenne des sujets (comparaison ici interindividuelle par rapport la moyenne de 10).
Dans linterprtation du scatter il faudra toujours articuler ces deux types de comparaisons. Pour la comparaison interindividuelle, il faut se rappeler que les notes standards varient de 1 19, avec une moyenne de 10 et un cart-type de 3. On peut donc considrer les scores suprieurs 13 (seuil qui correspond la moyenne + un cart-type) comme levs, et les scores infrieurs 7 (moyenne un cart-type) comme faibles. Les valeurs extrmes, correspondant des notes dviant dau moins deux carts type, pouvant tre alors qualifies respectivement de trs leves et de trs faibles Le tableau 3.10 prsente cette proposition de catgorisation des notes standard. Pour la comparaison intra-individuelle, il est galement prconis de vrifier si la diffrence observe entre les subtests, ou entre les subtests et la moyenne du sujet, est suffisamment importante pour justifier une analyse. Grgoire propose ainsi la notion de note dviante pour dfinir les notes qui scartent significativement de la moyenne du sujet (Grgoire, 2000a). Quelle que soit la modalit de comparaison, il convient de se rappeler que la fiabilit des interprtations dune note isole est limite. Il est prfrable
141
Tableau 3.10 Proposition de classification des notes standard au WISC-III.

Notes standard Classification Rpartition thorique 13 Note trs faible 2,2 % 46 Note faible 13,4 % 7 13 Note moyenne 68,8 % 14 16 Note leve 13,4 % 17 19 Note trs leve 2,2 %
Remarque : Ce tableau ne figure pas dans le manuel du WISC-III : il sagit dune proposition de notre part, qui sappuie sur des seuils statistiques et sur des propositions de Grgoire (Grgoire, 2004, p. 217).
de privilgier la prise en compte dun ensemble plus vaste de subtests. En effet, rappelons que du fait de la conception assez empirique du WISC-III, chaque subtest ne mesure pas une et une seule aptitude, mais fait appel un ensemble plus vaste de capacits. Do la difficult interprter de faon univoque un chec un subtest isol. Par contre, en analysant un ensemble de scores, en regroupant par exemple les subtests chous, on peut alors rechercher une ventuelle cause commune qui expliquerait ces checs. Dans cette analyse, le praticien peut utiliser la grille daide linterprtation des scores qui a t propose par Grgoire (Grgoire, 1996). Cette grille se prsente sous la forme dun tableau double entre avec, en colonne, les subtests du WISC-III et, en ligne, des facteurs cognitifs (aptitudes ou processus) censs intervenir dans tel ou tel subtest. Vingt-huit facteurs cognitifs sont ainsi proposs par lauteur. Par exemple, le facteur dpendance/indpendance lgard du champ (DIC) intervient principalement, daprs cette grille, dans trois subtests : mmoire, cubes et assemblages dobjets. Un chec combin dans ces trois subtests pourrait alors sexpliquer (ce nest quune hypothse) par leffet de ce facteur. Cette grille peut ainsi fournir au praticien des pistes explicatives des russites et des checs des sujets. Bien entendu, cette grille ne doit pas tre utilise de manire mcanique et le psychologue devra toujours formuler ses interprtations en termes dhypothses, quil conviendra de confirmer ou dinfirmer par des observations et examens complmentaires. Mme avec laide de cette grille, linterprtation de la dispersion des scores (ou analyse du scatter ) est une tche complexe. Lexplication de certains rsultats peut chapper au psychologue qui doit faire preuve de prudence et dhumilit :
142
Il peut arriver que le sens de certaines dispersions de notes standard nous chappe. Il vaut alors mieux faire aveu dignorance plutt que de se lancer dans des affirmations sans fondements. Grgoire (2000a, p. 222-223).
Le psychologue doit en effet toujours tayer ses rflexions et ses interprtations sur des lments fiables et identifis du protocole du sujet. Dautres approches danalyse du scatter existent, la plus connue tant celles de Bourgs (1979) mais elle a t labore partir de la version prcdente (WISC-R). On peut galement signaler les propositions plus rcentes de Arbisio (2003) qui se situent plutt dans le cadre dune approche psychanalytique.
tape 4 : Interprter les Indices Factoriels ? Le lecteur attentif aura remarqu ici le point dinterrogation. En effet, pour cette version WISC-III, nous avons dj signal nos rserves sur lintrt de ces Indices Factoriels et sur les limites de leur fiabilit. En effet, comme nous lavons dj indiqu, lindice ICV est trs proche du QIV, lindice IOP tant lui trs proche du QIP, on peut donc raisonnablement sinterroger sur les informations spcifiques apportes par ces deux nouveaux indices. Nous avons galement apport des lments critiques sur les modalits de calcul de ces Indices. Enfin, nous avons dj soulign la fiabilit insuffisante de lindice IVT. Cette faiblesse a dailleurs galement t releve par Grgoire qui prne une certaine prudence dans linterprtation de cet indice IVT (Grgoire, 2000a, p. 115). En outre, le psychologue qui souhaiterait nanmoins interprter ces Indices Factoriels trouvera dans le manuel du WISC-III assez peu dinformation ce sujet, ce que lon peut regretter. Rappelons que ces indices sont exprims dans la mme mtrique que les Q.I. (moyenne de 100 et cart-type de 15) et que lon peut donc leur appliquer les mmes principes de classification qui permettent de situer globalement le niveau de russite du sujet (voir tableau 3.9).
Une version abrge du WISC-III
On peut signaler quil existe une version abrge du WISC-III, version qui ne figure pas dans le manuel, et qui a t propose par Grgoire (Grgoire, 2000a). Cette version rduite a t labore dans lobjectif de fournir aux praticiens une preuve plus rapide faire passer, tout en tant suffisamment
143
fiable, qui puisse convenir dans certaines situations dvaluation. Pour constituer cette preuve, Grgoire a slectionn les deux subtests les plus reprsentatifs de chaque chelle (les plus saturs avec le Q.I. de lchelle), ce qui donne au final une version abrge comportant seulement quatre subtests (vocabulaire, similitude, cubes, arrangement dimages) et ne ncessitant quenviron trente minutes de passation. partir de la somme de ces quatre notes standard, il est possible de calculer un indice de type Q.I. grce aux donnes fournies par lauteur (Grgoire, 2000a, p. 125). Bien entendu, cet indicateur, bas sur seulement quatre subtests, prsente une fiabilit plus faible, bien que correcte, que le Q.I.T calcul sur lensemble des subtests du WISC-III. Cest pour cette raison que Grgoire prne la prudence dans lutilisation de cette forme (Grgoire, 2000a, p. 126).
Conclusion sur le WISC-III
Le WISC-III, chelle composite dintelligence pour enfants, propose une valuation des performances du sujet travers des situations varies (les diffrents subtests), faisant ou non appel au langage (do la distinction entre une chelle verbale et une chelle de performance). Il sagit dune preuve individuelle, base sur une approche globale de lintelligence, dont les indicateurs principaux sont exprims sous la forme de trois Q.I. : QIT, QIV et QIP. Les donnes du manuel concernant les qualits psychomtriques du WISC-III sont nombreuses et tmoignent dune validation rigoureuse de ce test. Le praticien dispose galement de trois Indices Factoriels (ICV, IOP et IVT) qui nous semblent, en ltat actuel, apporter peu dinformations supplmentaires par rapport aux indices classiques QIV et QIP. Comme toute preuve individuelle, le temps de passation est important, de mme que le temps ncessaire linterprtation des rsultats. En effet, une analyse fine des russites et des checs du sujet est possible par la mthodologie danalyse de scatter (analyse de la dispersion des rsultats du sujet), analyse qui vient enrichir le simple constat du niveau de performance estim par les Q.I. Comme nous lavons indiqu en introduction, cette version WISC-III est remplace depuis 2005 par le WISC-IV, version que nous allons maintenant prsenter.
144
3.
Le WISC-IV
Cette quatrime version de lchelle de Wechsler pour enfant a t dite en 2003 aux tats-Unis et adapte en France en 2005. Elle remplace donc la version WISC-III que nous venons de prsenter.
Pourquoi une nouvelle version du WISC ?
Nous avons dj indiqu les raisons pour lesquelles il est ncessaire de procder rgulirement des rnovations dpreuve, lune des principales tant la ncessit de disposer de normes rcentes (talonnages) afin de tenir compte de lvolution des scores dans les tests dintelligence (effet Flynn). Rappelons ce propos que ltalonnage du WISC-III datait de 1996, et quil tait justifi alors, dix ans plus tard, de procder ltablissement de nouvelles normes. Mais cette ractualisation des normes ne reprsente que lune des raisons de llaboration de cette nouvelle version WISC-IV. Plus prcisment, les auteurs distinguent ici cinq objectifs principaux cette rnovation :
Une actualisation des fondements thoriques ; Une extension des applications cliniques ; Une meilleure adquation dveloppementale ; Une amlioration des proprits psychomtriques ; Une augmentation de la convivialit (WISC-IV, manuel dinterprtation,
p. 8). Mais comme nous le dtaillerons dans ce chapitre, les diffrences apportes avec la version WISC-IV sont si nombreuses que lon peut parler de mtamorphoses, pour reprendre lexpression de Grgoire (Grgoire, 2005), voire mme sinterroger sur les liaisons existantes entre cette version et lapproche originelle de Binet (Rozencwajg, 2006). Quelles sont les principales modifications entre la version WISC-III et la version WISC-IV ? Globalement, on peut situer ces diffrences plusieurs niveaux : au niveau des subtests, au niveau de la passation, au niveau des indicateurs et enfin au niveau des rgles gnrales dinterprtation.
145
Modifications des subtests Cette version WISC-IV comporte 15 subtests : 10 sont repris de lancienne version WISC-III et cinq sont de nouveaux subtests (le plus souvent adapts des autres chelles de Wechsler : WPPSI-III et WAIS-III). Les subtests conservs ont fait lobjet de modifications : nouveaux items, rgles dadministration et/ou de cotation, passation optionnelle... Les 15 subtests seront prsents plus loin.
Modifications au niveau de la passation Certains subtests sont maintenant optionnels : dans cette version WISC-IV on distingue ainsi des subtests principaux et des subtests supplmentaires. Les subtests principaux sont ncessaires pour calculer les indicateurs du test, dont le QIT, les subtests supplmentaires servant alors au calcul dindicateurs supplmentaires, appels notes additionnelles et/ou au remplacement de certains subtests obligatoires. Le praticien doit donc dcider, avant ou au moment de la passation, des indicateurs quil souhaite recueillir afin de prsenter au sujet les subtests correspondants.
Modifications par rapport la prise en compte de la vitesse de ralisation des tches Cette version WISC-IV contient moins de situations donnant lieu des bonifications en fonction des temps de passation : seulement trois subtests sont concerns maintenant par cette possibilit de bonification.
Modifications des indicateurs Il sagit l sans doute de lune des principales modifications et en tout cas de la plus apparente apporte dans le WISC-IV : le Q.I. Total est conserv mais le Q.I. Verbal et le Q.I. Performance sont supprims ! Les modifications touchent galement les Indices factoriels : ils taient au nombre de trois dans le WISC-III (ICV, IOP et IVT) ils sont maintenant quatre et portent des appellations diffrentes (voir plus loin). Le fondement de ces volutions tient la volont des auteurs du WISC-IV de chercher rapprocher ce qui est valu par le WISC des aptitudes et processus cognitifs mis en vidence dans les modles thoriques les plus actuels (en particulier le modle hirarchique propos par Caroll que nous avons prsent chapitre 1).
146
Les quatre indices factoriels, nomms aussi notes composites , valuent chacun lun des aspects principaux du fonctionnement cognitif du sujet : Indice de Comprhension Verbale (ICV), Indice de Raisonnement Perceptif (IRP), Indice de Mmoire de Travail (IMT), Indice de Vitesse de Traitement (IVT).
Que reprsentent ces nouveaux indices ? Alors que lon peut tre tent de rapprocher ces nouveaux indices des anciens indicateurs du WISC III la vigilance est de mise : ce rapprochement est valide pour certains dentre eux mais pas pour tous, comme nous le verrons plus loin.
Modifications des rgles gnrales dinterprtation des rsultats du sujet Dans le chapitre concernant le WISC-III, nous avons dtaill les rgles gnrales dinterprtation des scores, et indiqu que celles-ci reposaient essentiellement sur linterprtation de lcart ventuel entre QIP et QIV. Bien entendu ici, du fait de la disparition de ces deux indicateurs, il nest plus possible de procder ces comparaisons. Nous prsenterons en dtail les rgles dinterprtation qui sont conseilles pour le WISC-IV.
Historique Le WISC - IV est donc la version la plus rcente ce jour de lchelle dintelligence de Wechsler pour enfant (Wechsler Intelligence Scale for Children), dite en 2003 aux tats-Unis et adapte en 2005 en France par les ECPA. Il sagit dune preuve individuelle de type chelle de dveloppement. Elle est utilisable pour des enfants gs de 6 16 ans 1 . 2
Le matriel Tout le matriel est regroup dans une mallette (matriel de passation, de cotation, manuels...). Le psychologue dispose ici de deux manuels : lun est consacr lensemble des rgles de passation et de cotation (WISC - IV. Manuel dadministration et de cotation, Wechsler, D., 2005a). Nous lappellerons manuel 1 ;
147
lautre prsente les qualits psychomtriques de lpreuve et linterprtation des rsultats (WISC-IV. Manuel dinterprtation, Wechsler, D., 2005b). Nous lappellerons manuel 2 ).
Les subtests Sur les 15 subtests de lpreuve, 10 seulement sont obligatoires pour calculer les indicateurs principaux de lpreuve (le QIT et les quatre notes composites). Cinq subtests sont ainsi optionnels (notes additionnelles), destins fournir des informations supplmentaires (en fonction des objectifs du psychologue), et ventuellement mesurer un indice spcifique dans le cas du subtest Barrage. Ces subtests optionnels peuvent, dans certains cas, remplacer des subtests obligatoires dont les rsultats ne seraient pas valides. Les auteurs du manuel conseillent ainsi de faire passer systmatiquement les subtests Arithmtiques et Barrages (manuel 1, p. 27), ce qui fait au final 12 subtests faire passer. Nous allons prsenter les subtests partir de leur indice de rattachement (note composite).
Les subtests de lIndice de Comprhension Verbale (ICV) Similitudes : directement issu du WISC - III ce subtest consiste trouver

en quoi deux notions (ou deux objets) se ressemblent (chercher les similitudes) (23 items, dont 15 nouveaux) ; Vocabulaire : subtest classique du WISC dans lequel lenfant doit indiquer la dfinition de mots (36 items, dont 27 nouveaux) ; Comprhension : issu lui aussi du WISC - III ce subtest value la capacit de lenfant expliquer des situations de la vie courante (21 items dont 13 nouveaux) ; Information : subtest obligatoire dans le WISC - III il devient ici lun des subtests optionnels de lchelle. Dans ce subtest lenfant doit rpondre des questions de connaissances (33 items, dont 19 nouveaux) ; Raisonnement verbal : second subtest supplmentaire cest galement un nouveau subtest dans lequel il sagit de rpondre des devinettes (24 items).
Lindice ICV est donc constitu de trois subtests principaux et de deux subtests supplmentaires, dont lun est entirement nouveau (Raisonnement verbal).
148
Les subtests de lIndice de Raisonnement Perceptif (IRP) Cubes : subtest classique des chelles de Wechsler dans lequel lenfant
doit reproduire une configuration gomtrique laide de cubes bicolores (14 items, dont 3 nouveaux) ; Identification de concepts : nouveau subtest dans lequel lenfant doit choisir une image afin de constituer un groupement autour dun concept commun (28 items) ; Matrices : nouveau subtest de type matrice analogique, adapt de la WAIS-III, et proche des tests de type facteur g (35 items) ; Compltement dimages : ce subtest qui tait obligatoire dans le WISCIII devient ici supplmentaire. Lenfant doit indiquer, ou nommer, la partie manquante dun objet reprsent par une image (38 items, dont 13 nouveaux). Lindice IRP est donc constitu de trois subtests principaux et dun subtest supplmentaire.
Les subtests de lIndice de Mmoire de Travail (IMT) Mmoire de chiffres : subtest issu du WISC-III, dont la tche consiste ici
rpter une suite de chiffres. On peut remarquer que ce subtest, optionnel dans le WISC-III, devient ici obligatoire. Ce subtest est organis en deux sries : ordre direct et ordre inverse (8 items dans chaque srie) ; Squence Lettres-Chiffres : nouveau subtest, compos comme son nom lindique de lettres et de chiffres, et adapt de la WAIS-III, dans lequel le psychologue lit une squence au sujet qui doit ensuite restituer les chiffres, puis les lettres (10 items) ; Arithmtiques : subtest obligatoire du WISC-III, il devient ici supplmentaire. Il sagit de traiter mentalement des petits problmes arithmtiques (34 items dont 24 nouveaux). Lindice IMT est donc constitu de deux subtests principaux et dun subtest supplmentaire.
Les subtests de lIndice de Vitesse de Traitement (IVT) Code : subtest issu du WISC-III dans lequel lenfant doit copier des
symboles associs des figures gomtriques. En fonction de lge du sujet deux formes existent : code A et code B ; Symboles : galement issu du WISC-III, mais avec ici un statut de subtest obligatoire, la tche consiste indiquer si un symbole propos correspond lun des symboles cibles. Deux formes galement ici en fonction de lge de lenfant : symbole A et symbole B ;
149
Barrage : subtest nouveau et optionnel dans lequel lenfant doit barrer
des images cibles. Lindice IVT est donc constitu de deux subtests principaux et dun subtest supplmentaire. Par rapport au WISC-III, les changements relatifs aux subtests sont donc trs nombreux : 1. Apparition de nouveaux subtests ; 2. Disparition de certains subtests (en particulier Arrangements dimages et Assemblages dobjets) ce qui diminue fortement le nombre de subtests qui reposent sur une manipulation concrte de matriel (il ne reste que le subtest cubes) ; 3. Ajout ou changement ditems aux anciens subtests (parfois en proportion trs importante) ; 4. Changement de statut (obligatoire ou optionnel) de certains subtests ; 5. Regroupement des subtests en quatre indices (ou notes composites), et disparition des chelles verbale et performance. Ces modifications ne sont pas sans consquences sur ce qui est valu par le WISC-IV (Grgoire, 2005 ; Rozencwajg, 2006).
Standardisation
La passation La passation est individuelle et ncessite un temps de passation compris entre 1h15 et 1h45 en fonction du niveau de russite de lenfant. La dure de passation peut galement varier, et ceci est nouveau, en fonction des dcisions du psychologue. En effet, un certain nombre de subtests sont optionnels et leur passation va dpendre des objectifs du psychologue. Si celui-ci souhaite calculer uniquement les quatre indices centraux du WISC-IV, la passation des 10 items principaux est suffisante ; par contre, sil souhaite pouvoir calculer galement une, ou des, note(s) additionnelle(s) alors la passation doit comprendre les subtests supplmentaires correspondants. Lordre de passation des subtests est codifi avec une alternance entre diffrents types de tches.
150
La passation de chaque subtest dbute par des items-exemples, et se poursuit en fonction de lge des sujets (rgles de dpart spcifiques chaque subtest). Toutes les prcisions concernant les rgles de passation figurent dans le manuel 1 (pages 65 203).
La cotation : les indicateurs de la performance du sujet Les rgles gnrales de cotation du WISC-III sont reprises : cotation en 0 ou 1 pour certains subtests ; cotation plus fine en 0, 1 ou 2 pour dautres ; bonification ventuelle selon la vitesse dexcution... De mme est conserv le processus dlaboration des notes standard (notes talonnes en rfrence aux enfants de mme ge) partir des scores bruts du sujet. Rappelons que les notes standards de chaque subtest peuvent varier de 1 19, avec une moyenne de 10 et un cart-type de 3. Cette standardisation des notes rend directement possible les comparaisons du niveau de performance du mme sujet sur des subtests diffrents (variations intra-individuelles et analyse de scatter ). Le regroupement des subtests par chelle permet le calcul des quatre indicateurs ICV, IRP, IMT et IVT, puis de lindicateur global QIT. Comme dans le WISC-III tous ces indicateurs adoptent la mme mtrique : moyenne de 100 et cart-type de 15. Au final on dispose donc dune note (standard) pour chaque subtest et dun score pour chaque indice. Le tableau 3.11 permet de synthtiser la structure du WISC-IV. Comme le montre ce tableau, le calcul de chaque note composite repose sur un nombre limit de subtests (deux ou trois) alors que lindicateur global, le QIT, prend en compte lensemble des 10 subtests obligatoires. Cet indice est donc bien lindicateur le plus complet, et le plus fiable, de lpreuve WISC-IV. Les nouveaux indicateurs notes additionnelles sexpriment dans la mme mtrique que les notes standards et permettent dobtenir des informations plus prcises sur certaines aptitudes cognitives (voir plus loin).
151
Tableau 3.11 Rpartition des subtests sur les diffrents indicateurs du WISCIV.
Les indicateurs du WISC-IV Les notes composites ICV Subtests Similitudes Vocabulaire Comprhension Information Raisonnement verbal Cubes Identification de Concepts Matrice Compltement dimages Mmoire de chiffres Squence Lettres-Chiffres Arithmtique Code Symboles Barrage X X X (X) (X) X X X (X) X X (X) X X (X) IRP IMT IVT Lindicateur global : QI T X X X (X) (X) X X X (X) X X (X) X X (X) ordre alatoire ordre structur
(Les parenthses signalent les subtests optionnels.)
Les notes additionnelles
sans bonification
ordre direct ordre inverse
Les talonnages disponibles
Ltalonnage repose sur un chantillon de 1 103 enfants, gs de 6 16 ans, reprsentatifs de la population franaise. Comme pour les autres chelles de Wechsler, il faut souligner ici lattention apporte la constitution de lchantillonnage de sujets avec contrle de diffrentes variables : profession et CSP des parents, zone dhabitation, sexe et ge des enfants... Au final on dispose dtalonnages par classes dges, avec des groupes dges de 4 mois (voir annexe A du manuel 1).
152
Comme pour les autres chelles de Wechsler les indicateurs du niveau de performance du sujet sont des scores talonns, avec une moyenne de 10 pour les notes standards de chaque subtest et une moyenne de 100 pour les indicateurs principaux de lchelle. Le tableau 3.12 donne les valeurs caractristiques de chaque indice.
Tableau 3.12 Valeurs caractristiques des indicateurs du WISC-IV.
Indicateurs Notes standards et notes additionnelles Q.I.T Notes composites : ICV, IRP, IMT, IVT Valeur mini 1 40 50 Valeur maxi 19 160 150 Moyenne 10 100 100 cart type 3 15 15
Le manuel 1 fournit galement les rangs percentiles et les intervalles de confiance, pour les indicateurs factoriels et pour le QIT. Il est intressant de consulter ces tables afin de situer plus prcisment les performances du sujet : par exemple, il faut savoir quun QIT de 110 nest atteint (ou dpass) que par seulement 30 % des enfants (voir galement le chapitre 2 ce livre sur les talonnages de type Q.I.).
Les qualits psychomtriques
Nous reprendrons ici les indications du manuel concernant les qualits psychomtriques du WISC-IV (sensibilit, fidlit et validit) en effectuant des comparaisons avec lancienne version WISC-III. Rappelons que la version originale, dite aux tats-Unis, a fait lobjet dune validation et quil ne sagit donc ici que de vrifier les qualits psychomtriques de ladaptation franaise sur lchantillon denfants franais.
La sensibilit Il faut ici distinguer deux aspects :

La sensibilit au sens classique du terme, cest--dire la capacit du
WISC-IV diffrencier des enfants du mme niveau dge ;
153
La sensibilit dveloppementale : les chelles de Wechsler tant des
chelles de dveloppement, il faut ici vrifier que le niveau moyen de russite des items est bien ordonn selon lge moyen des sujets et permet donc de diffrencier des enfants dge diffrents. Pour le premier aspect de la sensibilit, les donnes du tableau 3.12 indiquent que cette sensibilit est assure au niveau de tous les indices. Remarquons que lindice QIT, avec des valeurs possibles de 40 160, permet, par rapport aux notes composites (ICV, IRP, IMT et IVT), une diffrenciation plus fine des enfants situs dans les catgories extrmes. Les notes standards, comme les notes composites, prsentent nanmoins un bon niveau de sensibilit avec des valeurs schelonnant sur trois carts types de part et dautre de la moyenne.
La fidlit La fidlit, ou consistance interne a t value partir de la mthode pair-impair. Les coefficients varient de .65 .86 pour les subtests, de .62 .82 pour les notes additionnelles et de .84 .89 pour les notes composites. Cette fidlit est de .94 pour le QIT. La fidlit temporelle a t value par la mthode test-retest sur un chantillon de 93 enfants avec un intervalle moyen de 27 jours entre les deux passations. Les valeurs sont globalement correctes avec des variations de .64 .83 selon les subtests, de .78 .88 selon les notes composites et une valeur de .91 sur le QIT (manuel 1, p. 34). On observe galement, et cest attendu, des gains moyens entre les deux passations (effets dapprentissage). La fidlit de la cotation sur les subtests verbaux a galement fait lobjet dune valuation, avec des valeurs quasiment parfaites : .98 et .99. Enfin, lerreur de mesure, inversement proportionnelle la fidlit du test, a t value pour chaque type dindicateur. Exprime en unit dcart-type, cette erreur-type de mesure varie pour les notes standards de 1,16 1,78, de 4,98 6,01 pour les notes composites et elle est estime 3,63 pour le QIT. partir de ces indications, il devient possible de calculer un intervalle de confiance dans lequel doit se situer la note vraie du sujet. Comme pour le WISC-III, les auteurs du manuel nous facilitent la tche en proposant les valeurs de cet intervalle, pour les risques de 5 % et de 10 %, et pour chaque indice (en annexe du manuel 1). Le praticien est dailleurs invit faire figurer pour chaque score de lenfant un intervalle de confiance.
154
Lensemble des donnes concernant la fidlit du WISC-IV tmoigne dun bon niveau de fidlit de lpreuve mais le praticien doit se rappeler que le QIT est lindicateur qui prsente le meilleur niveau de fidlit et que les scores aux indices composites sont plus fidles que les scores aux subtests. La validit Rappelons que cest sans doute la qualit la plus importante dune preuve. Il sagit ici danalyser les donnes qui justifient lutilisation du WISC-IV comme mesure de laptitude intellectuelle. Dans un premier temps nous analyserons les donnes concernant lanalyse de la validit du WISC-IV comme mesure de lintelligence puis, dans un second temps, nous nous intresserons la validit de la structure de lpreuve (la validit des diffrents indicateurs du WISC-IV).
La validit du WISC-IV comme mesure de lintelligence
Bien que la validit des chelles de Wechsler soit atteste par un grand nombre dtudes publies, il est normal que, lors de chaque rnovation dpreuve, les auteurs apportent des lments de validation concernant la nouvelle version. Ce sont ces lments que nous allons prsenter et analyser. Comme nous lavons dj indiqu (voir le chapitre 2 de ce livre), la validation est entendre comme un processus : les lments prsents dans le manuel vont tre progressivement complts par les publications dtudes sur cet instrument Nous nous centrerons ici principalement sur les donnes concernant lchantillon franais. Une premire approche consiste comparer le WISC-IV avec les autres chelles de Wechsler, une seconde approche consistera analyser les liaisons existant avec dautres tests dintelligence.
Corrlations avec le WISC-III
On attend des corrlations leves entre les deux versions de lpreuve mme si, comme nous lavons dj signal, les diffrences sont nombreuses entre WISC-III et WISC-IV. Ces deux tests ont t administrs 159 enfants. La corrlation obtenue sur les QIT est de .78, valeur leve mais cependant un plus faible que la corrlation qui avait t observe entre WISC-III et WISC-R, qui tait de .88 (voir tableau 3.3). Cette baisse de corrlation peut sexpliquer par les modifications importantes apportes au WISC-IV.
155
Malgr cela, la valeur leve de la corrlation indique que ces deux preuves valuent bien le mme domaine : lintelligence dite globale. Il est galement intressant dobserver les corrlations entre les diffrents indicateurs de ces deux versions. Cest ce que nous permet le tableau 3.13.
Tableau 3.13 Corrlations entre WISC-IV et WISC-III (daprs le manuel 2).
WISC-IV QI T QI T QI V WISC-III QI P ICV IOP IVT .83 .60 .66 .78 .82 .62 ICV IRP IMT IVT
Que nous apportent ces valeurs ? Elles permettent destimer les relations qui existent entre les indicateurs de la version WISC-III et les nouveaux indicateurs (les notes composites) de la version WISC-IV. Par exemple, lindicateur ICV du WISC-IV est, comme attendu, assez proche la fois du QIV (r = .82) et de lICV (r = .83) du WISC-III. Par contre les liaisons entre le nouvel indicateur IRP du WISC-IV et les indicateurs les plus proches du WISC-III sont moins leves : .62 avec le QIP et .60 avec lindice IOP. Ces observations confirment ici un point que nous avons dj voqu : il ne faut pas chercher assimiler les indicateurs des deux versions et principalement, on le voit ici, lindice IRP au QIP. En effet, et cest un point que nous reprendrons, mme sil existe un assez large recouvrement entre les deux indices, ce qui est valu par lindice IRP du WISC-IV ne correspond quen partie ce qui tait valu par lindice QIP du WISC-III.
Corrlations avec la WPPSI-III
Rappelons que la WPPSI-III est lchelle dintelligence de Wechsler destine aux enfants plus jeunes, gs de moins de 7 ans. Ces deux preuves ont t administres 60 enfants gs de 6 7 ans. Les rsultats figurent dans le tableau 3.14. Les corrlations observes ici (de .69 .84) sont globalement du mme niveau que celles qui avaient t observes entre le WISC-III et la WPPSI-R (voir tableau 3.4) et tmoignent de la proximit de ce qui est valu par les nouvelles versions de ces deux instruments.
156
Tableau 3.14 Corrlations entre WISC-IV et WPPSI-III (daprs le manuel 2).

WISC-IV QI T QI T WPPSI-III QI V QI P QVT .84 .79 .72 .69 ICV IRP IMT IVT
Corrlations avec la WAIS-III
Il sagit l encore de comparer les rsultats entre deux versions des chelles de Wechsler mais cette fois pour les sujets les plus gs. Lchantillon est compos ici de 55 sujets gs de 16 ans. La corrlation de .83 observe entre les QIT (tableau 3.15) confirme galement que le WISC-IV value bien la mme forme dintelligence que celle value par la WAIS-III.
Tableau 3.15 Corrlations entre WISC-IV et WAIS-III (daprs le manuel 2).
WISC-IV QI T QI T QI V QI P WAIS-III ICV IOP IMT IVT .78 .78 .79 .64 .83 .81 .74 ICV IRP IMT IVT
Nous avons dj indiqu que la nouvelle structure du WISC-IV, avec ses quatre notes composites, est trs proche de la version WAIS-III qui contient galement quatre indices composites. La proximit de ces indices (pris deux deux) confirment lquivalence structurelle des deux preuves avec des corrlations leves entre les mmes indicateurs : .78 au niveau de lindicateur de la comprhension verbale (ICV), .78 galement au niveau de lorganisation/raisonnement, perceptif (IRP/IOP), .79 au niveau de la mmoire de travail (IMT) et .64 pour la vitesse de traitement (IVT).
157
Corrlations avec le K-ABC
Les deux preuves ont t administres 70 enfants gs de 6 12 ans. Rappelons que le K- ABC, qui relve dune autre approche que celle de Wechsler, distingue deux types de processus cognitifs : les processus squentiels (P. Squentiels), les processus simultans (P. Simultans). Lchelle des processus mentaux composites (PMC) reprsente lindicateur global de cette preuve, qui comporte galement une chelle de connaissance (Kaufman et Kaufman, 1993).
Tableau 3.16 Corrlations entre WISC-IV et K-ABC (daprs le manuel 2).
WISC-IV Q.I.T P. Squentiels K-ABC P. Simultans P.M. Composites Connaissances .59 .57 .69 .74 ICV .36 .38 .44 .66 IRP .49 .64 .70 .69 IMT .70 .33 .58 .61 IVT .30 .41 .44 .32
Au niveau des deux indicateurs globaux, QIT pour le WISC-IV et chelle composite PMC pour le K-ABC, la corrlation est de .69. Cette valeur tmoigne du large recouvrement de ce que mesurent ces deux tests, bien quils reposent sur des approches thoriques diffrentes. On aurait pu sattendre observer une valeur plus leve entre K-ABC et WISC-IV quentre K-ABC et WISC-III compte tenu que le WISC-IV affiche clairement un ancrage cognitif. Or cest linverse qui est observ (mme si la diffrence reste faible) : la corrlation entre K-ABC et WISC-III tait, sur ces mmes indicateurs, de .74 (voir tableau 3.6). On peut galement remarquer la valeur leve (.74) de la corrlation entre QIT et lchelle de connaissance du K-ABC, valeur plus leve que celle observe entre les deux indicateurs dintelligence (.69 entre QIT et P.M.C). Enfin, on observe une proximit plus importante, dune part entre IRP et Processus Simultans (.64, contre une valeur de .49 avec Processus Squentiels), dautre part, entre IMT et Processus Squentiels (.70, contre .33 avec Processus Simultans). Les autres indices, QIT, ICV et IVT, tant plus quilibrs ce niveau. Toutes les tudes de validit prsentes dans le manuel (avec le WISC-III, la WPPSI-III, la WAIS-III et le K-ABC) apportent donc des lments
158
convergents sur la fiabilit du WISC-IV comme mesure de lintelligence globale. Par contre ne figurent ici aucune tude concernant les liaisons entre WISC-IV et batteries factorielles1 , ni entre WISC-IV et preuve de facteur g. On ne peut que le regretter. Concernant cette fois la validit critrielle, on sattend observer des donnes concernant par exemple les liaisons entre WISC-IV et russite scolaire. tonnamment aucune tude de ce type, sur une population franaise, nest prsente dans le manuel. Rappelons, l aussi, que de telles tudes avaient t menes lors de ladaptation du WISC-III, avec lanalyse des relations entre les indicateurs du WISC et des tests standardiss de connaissance. Sachant que le WISC est trs utilis dans le cadre scolaire il est fort regrettable que de telles tudes ne figurent pas dans le manuel de cette version WISC-IV. Mme sil est fort probable que lon puisse appliquer au WISC-IV les rsultats observs avec le WISC-III, la prsentation de donnes permettrait de conforter, et de prciser, la validit du WISC-IV dans ce domaine. Les seules donnes disponibles sont celles observes entre WISC-IV et lchelle de connaissance du K-ABC, donnes que nous venons de prsenter (voir tableau 3.16) et qui tmoignent de la relation troite entre ce qui est valu par le WISC-IV et les connaissances acquises (corrlation de .74 entre QIT et lchelle de connaissance du K-ABC). Il est dailleurs un peu surprenant de constater sur ce tableau 3.16 que, contrairement ce que lon pourrait prdire, entre ICV et IRP, cest lindicateur thoriquement le moins li aux connaissances (IRP) qui prsente la corrlation la plus leve avec cette chelle de Connaissances du K-ABC (.69 contre .66). Mme si la diffrence reste faible, ce rsultat mriterait une analyse, ou au moins un commentaire, tous deux absents du manuel.
tudes de groupes cliniques
Cette partie constitue galement une nouveaut par rapport lancienne version WISC-III. En effet, mme si nous disposions de donnes et/ou de pistes concernant les possibilits dutilisation du WISC-III dans une dmarche de premier diagnostic de diffrents troubles (voir Grgoire, 2000a) il faut signaler la prsence ici dtudes spcifiques sur diffrents types de sujets : prcocit intellectuelle, pilepsie, dyslexie, retard mental lger,
1. Rappelons quune telle tude, avec la batterie DAT, a t mene dans lexprimentation du WISC-III (voir tableau 3.7).
159
troubles des apprentissages, trouble de lattention/hyperactivit, trouble du langage, traumatisme crbral, trouble autistique... Ces tudes concernent majoritairement des donnes amricaines (seules trois tudes1 sur 18 portent sur des enfants franais), le plus souvent sur de petits effectifs, avec des critres de diagnostic pouvant tre diffrents. Par consquent, il faut prendre avec prudence les observations et conclusions de ces tudes, comme dailleurs le prconisent les auteurs du manuel (manuel 2, p. 63). Nous indiquerons ici uniquement le principe gnral de ces tudes : il sagit de comparer les rsultats dun groupe clinique un groupe tmoin et de relever les ventuelles spcificits du profil de ce groupe.
Exemple Le groupe denfants dyslexiques se singularise par des notes standards particulirement faibles dans les subtests reposant sur le langage, comme information (m = 5,9) et vocabulaire (m = 6), mais galement sur des subtests qui font le plus appel la mmoire de travail : arithmtiques (m = 5,2) et Squence Lettres-Chiffres (m = 6,1). Autre exemple, les enfants du groupe prcocit intellectuelle obtiennent bien des scores sensiblement suprieurs dans les diffrents indicateurs, mais la diffrence est moins marque pour les subtests en lien avec la mmoire de travail, avec au nal une moyenne de 107,3 (donc lgrement au-dessus de la moyenne) pour la note composite IVT.
Nous ne pouvons pas ici prsenter les conclusions de ces diffrentes tudes et renvoyons le lecteur intress vers le manuel (manuel 2, p. 63-83).
La validit de la structure du WISC-IV
Comme nous lavons indiqu plusieurs reprises, le WISC-IV propose cinq types dindicateurs de la performance du sujet : un indicateur global (QI T) et quatre indicateurs spcifiques (ICV, IRP, IMT et IVT). Il va sagir ici de vrifier le bien fond de ces regroupements de subtests. Par exemple, pour valider le calcul de lindicateur global QIT, il faut que tous les subtests prsentent un certain niveau de liaison entre eux. De mme, pour vrifier la validit de structure au niveau des indicateurs spcifiques (les notes composites) on doit vrifier que la liaison de chaque subtest avec son chelle de rattachement (sa note composite) est bien suprieure sa liaison avec une autre chelle.
1. Il sagit dtudes concernant la prcocit intellectuelle, lpilepsie et la dyslexie.
160
Analyse du QIT
Pour justifier le calcul du QIT, chaque subtest doit donc prsenter une liaison non ngligeable avec les autres subtests, liaison qui indique bien que toutes les situations du test valuent une mme dimension, que lon interprte ici comme lintelligence globale. Si on consulte le tableau 5.1 du manuel 2 (p. 45) on saperoit que les intercorrlations entre les subtests obligatoires varient de .12 pour la plus faible (entre Mmoire de chiffres et Code) .67 pour la plus leve (entre Vocabulaire et Similitudes). Il est tout fait normal que certains subtests prsentent entre eux des valeurs plus leves de corrlation, explicables par la plus grande proximit de ce quils valuent, lessentiel tant dobserver des corrlations significatives entre tous ces subtests. Lexistence de telles corrlations valide le calcul dun indicateur global, le QIT, reposant sur lensemble des subtests.
Analyse des notes composites
Il sagit ici de vrifier la structure du WISC-IV en quatre facteurs. On sattend ici observer des saturations maximales de chaque subtest sur son chelle de rattachement. Effectivement, une analyse factorielle exploratoire confirme cette structure. Les donnes du manuel (p. 45) nous indiquent galement que, dune faon gnrale, les subtests rattachs une mme note composite corrlent plus fortement entre eux quavec les autres subtests. On peut signaler ici que lexprimentation sur lchantillon franais confirme les donnes amricaines, ce qui, rappelons-le, ntait pas le cas lors de lexprimentation du WISC-III. Le tableau 3.17 prsente les saturations observes entre chaque subtest et son chelle de rattachement (ou note composite). Dans ce tableau, dont les subtests optionnels figurent entre parenthses, on peut noter que les saturations entre subtests et note composite de rattachement sont assez leves mais varient selon les indices. Pour lindice ICV, les valeurs restent leves (de .67 .78), de mme pour IVT (except le .45 observ pour le subtest barrage), par contre les saturations sont plus faibles pour lindice IRP (de .50 .56) et pour IMT (.46 .62). Cette premire tape de validation des quatre indices est confirme par des analyses supplmentaires, utilisant des mthodes danalyses factorielles confirmatoires. Rappelons que lintrt de ces mthodes confirmatoires est de tester la, ou les, structure(s) factorielle(s) qui a(ont) t dfinie(s) a priori par les chercheurs. Il faut se rappeler ici que lun des objectifs de llaboration du WISC-IV, qui a guid les modifications apportes au WISC-III, tait dobtenir quatre
161
Tableau 3.17 Saturations factorielles des subtests sur leur chelle de rattachement (analyses factorielles exploratoires, manuel 2, p. 49).
Les notes composites Subtests Similitudes Vocabulaire Comprhension (Information) (Raisonnement verbal) Cubes Identification de Concepts Matrice (Compltement dimages) Mmoire de chiffres Squence Lettres-Chiffres (Arithmtiques) Code Symboles (Barrage) ICV .73 .78 .68 (.70) (.67) .54 .50 .54 (.56) .56 .62 (.46) .69 .67 (.45) IRP IMT IVT
indices fiables du fonctionnement cognitif du sujet. Par exemple, la cration du subtest Matrice tait destine renforcer lindicateur IRP comme mesure de lintelligence fluide. Les auteurs avaient donc une ide trs prcise de la structure de lpreuve, une structure en quatre facteurs (les quatre notes composites), chacun tant obtenu partir dune combinaison dtermine de subtests. Cest ce modle thorique, dfini a priori, quil sagit de tester laide de mthodes confirmatoires. Sans entrer dans les dtails de ces analyses1 nous en retiendrons uniquement ici les principaux rsultats obtenus : parmi les diffrents modles thoriques tests, cest bien le modle postul (4 facteurs constitus des subtests dfinis a priori) qui reprsente le mieux les donnes observes. La structure du WISC-IV en quatre facteurs est donc confirme. Au final lensemble des analyses, exploratoires et confirmatoires, valident la pertinence des cinq indicateurs du WISC-IV : QIT, ICV, IRP, IMT et IVT.
1. Nous renvoyons le lecteur intress par ces aspects au manuel 2 (pages 51 54).
162
Les bases de linterprtation du WISC-IV
Les auteurs du manuel rappellent que dans la phase dinterprtation des rsultats de lenfant, le psychologue doit prendre en compte, en plus des performances values au WISC-IV, un ensemble vari dinformations, quantitatives et qualitatives (anamnse, rsultats scolaires, contexte familial et social, comportement pendant la passation...) qui lui permettront de proposer des pistes explicatives au profil des rsultats observs. Ils indiquent galement que le WISC-IV se situe dans la tradition des chelles de Wechsler et que, ce titre, les mthodes et procdures dinterprtation des rsultats labores pour les autres versions de ces chelles et nous pensons plus particulirement ici au WISC-III sont toujours pertinentes. Le psychologue pourra ainsi consulter avec profit, comme nous ly avons dj invit, les parties de cet ouvrage consacres au WISC-III, ainsi que le dernier ouvrage de Grgoire consacr au WISC-IV (Grgoire, 2006). Nous avons dj indiqu que, pour cette version WISC-IV, le psychologue dispose de deux manuels. Le second manuel (manuel 2) est compos de 123 pages, dont seulement 11 (le chapitre 6) sont exclusivement consacres linterprtation des rsultats. Nous aurions aim que cette partie, essentielle pour le praticien, soit davantage dveloppe. De mme, il nous semble que des tudes de cas mriteraient de figurer dans ce manuel dautant plus que les modifications sont nombreuses entre le WISC-III et le WISC-IV, ce qui ne va pas faciliter le transfert de comptence que doit oprer le psychologue entre ces deux outils. Aprs la cotation de chaque subtest et la transformation des notes brutes en notes standard, le psychologue doit remplir les diffrentes rubriques du cahier de passation qui lui permettront de procder lanalyse des rsultats. Pour cela il peut suivre les indications du manuel 1 (pages 49 63) qui dtaillent les tapes de cette procdure.
Indications pralables Avant de proposer un cadre gnral dinterprtation des rsultats, les auteurs du manuel passent en revue quelques notions essentielles sur la mesure en gnral, et sur les indicateurs du WISC-IV en particulier. Nous avons dj prsent ces notions mais il nous a sembl pertinent de reprendre ces lments afin de proposer au lecteur une rapide synthse sur ces notions clefs dont la matrise sera ncessaire dans la phase dinterprtation des rsultats.
163
Le psychologue confirm pourra ventuellement survoler cette partie et aborder directement la partie spcifique concernant le cadre dinterprtation des rsultats. Nous aborderons ici succinctement, les points suivants : la notion de note standard, la mtrique des notes composites, la notion de rang percentile, lerreur type de mesure et lintervalle de confiance, la description qualitative des notes composites et enfin, les possibilits dquivalence en niveau dge.
La notion de note standard et de rang percentile
La note standard est une note talonne, en rfrence aux performances releves sur des enfants de mme ge. Au niveau des subtests, les notes standards suivent une loi normale, de moyenne 10 et dcart-type 3. Ainsi on peut retenir quenviron 68 % des enfants obtiennent une note standard comprise entre 7 (moyenne un cart-type) et 13 (moyenne + un cart type). Le tableau 6.1 du manuel (manuel 2, p. 86) permet de connatre le rang percentile de chaque note standard.
Exemple une note standard de 6 correspond un rang percentile de 9, ce qui signie que seulement 9 % des enfants du mme ge ont une note infrieure ou gale 6.
Au niveau des notes composites, les notes sont exprimes sur une chelle normalise de moyenne 100 et dcart-type 15. Le tableau 6.2 du manuel (manuel 2, p. 86) fournit les informations concernant les rangs percentiles de chaque valeur de note composite.
Lerreur-type de mesure
Rappelons que le score observ nest quune estimation de la valeur de la note vraie du sujet dans la dimension value et quil est plus valide de caractriser le sujet par un intervalle de confiance que par une estimation ponctuelle (voir la prsentation de lerreur de mesure et de la thorie du score vrai dans le chapitre 2 de cet ouvrage). Le psychologue est alors invit entourer le score observ dans chaque indice (QIT et les quatre notes composites) dun intervalle de confiance en utilisant les donnes du manuel 1 (annexe A, p. 237-240).
Exemple Pour un risque de 10 %, un QI T observ de 110 devra tre entour de lintervalle de conance [104-115]. Autrement dit, on considre que dans 90 % des cas, le score rel (score vrai) du QI T de lenfant se situe entre 104 et 115.
164
La description qualitative des notes composites
Comme dans les autres versions des chelles de Wechsler le manuel propose une catgorisation des indices principaux (le QIT et les quatre notes composites) qui reprend dailleurs globalement les catgories utilises dans la WAIS-III : de la catgorie trs faible (score de 69 et moins) la catgorie trs suprieur (score de 130 et plus). On remarquera ici labandon de la dnomination retard mental , qui figurait dans le manuel du WISC-III pour les scores les moins levs, au profit ici de la dnomination trs faible pour les mmes scores. Cette grille de catgorisation est reprise en dernire page du cahier de passation, accompagne des pourcentages de sujets appartenant chaque catgorie. Le psychologue est invit situer le niveau de performance de lenfant de la manire suivante :
Par rapport aux enfants du mme ge, le fonctionnement intellectuel de cet enfant, mesur laide dun test standardis, se situe actuellement dans la zone [insrer ici la catgorie qualitative approprie]. (manuel 2, p. 87)
Lquivalence en niveau dge
Le psychologue dispose galement de donnes lui indiquant lge moyen auquel une note brute est obtenue dans chaque subtest. Mais en fait, tout en proposant ces rfrences, proches de la notion dge mental, le manuel expose les nombreuses limites de leur utilisation et conseille finalement de ne pas les utiliser (manuel 2, p. 88). Ces diffrents points ayant t rappels, nous pouvons maintenant aborder linterprtation des rsultats.
Analyse et interprtation des rsultats Comme dans le cas des autres chelles de Wechsler linterprtation du profil des rsultats est sans doute la partie la plus dlicate dans lutilisation du test, mais aussi la partie la plus intressante, qui suppose la fois une bonne matrise des concepts thoriques sous-jacents (aspect particulirement essentiel ici avec cette version WISC-IV pour pouvoir en interprter les nouveaux indices) mais galement de relles qualits cliniques, de manire intgrer dans cette phase un ensemble de variables diffrentes (et de statut diffrent) : scores aux indices, profil des performances, indications cliniques recueillies pendant la passation.... Cette phase dinterprtation suppose donc, de la part du psychologue, une bonne capacit de synthse, une bonne matrise de loutil et une exprience clinique dans la passation dpreuves.
165
Les tapes de lanalyse des rsultats de lenfant
Le cadre gnral dinterprtation des rsultats du WISC-IV est comparable celui prconis dans les autres versions des chelles de Wechsler : il sagit toujours de dbuter lanalyse par lindicateur global (le QIT), avant daborder les indicateurs spcifiques (ici les quatre indices ou notes composites). Dans un premier temps, ces indices seront pris isolment, puis dans un second temps, lanalyse sera centre sur les diffrences ventuelles entre les valeurs de ces quatre indices. Enfin, le praticien pourra procder lanalyse des mesures les plus spcifiques (les notes aux subtests et, ventuellement, les notes additionnelles). Comme pour le WISC-III, il sagira toujours darticuler deux types de comparaison : une comparaison interindividuelle (comment lenfant se situe-t-il par rapport la russite moyenne des enfants de son ge ?) ; une comparaison intra-individuelle (quels sont les domaines sur lesquels il russit le mieux, comparativement ses autres rsultats ?). Les deux manuels du WISC-IV fournissent au psychologue un ensemble assez vaste de rfrences diverses concernant linterprtation des scores de lenfant : tables dtalonnage (conversion des scores bruts en notes standard), tables relatives linterprtation des diffrences entre indices, et entre subtests... Ainsi il dispose de prs de 70 pages de tableaux divers (pages 204 270), composant les annexes A et B du manuel 1, dans lesquels cependant le psychologue non familier du WISC-IV aura sans doute quelques difficults sy retrouver. Nous avons donc tent de synthtiser les informations principales concernant cette phase dinterprtation des rsultats en reprenant le principe de la dcomposition en 10 tapes qui est propose dans le manuel 2. Cette partie nest pas destine se substituer la lecture du manuel mais elle est conue comme une introduction, une invitation approfondir les points abords ici par la lecture des manuels du WISC-IV, ainsi que les publications concernant lutilisation de cette preuve (voir en particulier Grgoire, 2006).
tape 1 : Description du QI Total
Rappelons que le QI T est lindicateur le plus fidle, le plus valide et le plus complet de lensemble des capacits cognitives de lenfant. Comme pour le WISC-III, le QIT est un indicateur de lintelligence globale de lenfant. Il repose sur les 10 subtests obligatoires. Comme nous lavons indiqu, ce QI T doit tre entour dun intervalle de confiance. Le psychologue pourra
166
nuancer ventuellement cet intervalle partir de ses observations concernant la passation, comme par exemple le degr dinvestissement de lenfant dans les tches proposes. Un premier niveau danalyse consiste catgoriser le niveau de performance de lenfant (de trs faible trs suprieur ) partir des indications du manuel 2 (p. 87). Cette catgorisation permet de situer les rsultats dun enfant par rapport aux enfants de son ge. Pour affiner ce positionnement le psychologue est invit reporter sur le cahier de passation le rang percentile correspondant. Enfin, il se pose la question de lhomognit de ce score global partir de lestimation globale (qui sera plus tard prcise) du profil des rsultats : le profil semble-t-il relativement homogne (le QIT tant obtenu partir de valeurs comparables dans les quatre notes composites) ou le profil semble plutt htrogne (cas o on observe une, ou plusieurs, diffrence(s) sensible(s) entre les notes composites) ? Cette premire estimation du profil des rsultats sera ensuite affine dans les tapes ultrieures partir de la dmarche type, qui constitue une sorte de fil rouge dans linterprtation des rsultats et qui repose sur ces deux questions centrales :
La diffrence observe est-elle statistiquement significative ? La diffrence observe est-elle frquente au sein de la population de
rfrence ? Aprs cette analyse globale du QI T, le psychologue va adopter la mme procdure (score, intervalle de confiance, classification du score observ, rang percentile, ...) pour analyser les quatre notes composites. Il va sagir galement de prciser ce qui est valu par chaque indicateur. Ce sont les tapes 2 5 que nous allons maintenant aborder.
tape 2 : Description de lindice ICV
LIndice de Comprhension Verbale, qui repose sur trois subtests obligatoires (Similitudes, Vocabulaire et Comprhension), est une mesure du raisonnement partir de situations dans lequel le langage intervient, mais cest aussi une estimation de lintelligence cristallise qui repose en partie sur les apprentissages raliss par lenfant.
tape 3 : Description de lindice IRP
LIndice de Raisonnement Perceptif repose galement sur trois subtests obligatoires (Cubes, Identification de concepts et Matrice). Mesure du raisonnement perceptif, il value plutt laspect fluide de lintelligence,
167
comme en tmoigne lun des nouveaux subtests, Matrice, directement inspir de tests de type facteur g. Par rapport lancien indicateur QIP, seul un subtest a t conserv : Cubes. Pour le psychologue familier du WISC-III il sagit donc ici de bien distinguer ce qui est valu par ce nouvel indice IRP de ce qui tait valu par le QIP. En particulier, IRP est un indice des capacits de raisonnement partir de stimuli perceptifs et il met moins laccent sur le raisonnement visuo-spatial (Grgoire, 2005). De plus limpact de la vitesse de raisonnement est ici rduit (rduction des bonus de temps).
tape 4 : Description de lindice IMT
LIndice de Mmoire de Travail ne repose lui que sur deux subtests obligatoires (Mmoire de chiffres et Squence Lettres-Chiffres). Cest une mesure moins fidle que les deux indices prcdents. IMT value les capacits de lenfant conserver temporairement certaines informations, tout en effectuant un traitement sur celles-ci. Si le psychologue le souhaite, il peut calculer les notes additionnelles ordre direct (plus proche de la notion de mmoire court terme) et ordre inverse (plus proche de la notion de mmoire de travail) de manire distinguer ces deux facettes de la mmoire.
tape 5 : Description de lindice IVT
LIndice de Vitesse de Traitement ne repose galement que sur deux subtests obligatoires (Code et Symboles). Cet indice fournit une valuation des capacits de lenfant traiter rapidement des informations. Nous formulerons deux remarques sur cet indice :
Si lon observe les corrlations avec le K-ABC (voir tableau 3.16) on
peut remarquer que la corrlation est en ralit plus leve avec lchelle de processus simultans (.41) quavec lchelle des processus squentiels (.30), ce qui tendrait montrer que, contrairement ce que nous indique le manuel (manuel 2, p. 90), lIVT serait plus proche dun traitement simultan. Ce point ncessiterait un approfondissement ; Le fait quun traitement plus rapide (score lev en IVT) permet de traiter plus dinformations et/ou dpargner les ressources de la mmoire de travail explique la corrlation souvent observe entre niveau de performance et vitesse de traitement. Arriv la fin de cette cinquime tape, le psychologue a donc caractris le sujet sur les indicateurs principaux du WISC-IV. Parmi ces cinq indicateurs
168
(QIT, ICV, IRP, IMT et IVT), on peut considrer les trois premiers (QIT, ICV et IRP) comme les principaux indicateurs des capacits cognitives globales de lenfant, IMT et IVT apportant des informations sur des aptitudes plus spcifiques. Dans les tapes suivantes, le psychologue va sintresser aux ventuelles diffrences entre ces indices. Rappelons ici deux rgles fondamentales dans linterprtation dune diffrence entre deux scores :
Il convient dune part de vrifier le caractre significatif, au sens statistique,
de cette diffrence. En effet une diffrence trop faible, statistiquement non significative, peut rsulter de lerreur de mesure et de fluctuations normales (alatoires), et ne fera pas obligatoirement lobjet dune analyse ; Il convient dautre part de vrifier la frquence de cette diffrence dans la population de rfrence : une diffrence, mme significative, mais relativement frquente, ne fera pas non plus lobjet dinterprtations. Pour pouvoir considrer un profil, ou une partie du profil, comme htrogne, et donc susceptible danalyse approfondie, il est donc ncessaire que la, ou les, diffrence(s) observe(s) soit(ent) la fois significative(s), au sens statistique du terme, et relativement rare(s). Comme nous lindiquerons, le manuel fournit les informations ncessaires pour traiter ces deux aspects.
tape 6 : Comparaison des diffrences entre les quatre indices principaux (ICV, IRP, IVT et IMT)
Il faut ici analyser les diffrences entre les indices pris deux deux, soit 6 comparaisons. Le psychologue dispose pour cela dun tableau comparaisons des diffrences (tableau situ en haut de la page 2 du cahier de passation) quil est invit complter. Il note les valeurs des quatre indices, calcule les diffrences, puis se reporte au tableau B.1 du manuel (manuel 1, p. 256) pour connatre la valeur critique de chaque diffrence, valeur partir de laquelle une diffrence sera statistiquement significative. Le tableau B1 donne ces valeurs critiques en fonction de lge de lenfant et du seuil de confiance retenu (.15 et .05). Si la diffrence observe nest pas suprieure la valeur critique lue dans le tableau B.1 (au seuil .15), on considre que les rsultats de lenfant sont du mme niveau dans les deux indicateurs.
169
Si la diffrence observe est gale ou suprieure la valeur critique (au seuil .15 et ventuellement au seuil .051 ), il faut alors analyser la frquence de cette diffrence sur lchantillon dtalonnage afin de pouvoir connatre sa frquence dapparition. Pour cela, le psychologue se rfre aux tableaux B.2 du manuel (manuel 1, p. 257-262), qui lui indiquent le pourcentage denfants qui ont obtenu une diffrence au moins gale aux valeurs indiques. Attention, il faut utiliser de prfrence le tableau correspondant au niveau du QIT de lenfant (cocher alors la case par niveau sur le cahier de passation2 ) et distinguer galement le sens de la diffrence entre les deux indices. Ces informations permettent de remplir la colonne taux observ dans le tableau du cahier de passation. Se pose alors ici le choix dun seuil critique : partir de quelle proportion de sujets peut-on considrer une diffrence comme rare (cest--dire peu frquente) ? Sattler propose de considrer comme inhabituelle des diffrences qui ne sobservent que chez moins de 15 % de sujets (manuel 2, p. 91). Si lon suit ces indications il faut donc que la valeur de la diffrence observe soit infrieure 15 dans ce tableau B.2 pour considrer une diffrence comme significative mais cette fois au sens clinique du terme.
Exemple Un enfant de 15 ans qui obtient un QIT de 115, avec un indice ICV de 120 et un indice IRP de 108 aura une diffrence ICV-IRP de + 123 . Le tableau B.1 nous indique que cette diffrence est statistiquement signicative au seuil de .15 (mais elle ne lest pas au seuil de .05) et le tableau B.2 nous apprend quune diffrence gale ou suprieure sobserve chez 23 % des enfants de mme niveau de QIT. Cette dernire information modre alors limportance que lon peut accorder cette diffrence : elle nest pas considre ici comme inhabituelle car elle sobserve chez prs dun enfant sur quatre et ne donnera donc pas lieu interprtation.
Bien entendu, il faut aborder ces diffrents seuils avec souplesse et lon pourra ventuellement proposer des hypothses explicatives propos de diffrences statistiquement significatives, mais relativement frquentes dans la population. Dans ce cas, il conviendra dtre plus prudent dans linterprtation de la signification de cette diffrence.
1. Le psychologue indiquera si une diffrence significative .15 lest galement au seuil de .05. 2. Une autre possibilit de comparaison est possible : prendre en compte lensemble de lchantillon ; cocher alors la case tout lchantillon . 3. Rappelons quune valeur minimale de 12 points de diffrence tait ncessaire entre les QIV et QIP du WISC-III pour que lon considre cette diffrence comme non ngligeable.
170
tape 7 : Mise en vidence des forces et des faiblesses
Il va sagir ici danalyser les variations intra-individuelles du niveau de performance du sujet travers ses scores aux diffrents subtests. Rappelons que lobservation dun certain niveau dhtrognit des rsultats est assez frquente, un profil rellement plat est, linverse, plutt rare. Ici encore, comme lors de ltape prcdente, toute diffrence observe ne mrite pas obligatoirement une analyse prcise. Cest en se rfrant ce principe gnral que le psychologue va analyser le profil des rsultats du sujet travers les diffrents subtests (on parle ici danalyse du scatter ) et tenter de reprer le(s) subtest(s) dans le(s)quel(s) il obtient un score plus lev (ses forces), ou plus bas (ses faiblesses), que sa moyenne personnelle. Il sagit bien de comparaison intra-individuelle : situer le niveau de performance du sujet dans les diffrentes tches du WISC-IV (les diffrents subtests), non plus par rapport la moyenne de 10 mais par rapport la moyenne de ses rsultats (sa moyenne personnelle). Comment calculer cette moyenne personnelle ? Il faut distinguer deux situations :
Si aucune diffrence significative entre ICV et IRP na t observe (cf.
ltape prcdente) la moyenne personnelle du sujet est calcule sur les dix subtests obligatoires ; Dans le cas inverse, si une diffrence significative est observe entre ICV et IRP, il faut calculer deux moyennes : lune partir des trois subtests obligatoires de lindice ICV, lautre partir des trois subtests IRP. Il faudra alors utiliser comme rfrence la moyenne de lindice auquel est rattach le subtest considr. Le psychologue calculera alors les carts entre le score de chaque subtest et la moyenne personnelle du sujet. Comme pour lanalyse des autres comparaisons, seule une diffrence statistiquement significative, et relativement rare, pourra tre le signe clinique dun certain niveau de singularit du profil. Quelques remarques gnrales concernant cette tape dinterprtation des rsultats 1. La mise en vidence ventuelle de force(s) et de faiblesse(s) doit tre relativise par rapport au niveau global de performance : il sagit bien ici de force(s) et/ou de faiblesse(s) relative(s), quil conviendra ensuite de nuancer en fonction du niveau du QI T observ.
171
2. Linterprtation du profil des rsultats du sujet (analyse du scatter), de ses ventuelles forces et faiblesses, doit reposer sur ce qui est valu dans chaque subtest ou groupe de subtests. Rappelons que pour le WISC-III le psychologue pouvait utiliser une grille daide linterprtation lui permettant de reprer ce quil y avait de commun entre diffrents subtests (voir Grgoire, 1996). Le psychologue peut ventuellement sinspirer de cette grille pour linterprtation des subtests du WISC-IV qui figuraient dans le WISC-III. 3. La mthodologie propose dans le manuel consistant choisir entre deux types de comparaisons selon les diffrences observes entre ICV et IRP (une moyenne gnrale ou deux moyennes spares), est en fait prendre avec souplesse car il est tout fait possible de procder aux deux types de comparaison (manuel 2, p. 92).
tape 8 : Comparaison des diffrences entre paires de subtests
Cette tape consiste analyser plus finement les rsultats du sujet partir de ses scores dans deux subtests particuliers. Les tableaux B.3 et B.4 (manuel 1, p. 264-264) indiquent les seuils critiques de diffrences entre deux subtests, ainsi que les frquences observes de ces diffrences dans lchantillon de sujets de ltalonnage. Lanalyse se fera ici partir dhypothses spcifiques du psychologue et/ou des propositions du manuel. Le cahier de passation comporte ainsi un emplacement pour indiquer trois diffrences particulirement intressantes analyser : mmoire de chiffres/squence lettres-chiffres ; code/symboles ; similitudes/identification de concepts.
tape 9 : valuation du profil des notes au sein des subtests
Le psychologue va tudier ici le profil des russites et des checs au sein de chaque subtest. Le profil observ doit tre conforme la logique de construction de lpreuve qui ordonne les items en fonction de leur niveau de difficult. Ainsi il est rare quune russite apparaisse aprs plusieurs checs conscutifs (do la validit des rgles darrt). Mais certains enfants peuvent prsenter un certain degr dhtrognit de leurs rsultats ce niveau. Par exemple, un enfant brillant peut rpondre trop rapidement aux questions faciles (au risque de faire une erreur), tout en russissant les items suivants, plus difficiles mais, pour lui, sans doute plus intressants.
172
Cette analyse des erreurs peut ventuellement permettre de reprer des profils de rsultats qui mriteraient une attention particulire.
tape 10 : Analyse des notes additionnelles
Lune des nouveauts de cette version WISC-IV est la possibilit de bnficier de scores supplmentaires : les notes additionnelles. Trois subtests sont concerns : Cubes, Mmoire de chiffres et Barrage. Pour Cubes, le psychologue dispose dj de la note au subtest mais il peut galement prendre en compte la note additionnelle Cubes sans bonifications de temps . Lobservation de la diffrence ventuelle dans les rsultats de lenfant dans les deux situations doit permettre dvaluer le poids du facteur vitesse. Pour Mmoire de chiffres, autre subtest obligatoire, le psychologue peut distinguer deux rsultats, mmoire en ordre direct et mmoire en ordre indirecte , avec ici aussi la possibilit de comparer ces deux performances. Enfin, pour le subtest Barrage, subtest optionnel, l encore deux mesures : Barrage en ordre alatoire et Barrage en ordre structur. Pour lanalyse de ces diffrents scores, le psychologue dispose de tableaux (manuel 1) lui permettant de calculer des notes standards, mais il dispose galement de rfrences concernant les seuils critiques de signification statistique et des informations sur la frquence des carts dans la population dtalonnage afin de pouvoir effectuer des analyses comparatives entre deux mesures diffrentes du mme subtest. Le manuel donne quelques indications sur la signification de ces diffrents scores.
Conclusion sur le WISC-IV
Le WISC-IV est la version la plus rcente de lpreuve de Wechsler pour enfant et adolescents, utilisable auprs de sujets gs de 6 16 ans 1 . Il 2 sagit dune preuve individuelle, qui repose sur une approche globale de lintelligence, et qui fournit au psychologue un indicateur concernant le niveau global defficience du sujet (le QIT) et quatre indices spcifiques (ICV, IRP, IMT et IVT). Cette nouvelle structure du WISC se rapproche ainsi des modlisations thoriques des aptitudes intellectuelles, principalement celle propose par Carroll (voir chapitre 1). Comme nous lavons indiqu, les modifications sont nombreuses par rapport lancienne version WISC-III, lune des plus visibles tant sans aucun doute la disparition des deux indices classiques : QIP et QIV. Les utilisateurs du WISC-III risquent dtre, au moins dans un premier temps, assez
173
dsorients en raison de la difficult transfrer rapidement leur exprience du WISC-III linterprtation des rsultats du WISC-IV. Dautant plus, et nous le regrettons, que les manuels ne contiennent aucune illustration dinterprtation de scores ou dtude de cas (le lecteur trouvera quelques tudes de cas dans louvrage de Grgoire de 2006). Certains psychologues regrettent limportance des modifications apportes au WISC-IV, comme par exemple, la diminution du nombre de subtests qui ncessitent une manipulation concrte du matriel (il ne reste que le subtest Cubes), situations dans lesquelles lobservation de la conduite de lenfant apportait souvent des lments pertinents dinformation. Dautres encore se questionnent sur ce qui est rellement valu dans cette version IV (Rozencwajg, 2006). Par contre, il faut se fliciter de la qualit des tudes de validation, comme dailleurs dans les autres chelles de Wechsler, qui apportent de multiples lments sur la fiabilit de la mesure, mme sil manque, nous lavons signal, des tudes prdictives par rapport la russite scolaire. Progressivement, le WISC-IV succde dans les pratiques au WISC-III, et sera sans doute lun des tests dintelligence le plus utilis en France. Cette situation de domination du WISC risque cependant dtre conteste, au moins en France, par larrive de nouvelles preuves, comme par exemple la Nmi-II (Cognet, 2005) ou le K-ABC-II (Kaufman, 2005). Aprs la prsentation des chelles de Wechsler pour enfant et adolescents, abordons maintenant la version WAIS pour adulte.
4.
La WAIS-III
Cette chelle de Wechsler pour adultes version WAIS1 (ge minimum de 16 ans) reste trs proche dans ses fondements thoriques, dans le choix des subtests, comme dans les principes de passation, de cotation et dinterprtation, des chelles WISC-III et WISC-IV pour enfants et adolescents qui viennent dtre prsentes. Tout en reprenant le plan gnral que nous avons suivi pour la prsentation des chelles WISC, ce chapitre sera un peu moins dtaill compte tenu que nombre de propos sur le WISC peuvent tre gnraliss la WAIS-III.
1. Wechsler Adult Intelligence Scale.
174
Nous nous appuierons ici essentiellement sur les donnes du manuel de lpreuve (Wechsler, 2000) ainsi que sur un ouvrage de Grgoire dans lequel la WAIS-III occupe une place importante (Grgoire, 2004). Signalons galement louvrage de Castro (2006) consacr en partie cette preuve.
Historique La premire version de cette preuve amricaine, version Wechsler-Bellevue, date de 1939, et est adapte en France en 1956. La version WAIS est dite en 1955 et adapte en France en 1968. Cette version est ensuite rvise en 1981, version WAIS-R, et adapte en France en 1989. Enfin, la version la plus rcente, WAIS-III parat en 1997, puis est adapte en France en 2000.
Le matriel Comme pour le WISC-III, la WAIS-III se prsente sous la forme dune mallette qui contient tout le matriel ncessaire la passation. Le psychologue dispose dun manuel bien document de 357 pages. Le praticien consigne sur un cahier de passation les rponses du sujet et il dispose dun document rcapitulatif pour reporter lensemble des scores.
Les subtests La WAIS-III prsente la mme organisation que le WISC-III : un ensemble dpreuves indpendantes (les subtests) qui sont regroupes en deux sous chelles (une chelle verbale et une chelle de performance). Au total la WAIS-III comporte 14 subtests, dont 11 proviennent de la prcdente version WAIS-R. Lchelle verbale comprend 7 subtests (dont 1 optionnel), lchelle de performance comprend galement 7 subtests (dont 2 sont optionnels). Chaque subtest comporte plusieurs items prsents au sujet selon leur niveau de difficult. Lune des grandes modifications par rapport la version WAIS-R concerne lintroduction dIndices Factoriels (ce point sera dvelopp plus loin). Nous prsenterons rapidement chacun de ces subtests :
175
Les subtests de lchelle verbale Vocabulaire : consiste donner la dfinition de mots (33 items) ; Similitudes : deux termes sont prsents au sujet qui doit indiquer le type

de similitude existant entre ces deux termes (19 items) ; Arithmtique : petits problmes arithmtiques rsoudre mentalement (20 items) ; Mmoire des chiffres : srie de chiffres lue au sujet quil doit rpter dans le mme ordre ou dans lordre inverse (8 items en ordre direct, 7 en ordre inverse) ; Information : questions de connaissances gnrales (28 items) ; Comprhension : questions relatives des problmes de la vie quotidienne ou de la vie sociale (18 items) ; Squences lettres-chiffres : srie de chiffres et de lettres, prsentes oralement. Le sujet doit les rpter selon un ordre dfini : les chiffres, en ordre croissant, puis les lettres, en ordre alphabtique (7 items).
Les subtests de lchelle de performance Compltement dimages : le sujet doit indiquer la partie manquante dun

objet, ou dune situation, reprsent par une image (25 items) ; Code : le sujet doit associer, par crit, des chiffres des symboles en respectant des rgles dassociation ; Cubes : reproduction de configurations gomtriques laide de cubes colors (14 items). Matrices1 : le sujet doit choisir parmi cinq possibilits la matrice qui complte la partie manquante (26 items) ; Arrangements dimages : srie dimages prsentes dans le dsordre remettre dans un ordre logique et chronologique (11 items) ; Symboles : le sujet doit indiquer ici sil retrouve des symboles cibles au milieu dautres symboles ; Assemblage dobjets : sorte de puzzle reconstruire (5 items).
1. Tche inspire des Progressives Matrices de Raven.
176
Standardisation
La passation La passation est individuelle et ncessite un temps denviron 1 heure 1 heure 30 minutes (dure variable en fonction du niveau de russite du sujet). La passation des subtests est effectue selon un ordre dtermin, avec alternance entre les subtests verbaux et les subtests de performance afin de prserver chez le sujet un certain niveau de motivation. Certains subtests sont en temps limit (utilisation alors dun chronomtre), dautres en temps libre. Le manuel indique trs prcisment les rgles de passation pour chaque subtest. Dans certains subtests, la passation ne dbute pas au premier item mais un item donn (par exemple, le quatrime) avec administration des premiers items si le sujet choue aux deux premiers items proposs. Ces rgles de dpart spcifiques chaque subtest permettent dviter de faire passer tous les sujets les items de faible niveau de difficult tout en conservant ces premiers items pour diffrencier les sujets les plus faibles. Selon la mme logique, des rgles darrt sont indiques pour chaque subtest. Ces rgles de dpart et darrt permettent ainsi de ne faire passer au sujet que les items les plus en relation avec son niveau de comptence et de rduire le temps de passation. On peut galement noter que le praticien peut dcider de ne faire passer quune partie des subtests sil ne souhaite pas recueillir tous les indicateurs de cette chelle (voir plus loin le tableau 3.18).
La cotation et les indicateurs de la performance du sujet On va retrouver ici la mme logique de cotation que celle suivie dans les versions WISC. La premire tape consiste effectuer la cotation des items de chaque subtest (en 0/1 point ou en 0/1/2 points selon les cas), avec dventuels bonus en fonction du temps de ralisation, puis den faire la somme. Chaque total est une note brute qui devra ensuite tre transforme en note standard (note talonne) en fonction de lge du sujet. En effet, comme dans toutes les chelles de Wechsler, la population de rfrence est constitue des sujets de mme ge. Comme pour le WISC, les notes standards sont des notes talonnes de 1 19 (moyenne de 10 et cart-type de 3).
177
partir des notes standards il est possible alors de calculer sept indicateurs de la performance du sujet : les trois Q.I. classiques (QIV, QIP et QIT), les quatre Indices Factoriels : Indice Comprhension Verbale (I.C.V), Indice Organisation Perceptive (I.O.P), Indice Mmoire de Travail (I.M.T) et Indice Vitesse de Traitement (I.V.T). On peut remarquer ici la proximit de la structure de la WAIS-III avec la structure du WISC-IV, mme si ce dernier ne comporte plus les QIV et QIP. Le tableau 3.18 nous indique les rattachements des subtests aux diffrents indicateurs.
Tableau 3.18 Rattachement des subtests de la WAIS-III aux indicateurs globaux (les parenthses signalent les subtests optionnels).
Les 3 Q.I. Subtests Vocabulaire Similitudes Arithmtique Mmoire des chiffres Information Comprhension Squence Lettres-chiffres Compltement dimages Code Cubes
Les 4 indices factoriels QIT X X X X X X (X) X X X X X X X I.C.V X X X X I.O.P I.M.T I.VT
QIV X X X X X X (X)
QIP
X X X X X (X) (X)
X X X X X (X) (X)
Matrices Arrangement dimages Symboles Assemblage dobjet
On peut observer dans ce tableau que les sept indicateurs ne reposent pas tous sur le mme nombre de subtests : les deux QI (QIV et QIP) reposant respectivement sur 6 et 5 subtests ; les Indices Factoriels reposant sur 3 subtests (sauf I.V.T qui ne repose que sur 2 subtests) ;
178
le QIT, seul indicateur global de la performance du sujet, qui repose sur lensemble des subtests. Rappelons que tous ces indicateurs sont exprims dans la mme mtrique (moyenne de 100 et cart-type de 15) et quil convient dentourer chaque valeur observe par un intervalle de confiance. Cette version WAIS-III propose une certaine souplesse dans la passation, le praticien ne pouvant faire passer quune partie des subtests en fonction des indicateurs quil souhaite calculer :
Sil souhaite obtenir un maximum dinformation, et calculer alors Q.I
et Indices Factoriels, la passation de lensemble des subtests (hormis les optionnels) est ncessaire ; Sil ne souhaite obtenir que certains indicateurs (par exemple, uniquement les Indices Factoriels), la passation ne concernera alors quune partie des subtests. Bien entendu, la dure de passation dpendra de ces choix. Le praticien reportera lensemble des rsultats sur un document spar intitul rcapitulatif/profil .
Les talonnages disponibles Comme pour le WISC, la composition de lchantillon de sujets constituant ltalonnage est soigneusement dcrite dans le manuel : un chantillon de 1 104 sujets, gs de 16 89 ans, reprsentatif de la population franaise (rpartition selon la CSP, lge, le sexe...). Ltalonnage a t ralis en 1998/1999. Douze groupes dges ont t constitus afin dlaborer des talonnages par classe dge. Les talonnages concernent les notes standards, les Q.I. et les Indices Factoriels. Le tableau 3.19 permet de rsumer les valeurs caractristiques des diffrents indicateurs talonns de la WAIS-III.
Tableau 3.19 Valeurs caractristiques des indicateurs de la WAIS-III.
Indicateurs Notes standards QIV, QIP et QIT IOP, ICV, IMT, IVT Valeur Mini 1 45 50 Valeur maxi 19 155 150 Moyenne 10 100 100 cart type 3 15 15
179
Sachant que ces indicateurs suivent une rpartition normale on peut considrer que les talonnages disponibles sont bien adapts la population vise. De plus, pour chaque indicateur, le praticien dispose galement de deux types dinformation : intervalle de confiance et rang percentile.
Nous aborderons ici lanalyse des informations du manuel concernant la sensibilit, la fidlit et la validit de la WAIS-III.
La sensibilit La sensibilit dun test reprsente sa capacit diffrencier les sujets. Il sagit ici de sassurer que les diffrents scores permettent bien de discriminer les sujets. Nous pouvons vrifier sur le tableau 3.19 que cette diffrenciation est assure par ltendue des diffrents indicateurs talonns (notes standards, Q.I. et Indices Factoriels) et par la rpartition gaussienne de ces scores.
Exemple Au niveau des notes standards, elles peuvent varier de 1 19 (moyenne de 10 et cart-type de 3) et couvrent ainsi trois carts type de part et dautre de la moyenne, ce qui assure un bon niveau de diffrenciation des sujets. On observe cette mme qualit de diffrenciation au niveau des Q.I. (variation possible de 45 155) comme au niveau des Indices Factoriels, mme si ces derniers prsentent une tendue lgrement plus rduite (de 50 150).
Lensemble de ces donnes assure la WAIS-III un bon niveau de diffrenciation des sujets.
La fidlit Rappelons que la fidlit concerne la prcision et la stabilit de la mesure. Diffrents types de fidlit sont analyss dans le manuel de la WAIS-III (daprs Wechsler, 2000) : La fidlit, ou consistance, interne, est value par la mthode pair-impair. Les coefficients de fidlit varient de .68 .90 selon les subtests, de .92 .97 selon les Q.I. et de .86 .95 selon les Indices Factoriels. La valeur de ces indicateurs de fidlit est trs satisfaisante ;
180
La fidlit temporelle a t vrifie par la mthode test-retest, sur un chantillon de 103 sujets, avec un intervalle de 2 13 semaines entre les passations. Les coefficients sont ici encore satisfaisants avec, par exemple, des valeurs comprises entre .86 et .94 pour les Q.I. ; La fidlit intercotateurs, value sur des subtests verbaux dans lesquelles la cotation est plus complexe (0, 1 ou 2 points par item), est presque parfaite avec des valeurs suprieures .92 ; Lerreur-type de mesure est calcule pour chaque type de score : notes aux subtests, notes de Q.I. et Indices Factoriels. partir de ces valeurs, il est possible de calculer les intervalles de confiance qui entourent les scores calculs. Le manuel facilite ici la tche du psychologue en donnant directement les valeurs de ces intervalles pour chaque valeur observe aux seuils .10 et .05. Si lon prend, par exemple, une mme valeur observe de 1031 , le tableau 3.20 nous indique lintervalle de confiance, au seuil .10, pour chaque indicateur.
Tableau 3.20 Exemples dintervalles de confiance pour une valeur observe de 103 (daprs le manuel WAIS-III).
Intervalle de confiance (seuil de .10) QIV Valeur observe de 103 98-107 QIP 96-109 QIT 99-107 ICV 97-108 IOP 96-109 IMTa 97-109 IVTb 95-111
a. La valeur 103 nexistant pas pour cet indice nous avons pris les valeurs intermdiaires situes entre celles correspondant un score observ de 102 et celles correspondant un score observ de 104. b. Mme remarque.
On peut remarquer sur ce tableau que lintervalle de confiance le plus rduit, donc lerreur de mesure la plus faible, concerne le QIT, avec un intervalle de 9 points [99-107]. En effet, le QIT est la mesure qui porte sur le plus grand nombre de subtests, ce qui explique sa plus faible valeur derreur de mesure. Lintervalle sur QIP est un peu plus lev que celui portant sur QIV, et les intervalles pour les Indices Factoriels sont globalement du mme ordre que ceux relatifs aux Q.I. Cest lIndice I.V.T qui prsente
1. Bien entendu il sagit dun cas fictif : un mme sujet ne prsente gnralement pas le mme score sur les diffrents indicateurs.
181
lintervalle le plus important. Nous avons observ dans le tableau 3.18 que cet Indice I.V.T nest constitu que de deux subtests, ce qui peut expliquer cette faiblesse.
La validit Cette qualit fondamentale dun test peut se rsumer en la question suivante : le test mesure-t-il ce quil est cens mesur ? Pour rpondre cette question, deux aspects principaux seront ici analyss :
La WAIS-III est-elle une mesure de lintelligence ? Quelle est la validit des diffrents indicateurs de ce test (Q.I. et Indices
Factoriels) ?
La validit de la WAIS-III comme mesure de lintelligence Il sagit ici danalyser les corrlations observes entre les scores obtenus, par les mmes sujets, la WAIS-III et dautres tests dintelligence. Nous partons ici avec un a priori largement positif : comme nous lavons dj indiqu, la validit des chelles de Weschler comme mesures de lintelligence nest plus dmontrer. Le manuel prsente un grand nombre dtudes de validation, mais nous pouvons regretter que la plupart portent sur des populations amricaines et/ou sur lancienne version de cette chelle (WAIS-R). Nous ne prsenterons ici que les rsultats des tudes qui concernent lchantillon franais et la version WAIS-III.
Liaison entre WAIS-R et WAIS-III
Une premire tape de lanalyse de la validit de la WAIS-III consiste vrifier que cette preuve mesure bien les mmes dimensions que lancienne version WAIS-R. Une tude est prsente dans le manuel qui porte sur un chantillon assez faible de sujets (55 sujets). Lanalyse des rsultats montre que, au niveau des Q.I., les coefficients de corrlation varient de .86 .93, valeurs qui confirment que la WAIS-III value bien les mmes dimensions que la WAIS-R (intelligence globale, intelligence verbale et intelligence non verbale). Pour les Indices Factoriels, comme ils nexistaient pas dans la version WAIS-R, cette analyse nest pas possible.
182
Liaison avec le WISC-III
Nous avons dj prsent, dans la partie concernant le WISC-III, les valeurs des coefficients de corrlation entre WISC-III et WAIS-III (voir tableau 3.5). Rappelons que les valeurs se situaient autour de .90 pour les Q.I. et entre .76 et .88 pour les deux Indices Factoriels communs (I.C.V et I.O.P). Ces valeurs leves tmoignent de la proximit de ces deux preuves.
Liaisons avec le WISC-IV
Bien entendu, compte tenu de lantriorit de la WAIS-III par rapport au WISC-IV, le manuel de la WAIS-III ne comporte aucune donne ce niveau mais nous disposons de rsultats dans le manuel du WISC-IV. Nous avons dj prsent ces rsultats (voir en particulier le tableau 3.15) qui confirment la proximit de ce qui est valu par ces deux preuves : .83 au niveau du QIT, et des valeurs comprises entre .64 et .81 pour les indices factoriels/notes composites. On peut remarquer quil aurait t intressant de disposer dtudes, sur un chantillon franais, relatives aux liaisons entre la WAIS-III et un test de type facteur g.
La validit des indicateurs de la WAIS-III (Q.I. et Indices Factoriels) Lorsquun test, comme ici, propose de calculer diffrents indicateurs des performances du sujet, il convient de vrifier les bases sur lesquelles reposent ces indicateurs (notion de validit structurale). Dans le cas de la WAIS-III, la logique de validation des indices sera comparable celle voque dans lanalyse de la validit structurale du WISC :
La distinction propose entre les deux chelles, donc le calcul spar de
deux scores (QIV et QIP), doit tre justifie par lobservation de fortes liaisons entre subtests dune mme chelle ; Le calcul dun indice total, le QIT, doit reposer sur le fait que tous les subtests valuent bien une mme dimension commune ; Le calcul des Indices Factoriels, doit lui aussi tre valid par des mthodes statistiques appropries. Dautant plus que ces Indicateurs reprsentent une nouveaut par rapport la WAIS-R. Concernant le premier aspect, le manuel donne les rsultats danalyses factorielles descriptives qui valident la distinction classique entre les deux chelles, donc le calcul spar des deux Q.I : QIV et QIP. En effet, les corrlations entre les subtests de lchelle Verbale sont bien plus leves
183
que les corrlations entre ces subtests et ceux de lchelle de Performance (Wechsler, 2000, p. 262). Par contre, le manuel indique aussi que cet effet est moins marqu pour les subtests de lchelle de Performance, en particulier pour cubes et matrices qui prsentent des corrlations assez leves avec certains subtests de lchelle Verbale. Ces analyses montrent galement que tous les subtests valuent bien une mme dimension, que lon interprte ici comme tant un facteur gnral dintelligence, ce qui permet de valider le calcul du QIT. Enfin pour lanalyse des Indices Factoriels, leur nouveaut mrite que lon dtaille un peu plus les lments de leur validation. Tout dabord, il faut indiquer lorigine de ces Indices. De manire comparable aux volutions du WISC, les auteurs de la WAIS-III ont souhait intgrer dans cette nouvelle preuve les rsultats des recherches les plus rcentes dans le domaine de lintelligence et du fonctionnement cognitif afin dvaluer plus prcisment la mmoire de travail et la vitesse de traitement. Cet objectif explique lapparition de nouveaux subtests dans la version WAIS-III. Plus prcisment, suite aux rsultats de diffrentes tudes portant sur la WAIS-R et sur le WISC-III, les auteurs souhaitent obtenir, pour la WAIS-III, une structure comportant quatre facteurs. Ces quatre facteurs doivent correspondre des mesures spcifiques dfinies comme :
la Comprhension Verbale (I.C.V), lOrganisation Perceptive (I.O.P), la Mmoire de Travail (I.M.T), la Vitesse de Traitement (I.V.T).
Pour valider cette structure hypothtique ils crent de nouveaux items, de nouveaux subtests, puis utilisent une mthode danalyse factorielle confirmatoire, mthode qui permet de tester ladquation dun modle thorique (modle compos ici des quatre facteurs) partir des donnes observes. Effectivement, lanalyse des rsultats confirme cette structure hypothtique en quatre facteurs et valide ainsi le calcul des quatre Indices Factoriels reprsentant ces quatre facteurs (le lecteur intress pourra consulter les pages 270 274 du manuel qui traitent spcifiquement de ces analyses). Nous pouvons reprendre ici la remarque concernant le calcul de ces Indices Factoriels, que nous avons dj formul lors de la prsentation du WISC-III. En effet, comme ctait aussi le cas dans le WISC-III, les valeurs des liaisons (des saturations) entre subtests et Indice Factoriel varient selon les subtests et un calcul pondr, tenant compte de ces variations, serait
184
plus proche des donnes, donc plus valide, que la simple addition des notes standard des subtests concerns. Par exemple, le tableau 6.7 du manuel (Wechsler, 2000, p. 266) indique que pour lIndice Factoriel I.M.T, la saturation est de .76 avec le subtest Squence lettres-chiffres mais seulement de .42 avec le subtest Arithmtique. Pourtant, dans le calcul de cet indice, on accorde le mme poids ces deux subtests. Une autre possibilit aurait pu tre envisage qui consisterait pondrer chaque subtest en fonction de la valeur de sa saturation. Enfin, toujours propos de ces Indices Factoriels, Grgoire prsente les rsultats danalyses complmentaires qui confirment la validit de cette structure factorielle. Cette dcomposition des rsultats de la WAIS-III en quatre Indices Factoriels lui parat mme prfrable lutilisation des deux indicateurs classiques QIV et QIP, car ces indices reprsentent des mesures plus robustes et plus homognes que les deux Q.I. classiques (2004, p. 207).
Les bases de linterprtation
Avec la WAIS-III, le praticien obtient plusieurs indicateurs quantitatifs : les notes standards, les trois Q.I., les quatre Indices Factoriels. Il dispose ventuellement dindices plus qualitatifs relevs lors de la passation de lpreuve : implication du sujet dans les tches proposes, stratgies de rsolution, comportement face une difficult, niveau de fatigabilit...
Enfin, travers les entretiens il peut ventuellement recueillir des informations diverses sur le sujet (diplmes, expriences professionnelles...). Ltape suivante va donc consister tenter de synthtiser toutes ces informations afin de mieux comprendre le fonctionnement cognitif de lindividu singulier qui a pass la WAIS-III. Nous traiterons dans cette partie principalement de linterprtation des donnes quantitatives relatives aux diffrents scores observs la WAIS-III. Le principe gnral danalyse et dinterprtation des rsultats la WAIS-III suit la mme logique que celle qui rgit lanalyse des rsultats au WISC : partir
185
du gnral pour se diriger vers le particulier. Il va donc sagir danalyser lindicateur le plus gnral (le QIT) puis les indicateurs spcifiques (QIV, QIP et les Indices Factoriels) et enfin danalyser les rsultats aux diffrents subtests. Avant de prsenter les diffrentes tapes de lanalyse, il faut rappeler que tous les indicateurs talonns de la WAIS-III se rfrent aux performances observes chez des sujets de mme ge. Ce point est trs important rappeler, surtout dans le cas o le sujet est relativement g. En effet, avec le phnomne de dclin de certaines aptitudes avec lge, un sujet de 70 ans ayant un Q.I. de 100 aura en fait un niveau de performance moins lev quun sujet de 30 ans qui a pourtant le mme Q.I. de 100. Ces deux sujets se situent de la mme manire (ici trs prcisment au centre de la distribution, au niveau de la moyenne) mais dans des populations de rfrence diffrentes. Prenons par exemple deux subtests particulirement sensibles ce phnomne de dclin, le subtest mmoire des chiffres et le subtest matrices. Le tableau 3.21 donne les notes talonnes (notes standards) pour un mme niveau de russite (score brut) en fonction du groupe dge.
Tableau 3.21 Comparaison des diffrentes notes standard attribues un mme score brut selon la classe dge (daprs Wechsler, 2000, p. 302 307).
Notes standards selon le groupe dge Score brut observ Matrices : 21 points Mm. chiffres: 17 points 20-34 ans 10 10 55-64 ans 12 12 70-74 ans 16 13 80-89 ans 17 14
Les donnes illustrent bien le phnomne que nous voulions dcrire : les notes talonnes (notes standards) dpendent bien du niveau de russite observ dans chaque classe dge.
Exemple Pour un mme niveau de russite au subtest matrice (un score brut de 21 points), le sujet sera situ juste dans la moyenne sil est g de 25 ans (avec une note standard de 10) mais plus il sera g, plus sa note standard sera leve, avec ici par exemple une note standard de 17 sil est g de 80 ans. On peut galement observer un processus quivalent pour lautre subtest (mmoire des chiffres).
Cet effet de variation des niveaux de performances selon les classes dge peut intervenir pour tous les subtests et pour tous les indicateurs qui sont calculs partir de ces notes standards (Q.I. et Indices Factoriels). Il convient donc, avant toute interprtation des rsultats, de prendre en compte les notes talonnes du sujet (qui situent ses performances par
186
rapport aux sujets de mme ge) mais galement les valeurs de rfrence proposes (le groupe dge 20-34 ans), surtout si le sujet est loign de cette classe dge. Cest pour ces raisons quil est conseill de faire figurer sur le document rcapitulatif /profil les valeurs des notes standard pour le groupe 20-34 ans qui correspond un groupe de rfrence ventuellement diffrent du groupe dge du sujet (voir la colonne rserve cet effet en troisime page de ce document). Enfin rappelons quil est fortement conseill dentourer chaque score calcul dun intervalle de confiance. Abordons maintenant les diffrentes tapes danalyse des rsultats.
tape 1 : Analyse du Q.I. Total (QIT) Cet indicateur QIT est, comme dans toutes les versions des chelles de Wechsler, lindicateur le plus complet de la WAIS-III, car il prend en compte un grand nombre de subtests, donc un ensemble vari de situations. Cet indicateur de lintelligence globale permet de situer le sujet dans une population de rfrence laide du rang percentile.
Exemple Un QI de 109 correspond au rang percentile 73 ce qui signie que 73 % des sujets obtiennent un score infrieur ou gal 109 et donc que seulement 27 % des sujets obtiennent un score suprieur.
Tableau 3.22 Classification des Q.I. et des Indices Factoriels au test WAIS-III (daprs Wechsler, p. 280).
Q.I ou Indice Factoriel 130 et plus 120-129 110-119 90-109 80-89 70-79 69 et moins % thorique de sujets 2,2 % 6,7 % 16,1 % 50 % 16,1 % 6,7 % 2,2 % Classification (catgorie) Trs suprieur Suprieur Moyen suprieur Moyen Moyen infrieur Limite Trs faible
Ce positionnement prcis de la performance du sujet peut galement tre interprt de manire plus qualitative partir de la classification propose dans le manuel.
187
Cette classification, qui concerne plus largement tous les Q.I. et tous les Indices Factoriels, peut tre utilise par le psychologue pour situer de manire plus qualitative le niveau de performance du sujet. Les valeurs des diffrents seuils qui dterminent les classes ont t dfinies en fonction de la rpartition thorique des sujets (par exemple, la valeur de 130 correspond une performance situe deux carts types au-dessus de la moyenne). Sur la justification de ces seuils, nous renvoyons le lecteur aux rflexions que nous avons proposes dans la prsentation des WISC-III et IV.
tape 2 : Analyse du QIV, du QIP et des Indices Factoriels Il faut, dans un premier temps, rappeler la signification de ces diffrents indicateurs, puis, dans un second temps, donner les lments essentiels pour leur analyse. Que reprsentent ces indicateurs ? Pour les deux Q.I. nous pouvons considrer quils correspondent globalement aux indicateurs QIV et QIP du WISC-III, que nous avons dj prsent (voir prsentation du WISC-III). Ainsi le QIV est une mesure du raisonnement verbal mais aussi une valuation des connaissances acquises. Le QIP tant quant lui plutt une valuation des capacits de raisonnement dans des situations nouvelles, dans lesquelles le langage nintervient pas, ou peu. Le QIV est considr comme proche de la notion dintelligence cristallise, le QIP tant associ la notion dintelligence fluide. Ces deux Q.I. sont galement trs proches des indicateurs QIV et QIP de lancienne version WAIS-R. On peut signaler que, suite lintroduction du subtests matrice, et au fait que le subtest assemblage dobjet devient optionnel, le QIP de la WAIS-III devient moins sensible la vitesse de traitement et plus proche du raisonnement abstrait non verbal. Pour les Indices Factoriels, nous avions questionn dans la version WISC-III, lintrt de ces Indices qui taient trs (trop ?) proches des indicateurs classiques de Q.I. et napportaient pas alors dinformations suffisamment spcifiques et/ou suffisamment fiables. Par contre, dans cette version WAISIII, les Indicateurs Factoriels prsentent des diffrences plus importantes avec les deux Q.I., et constituent des mesures plus pures ou plus fines (pour reprendre les termes du manuel) du fonctionnement intellectuel du sujet. Ainsi lIndice ICV est, du fait de labsence des subtests comprhension, mmoire des chiffres et arithmtique, une mesure plus pure de la comprhension verbale (Wechsler, 2000, p. 284),
188
De mme, IOP peut tre dfini comme une mesure plus pure de lintelligence fluide. Enfin, les Indices Factoriels IMT de IVT, sont des mesures assez spcifiques, qui apportent des lments complmentaires sur deux aspects de fonctionnement intellectuel : la mmoire de travail et la vitesse de traitement des informations. Aprs avoir situ le niveau de performance du sujet dans chaque indicateur, le psychologue analysera, comme pour le WISC, le profil des rsultats du sujet autour de la question suivante : le profil est-il homogne (cas dune faible diffrence entre les indicateurs) ou htrogne (diffrence importante entre les indicateurs) ? Attention ! Comme pour le WISC, toute diffrence observe nest pas obligatoirement significative. En effet, pour que cette diffrence ait un sens au niveau du fonctionnement cognitif il est ncessaire quelle soit la fois assez importante (statistiquement significative) et relativement rare. Les valeurs de rfrence fournies dans le manuel permettent de guider linterprtation des diffrences ventuellement observes. Par exemple, pour la WAIS-III, la diffrence moyenne entre QIV et QIP est proche de 10 points (9,7 points) et prs de 20 % des sujets prsentent une diffrence gale ou suprieure 16 points (p. 320). Ces informations relativisent ainsi grandement la singularit des profils qui prsenteraient une diffrence entre QIV et QIP infrieure ou gale ces valeurs. Le manuel propose deux exemples dinterprtation des diffrences observes, lun concerne une diffrence entre les deux Q.I., lautre une diffrence entre deux Indices Factoriels (voir p. 289 et 290). En conclusion, on ne peut que conseiller au praticien de se rfrer aux informations du manuel (valeurs significatives des diffrences, rpartition de ces diffrences dans lchantillon de rfrence, exemples dinterprtation de profils...) avant deffectuer toute interprtation des diffrences observes. Enfin, on peut rappeler que Grgoire est plus favorable lanalyse des Indices Factoriels qu lanalyse traditionnelle des deux Q.I. (QIV et QIP), les Indices ayant une fiabilit plus importante :
189
Avec la WAIS-III, le calcul des Indices apparat comme une option prfrable au calcul des traditionnels QI Verbal et QI Performance. Les Indices apparaissent en effet comme des mesures plus robustes et plus homognes que les QI. (Grgoire, 2004, p. 207).
tape 3 : Analyses des subtests La dernire tape de lanalyse concerne lanalyse des rsultats aux diffrents subtests. Rappelons que lon parle alors danalyse de scatter, cest--dire danalyse de la dispersion des notes standard. Il sagit ici danalyser lhomognit du profil des notes standard, de reprer les subtests particulirement russis et ceux particulirement chous... Il faudra, comme pour le WISC, articuler deux types de comparaison :
Une comparaison interindividuelle, avec comme rfrence le niveau moyen
de russite dans la population de rfrence : il sagira alors de situer le score observ chaque subtest par rapport la valeur moyenne de 10 ; Une comparaison intra-individuelle, avec comme rfrence ici la moyenne propre du sujet : il sagira alors de situer chaque score par rapport la moyenne individuelle du sujet (moyenne calcule partir de ses diffrentes notes standards). Pour effectuer la comparaison interindividuelle, le praticien peut utiliser la classification des notes standard que nous avons propose dans la prsentation du WISC-III pour reprer les points forts et les faiblesses du sujet (voir tableau 3.10). Pour lanalyse intra-individuelle, le manuel propose les valeurs seuils des diffrences significatives notes standard. partir de ces informations le praticien peut reprer les notes dviantes, qui scartent significativement de la moyenne personnelle du sujet et qui peuvent singulariser son profil et son fonctionnement cognitif Dans la feuille de synthse des rsultats du sujet il est dailleurs demand dindiquer la valeur de la diffrence observe entre chaque subtest et la moyenne individuelle, ainsi que le niveau de significativit statistique de ces diffrences. Une analyse plus approfondie du protocole, consistant en la prise en compte des covariations des notes diffrents subtests, est galement possible mais le praticien ne dispose pas ici, contrairement au WISC-III, dune grille daide spcifique (Grgoire, 1996). Mais, compte tenu des nombreux subtests communs entre WISC-III et WAIS-III, il nous semble possible
190
dappliquer, au moins en partie, cette grille daide linterprtation des scores la WAIS-III.
Conclusion sur la WAIS-III
La WAIS-III, chelle de Wechsler pour adulte, qui repose sur une conception globale de lintelligence, permet donc au final de disposer de sept indicateurs de lefficience du sujet : les trois Q.I. classiques : QIT, QIV et QIP ; les quatre Indices Factoriels : ICV, IOP, IMT et IVT. Les donnes disponibles confirment la fiabilit de ce test et de ses diffrents indicateurs. Pour cette version WAIS-III, et contrairement aux rserves que nous avions formules pour le WISC-III, les Indices Factoriels apportent bien ici des informations spcifiques sur le fonctionnement cognitif du sujet. Dailleurs, pour certains auteurs (Grgoire, 2004), en raison dune fiabilit plus leve, lutilisation de ces Indices est prfrable lutilisation classique des QIV et QIP. Il est probable dailleurs que dans la prochaine version (WAIS-IV) le praticien ne dispose plus de ces indicateurs QIV et QIP, mais uniquement des indices factoriels, accompagns du QIT, comme cela est dj le cas dans la version WISC-IV. Il serait intressant de connatre la proportion de praticiens qui conserve une utilisation traditionnelle de la WAIS-III (analyse prfrentielle du QIV et du QIP) et celle qui privilgie lutilisation et linterprtation de ces Indices Factoriels. Il est fort probable que ce changement de pratique demande un peu de temps... Enfin, signalons quil nexiste pas de version abrge de cette preuve1 (comme ctait le cas pour le WISC-III) mais quune certaine latitude est laisse au praticien lors de la passation, lui permettant, en fonction des indicateurs quil souhaite obtenir (les Q.I. et/ou les Indices Factoriels), de ne faire ventuellement passer quune partie des subtests de lchelle.
1. De telles versions font lobjet de recherche (voir par exemple Rmy, 2008).
CHAPITRE 4
Les tests de facteur g (et dintelligence fluide)
Sommaire
L L L L L
1. Les tests de Raven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Le test NNAT (Test dAptitude Non Verbal de Nagliri) . . . . . . . 3. Les tests D48, D70 et D2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. Le test R85/R2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5. Quelques autres tests de facteur g . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 194 Page 215 Page 231 Page 244 Page 248
193
le chapitre 1, nous avons dcrit lapport de Spearman et ses propositions, formules il y a prs dun sicle, concernant le facteur g et la place prpondrante quil occupe dans le modle factoriel de lintelligence. On en trouve toujours la marque dans les modles actuels de lintelligence : le facteur g correspond au troisime niveau (niveau suprieur) dans le modle hirarchique de lintelligence de Carroll et est trs proche de la notion dintelligence fluide (Gf), laquelle se rfrent de nombreux auteurs. Limportance et la pertinence du facteur g sont largement reconnues dans lexplication des capacits cognitives individuelles, en particulier lorsque lon cherche prdire la capacit dune personne rsoudre des problmes logiques dans des situations et des domaines varis. Mesurer cette dimension est donc particulirement utile. Cest lobjectif des tests dits de facteur g que nous allons maintenant prsenter.
ANS
Il existe un assez grand nombre dpreuves de facteur g qui, malgr leurs spcificits, prsentent de nombreux points communs :
Ce sont gnralement des preuves prvues pour des passations
collectives (avec cependant presque toujours une possibilit de passation individuelle) ; Le temps de passation est souvent court, de 15 30 minutes ; Le niveau de performance du sujet est, le plus souvent, un indicateur unique ; Les tches proposes sont gnralement de type lois de sries dans lesquelles le sujet doit analyser la situation afin de dcouvrir les relations (la ou les lois de transformation) qui relient les diffrents lments de cette situation, puis appliquer cette loi afin de trouver (ou de slectionner) la bonne rponse (voir dans le chapitre I les notions dduction de relations et de corrlats, proposes par Spearman) ; Enfin, dernier point, la part du facteur verbal nintervient pas ou peu dans ces preuves.
Nous analyserons ici de manire dtaille les preuves de facteur g les plus connues et/ou les plus utilises en France : les matrices de Raven, le test NNAT,
194
les preuves de dominos (D70 et D2000), les tests de raisonnement R85 et R2000. En fin de chapitre nous prsenterons aussi, mais de manire plus synthtique, dautres preuves du mme type galement disponibles en France (preuve de Cattell, BLS4, B53 et RCC).
1.
Les tests de Raven

Les preuves Progressive Matrices de Raven sont des exemples prototypiques de tests de facteur g et dintelligence fluide. Nous verrons plus loin que Raven sest directement inspir de Spearman pour concevoir ses preuves. Les preuves de Raven sont bien connues des praticiens et des chercheurs, et ont dmontr depuis longtemps leur validit. Une littrature considrable leur est consacre et elles font preuve dune remarquable longvit puisquelles existent depuis environ 70 ans et que leur popularit chez les praticiens ne se dment pas (elles figurent sans doute parmi les preuves les plus connues/utilises au monde). Elles ont en outre inspir de nombreuses preuves (voir par exemple le test NNAT ou, plus rcemment, le subtest Matrices de la WAIS-III et du WISC-IV). Il existe trois versions des Progressive Matrices.
Ces versions reposent sur le mme type de tche mais correspondent
trois niveaux distincts de difficult ; La tche consiste pour le sujet slectionner, parmi plusieurs possibilits offertes, llment qui vient le mieux complter une srie propose ; Les matrices (doubles sries en lignes et en colonne) comportent quatre lments (2 lignes et 2 colonnes) ou neuf lments (3 lignes et 3 colonnes), lensemble correspondant au problme rsoudre ; La tche du sujet consiste dcouvrir les rgles dorganisation (de transformation) de ces diffrents lments, puis appliquer ces rgles afin didentifier la rponse pertinente ; La rponse est donne en choisissant un lment dans un ensemble comportant 6 8 rponses possibles.
Un exemple ditem est donn dans la figure 4.1 : le sujet doit slectionner, parmi les 8 lments possibles, celui qui vient complter la srie propose.
195
Figure 4.1 Exemple dun item (fictif) des Progressives Matrices de Raven (daprs Huteau, 2002, p. 47).
Exemple Dans cette tche complexe le sujet doit prendre en compte lensemble des informations disponibles, et ne pas slectionner trop vite une solution qui lui apparatrait premire vue correcte, mais qui ne comporterait pas en ralit tous les lments constitutifs de la bonne rponse. Lune des erreurs prototypiques (voir plus loin la partie consacre lanalyse des erreurs) est justement la slection dun distracteur proche de la bonne rponse, mais ne comportant pas toutes les caractristiques de celle-ci.
La premire version des Progressives Matrices date de 1938. Cest la version Progressives Matrices Standard ou SPM (ou encore appele PM38). Cette version standard se caractrisait au moment de sa conception par un niveau moyen de difficult. Ce niveau tant trop facile pour des adultes de haut niveau, il justifia la construction en 1943 dune version plus difficile : les Advanced Progressives Matrices ou A.P.M. Mais pour les enfants, la version standard a t juge cette fois trop difficile, do la diffusion en 1947 dune version en couleur, assez attrayante pour les enfants : les Progressives Matrices Couleur1 . Au final, on recense
1. Une version encastrable (avec manipulation) destine de jeunes enfants (ou enfants prsentant un handicap) est galement diffuse en France (Kaufman et al., 1993).
196
donc trois versions des tests Progressives Matrices capables de couvrir une large gamme de niveaux diffrents et adaptes un large public allant des enfants aux adultes de haut niveau. Chaque version dispose de son propre manuel et il existe galement un manuel commun dintroduction aux tests de Raven (Manuel des Raven, section 1). Nous ne prsenterons ici que les versions utilisables auprs dadolescents et dadultes : la version standard SPM et la version APM (diffuses par les ECPA).
Prsentation de la version SPM de Raven
Cette version SPM est la version originelle des Progressives Matrices de Raven destine des sujets de niveaux dtudes qui correspondent au collge et au lyce. La premire dition date de 1938. Elle comportait 60 items, catgoriss en cinq classes et ordonns selon leur niveau de difficult (do lappellation progressive ). En 1956, de lgres modifications, concernant en particulier lordre de passation de certains items, ont t adoptes, et la dernire version dite en France en 1998 est similaire celle de 1956. Le manuel commun des Raven (manuel section 1) contient une introduction gnrale aux preuves de Raven, et le manuel spcifique la version SPM (manuel section 3) prsente un ensemble de donnes pour cette version. Des talonnages complmentaires figurent dans un fascicule spar, dit en 2003.
Les bases thoriques Les SPM de Raven ont t crs partir des hypothses de Spearman concernant le facteur g. En effet, elles sont destines valuer laptitude ductive, cest--dire la capacit du sujet percevoir des relations entre diffrents lments. Pour Raven,
Laptitude ductive est laptitude crer de nouveaux insights, percevoir, et identifier des relations. (Manuel section 3, p. 5)
Spearman (1927) distinguait lduction de relations et lductions de corrlats. Ces termes correspondent aux formes de raisonnement que nous appelons aujourdhui pour la premire linduction (processus dextraction dune rgle gnrale partir dexemples particuliers) et pour la seconde la dduction (processus dapplication dune rgle gnrale pour gnrer une rponse particulire). Ces deux formes de raisonnement sont ncessaires pour
197
rsoudre les preuves de Matrices : il sagit de reprer les lois de progression entre diffrents lments dune mme srie et de les appliquer ensuite afin didentifier llment qui vient complter la srie. Mme si les auteurs des manuels font une distinction entre aptitude ductive et facteur g, ils indiquent que les matrices donnent bien lune des meilleures mesures de g (Manuel section 1, p. 19).
Les items de la version SPM Les 60 items de cette preuve sont organiss en cinq sries de 12 items. Rien nindique cependant au sujet cette organisation, car les items se suivent de faon continue. Quelle que soit la srie, la tche consiste toujours slectionner, parmi plusieurs possibilits (6 ou 8 possibilits selon les sries), la figure qui vient complter lensemble. Lpreuve est organise selon un ordre de difficult croissant, aussi bien au sein dune mme srie quentre les sries. Ainsi, chaque srie (de A E) dbute par un item trs facile dont la solution saute aux yeux (pour reprendre les termes des auteurs : Manuel section 3, p. 5) et se poursuit par des items reposant sur la mme logique de rsolution mais dont le niveau de difficult augmente progressivement. Lobjectif tant de familiariser le sujet avec le type de raisonnement spcifique la srie ditems afin de lui fournir une possibilit dapprentissage en cours de tche. Cet objectif dapprentissage en cours dpreuve est dailleurs clairement indiqu par les auteurs du manuel (Manuel section 1, p. 65). Cest aussi par rapport cet objectif dapprentissage quil faut entendre le terme Progressives : la rsolution des items de chaque srie repose sur la capacit tirer profit de lexprience acquise dans la rsolution des items prcdents. Le test value alors en partie la capacit du sujet exploiter lexprience quil vient dacqurir. Attention cependant : cette dimension progressive de la tche ne doit pas tre confondue avec de rels tests dapprentissage utiliss dans le cadre dune procdure dvaluation dynamique (voir chapitre 7). Une exprience intressante, ralise par Vigneau et al. (2001), vient confirmer leffet positif de la progressivit de la difficult. Les auteurs ont fait passer les items du test de Raven en ordre inverse de la version habituelle. Les rsultats obtenus indiquent que lpreuve devient alors plus difficile, ce qui peut prcisment sexpliquer par labsence de cette possibilit dapprentissage en cours dpreuve.
198
Comment se diffrencient ces cinq sries ditems ? 1. Les problmes de la srie A, premire srie des SPM et donc srie la plus facile, sont particuliers. Chaque item se prsente comme un dessin dont il manque une partie. Dans cette srie, la tche consiste donc complter le dessin propos en se reprsentant les caractristiques du morceau manquant et en slectionnant la rponse adquate parmi les six possibilits de rponse offertes. Laspect visuel et figuratif du traitement de la tche est dominant dans cette srie. 2. Les items de la srie B ont la forme dune matrice quatre lments dont celui trouver (situ en bas droite) avec six possibilits de rponse. Les premiers items de cette srie sont assez simples : il sagit de rpter les configurations proposes. Le niveau de complexit de la tche augmente ensuite progressivement et ncessite le reprage des lois de transformation afin de slectionner la bonne rponse. 3. partir de la srie C, les items sont plus difficiles car ils prennent la forme de matrices neuf lments (et non plus quatre), et la bonne rponse figure parmi huit propositions et non plus six (voir lexemple ditem de la figure 4.1). Le nombre dinformations prendre en compte augmente ainsi sensiblement. La tche est similaire celle des items les plus difficiles de la srie prcdente : il sagit de reprer les lois de transformation expliquant les transformations en ligne et en colonne. 4. Dans les items de la srie D, le sujet doit prendre en compte les rgles non plus de transformation mais de combinaison des diffrents lments du problme de manire reprer les caractristiques de la bonne rponse. Par exemple, il doit identifier la rgle chaque ligne et chaque colonne doit comporter le mme nombre dlments du mme type . 5. Dans la dernire srie du test, la srie E, la tche est un peu diffrente car il sagit dune logique de type addition ou soustraction de figures. Au final, le test SPM comporte donc 60 items. Le score brut du sujet, somme des items russis, peut donc varier de 0 60.
199
Remarques sur le SPM Avant danalyser les qualits mtriques du SPM, nous voudrions proposer ici deux remarques gnrales sur cette version, lune concerne les limites de son utilisation en temps limit, lautre concerne ses modalits de rponse. 1. Cette organisation en cinq sries prsente un inconvnient pour une passation en temps limit. Comme nous lavons indiqu, les items sont prsents dans un ordre de difficult croissant au sein de chaque srie1 , avec des premiers items trs faciles, dont la solution doit sauter aux yeux , plus faciles que les derniers items de la srie prcdente. Cela donne au sujet la possibilit, lorsquil est confront aux derniers items dune srie, de ne pas perdre trop de temps chercher la bonne rponse et de passer directement aux premiers items de la srie suivante. Chaque bonne rponse comptant pour un point dans le score total, quel que soit le niveau de difficult de litem, deux sujets de mme niveau de comptence peuvent obtenir au final des scores diffrents en fonction de leur style de rponse. En effet, si lun adopte cette stratgie de rponse consistant sauter les items les plus difficiles, alors que lautre sujet prfre, pour diffrentes raisons, rsoudre chaque item, mme sil doit passer plus de temps sur les plus difficiles, le premier sujet obtiendra probablement un score total plus lev que le second, en particulier si ce dernier na pas eu le temps de traiter tous les items. Cette possibilit de biais est dailleurs voque par les auteurs dans le manuel gnral des Raven. Ils conseillent fortement dutiliser cette version SPM en temps libre (Manuel section 1, p. 66). Il nous semble que la majorit des utilisateurs du SPM ne connat pas ce risque potentiel de biais pour une passation du test en temps limit. Nous reconnaissons que le manuel spcifique du SPM (Manuel section 3) ne les y aide pas car la plupart des talonnages figurant dans cette section sont en temps limit ! Nous avons ici un bon exemple de lutilit pour le praticien de consulter soigneusement, avant dutiliser un test, les informations figurant dans le manuel.
1. Les sries tant elles-mmes prsentes selon leur niveau de difficult (la srie A tant la plus facile, la srie E la plus difficile).
200
Recommandation Nous recommandons donc vivement dutiliser la version SPM en temps libre, et de prfrer, si lon souhaite effectuer les passations en temps limit, utiliser la version APM (version Advanced ) car dans cette version, comme nous allons le prsenter plus loin, dune part la phase dapprentissage est distincte de la phase valuation et, dautre part, les items ne sont pas organiss en srie ce qui vite ce type de biais. 2. Notre seconde remarque porte sur les modalits de rponse. Nous avons indiqu que dans le test SPM, comme dailleurs dans les autres versions des tests de Raven, le sujet ne cre pas la rponse mais il la choisit parmi plusieurs possibilits proposes selon le principe des rponses choix multiples. Comme nous lavons indiqu, dans les sries les plus faciles, le nombre de choix possibles est de six (la bonne rponse + cinq distracteurs1 ), puis ce nombre augmente partir de la srie C qui comporte huit possibilits de rponse. Nous savons quavec des rponses de type QCM, la possibilit de trouver la bonne rponse par hasard nest jamais ngligeable. Cest pour cette raison quil est ncessaire, dune part, de proposer un nombre significatif de distracteurs (ce qui est le cas ici) et, dautre part, de sassurer de lgale attractivit de chaque distracteur. Sur ce dernier point, il nous semble que pour certains items du SPM, les caractristiques de certains distracteurs sont si loignes dune rponse probable quun sujet peut rapidement les carter, ce qui lui laisse au final un nombre plus faible de possibilits de rponses avec une probabilit non ngligeable de trouver quelques bonnes rponses par hasard . De plus, le fait de fournir les rponses possibles, lui permet de mettre en uvre une stratgie consistant essayer chaque matrice en lappliquant mentalement sur la partie problme, stratgie du type essais/erreurs qui, selon nous, relve probablement dun autre type de logique que celle qui est vise par cette preuve. Pour ces raisons il est souvent prfrable dlaborer des preuves dans lesquelles le sujet doit produire sa rponse, comme cest le cas par exemple dans les tests de type dominos ou sries logiques (voir plus loin en 4.4).
1. Rappelons quun distracteur correspond une possibilit de rponse incorrecte.
201
Les qualits psychomtriques de la version SPM Depuis la premire dition du test SPM en 1938 de trs nombreuses tudes ont t menes qui tmoignent de la fiabilit des mesures effectues par ce test. Les manuels de Raven ne reprennent dailleurs quune partie de ces diffrentes tudes. Cette fiabilit explique sans doute en grande partie la longvit de ce test et son succs. Le manuel prsente les rsultats des principales tudes concernant les qualits mtriques des SPM, tudes menes sur diffrents pays et sur des chantillons varis (public scolaire, public adulte...). Ces tudes sont tellement nombreuses que nous ne pourrons en prsenter ici une synthse exhaustive (nous renvoyons le lecteur intress vers les manuels). Nous indiquerons cependant quelques rsultats qui nous semblent parmi les plus reprsentatifs.
Les indicateurs de validit Validit concomitante
Il sagit ici de vrifier la liaison existante entre ce que mesurent les SPM et ce que mesurent dautres tests dintelligence. Chez les enfants et les adolescents anglophones on observe des liaisons comprises entre .54 et .86 avec des chelles dintelligence comme celle de Binet ou celle de Wechsler, avec des liaisons plus leves au niveau du Q.I. Performance quau niveau du Q.I. Verbal. Cet aspect nest pas surprenant car le Q.I. Performance est plus proche de lintelligence fluide que le Q.I. Verbal. On constate dailleurs de faon gnrale dans de nombreuses tudes, que les liaisons avec les SPM sont plus leves avec des tests non verbaux. Ce constat vaut galement pour les comparaisons avec les versions Wechsler pour adultes, comme lindiquent les donnes du tableau 4.1.
Tableau 4.1 Corrlations entre les SPM et la WAIS-III (daprs Grgoire, 2004, p. 224). WAIS-III QI Total QI Verbal QI Performance Subtest Matrices SPM .64 .49 .79 .81
On retrouve bien ici les rsultats observs avec les autres versions des chelles de Wechsler : les SPM corrlent de faon relativement importante avec le QI Total (.64) mais la corrlation est plus leve avec le QI
202
Performance (.79) quavec lchelle verbale (.49), et cette corrlation est encore plus leve avec le subtest Matrice (.81) qui est, rappelons-le, directement inspir des tests de Raven. Les liaisons entre les SPM et des valuations de connaissances sont moins leves : corrlations variant de .20 .60 selon les recherches (Manuel section 3, p. 25). On peut regretter que le manuel ne fournisse pas, sur ces aspects, de donnes plus compltes relatives des populations franaises.
Validit prdictive
Les corrlations des SPM avec des critres lis la russite scolaire ou la russite professionnelle varient largement selon les tudes. Les valeurs sont justes significatives pour certaines et beaucoup plus leves (allant jusqu .70) pour dautres (voir Manuel section 3, p. 26 et 27). La plupart des tudes cites dans le manuel sont assez anciennes mais cest sur cette base que le test a acquis une bonne rputation de validit prdictive. Les ralits scolaires et professionnelles ayant largement volu, des tudes plus rcentes sur cet aspect seraient minemment souhaitables.
Validit de concept
Les SPM, comme les autres tests de Raven sont souvent considrs comme fournissant une mesure relativement pure de facteur g. Cette conception est nuancer. Les analyses factorielles confirment effectivement une forte saturation en facteur g des SPM. Mais les tudes concluent galement une composante spatiale non ngligeable. Pour Carroll1
Les performances aux matrices de Raven sont la fois dtermines par lintelligence fluide (niveau II) et par le facteur induction (niveau I).
Toutefois, Carroll observe quau niveau I, le facteur Visualisation joue un rle (Carroll, 1993 cit par Grgoire, 2004, p. 229). Enfin, on peut galement observer une relation entre SPM et traitement simultan de linformation (Manuel section 3, p. 29). Par ailleurs lhypothse de la verbalisation (interne) de la dmarche de rsolution par le sujet, et de son effet sur la performance, ne peut plus tre carte. On peut donc considrer, comme dailleurs lindiquent les auteurs (p. 30), que ce que mesure le test SPM est bien proche du facteur gnral, et donc de lintelligence fluide, mais nest pas pour autant une mesure pure,
1. Voir les propositions de Carroll sur le modle hirarchique de lintelligence dans le chapitre 1.
203
en raison principalement du rle probable des aptitudes spatiales et, dans une moindre mesure, verbales.
Les indicateurs de fidlit La consistance interne
La plupart des tudes de fidlit interne (mthode split-half ) concluent une fidlit leve avec des coefficients de lordre de .90 ce qui est trs satisfaisant (Manuel section 3, p. 18).
La fidlit test-retest
Diffrentes tudes font tat de coefficients autour de .90 pour des intervalles assez courts entre les deux passations et autour de .80 pour des intervalles plus longs, donnes qui sont trs satisfaisantes. Les auteurs indiquent une tendance une baisse progressive des scores avec lge, surtout partir de 50 ans, avec par exemple un score moyen de 48 pour les sujets de moins de 30 ans et un score moyen de 29 pour les plus de 50 ans (daprs le tableau SPM1, p. 21, Manuel section 3), mais il faut prendre ces repres avec prudence car les auteurs ne donnent ici aucune indication sur la constitution des chantillons de sujets. Ce phnomne de dclin des performances avec lge justifiera la prsence, chez les adultes, dtalonnages par classes dges.
La sensibilit
Le test SPM est adapt un large public, mais un niveau minimum correspondant des tudes de collge est ncessaire. En dessous de ce niveau il faut utiliser la version PM Couleur. Pour les sujets de niveau suprieur au baccalaurat il est prfrable dutiliser la version APM, plus difficile. Si le praticien hsite entre la version SPM et la version APM il peut tablir un diagnostic rapide avec la premire srie de la version APM, qui contient 12 items, et proposer ensuite la version la plus approprie au niveau rel du sujet (voir la prsentation de la version APM dans les pages suivantes). Les talonnages disponibles tmoignent dune bonne sensibilit des SPM.
La standardisation
La passation
Dans la forme classique papier-crayon, le test SPM est un test collectif. La passation ncessite des cahiers de passation, des feuilles de rponse et des stylos. Les auteurs distinguent les consignes pour une passation individuelle
204
et celles pour une passation collective. Ils estiment environ 1 heure le temps de passation.
Attention ! Il faut que le psychologue sassure des caractristiques des talonnages quil veut utiliser afin de dterminer sil doit limiter le temps de passation. En effet, les talonnages disponibles sont assez htrognes de ce point de vue et lon trouve certains talonnages de passations en temps libre, condition prfrable, mais galement en temps limit (l encore la vigilance est de rigueur car, selon les talonnages, le temps de passation est de 20 ou 30 minutes !). Les consignes de passation fournies par les auteurs diffrent en fonction de la modalit de passation : individuelle ou collective. Pour une passation individuelle, le psychologue va se servir des premiers items de la premire srie (items A1 A5) comme items dexemples. Lpreuve proprement dite ne dbutant alors qu litem A6. Mais pour une passation collective, il ny a quun seul item exemple, litem A1, lpreuve dbutant alors litem A2. Ces diffrences selon les modalits de passation dans le nombre ditems exemples, et donc dans le nombre ditems pris en compte dans la notation, sont un peu surprenantes et peuvent mme tre sources de biais pour les sujets de faible niveau, susceptibles de ne pas russir tous les items de la srie A. Il est vrai que, pour ce type de sujet, il est prfrable dutiliser la version Couleur. Les auteurs indiquent lexistence de versions informatises des SPM (Manuel section 3, p. 41) mais, notre connaissance, ces versions ne sont pas diffuses en France.
La cotation
Comme gnralement dans les tests collectifs, la cotation est aise. On accorde ici 1 point par bonne rponse. Le score brut du sujet, somme des items russis, peut donc varier de 0 60 points. Les feuilles de rponse sont auto-scorables, la cotation ne prend donc que quelques minutes. Le psychologue est invit calculer galement des scores partiels correspondant chaque srie afin dvaluer la cohrence des rsultats. Il dispose alors de normes de rfrences qui indiquent, pour chaque score total,
205
la dcomposition thorique de ce score en cinq scores partiels (voir tableau SPM II, page 59 du manuel section 3). Par exemple, pour un score brut de 48 points on doit observer la rpartition suivante : 12 points sur la srie A, 11 points sur la srie B, et 9, 10 et 6 sur les sries suivantes. En cas dcart trop important par rapport cette rpartition thorique (plus ou moins 2 points) le psychologue peut sinterroger sur la validit des rsultats. Le manuel donne lexemple de scores truqus par le sujet, dans le sens dune sous-valuation de ses performances dans le but dobtenir une indemnisation (voir Manuel section 3, p. 48). Au-del de cette possibilit, cette approche danalyse des sous-scores nous semble intressante dans un autre objectif car elle peut permettre de reprer des patrons de rponses atypiques, par exemple un sujet qui russirait tous les items des sries les plus difficiles (les sries D et E) mais chouerait certains items des sries plus faciles. Dans ce cas le profil serait alors intressant approfondir afin de tenter de comprendre ces checs tonnants : peut-on les attribuer au niveau de comptence du sujet ? Doit-on envisager dautres explications, comme par exemple, dventuels biais (erreur dattention...) ? Ces possibilits danalyses des sous-scores nous semblent particulirement pertinentes dans le cas de passation auprs de personnes ne matrisant pas, ou matrisant mal, la langue du psychologue et/ou auprs de personnes trs loignes, culturellement, des situations de tests, car elles peuvent permettre de vrifier si le sujet a bien compris les tches proposes dans les diffrentes sries ditems. Autre exemple dutilisation : reprer les sujets qui ont adopt la stratgie de sauter les derniers items des sries difficiles. Toutes ces possibilits danalyse permettant, trs probablement, de rduire lerreur de mesure, cest--dire de rapprocher ce qui est mesur par lpreuve (score observ) du niveau rel de comptence du sujet (score vrai). Le manuel donne galement les tables de correspondance afin de convertir un score brut SPM en score brut des autres versions CPM ou APM (voir Manuel section 3, p. 60).
Les talonnages
Ils figurent dans le manuel ainsi que dans un fascicule talonnages supplmentaires dit en 2003 par les EAP. Les talonnages proposs dans le manuel sont nombreux mais il est parfois difficile de trouver un talonnage pertinent pour un sujet donn. En effet,
206
beaucoup dtalonnages concernent des chantillons de sujets trangers, le plus souvent de langue anglaise, avec des temps de passation qui ne sont pas toujours clairement indiqus... De plus certains talonnages sont assez anciens (on trouve ainsi, par exemple, des talonnages de 1979...). Dans la plupart des cas, les talonnages prennent la forme de dcilages. Dans le manuel section 3, sur des chantillons Franais, nous disposons des talonnages suivants : 1. Un talonnage de 1998 sur 670 enfants de 7 ans 11 ans 1 , passation 2 en temps libre (tableau SPM 1) ; 2. Un talonnage de 1993/96 sur des collgiens et lycens, en temps limit de 20 minutes, niveaux 6e 3e , 1re techno, Bac Bac +2 (talonnage INETOP : tableau SPM 3) ; 3. Un talonnage de 1998, sur 708 candidats emploi jeunes, avec sparation selon les niveaux (de CAP Bac +3), avec des passations en temps limit (20 ou 30 minutes selon les groupes) (tableau SPM 2) ; 4. Un talonnage de 1992 sur des publics faiblement qualifis : 160 jeunes de 16 25 ans, avec ici un talonnage normalis en 9 classes, mais sans prcisions sur le temps de passation (tableau SPM 5) ; 5. Un talonnage de 1987 sur des ouvriers adultes (distingus par classe dge), dont on ne nous prcise pas le temps de passation (tableau SPM 4) ; 6. Un talonnage de 1992 sur 246 candidates des coles des Hpitaux de Paris, avec un temps de passation de 20 minutes (tableau SPM 6) ; 7. Un talonnage de 1989 sur 136 ingnieurs, temps de passation 20 minutes (tableau SPM 7), talonnage qui ne nous semble pas suffisamment discriminatif. Rappelons que pour ce type de public il est prfrable dutiliser la version APM. Ces diffrents talonnages confirment bien le caractre tout public de ce test, adapt pour des publics scolaires, des jeunes peu qualifis mais galement pour des populations niveau bac. Mais nous pouvons remarquer lhtrognit de ces talonnages, et des conditions de passation (temps libre/limit 20 minutes/limit 30 minutes). Pour un test aussi utilis que le Raven, il manque un talonnage reprsentatif de la population franaise, comparable par exemple aux normes disponibles pour les chelles de Wechsler. On peut regretter que les diteurs naient pas ralis un tel talonnage loccasion de la rnovation des manuels en 1998.
207
Les bases de linterprtation des scores du SPM Les talonnages disponibles sont le plus souvent des talonnages par centilages qui ne comportent que les seuils suivants : 5, 10, 25, 50, 75, 90, 95. Prenons comme exemple un extrait de ltalonnage ralis par lINETOP (Loarer, 1996) concernant les lves de collges (voir tableau 4.2).
Tableau 4.2 talonnage INETOP (Loarer, 1996) du test SPM, niveau collge (daprs le manuel SPM, section 3, p. 70).
Niveaux scolaires 6e 95 90 75 Percentiles 50 25 10 5 Moyenne cart type 48 46 43 40 36 30 27 38,9 6,4 5e 51 50 46 44 38 31 27 42 7,1 4e 53 51 48 45 42 36 33 44,6 8,1
Comment interprter les scores ? Une premire tape consiste situer le niveau de performance du sujet par rapport la population dtalonnage. Avec les donnes de ltalonnage on connat la moyenne (avant dernire ligne du tableau) et lcart type (dernire ligne du tableau) de la distribution des scores au test SPM. Par exemple, pour les lves de 6e , la moyenne est de 38,9 points (sur 60) avec un cart-type de 6,4, et lon sait quapproximativement 68 % des sujets se situent entre plus ou moins un cart type de la moyenne, donc ici entre 32,5 et 45,3. Un lve de 6e ayant par exemple un score brut de 31 points se situe donc en dessous de la moyenne des lves de son niveau scolaire (qui est de 38,9 points pour ce niveau scolaire), et lgrement en dessous du groupe moyen que nous venons de dfinir (qui regroupe 68 % des lves), et plus prcisment juste au-dessus du percentile 10. Autrement dit, seulement un peu plus de 10 % des lves de son niveau
208
scolaire ont un score infrieur au sien. Ce nest pas le signe dun bon niveau de performance. Une seconde tape consiste utiliser la grille de catgorisation propose dans le manuel. Les auteurs proposent une catgorisation des sujets en cinq classes symtriques, du groupe I capacits intellectuelles suprieures au groupe V dficience intellectuelle (manuel SPM, section 3, p. 51) :
Classe I : Capacit intellectuelle suprieure si le score atteint ou
dpasse le centile 95 des sujets de son groupe dge. Le sujet se situe alors parmi 5 % les meilleurs ; Classe II : Capacit intellectuelle nettement au-dessus de la moyenne si le score atteint ou dpasse le centile 75. (classe II+ si le score atteint ou dpasse le centile 90) ; Classe III : Capacit intellectuelle moyenne si le score se situe entre les centiles 25 et 75. Cette catgorie regroupe donc 50 % des sujets. On peut ventuellement indiquer classe III+ si le sujet dpasse le centile 50 et classe III- si le score est infrieur celui ci ; Classe IV : Capacit intellectuelle nettement infrieure la moyenne si le score se situe au centile 25 ou au dessous (classe IV- si le score se situe au centile 10 ou en dessous). Classe V : Dficience intellectuelle si le score se situe au centile 5 ou au-dessous. Le sujet se situe alors parmi les 5 % les plus faibles.
Il est effectivement prfrable, en particulier en raison de lerreur de mesure, de caractriser le sujet par une classe plutt que par son score prcis (cf. la notion derreur de mesure prsente dans le chapitre 2). Pour reprendre notre exemple de llve de 6e ayant un score brut de 31 points, donc juste au-dessus du centile 10, il se situe alors ici dans la classe IV Capacit intellectuelle nettement infrieure la moyenne .
Les tudes de cas
Le manuel ne nous propose aucune tude de cas, ce que lon peut regretter, mais consacre un chapitre au compte rendu des rsultats (voir Manuel section 3, p. 51 58). Mais celui-ci prsente peu dintrt lorsque le sujet a pass uniquement le SPM car ce chapitre est plutt consacr lanalyse compare de deux preuves de Raven (le test SPM et le test de vocabulaire Mill Hill, qui relve plus de lintelligence cristallise et du vocabulaire). Dans cette partie du manuel on trouve galement des informations concernant lanalyse des sous-scores, dont nous avons dj parl, partir
209
des carts entre chaque sous-score et des rfrences thoriques (voir tableau SPM II, manuel SPM section 3, p. 59). En cas dcarts de plus ou moins 2 points, les auteurs invitent questionner la cohrence des rsultats du sujet. Sans reprendre nos propositions dveloppes un peu plus haut concernant lanalyse des sous-scores, nous ne pouvons que conseiller galement aux praticiens de se pencher attentivement sur le protocole du sujet : analyser son profil de rponse, reprer les items chous... Concernant le diagnostic des erreurs, bien que certains chercheurs en proposent un cadre gnral danalyse (pour une revue de questions sur ce point voir par exemple Grgoire, 2004, p. 225-229), la pertinence dune telle analyse semble rduite pour les auteurs du manuel car, selon eux :
Le diagnostic des erreurs demanderait la cration dau moins une nouvelle version du test. (Manuel section 3, p. 56)
Cette absence est galement releve par Grgoire qui prcise que :
Aucune donne nindique en effet quil soit possible de diffrencier les individus en fonction du type derreurs commises ou du type de problme o les erreurs sont observes. (Grgoire, 2004, p. 229)
La version APM des matrices de Raven
Nous venons de prsenter, dune manire assez dtaille, la version SPM la plus connue des tests de Raven. Nous abordons maintenant, mais de faon plus synthtique, la version APM (Advanced Progressive Matrices).
Les bases thoriques de la version APM Cette version Avance repose sur les mmes principes thoriques que la version Standard SPM, avec des items comparables, donc galement destine valuer le facteur g et lintelligence fluide. Nous pouvons reprer les spcificits suivantes de cette version APM :
Elle est plus difficile que la version SPM car elle est adapte des sujets
de niveau minimum Baccalaurat. La version APM vise diffrencier les sujets qui se situeraient dans les meilleurs scores aux tests SPM (les 25 % les plus performants) ; Elle comporte deux sries dpreuves : le Set I, compos de 12 items, est destin essentiellement familiariser le sujet avec les situations problmes quil va rencontrer ensuite ; le Set II, qui constitue rellement le test,
210
compos de 36 items rsoudre en temps libre ou en temps limit (40 minutes) ; Les items ne sont pas prsents comme ceux de la version SPM : on ne retrouve pas lorganisation en cinq sries ditems. Les items sont simplement ordonns selon leur niveau de difficult. La version APM est donc bien une valuation du facteur g, utilisable auprs dtudiants et dadultes diplms. Elle fait lobjet dun manuel spcifique : Manuel des Raven, section 4. La premire version des APM a t labore en 1943, puis rnove en 1947. Cette premire version, qui comportait 48 items a t rduite 36 items en 1962. Depuis cette date aucun item na t modifi. La version franaise la plus rcente est date de 1998.
Les qualits psychomtriques Les tudes de fiabilit des APM prsentes dans le Manuel (section 4), attestent des bonnes qualits de lpreuve. Ainsi par exemple, la fidlit, value par la mthode test-retest, varie de .77 .92 selon les tudes, et la consistance interne varie quant elle de .83 .87. Ces diffrentes valeurs sont trs satisfaisantes. Les rsultats de diffrentes recherches corrlationnelles sont galement prsents dont nous pouvons retirer les lments suivants :
Comme la version SPM, cette version APM est fortement lie des
valuations non verbales de lintelligence. On relve par exemple une corrlation de .42 avec le QI Verbal de la WAIS et de .55 avec le QI de Performance ; Des liaisons significatives avec des indicateurs de russite scolaire (validit pronostique) sont galement observes ; De mme des liaisons significatives apparaissent avec des critres de russite professionnelle, mme sil est difficile, comme le soulignent les auteurs, de prdire la performance professionnelle partir dune seule variable. La part de variance explique peut paratre ici relativement modeste (autour de 10 %) mais elle reste selon les auteurs notablement suprieure aux donnes releves sur dautres tests (Manuel section 4, p. 43) ; La validit des APM pour lvaluation du facteur g est donc avre Les auteurs font cependant (pages 25 36 du manuel) une mise au
211
point utile sur la notion de validit en rappelant que dautres facteurs que le seul rsultat un test dintelligence comme, par exemple, le niveau de motivation, doivent tre pris en compte pour expliquer le niveau de performance dun sujet et/ou prdire un comportement futur. Ils proposent ainsi leur propre modlisation de lintelligence (voir en particulier le schma APM 1, p. 32) dans lequel lhabilet ductive, value par les APM, nest quun des lments, certes central, des diffrentes variables de cette modlisation. Ces tudes fournissent des lments attestant dune bonne fiabilit des APM sont malheureusement plutt anciennes (certaines datent des annes 1970). Il serait donc utile de disposer dtudes plus rcentes sur des populations franaises
La standardisation
La passation
Dans le format classique papier/crayon le matriel est compos des deux cahiers de passation (Set I et Set II) et de feuilles de rponse (auto-scorables). Selon la procdure classique, la passation dbute avec le Set I (les 12 items de la srie 1), dont les deux premiers items servent dexemples. On indique au sujet que cette premire partie est une srie dessais destine lui permettre de bien comprendre la mthode de rsolution. Il est dailleurs possible de donner au sujet cette premire srie afin quil rsolve ces items son domicile. Pour cette srie I le sujet dispose soit de 5 minutes (si la passation du Set II, seffectue ensuite en temps limit), soit de 10 minutes (dans le cas o la passation du Set II, seffectue ensuite en temps libre). Lorsque le sujet a termin le Set I on procde (sans lui) la correction. Si le sujet a rencontr des difficults dans cette srie, il est alors prfrable de poursuivre lexamen avec la version standard des matrices (SPM). Dans le cas inverse, on lui accorde une courte pause puis on lui prsente le livret Set II qui contient les 36 items de la seconde srie. La passation est alors en temps libre ou en temps limit (40 minutes). Le manuel indique quelques variantes selon que la passation est individuelle, collective ou encore lorsque le test est administr sans instructions verbales. Les auteurs indiquent galement lexistence de versions informatises, versions non disponibles en France.
212
La cotation
Grce des feuilles auto-scorables la correction est aise et ne ncessite que quelques minutes : on accorde 1 point pour chaque item russi. Le score brut la srie 1 peut donc varier de 0 12 points et le score la srie II, score rel des APM, de 0 36 points. Contrairement la version SPM rappelons quil ny a pas ici de possibilit de calcul de sous-scores.
Les talonnages
Nous pouvons ici renouveler les observations que nous avions formules propos des talonnages de la version SPM :
Les talonnages sont nombreux mais htrognes (du point de vue de la
composition des chantillons comme de celui des conditions de passation : certains sont en temps libres, dautres ont un temps limit de 30 minutes, dautres encore de 40 minutes...) ; De plus, ils portent sur des populations de diffrentes nationalits (britanniques, amricaines, allemandes, chinoises...) mais aucun talonnage ne concerne des sujets franais. On peut noter que figurent quelques talonnages concernant la premire srie ditem (les 12 items du Set I). La standardisation grande chelle la plus rcente des APM date de 1992 auprs dune population britannique. Il sagit dune passation en temps libre et dun talonnage de type percentile avec les mmes seuils que la version SPM, soit : 5 ; 10 ; 25 ; 50 ; 75 ; 90 ; 95 (tableau APM 13, p. 89). Il sagit dun talonnage par classe dge qui distingue 19 catgories (de 12 ans plus de 70 ans). Les donnes sont galement fournies sous une autre forme permettant de connatre le rang percentile pour chaque score brut observ (tableau APM 14, p. 90). En lisant attentivement les informations relatives cet talonnage, on apprend que si la passation sur les adultes a bien t ralise lors de la standardisation de 1992, celle des enfants date en fait de 1979. Il aurait donc t plus clair de prsenter sparment ces deux talonnages. Le praticien franais pourra utiliser cet talonnage qui semble, au vu de comparaisons ralises sur de petits effectifs, assez proche de ce quon pourrait observer sur des sujets franais. Il peut galement utiliser les talonnages qui distinguent diffrentes catgories professionnelles (tableau APM 33, p. 104). Mais il est extrmement regrettable que nous ne disposions pas, dune part, dun rel talonnage reprsentatif de la population franaise, dautre part, de normes plus rcentes. Des talonnages par niveaux scolaires et par groupes professionnels seraient galement trs utiles.
213
Le manuel propose galement une table de conversion qui permet destimer le score la version SPM partir du score obtenu la version APM, et inversement (voir tableau APM 27, p. 100 et APM 11, p. 58 pour les scores levs). Enfin, on dispose galement dun tableau permettant destimer un Q.I. partir du score catgoris aux matrices de Raven (tableau APM 29, p. 101).
Attention ! Dune part, il faut bien distinguer ce que reprsente ici lindicateur Q.I. (qui diffre de ce quil reprsente, par exemple, pour un Q.I. estim partir dune chelle de Wechsler), dautre part, tout en nous proposant cette conversion des scores le manuel indique quil ne faudrait pas lutiliser en raison de la distribution non gaussienne des donnes ! (Manuel section 4, p. 101). Deux bonnes raisons donc dtre particulirement prudent dans lutilisation de ce tableau. Les bases de linterprtation des scores Comme pour la version SPM, le psychologue commence par reprer le rang percentile o se situe le sujet, puis il utilise la mme catgorisation que celle propose pour la version SPM : de la classe I capacit intellectuelle suprieure la classe V dficience intellectuelle . On peut regretter, comme nous lavons fait pour la version SPM, quil ny ait aucune tude de cas prsente dans le manuel.
Lanalyse des erreurs
Cette version APM a fait lobjet de recherches concernant lanalyse des erreurs. Quatre types derreurs ont ainsi t identifis (Manuel section 4, p. 15-19) :
Solution incomplte : la rponse slectionne ne contient que certains
aspects de la bonne rponse ; Mode de raisonnement arbitraire : rponse alatoire ou relevant dun principe de rsolution non pertinent ; Choix surdtermin par des lments intrus : choix de la solution la plus complexe, qui combinent tous les lments prsents ; Rptitions : choix dune des figures dj prsente dans lespace problme.
214
Daprs les donnes du manuel, les erreurs de type 1 et 2 sont les plus frquentes : elles reprsentent environ 50 % des erreurs, mais il faut signaler que cette rpartition fluctue en ralit, selon le niveau des sujets et selon les items. Le tableau APM 2 (p. 17) fournit ainsi la rpartition des erreurs les plus frquentes et le praticien pourra y trouver quelque utilit. Mais rappelons galement que, pour dautres chercheurs, une analyse des erreurs ne semble pas rellement justifie (Grgoire, 2004, p. 229). Il peut galement tre intressant danalyser ces erreurs partir des traitements cognitifs ncessaires la rsolution des items. Nous pouvons signaler ici que de nombreuses recherches portent sur cette question depuis celle de Hunt en 1974 jusquaux travaux plus rcents des annes 1990-2000. Nous citerons en particulier deux exemples de ces recherches :
Carpenter, Just et Shell (1990) ont ralis une analyse cognitive de cette
version des matrices et ont identifi cinq rgles de rsolution. La rsolution de chaque item ncessite la dcouverte dune ou plusieurs de ces rgles ; De Shon, Chan, et Weissbein (1995) ont utilis les verbalisations des sujets pendant la rsolution pour caractriser chaque item des APM selon le type de rsolution quil ncessite : item analytique, item spatial, item mixte. Selon leur analyse il y aurait par exemple 12 items analytiques, 13 items spatiaux, 10 mixtes et 1 inclassable. Nous renvoyons le lecteur intress vers larticle qui propose la typologie complte des 36 items des APM.
Conclusions gnrales sur les tests de Raven (versions SPM et APM)
1. Des tests fiables pour valuer le facteur g et lintelligence fluide... condition de respecter les recommandations des auteurs ! Comme nous lavons indiqu plusieurs reprises, les tests de Raven ont largement dmontr leur validit comme mesures du facteur g et de lintelligence fluide. Ils prsentent de plus lavantage de la rapidit de la passation, ainsi que de la cotation, et permettent, si le praticien le souhaite, une analyse approfondie du patron de rponse (analyse des sous scores). Il faut cependant garder lesprit que les auteurs du manuel dconseillent lutilisation de la version SPM en temps limit en raison du risque de biais dans lvaluation. Pourtant, comme nous lavons signal, la majorit des talonnages utilisables du SPM ont t tablis en temps limit...Ce qui apparat pour le moins paradoxal !
215
Il est de fait probable que la majorit des utilisateurs du SPM utilise cette preuve en temps limit. Il est alors, dans ce cas, ncessaire de sinterroger sur la validit du protocole, par exemple, en analysant la rpartition des sous-scores par srie. 2. Quelle version utiliser : SPM ou APM ? En temps libre ou limit ? Le premier critre prendre en compte doit tre le niveau du sujet. Le praticien doit identifier lavance, en fonction du niveau dtude du sujet, la version la plus adapte (SPM ou APM) ainsi que les modalits de passation (temps libre ou limit en fonction des talonnages quil souhaite utiliser). Sil hsite, il peut faire passer le Set I de la version APM et, en fonction des rsultats, slectionner la version la plus approprie. Un second critre : limportance de la possibilit dapprentissage au cours du test. Les auteurs conseillent dutiliser la version SPM (en temps libre) pour les sujets peu familiariss avec le type de situation propos, en raison du caractre progressif des items qui fournit au sujet des possibilits dapprentissage en cours de tche. 3. Des talonnages insuffisants Quelle que soit la version nous avons signal plusieurs reprises les limites des talonnages fournis dans les manuels. Il serait ncessaire de pouvoir disposer : dtalonnages plus rcents ; reprsentatifs de lensemble de la population Franaise ; dtalonnages par niveaux scolaires ainsi que dtalonnages par professions. De plus, les talonnages en rangs centiles prsentent certaines faiblesses par rapport la discrimination des sujets (voir ce sujet Grgoire, 2004, p. 223). Enfin, on peut regretter dune faon gnrale labsence dtudes de cas.
2.
Le test NNAT (Test dAptitude Non Verbal de Nagliri)
Le NNAT (Naglieri Non verbal Aptitude Test ) a t labor dans les annes 1980 par Naglieri. Il sagit dune rvision et extension dun autre test de matrice de Naglieri, le MAT (Test de Matrice Analogique), test dit
216
aux tats-Unis en 1985 mais jamais adapt en France. Le test MAT est une preuve de raisonnement non verbal, assez semblable aux matrices de Raven, mais destin aux enfants gs de 5 17 ans (manuel NNAT, p. 13). Directement issu du MAT, le NNAT est donc un test de facteur g et dintelligence fluide qui sinspire largement des preuves de Raven, comme on peut le constater figure 4.2.
Figure 4.2 Exemple (modifi) ditem du test NNAT (daprs Naglieri, 1998).
Les items sont assez proches de ceux des preuves de Raven : le sujet doit reprer les rgles de progression (de transformation) entre les diffrents lments du problme, puis appliquer ces rgles afin de slectionner la rponse correcte. Le NNAT a t dit en 1996 aux tats-Unis, puis adapte en France en 1998. Lpreuve est dite par les ECPA et accompagne dun manuel de 81 pages. Le NNAT prsente trois caractristiques principales qui le diffrencient des autres tests de facteur g : il se dcline en diffrentes formes, il permet le calcul de sous-scores, il propose deux types dtalonnage (par niveau scolaire et par classe dge).
217
Les diffrentes formes du NNAT Le NNAT est compos de sept formes (forme A forme G), chacune adapte un niveau scolaire, de la maternelle la classe de terminale, comme nous pouvons le voir dans le tableau 4.3.
Tableau 4.3 Les diffrentes formes du test NNAT.
Niveaux scolaires Formes du NNAT Maternelle CP CE1 CE2-CM1 CM2-6e 5e , 4e , 3e 2e Terminale G
Chaque forme est indpendante (matriels et talonnages spars) mais toutes comportent 38 items rsoudre en 30 minutes.
Les sous-scores (ou clusters) Alors que la plupart des tests de facteur g (par exemple, les matrices de Raven, les tests de type dominos...) ne caractrisent la performance du sujet que par un score unique1 , le NNAT fournit un score gnral et quatre sous-scores. Ainsi, partir de lanalyse des types de raisonnement prsents dans les items du MAT, Nagliri distingue quatre types ditems (appels galement clusters) : Compltement de Pattern (P.C), Raisonnement Analogique (R.A), Raisonnement en srie (S.R), Reprsentation Spatiale (S.V).
Chaque item du NNAT tant reprsentatif dun type particulier de raisonnement, il est alors possible de calculer, pour chaque sujet, quatre sous-scores. Ces sous-scores apportent une information spcifique sur la performance du sujet dans un type particulier de raisonnement. Il faut signaler, et nous le dvelopperons plus loin, que toutes les formes du NNAT ne contiennent pas obligatoirement ces quatre types ditems.
1. La version SPM de Raven permet, comme nous venons de le voir, de calculer cinq sous-scores mais dans un objectif trs diffrent.
218
Comment se diffrencient ces quatre types ditems ?

Les items de Compltement de Pattern (PC) se prsentent sous la forme
dun dessin auquel il manque une partie. Le sujet doit complter la figure en slectionnant le dessin correspondant. Ce sont les items les plus simples, ils sont donc en assez grande quantit dans les formes les moins difficiles du test (par exemple 30 items sur 38 sont de ce type dans la forme A, forme la plus simple du NNAT) et en proportion plus rduite dans les formes les plus difficiles (il ny a par exemple aucun item de ce type dans la forme G, version la plus difficile du test) ; Les items de Raisonnement Analogique (R.A) prsentent des relations logiques (les rgles de transformation) entre les diffrents lments du problme. Plusieurs dimensions peuvent varier (forme, hachures, couleur...) et dterminer ainsi le niveau de difficult de litem ; Les items de Raisonnement en Srie (S.R) ncessitent pour le sujet de reprer les rgles de transformations horizontales et/ou verticales, pour ensuite les appliquer afin de trouver la rponse correcte. Ce type de raisonnement est en fait trs proche de celui qui prvaut dans les items de raisonnement analogique ; Les items de Reprsentation Spatiale (S.V) ncessitent des oprations dadditions de formes gomtriques, de rotations de figures, de pliages... Les auteurs indiquent que ce type ditem est assez difficile. Pour cette raison on les trouve en proportion importante dans les formes les plus difficiles du test (par exemple, 24 items de ce type, sur 38, dans la forme G, version la plus difficile du test NNAT).
La rpartition des types ditems dans les tests Les diffrentes formes du NNAT comportent le mme nombre ditems (38) mais se distinguent dans la rpartition des diffrents types ditems : chaque forme ne comprend pas ncessairement les quatre clusters, et la rpartition entre les clusters est diffrente selon les formes. Les auteurs justifient ce choix en raison des niveaux de difficult diffrents de chaque cluster. Par exemple pour la forme A (niveau cole maternelle) on observe une surreprsentation des items PC, les plus faciles (30 items soit 79 % des items de la forme A) et une absence des items des catgories les plus difficiles (aucun item S.R ou S.V dans cette forme), et cest linverse pour
219
la forme G, la forme la plus difficile, qui comporte une majorit ditems SV. La prise en compte de ces combinaisons diffrentes ditems selon les versions peut permettre alors au psychologue de mieux comprendre ce qui est plus particulirement valu dans chaque version du NNAT. Nous y reviendrons. Contrairement au test SPM de Raven, qui regroupe les items du mme type dans cinq sries ditems, dans le NNAT, les diffrents types ditems sont rpartis sur lensemble de lpreuve.
Deux types dtalonnage Le NNAT propose deux types dtalonnages : par niveau scolaire (de la classe de Maternelle la classe de Terminale) ; par classe dge (de 5 15 ans). Nous dtaillerons plus loin lintrt de ces talonnages distincts.
Les qualits psychomtriques du NNAT
Llaboration des sept versions du NNAT Les items du NNAT sont directement issus de la MAT. Les items ont t slectionns de manire viter au maximum les influences socioculturelles (manuel, p. 21). De nouveaux items ont t crs pour chaque type de raisonnement de faon construire les sept formes de test. Les items ont t expriments, avec analyse des biais, afin de dvelopper les versions dfinitives du test.
Ladaptation du NNAT
La version franaise du NNAT est une adaptation de la version amricaine dont elle reprend tous les items. Cette adaptation a t effectue auprs dun chantillon de 1 78 lves de niveaux varis : des classes de grande section de maternelle aux classes de Terminales.
Les indicateurs de la sensibilit Il sagit ici de vrifier le pouvoir discriminant du test : permet-il bien de distinguer les sujets ? Autrement dit les rsultats sont-ils proches dune
220
distribution Normale (de type Gaussienne) avec un niveau de difficult adapt aux populations vises ? Le tableau 9 du manuel (p. 38-39) fournit les valeurs des moyennes et des carts types pour chaque forme du test. Sachant que chaque version comporte 38 items, on sattend ce que les moyennes se situent autour dune valeur de 19 points (qui correspond un pourcentage moyen de russite de 50 %). De fait, les moyennes varient entre 15,8 27 selon les versions, ce qui correspond des pourcentages de russite de 41 71 % selon les niveaux scolaires (voir tableau 15, p. 48 du manuel), les carts types variant eux de 5,1 8,3. Si certaines versions semblent un peu trop faciles, ce qui ne facilitera pas la discrimination des sujets de bon niveau (par exemple, on observe un taux de russite de 71 % pour la version G destine aux lves de Terminale), les diffrentes valeurs tmoignent dun niveau globalement satisfaisant de sensibilit.
Les indicateurs de fidlit Trois types danalyse sont prsents. Elles portent sur : la fidlit (ou consistance) interne, lerreur de mesure la fidlit temporelle. Lanalyse de la consistance interne (rappelons quil sagit ici de vrifier dans quelle mesure tous les items dun test valuent bien la mme dimension) est ralise par le calcul des coefficients KR 20 : les coefficients varient ici de .76 .92 selon les formes (manuel, tableau 8, p. 37). On peut considrer ces valeurs comme satisfaisantes. Par contre, lorsque lanalyse porte cette fois sur les types ditems (les sous-scores ou clusters) les variations sont beaucoup plus importantes avec des valeurs comprises entre .23 et .92 en fonction des formes et des clusters (voir le dtail dans le manuel, tableau 9, p. 38-39). Linterprtation de ces valeurs doit prendre en compte le nombre parfois trs faible ditems dun mme cluster mais, et nous y reviendrons, les valeurs les plus faibles peuvent nous questionner sur lhomognit de certains clusters.
221
Lerreur de mesure est estime environ 2,5 points en note brute1 . Rappelons que cest un lment ne pas oublier dans la phase dinterprtation du score du sujet. Enfin, troisime type danalyse, la fidlit temporelle. Elle est estime par la mthode test/retest avec un intervalle de 3 5 semaines entre les deux passations. Les coefficients varient de .47 .82 selon les formes (tableau 10, p. 41). On peut remarquer que la valeur de .47, qui concerne la forme G, semble trop faible pour tmoigner rellement dune bonne qualit de fidlit, mais cette valeur nest pas commente dans le manuel. On observe un gain denviron 3 points entre les deux passations.
Les indicateurs de validit

La validit concourante avec dautres tests dintelligence
Une seule tude est prsente ici : elle concerne lanalyse de la relation entre le test NNAT, plus prcisment la forme G, et lpreuve non verbale de la batterie GAT2 , auprs dun chantillon de 125 lves. La corrlation obtenue est de .33, ce qui est faible (et les auteurs en conviennent dailleurs, cf. Manuel, page 42) et beaucoup plus faible que la valeur attendue car les deux preuves (NNAT et GAT) sont senses valuer le mme type daptitude. Pour tenter dexpliquer cette (trop) faible valeur les auteurs proposent une argumentation reposant sur le contenu mme des items de la forme NNAT utilise, la forme G, qui est compose dune grande majorit ditems de visualisation spatiale (24 sur 38) et dont la rsolution suppose des manipulations mentales spcifiques : rotation dans lespace, superpositions de figures complexes (manuel, p. 42). Cette argumentation ne nous semble pas suffisamment convaincante et il aurait t prfrable de pouvoir disposer dautres lments de validit concourante avec un test comparable, comme par exemple les matrices de Raven, lments qui viendraient confirmer la validit du test NNAT comme preuve de raisonnement non verbal de type facteur g. Nanmoins, du fait que le NNAT repose sur le mme type de tche que les matrices de Raven on peut estimer quil value globalement la mme dimension, mme si la corrlation observe ici peut nous questionner.
1. Ce qui signifie que si un sujet obtient une note brute de 24, il a deux chances sur trois que sa vraie note se situe entre les notes 22 et 27 (manuel, p. 37). 2. La batterie GAT (Test daptitude gnrale) value laptitude au raisonnement logique.
222
De plus, et cest tonnant que les auteurs ne rappellent pas ici ce point, les tudes amricaines font tat de corrlations leves (de .63 .78 selon les formes) entre le NNAT et le MAT (tableau 4, p. 25). Il reste quil est regrettable de ne pas disposer, sur un chantillon franais, dautres donnes que la seule tude prsente. Des tudes complmentaires mriteraient donc dtre menes.
La validit concourante avec des tests scolaires
Plusieurs tudes existent dont les rsultats principaux figurent dans le tableau 4.4.
Tableau 4.4 Corrlations entre le NNAT et des preuves scolaires (daprs le manuel, p. 44).
Forme NNAT D Niveau scolaire CE2 CM2 E 6e F 5e et 3e preuves NNAT et TNO NNAT et TAS Franais NNAT et TAS Math NNAT et TAS Franais NNAT et TAS Math. NNAT et TNO Effectif 50 99 97 97 102 104 Corrlation r .45 .50 .53 .48 .63 .32
Les valeurs se situent autour de .50 et nous pouvons observer les points suivants :
Les corrlations avec le Test dAcquisition Scolaire (TAS) varient de .50
.63, les valeurs tant toujours suprieures avec lpreuve de mathmatiques. La corrlation la plus leve dans le tableau (.63) tant dailleurs observe avec cette discipline ; Les corrlations avec le Test de Niveau dOrthographe (TNO) sont plus faibles, ce qui peut sexpliquer par la spcificit des acquisitions values par le TNO. Ces valeurs sont conformes celles gnralement observes pour ce type de validit et tmoignent dun niveau satisfaisant de validit du NNAT par rapport des indicateurs de niveau scolaire.
La validit critrielle avec des apprciations scolaires
Une tude est cite ici qui relie NNAT et apprciations scolaires, partir dune chelle en trois points : lve bon, moyen ou faible. Les apprciations sont gnrales ou spcifiques deux matires scolaires (franais et mathmatiques). Ltude porte sur six niveaux scolaires
223
(maternelle CM2) et concerne au total 760 lves. Des liaisons entre scores au NNAT et apprciations scolaires sont effectivement observes.
La validit thorique
Une premire tude porte sur laspect dveloppemental de lpreuve. On sattend par exemple observer un pourcentage de russite plus lev pour les lves du niveau suprieur lorsque la mme forme sapplique plusieurs classes. Cest le cas par exemple de la forme F qui sapplique aux lves de 5e , 4e et 3e : les lves de 3e obtiennent bien, en moyenne, de meilleurs rsultats. Les donnes confirment ainsi laspect dveloppemental du NNAT (voir dans le manuel, tableau 15, p. 48). Une seconde tude visait valuer la validit de la structure du NNAT, structure organise autour des quatre clusters. cet effet une analyse factorielle confirmatoire a t effectue pour chaque forme du NNAT. Les rsultats montrent que les clusters attendus apparaissent mais, au moins dans certaines formes et pour certains clusters, le rattachement de certains items leur cluster thorique de rattachement pose problme en raison de saturations parfois importantes sur dautres sous-scores que leur sous-score de rattachement. En effet, lorsquon se penche sur les donnes disponibles dans le manuel (les rsultats complets des analyses factorielles figurent en annexe 2 du manuel, p. 75 80) on saperoit dune part, que la saturation observe de certains items avec leur cluster (ou sous-score) dappartenance est faible, voire nulle, dautre part, que la saturation de certains items avec un autre cluster est parfois assez forte. Ces observations, que les auteurs nuancent un peu compte tenu du nombre souvent trs faible ditems par clusters, peuvent nous questionner sur la typologie des items proposs dans la structure du NNAT. Autrement dit, le calcul de sous-scores partir des regroupements proposs nest pas compltement valid par les donnes. Ce qui explique, dune part, les conseils des auteurs quand linterprtation des sous-scores ils ne devraient tre interprts que de faon qualitative (Manuel, p. 12) dautre part, labsence dtalonnages par sous-scores. Nous ne pouvons que souscrire cette prudence. Curieusement les auteurs ne nous indiquent pas le dcalage entre ce quils ont observ ici, sur un talonnage franais, et les rsultats des tudes amricaines qui ont permis de valider la structure du MAT et de dfinir les clusters (Manuel, p. 13). Ces rsultats divergents peuvent-ils sexpliquer par des diffrences au niveau des outils, par exemple des diffrences entre les items des deux tests ? Ou sont-ils le signe dune diffrence plus profonde, entre les populations,
224
comme par exemple celle qui a t observ lors de ladaptation franaise du WISC-III1 ? Une tude complmentaire permettrait sans doute dexpliquer ces divergences entre recherches et damliorer, du moins on peut lesprer, la validit des clusters proposs dans la version franaise, donc celle du calcul de ces quatre sous-scores. Nous y reviendrons.
Ltude des biais Le NNAT est prsent comme tant culturellement quitable aussi bien au niveau de lorigine sociale quan niveau du sexe des sujets (manuel, p. 1). Quels sont les lments du manuel qui permettent aux auteurs daffirmer ces qualits ?
Analyse des diffrences de russite selon le sexe
Une analyse comparative selon le sexe a t ralise pour les diffrents niveaux scolaires. Les rsultats montrent quune seule diffrence est significative : pour les lves de classes de 2de on observe un rsultat suprieur pour les garons avec une moyenne de 26,55 points contre 23,99 points pour les filles, soit une diffrence de 2,56 points (manuel, tableau 7, p. 35). Cette seule diffrence justifierait un talonnage par sexe pour ce niveau dtude. Pourtant, cet talonnage na pas t labor... Mme si elles ne sont pas statistiquement significatives, les diffrences de moyennes qui figurent dans le manuel vont quasiment toujours dans le mme sens avec une diffrence en faveur des garons dans 9 cas sur 12 (voir dans le manuel les donnes du tableau 7, p. 35). La non significativit des diffrences est en outre nuancer compte tenu des effectifs assez restreints des groupes2 . Ces remarques nous amnent donc temprer les conclusions des auteurs concernant lindpendance de la mesure en fonction du sexe et attirer lattention des praticiens, au moins sur le niveau des classes de 2de pour lequel un talonnage par sexe aurait t ncessaire.
1. Rappelons que dans cette adaptation les auteurs nont pas retrouv sur lchantillon franais lorganisation des aptitudes qui avait t observe sur les sujets amricains (voir le chapitre 3 : le WISC-III). 2. Une mme valeur de diffrence entre deux moyennes sera considre comme statistiquement non significative lorsque les effectifs sont rduits, et significative lorsque les effectifs sont plus importants.
225
Analyse des diffrences de russite selon lorigine sociale
Mme si le manuel indique la composition des catgories INSEE du chef de famille (tableaux 5 et 6, p. 29 34) aucune donne nest fournie concernant la recherche de biais ce niveau. On ne connat donc pas les tudes sur lesquelles reposent les affirmations des auteurs concernant lindpendance de la mesure par rapport lorigine sociale. Au final, on peut observer que les dclarations du manuel concernant autant labsence de diffrences entre sexe que labsence de diffrences selon lorigine sociale seraient nuancer, et complter par la prsentation de donnes dtudes.
La standardisation
La passation Le test NNAT est une preuve collective. Le psychologue doit slectionner la version correspondant au niveau du (ou des) sujets(s) concern(s). Rappelons ce propos quil existe sept formes diffrentes correspondant aux niveaux scolaires suivants : Forme A (Grande Section Maternelle), Forme B (CP), Forme C (CE1), Forme D (CE2/CM1), Forme E (CM2/6e ), Forme F (5e , 4e et 3e ), Forme G (2de, 1re , Terminale).
Pour les versions les plus faciles (formes A, B, C et D) le sujet rpond directement sur le cahier de passation ; pour les versions les plus difficiles (formes E, F et G) le sujet rpond sur des feuilles de rponse (auto-scorables). signaler que la premire version du manuel (1998) doit tre accompagne dun additif, additif inclus dans la seconde version du manuel (1999). Quelle que soit la version utilise, le cahier de passation comporte 38 items de difficult croissante. Lutilisation ditems en couleur favorise trs probablement lattrait de lpreuve, surtout chez les sujets les plus jeunes. Les consignes prcises sont donnes sur la fiche dinstruction, spcifique chaque forme. La passation dbute par les consignes et les deux items exemples.
226
Temps de passation : 30 minutes. Avec les consignes et les items-exemples il faut donc compter environ 40 minutes de passation.
La cotation On attribue classiquement 1 point par bonne rponse, les scores bruts peuvent donc varier de 0 38. Les modalits de cotation diffrent selon les versions :
Pour les formes les plus simples, le sujet rpond directement sur le cahier
de passation, la correction du protocole ncessite une fiche de correction qui donne les bonnes rponses ; Pour les formes plus difficiles, avec feuilles auto-scorables, la cotation est plus rapide : il suffit de comptabiliser les croix (choix de la rponse) correctement positionnes. On obtient ainsi le score total du sujet, mais aussi ses sous-scores (score PC, score RA, score SR et score SV).
Les talonnages Ils ont t raliss en 1997 sur un chantillon de 1 781 lves de diffrents niveaux dtudes : des classes de Grande Section de Maternelle aux classes Terminales de Lyce. Chaque groupe compte environ 120 150 lves.
talonnages du score total
partir du score brut total on peut distinguer ici deux possibilits :

Soit le psychologue cherche situer le sujet par rapport aux lves de son
niveau scolaire : il utilise alors les talonnages par niveaux scolaires partir de la note brute totale du sujet (talonnages normaliss en 11 classes) ; partir de la note dchelle (voir plus loin) il est possible dobtenir le rang percentile du score du sujet par rapport aux diffrents niveaux scolaires ; Soit le psychologue souhaite situer le sujet par rapport aux sujets du mme ge, il doit alors transformer sa note brute en une note dchelle (notes T), puis transformer cette note dchelle en Index dAptitude Non verbale (notes NAI). Au final cet index NAI sexprime dans une chelle de moyenne 100 et dcart-type 15, cest--dire dans la mme mtrique quune chelle de Q.I.
227
Attention ! Cette note NAI, nest pas assimilable un Q.I. et ne doit pas donc tre interprte comme un Q.I., mme si elle en possde la mme mtrique. Rappelons que le Q.I, indice dintelligence globale, est lindicateur typique des chelles de dveloppement de type chelles de Wechsler, qui reposent sur un ensemble vari de situations et en particulier des items et subtests reposant sur des aptitudes verbales (exemples : le QIV et lIndice de Comprhension Verbale ICV), ce qui nest pas le cas ici. Le NNAT est bien un test non verbal de type facteur g et non un test de type QI. Enfin, le manuel propose galement un tableau de conversion entre note dchelle et ge quivalent , ce qui est assez surprenant car cette notion, proche de la notion dge mental, nest gure utilise actuellement.
talonnages des sous- scores ?
Nous avons vu que le NNAT permet le calcul de sous scores qui constituent diffrents indicateurs de la performance. On pouvait alors lgitimement sattendre disposer dtalonnages par sous-scores. Cependant, en raison sans doute de la faiblesse de certaines donnes dexprimentation (voir plus haut), mais aussi, daprs les indications du manuel (manuel, p. 12), en raison du trop faible nombre ditems qui composent certains clusters, les auteurs nont pas labor dtalonnages spcifiques pour chaque sous-score et conseillent de ninterprter que de faon qualitative ces sous-scores. Le manuel propose comme seule rfrence de comparaison les moyennes, carts types et erreurs de mesure des diffrents sous-scores pour les diffrentes formes du test (voir tableau 9 du manuel, p. 38 et 39). Ces lments nous semblent trop succincts pour tre vritablement utiles au praticien. Nous regrettons cette absence dtalonnages spcifiques car elle limite lutilisation de ces indicateurs qui auraient permis de procder une valuation diagnostique. Cela est dautant plus regrettable que, comme le prcisent Bernier et Pietrulewicz :
Dans ce type de test, le total ou le score compos est peu significatif ; ce sont les scores partiels ou les pourcentages de bonnes rponses des regroupements ditems particuliers qui constituent les mesures recherches. (Bernier et Pietrulewicz, 1997, p. 224).
228
Cette possibilit danalyse diagnostique des rsultats du NNAT reste donc actuellement limite.
Les bases de linterprtation du ou des scores
Tenir compte de lerreur de mesure Avant toute interprtation, il faut se rappeler que la mesure ralise nest jamais une mesure fiable 100 % compte tenu de la notion derreur de mesure. Le manuel dailleurs nous le rappelle (voir p. 11). Il faut donc, avant toute interprtation, tenir compte de cette erreur (on dispose pour cela des donnes ncessaires dans le manuel) et, par exemple, entourer le score observ dun intervalle de confiance. Le manuel donne lexemple suivant :
Exemple Un lve de CM2 qui obtient un score brut de 19 (forme E) est situ dans la classe 6 de ltalonnage normalis en 11 classes. Mais sachant que lerreur type de mesure (Sem) est de 2,6, on peut considrer (avec un risque de 10 %) que le score vrai de cet lve se situe entre 16,4 (cest--dire 19 2,6) et 21,4 (cest--dire 19 + 2,6), cest--dire entre les notes talonnes 5 et 7.
Comme dans le cas des chelles de Wechsler, le manuel nous incite situer le niveau de llve non pas partir dun score prcis, mais partir dun intervalle de confiance.
Interprter le score total Pour pouvoir interprter le score total, il faut dj prciser le type dtalonnage utilis : talonnage par niveau scolaire ou talonnage par ge. En effet, comme nous allons le dtailler, linterprtation dun mme rsultat peut diffrer en fonction de ce choix. Lorsque llve est lheure , cest--dire scolaris dans la classe qui correspond thoriquement son ge (situation dun lve nayant jamais redoubl) les deux normes sont souvent redondantes. Par contre, en cas de retard ou davance scolaire, il est pertinent de procder aux deux possibilits de comparaison. Prenons un exemple concret :
Exemple Un lve de 6e g de 13 ans 1 2 , redoublant cette classe et ayant dj redoubl son CE2, obtient un score brut de 17 points la forme E du NNAT.
229
Si on utilise ltalonnage par niveau scolaire, son score brut de 17 le situe dans la classe 5 de ltalonnage normalis en 11 classes (manuel NNAT, tableau 5, p. 71), cest--dire dans la classe centrale. Son score est donc, par rapport aux lves de 6e , un score moyen. Mais si cette fois on tient compte de son ge, partir de son score brut on dtermine sa note dchelle : il obtient une note de 652 (manuel NNAT, tableau 1, p. 55). On convertit ensuite cette note en indice NAI (Index dAptitude Non verbale) pour obtenir un indice NAI de 87 (tableau 2, p. 60), cest--dire presque un cart-type en dessous de la moyenne des lves de son ge. Ce second type de comparaison, par rapport aux enfants de son ge, montre alors un lve plus en difcult que lorsquon le compare aux lves de son niveau de scolarisation. Cest sans doute encore plus visible lorsque lon tient compte de son rang percentile : par rapport aux lves de 6e , il est situ au percentile 47, cest--dire lgrement en dessous de la mdiane des lves de 6e (46 % des lves de 6e ont un score infrieur au sien), par contre par rapport aux enfants de son ge (13 ans 1 2 ) il est situ cette fois au percentile 19, avec ici seulement 18 % des enfants (de son ge) qui obtiennent un rsultat infrieur au sien. La mme illustration pourrait tre ralise, dans un sens diffrent cette fois, avec un lve ayant une ou deux annes davance. Nous voyons bien ici tout lintrt que peut prsenter cette double possibilit de comparaison pour ces deux types dlves.
Pour interprter le score total il est important, selon nous, car aucun conseil ne figure dans ce sens dans le manuel, de prendre en galement en compte la rpartition des types ditems dans chaque forme de test. Comme nous lavons dj indiqu, chaque forme ne comprend pas obligatoirement les quatre clusters, et la rpartition entre les clusters est diffrente selon les formes. La prise en compte de ces combinaisons diffrentes ditems peut permettre de mieux estimer ce qui est valu plus particulirement dans chaque version du NNAT. Ainsi, la version G (niveau Lyce) avec 24 items de type SV, et seulement 7 items SR et 7 items RA, comporte donc une forte majorit ditems qui reposent sur une logique spatiale de rsolution (63 % des items de cette forme G sont des items de type SV), tandis que la version D (niveau CE2/CM1), un peu plus quilibre dans la rpartition des diffrents types ditems (6 items PC, 10 items RA, 8 items SR et 19 items SV) prsente de manire moins affirme cette caractristique (cette version D ne comportant que 50 % de ces items SV). Le praticien aura donc intrt analyser plus prcisment la rpartition des items de la version quil utilise afin de mieux estimer ce qui est valu plus spcifiquement dans le test utilis (la rpartition des items est indique dans le manuel, tableau 2, p. 3).
230
Interprter les sous-scores ? Nous avons dj signal quelques faiblesses psychomtriques dans laffectation de certains items leur sous-score de rattachement. De plus nous ne disposons pas ici dtalonnages prcis. Ces diffrents lments ne peuvent que nous inciter la prudence dans linterprtation de ces sous scores. Nous avons encore ici un bon exemple de lintrt, pour le praticien, de lire attentivement les donnes du manuel afin de mieux cerner les intrts et les limites du test, et donc les limites des scores et sous-scores quil est amen calculer et interprter.
Interprter le score quivalent ge ? Nous avons dj indiqu cette possibilit de rfrence. Mais attention ici, ce score quivalent ge , qui nous semble proche de la notion dge mental, rfrence qui nest actuellement plus utilise, doit tre interprte avec grande prudence et toujours en complment des autres indicateurs talonns. Par exemple, il est bien spcifi dans le manuel que ce type de score ne doit pas tre utilis dans lobjectif de dcision dorientation (manuel, p. 17).
Lanalyse des erreurs ? Dans une perspective dvaluation diagnostique il peut tre intressant de procder une analyse des erreurs. Par exemple, en cas dchec dans un item SR, on peut analyser la (mauvaise) rponse du sujet en recherchant quelles sont la, ou les, rgle(s) de transformation quil na pas prise en compte... Cette possibilit dvaluation diagnostique des (mauvaises) rponses ne figure pas dans le manuel mais il nous semble possible danalyser les erreurs de llve afin, par exemple, de faciliter la liaison entre valuation et remdiation. Cette approche nous semble tre directement en lien avec lun des objectifs affichs de lpreuve qui est didentifier les lves ayant des difficults dapprentissage (manuel, p. 5). Quelques tudes de ce type existent dj, comme nous lavons indiqu, pour les Matrices de Raven, et on pourrait envisager de mener de telles tudes sur le NNAT.
231
Conclusion sur le test NNAT
Le test NNAT prsente des caractristiques intressantes : test collectif, matriel en couleur, attrayant pour les enfants, diversit de formes correspondant plusieurs niveaux de difficult, base cognitive danalyse des items (avec calcul de sous-scores), possibilits de comparaison multiples (talonnages par niveaux scolaires et talonnages par ge), talonnages rcents...Mais nous avons prsent certaines de ses limites, en particulier les limites dinterprtation des sous-scores (ou clusters). Ce test NNAT est tout fait adapt une utilisation dans un cadre scolaire, il est par exemple utilis par certains psychologues de lducation Nationale auprs dlves de 6e en difficult scolaire, afin de reprer ceux qui pourraient ensuite faire lobjet dun examen individuel approfondi. Enfin, comme nous lavons dvelopp, une utilisation dans le cadre dune valuation diagnostique, avec analyse des profils de rponse, et analyse des erreurs, nous semble intressante mener.
3.
Les tests D48, D70 et D2000
Prsentation des tests
Les tests de type dominos sont assez bien connus des psychologues franais. Rappelons que dans ces preuves il sagit de trouver les deux faces dun domino qui vient continuer une srie propose. La figure 4.3 nous prsente un exemple de ce type ditem.
Figure 4.3 Exemple ditem dun test de type dominos (ECPA).
Le sujet doit indiquer les valeurs du domino qui figure en traits pointills et qui complte la srie propose.
232
Nous disposons actuellement de trois versions de ce type dpreuve : les D48, D70 et D2000 (dites par les ECPA). La premire version franaise de ce test date de 1948, do son nom : le D48. Cette preuve est directement inspire de lpreuve anglaise de Anstey de 1943, le test dominoes , expriment la fin de la guerre dans larme britannique. Anstey cherchait laborer un test concurrent aux matrices de Raven, diffuses quelques annes plus tt en 1938, et labore cette preuve qui prsenterait, daprs cet auteur, une saturation en facteur gnral suprieure celle des Progressive Matrices (Manuel D48, p. 4). Le D48, adaptation franaise de lpreuve de Anstey, est un test collectif, de type papier/crayon, qui comporte 44 items, prsents selon un ordre croissant de difficult. Ce test a t trs utilis, en particulier dans le recrutement, ce qui explique, en partie1 , la ncessit de procder des rnovations rgulires. En 1970, une premire rnovation a t ralise avec llaboration de la version D70. Ce test D70 a t directement construit partir du test D48, dans lobjectif dlaborer une forme parallle. Plus rcemment une nouvelle version D2000 a t diffuse. Le test comporte maintenant 40 items, avec un temps de passation rduit 20 minutes, mais il constitue une version trs proche des versions antrieures, avec qui dailleurs il partage un certain nombre ditems. Le D2000 est prsent comme valuant les mmes dimensions que les versions prcdentes, cest--dire lintelligence fluide, et plus prcisment le raisonnement inductif. Quelle que soit la version, D48, D70 ou D2000, il sagit toujours du mme type de tche : le sujet doit trouver la rgle de progression, cest--dire dfinir la (ou les) relation(s) existant(s) entre les faces des diffrents dominos qui constituent une certaine suite logique, puis appliquer cette (ou ces) rgle(s) de progression afin de dterminer les caractristiques du domino manquant. Il sagit bien ici dune tche dduction de relations et dduction de corrlats (ou encore dinduction et de dduction), tche typique des tests de facteur g. Mais par rapport aux autres tests de facteur g existants (comme par exemple les Matrices de Raven), les tests de dominos prsentent la particularit suivante : le sujet doit construire sa rponse et non pas la
1. Une autre cause de ces rnovations rgulires est la ncessit dtablir rgulirement des talonnages rcents (effet Flynn).
233
slectionner parmi plusieurs possibilits (do une probabilit beaucoup plus faible ici de trouver la bonne rponse par hasard). En raison du support utilis, des dominos, ces tests sont souvent considrs comme relevant plus spcifiquement dune logique de rsolution de type numrique. Pourtant, une analyse approfondie des items tend montrer, et nous dtaillerons cet aspect plus loin, que cette considration gnrale ne reflte quimparfaitement ce qui est rellement valu dans ces tests qui comportent, au moins dans certaines versions, une proportion parfois importante ditems reposant sur une autre logique de rsolution, et principalement une logique spatiale (Chartier, 2008a). Dans la suite de ce chapitre nous nous attacherons prsenter les versions les plus rcentes : D70 et D2000.
La version D70 a t labore partir de la version D48 (reprise de certains items et cration de nouveaux items). De la mme manire, la version D2000 a t labore partir de la version D70. Les tudes montrent que les versions D70 et D2000 sont plus difficiles que la version D48. Nous pouvons dj remarquer les dimensions rduites des manuels qui ne comportent quun faible nombre de pages (18 pages pour le manuel du D70, 30 pages pour celui du D2000). Pour le D70, nous trouvons des donnes concernent la fidlit interne, estime par la mthode split-half (corrlation entre les items pairs et les items impairs), avec une corrlation r de .90, ce qui est trs satisfaisant. Au niveau de la validit, le manuel indique les rsultats dune comparaison entre D48 et D70, effectue sur un chantillon de 250 sujets, dans laquelle on observe une corrlation de .79. Cette valeur tmoigne de la proximit des deux preuves qui valuent le facteur g. Pour le D2000, le manuel nous indique que des tudes ont t ralises sur une premire version exprimentale de 60 items, rduite ensuite 44 items, pour aboutir la version dfinitive comportant 40 items. Ces items tant ordonns selon leur degr de difficult. Concernant la sensibilit de lpreuve, on peut observer que le score brut moyen est de 18,57 points correspond un niveau de difficult adapt lchantillon de sujets (taux moyen de russite de 46,4 %). Lcart type de 6,12 points tmoigne dune bonne qualit de la dispersion.
234
Concernant la fidlit de lpreuve, le manuel indique une bonne homognit interne avec un coefficient alpha de Cronbach de .89. Au niveau des items, les coefficients phi (corrlation items/tests) sont tous significatifs et varient de .10 .51 (manuel D2000, tableau 2, p. 23). Lerreur de mesure est estime 2,02 points. Pour ce qui est de la validit, trois recherches contribuent lapprcier : Une comparaison avec le D48, sur un chantillon de 96 sujets, sur lequel on observe une corrlation de .69 ; Une tude comparative avec le R2000 (test de raisonnement et de flexibilit mentale1 ), sur 398 sujets, avec une corrlation de .57. Cette corrlation, plus faible quattendue, entre deux tests mesurant lintelligence fluide est explique par laspect flexibilit du raisonnement qui ne serait prsent que dans le R2000 (manuel D2000, p. 24) ; Une tude avec un test de coping (le CISS), qui conclue labsence de liaison avec cette dimension. tonnamment, on ne dispose pas dtude confrontant les mmes sujets aux versions D70 et D2000.
Les items des tests de dominos
Les items se prsentent souvent en ligne comme lexemple de la figure 4.3 mais dautres formes de prsentation figurent dans les preuves, comme par exemple des dominos disposs en toile . Quel que soit le type de prsentation, la tche reste la mme : identifier les valeurs du domino manquant. On trouve dans le manuel du D2000 la rfrence un article de Dickes et Martin (1998) dans lequel les auteurs distinguent quatre types ditems partir de lanalyse des items impairs du D70 :
Les items spatiaux : ils ncessitent une stratgie de rsolution spatiale.
Dans ce cas, le sujet peut sappuyer sur leur symtrie, rptition, inversion etc. pour trouver la bonne rponse (Dickes et Martin, 1998, p. 35) ;
Les items numriques : il sagit ici dappliquer des rgles dincrmentation
entre les faces des dominos pour trouver la bonne rponse (par exemple : ajouter 2 sur une face, retrancher 1 sur lautre face...)
1. Le test R2000 fait lobjet dune prsentation un peu plus loin.
235
Lincrmentation peut se faire sur des faces contigus ou en alternance. (Dickes et Martin, 1998, p. 35) ;
Les items mixtes : dans ce cas la rsolution dune des faces est effectue
par une rgle spatiale tandis que lautre face ncessite lapplication dune rgle numrique ; Les items arithmtiques : la solution est trouve ici par lapplication dune rgle arithmtique simple (de type a + b = c) entre les faces de trois dominos. Les auteurs de cet article nous proposent alors une catgorisation des 22 items impairs de lpreuve D70 et observent, dune part, une forte proportion ditems spatiaux (ils reprsentent 8 items, soit 36 % des 22 items analyss) et, dautre part, des diffrences dans le niveau moyen de difficult : les items spatiaux tant les plus faciles, les arithmtiques les plus difficiles. Enfin, les mmes auteurs indiquent que cette caractristique du D70, avec le caractre composite du score total1 , contribue la validit du D70 comme test de facteur g. Dans le manuel du D70 il est bien spcifi que les items de ce test, directement inspirs des items du D48, peuvent se diffrencier sur leur logique de rsolution mais ces logiques ne sont pas mentionnes. Dans le manuel du D2000 il est indiqu quune catgorisation des items a t effectue lors de llaboration de lpreuve, avec dans la version provisoire de 44 items la rpartition suivante : 21 items numriques, 9 items spatiaux, 8 de type mixte et 6 numriques2 (manuel D2000, p. 7). Mais aucun dtail supplmentaire nest donn pour la version dfinitive comportant 40 items... (voir plus loin nos propositions de catgorisation des items du D2000).
La standardisation
La passation Les rgles de standardisation sont comparables pour les deux versions : il sagit de tests collectifs de type papier/crayon (cahiers de passation et feuilles de rponse).
1. Qui ne semble pas, pour les auteurs, remettre en cause lunidimensionnalit de la mesure. 2. Il semble quil y ait une erreur dans le manuel qui indique deux reprises des items numriques... Nous supposons quil sagit ici de 6 items arithmtiques (voir manuel D2000, p. 7).
236
La passation en temps limit : 25 minutes pour le D70 (44 items), 20 minutes pour le D2000 (40 items).
La cotation La cotation est simple et rapide : on accorde 1 point par bonne rponse. Il faut signaler que la bonne rponse correspond aux deux faces correctes et quil ny a pas de points, ou de 1 point, si lune seulement des faces est 2 correcte. Les scores bruts possibles peuvent donc varier de 0 44 points pour le D70, et de 0 40 pour le D2000.
Les talonnages Les talonnages disponibles dans les manuels nous renseignent sur le niveau des sujets pour lesquels il est possible dutiliser ces tests. Quelle que soit la version, on dispose dun nombre trs limit dtalonnages. Pour le D70, un seul talonnage figure dans le manuel (page 17) : un talonnage normalis en 11 classes valable pour la population adulte partir de 18 ans et de niveau culturel BEPC (manuel D70, p. 16). Celui-ci a t tabli dans les annes 1970, auprs dun chantillon de 623 adultes, gs de 18 45 ans. Les valeurs caractristiques (moyennes et carts type) sont indiques pour diffrents niveaux scolaires (du BEPC suprieur au Bac). Du fait de lanciennet de cet talonnage, il nous semble peu prudent dutiliser cet talonnage (en particulier en raison de leffet Flynn : voir chapitre 1 de ce livre). Pour la version D2000 lchantillon dtalonnage regroupe 682 sujets, gs de 18 ans plus de 55 ans. Il doit dater des annes 1999, mais aucune date nest indique. On peut remarquer quil prsente un dsquilibre au niveau du sexe (avec seulement 40 % dhommes), au niveau de lge (avec 53 % de sujets gs de 18 24 ans), au niveau du diplme (avec par exemple 29,2 % de niveau dtude Bac +3 Bac + 5) ainsi quau niveau de la profession exerce. Ces lments seront prendre en considration dans la phase dinterprtation des rsultats.
237
Au final, le manuel du D2000 comporte deux talonnages en 11 classes (on suppose quil sagit de 11 classes normalises mais aucune information ce sujet ne figure dans le manuel) :
Un talonnage gnral, sur les 682 sujets de lchantillon ; Un talonnage rduit, sur 398 sujets gs de 18 24 ans, postulants
un concours dentre une cole de formation paramdicale (niveau Baccalaurat). Cet chantillon comporte 75,1 % de sujets de niveau Bac, et 24,8 % de sujets de niveau suprieur (voir le dtail de cet chantillon en page 24 du manuel D2000).
Attention ! Les auteurs du manuel conseillent dutiliser cet talonnage uniquement dans les situations enjeux comparables (situation de concours...). En effet, pour cet chantillon (N = 398), ils observent un niveau moyen de russite plus lev que sur le reste de lchantillon dtalonnage (N = 682). Du fait de labsence de diffrence de russite entre les hommes et les femmes de lchantillon, il na pas t ncessaire dtablir dtalonnages spars par sexe. On peut regretter ici labsence dun talonnage plus reprsentatif de lensemble de la population franaise et/ou dtalonnages spcifiques par ge, niveau dtudes et professions.
Linterprtation des scores
Aucune tude de cas ne figure dans les manuels. Dans les tests de type dominos, lindicateur de la performance du sujet est un score unique, comme, classiquement, dans tous les autres tests de facteur g1 . Aprs avoir, ventuellement, calcul lintervalle de confiance (voir manuel D2000, p. 22), le praticien va situer les performances du sujet dans
1. Except pour le test NNAT qui propose, comme nous lavons dj indiqu, le calcul de quatre sous-scores.
238
ltalonnage le plus appropri. Nous disposons ici dun nombre limit dtalonnages, prsents sous la forme dtalonnages normaliss en 11 classes. partir de la classe talonne dans laquelle se situe le sujet, il conviendra alors destimer plus prcisment la position du sujet dans cet talonnage. On ne peut que regretter labsence, sur les talonnages des D70 et D2000, des distributions thoriques qui permettraient au praticien deffectuer ces estimations. Celui-ci peut utiliser les rpartitions thoriques que nous avons prsentes dans le chapitre 2 (voir tableau 2.3). Par exemple, si le sujet se situe dans la classe 8, ce score signifie quenviron 72,5 % des sujets obtiennent un score infrieur au sien, que 11,5 % environ des sujets obtiennent un score comparable, et que seulement 16 % environ des sujets obtiennent un score suprieur. De plus, lhtrognit de la composition des talonnages ne facilite pas une comparaison prcise des rsultats du sujet.
Propositions pour une analyse du profil de rponse
Si le praticien souhaite effectuer une analyse plus fine des rponses du sujet, il peut analyser le patron de rponse (pattern) du sujet. Cette approche peut permettre, au psychologue comme au sujet, daller au-del de la simple interprtation du score global, de rechercher la comprhension de la performance ralise par la prise en compte des items russis et des items chous. Elle fournit galement des informations supplmentaires permettant denrichir la restitution des rsultats, de faciliter la comprhension et lintgration des rsultats par le sujet. Pour procder cette analyse, nous pouvons nous rfrer aux premires recherches de Dickes et Martin (1998) concernant la mise en vidence de quatre types ditems dans ce type dpreuve (voir plus haut la prsentation synthtique des principaux rsultats de cet article). Mais rappelons ici que les donnes ne concernaient que la moiti des items de la version D70. Afin de complter ces premiers travaux nous avons ralis une analyse plus large portant cette fois sur lensemble du test D70 (les 44 items) ainsi que sur la version D2000. Lapproche que nous proposons ici a fait lobjet de plusieurs communications (voir en particulier Chartier, 2002b) et dun article de
239
synthse (Chartier, 2008a). Cette dmarche danalyse peut tre qualifie de diagnostique au sens de Bernier et Pietrulewicz (1997, p. 2241 ). Notre approche vise donc, partir dune analyse cognitive des items, proposer le calcul de sous-scores, dmarche danalyse analogue celle prsente pour le test NNAT (voir la prsentation de ce test). Il sagira ensuite de reprer le type ditems (sous-scores ou cluster ) pour lesquels le sujet montre, par rapport aux autres sujets comparables, un bon niveau de russite, ou au contraire, un faible niveau. Cette approche permet alors de reprer les points forts et les points faibles de chaque sujet dans les diffrentes situations prsentes dans le test. La premire tape de cette dmarche consiste effectuer une typologie des items. Pour raliser cette analyse nous avons repris les rgles gnrales de dfinition de chaque catgorie ditems proposes par Dickes et Martin. Nous avons ainsi catgoris tous les items de ces deux versions. Ce sont ces analyses que nous allons maintenant prsenter. La seconde tape, qui reste en partie raliser, consisterait vrifier la validit de ces clusters et laborer des talonnages pour chaque sous-score de manire pouvoir situer le niveau de performance du sujet sur ces indicateurs.
Lanalyse des items de la version D70 Cette analyse approfondie des 44 items du D70, nous permet de prolonger, et de confirmer, les analyses de Dickes et Martin : les items du D70 peuvent se diffrencier sur leur logique de rsolution. Effectivement, partir de la typologie propose par ces auteurs, nous retrouvons bien quatre catgories ditems : items spatiaux, numriques, arithmtiques et mixtes. La catgorisation que nous proposons des 44 items du D70 figure dans le tableau 4.5. Nous retrouvons ici globalement les constats de ltude de Dickes et Martin : le test D70 comporte une majorit ditems spatiaux, qui reprsentent plus de 45 % des items de lpreuve, une proportion beaucoup plus faible ditems numriques (27,3 %) et ditems mixtes (20,3 %), et un trs faible nombre ditems arithmtiques (3 sur 44, soit moins de 7 %). Lpreuve D70 est donc assez dsquilibre au niveau de la rpartition des diffrents types ditems et elle prsente davantage ditems relevant dune logique spatiale que ditems relevant des autres logiques de rsolution, ce
1. Voir dans les pages prcdentes, concernant le NNAT, leur dfinition des tests diagnostiques.
240
Tableau 4.5 Proposition de catgorisation des 44 items du test D70.

Type ditem Spatial Numrique Arithmtique Mixte Total Nombre ditems 20 12 3 9 44 Pourcentage ditem 45,5 % 27,3 % 6,7 % 20,5 % 100 % Numro des items 1-2-3-4-6-8-11-12-13-14-15-16-17-1819-23-31-32-41-44. 5-7-10-21-22-29-34-35-36-39-40-42. 37-38-43. 9-20-24-25-26-27-28-30-33.
qui va sans doute lencontre des reprsentations concernant ce test (pour nombre de psychologues le test D70 reposerait essentiellement sur une logique numrique...). Concernant le niveau de difficult des types ditems nous retrouvons ici le second constat relev dans larticle de Dickes et Martin : nous observons en effet, sur un chantillon de 382 adolescents (scolariss en classe de 3e de collge ou de 2e de Lyce) une difficult plus faible (en moyenne) pour les items spatiaux et les items mixtes, et une difficult plus leve (toujours en moyenne) pour les items numriques et pour les items arithmtiques1 .
Analyse des items de la version D2000 Lanalyse que nous venons de prsenter concernait les items du test D70 mais la mme dmarche peut sappliquer toute preuve de domino. Nous avons donc poursuivi notre analyse mais cette fois partir de la version la plus rcente de ce test : le D2000. Nous prsenterons ici uniquement les rsultats de lanalyse des items car nous ne disposons pas encore de donnes de passation. Dans cette version D2000 les auteurs du manuel citent larticle de Dickes et Martin, nous indiquent bien quune catgorisation des items a t effectue lors de llaboration de lpreuve mais ils ne donnent pas le dtail de cette catgorisation. En labsence de ces informations nous avons donc ralis une analyse des items du D2000 partir des mmes rgles de catgorisation
1. Les constats sur les items arithmtiques mritent dtre nuancs car, dune part, ils sont situs en fin dpreuves et tous les sujets ne les ont pas abords (du fait de la limite de temps), dautre part, le sous-score arithmtique repose que sur un faible nombre ditems (3).
241
que nous avions utilises dans notre analyse du D70. Les rsultats de cette analyse figurent dans le tableau 4.6.
Tableau 4.6 Proposition de catgorisation des 40 items du test D2000 (Chartier, 2008a).
Type ditem Spatial Numrique Arithmtique Mixte Total Nombre ditems 9 21 5 5 40 Pourcentage 22,5 % 52,5 % 12,5 % 12,5 % 100 % Numro des items 2-9-10-12-14-30-32-35-40 1-3-4-5-7-8-13-16-17-19-21-22-23-2425-26-27-28-29-31-34 8-33-37-38-39 6-11-15-20-36
Le constat global est le suivant : la majorit des items de cette version D2000 relvent dune logique numrique (21 soit 52,5 % des items de lpreuve), une plus faible proportion relve dune logique spatiale (9 items, soit 22,5 %), et une proportion encore plus faible (12,5 %) pour les deux autres logiques de rsolution.
Conclusion sur lanalyse des items du D70 et du D2000 Nos rsultats confirment donc les premires analyses de Dickes et Martin concernant lexistence de diffrentes logiques de rsolution dans les tests de type domino : nous avons ainsi distingu des items spatiaux, numriques, arithmtiques et mixtes. Les tests domino ne reposent donc pas exclusivement, comme le pense sans doute souvent un certain nombre de praticiens (et de chercheurs), sur un seul type de logique. Lobservation dune pluralit de logique de rsolution au sein dun test de facteur g nest dailleurs pas rare, rappelons par exemple les nombreuses analyses sur les Matrices de Raven depuis celles de Hunt dans les annes 1970 (Hunt, 1974), jusquaux analyses plus rcentes, comme par exemple celles de Carpenter, Just et Shell (1990) ou de De Shon et al. (1995). Cest dailleurs sans doute en raison dune pluralit de logiques de rsolution que ces tests de dominos semblent tre de bons reprsentants du facteur g, comme lavaient dj soulign Dickes et Martin (1998). Lanalyse des items des versions D70 et D2000 que nous avons ralise nous conduit proposer les commentaires suivants :
242
La composition de la version D2000 est sensiblement diffrente de celle
de la version D70 : si le test D70 repose surtout sur des items ncessitant des rgles spatiales de rsolution, la version D2000 repose plutt sur des items qui ncessitent des rgles numriques. Bien que lon considre ces deux versions comme proches, cette diffrence mrite notre attention ; Pourquoi ne pas avoir profit de cette rnovation du test des dominos pour quilibrer les diffrentes catgories ditems ? Ce qui aurait ventuellement permis le calcul de quatre sous scores reposant chacun sur un nombre suffisant ditems ; On peut sinterroger sur la pertinence de placer la majorit des items Arithmtiques en fin dpreuve du D2000 (les items 37, 38 et 39 soit 3 items sur 5) ce qui a comme consquence de limiter grandement le nombre de sujets qui auront loccasion daborder ces items, par manque de temps.
Recommandation Ces deux sries dobservation, dune part la diversit des logiques de rsolution des items, dautre part, le dsquilibre dans leur rpartition selon les versions des tests (D70 et D2000), peuvent tre des informations utiles au praticien. En effet, elles lui permettent de mieux connatre ce qui est principalement valu par chaque version du test et concourent alors amliorer les donnes concernant la validit de ces tests. Elles permettent galement didentifier les diffrentes logiques de rsolution qui doivent tre appliques par le sujet tout au long de lpreuve et contribuent ainsi lidentification des difficults rencontres par un sujet dans un item particulier, ou dans une catgorie ditems. Plus globalement, la dmarche danalyse des rponses que nous proposons ici permet galement au praticien denrichir la phase de restitution des rsultats qui reste centre trop souvent, sur ce type de test, autour de linterprtation du seul score total. En effet, et ceci est valable plus gnralement dans tout test de facteur g, il est souvent difficile de dpasser le constat du seul score total car on sait que ce type dindicateur donne peu dinformation sur les conditions de ralisation de la performance (Huteau et Lautrey, 1999a ; Huteau, 2001 ; Lautrey, 2001). Cette dmarche danalyse que nous proposons ici, qui se place plus globalement dans le cadre dune
243
valuation diagnostique, permet de fournir quelques pistes explicatives concernant la performance du sujet dans lpreuve. Pistes quil est possible ensuite de dvelopper avec le sujet, par exemple, lors dun entretien de restitution. Cette approche diagnostique rejoint galement les proccupations actuelles de chercheurs qui visent combiner une valuation quantitative une valuation qualitative dans une approche intgrative de lintelligence (Rozencwajg, 2005). Enfin, nous pouvons signaler une autre direction de recherche sappuyant sur des tests de type dominos. Il sagit ici de procdures exprimentales, dveloppes par Rmy (2001) et Rmy et Gilles (1999) visant mettre en vidence des diffrences interindividuelles dans les stratgies de rsolution ditems de type dominos. Dans leur preuve exprimentale les auteurs ont labor des items pouvant tre rsolus soit par une stratgie spatiale, soit par une stratgie numrique. Et selon la stratgie employe (numrique ou spatiale), la bonne rponse est diffrente1 . Ainsi, en analysant la rponse donne par le sujet un item, condition bien entendu quil sagisse dune des deux bonnes rponses prvues, on peut en infrer directement la stratgie utilise par le sujet. Ce dispositif permet alors de reprer la stratgie prfrentielle du sujet mais galement son niveau de flexibilit (utilisation des deux stratgies en fonction des caractristiques des items). Mais ces recherches ne semblent pas avoir t finalises par llaboration dune preuve dite et/ou utilisable par un praticien.
Conclusion sur les tests de dominos
Les versions D70 et D2000 que nous venons de prsenter sont considres comme des tests mesurant le facteur g. Pourtant, sans remettre en question cette considration, les donnes dtudes disponibles dans les manuels nous semblent insuffisants. Il manque, par exemple, une tude de validit portant sur les liaisons entre le D2000 et un autre test de facteur g (la faiblesse de la seule tude prsente dans le manuel2 est dailleurs souligne par les auteurs : voir page 24 du manuel D2000).
1. Il y a donc ici 2 bonnes rponses par item. 2. Rappelons que cette tude porte sur le test R2000, avec une corrlation observe entre les deux preuves de .57.
244
De plus, et nous lavons dj indiqu, les talonnages disponibles sont en nombre trop limit : il serait ncessaire de disposer dtalonnages par ge et/ou par niveau scolaire et/ou par profession. Il reste que ces preuves prsentent les avantages des autres preuves de type facteur g (rapidit de la passation et de la correction) avec ici un avantage particulier : il est demand au sujet de crer sa propre rponse, alors que dans les tests comparables il doit uniquement, le plus souvent, slectionner lune des possibilits de rponse (preuve de type QCM). Cette particularit des tests de dominos permet ainsi de rduire grandement le risque de donner une bonne rponse par hasard . Nous avons illustr que ce type de test pourrait permettre une analyse plus fine des rponses des sujets. Pourquoi ne pas avoir profit de cette rnovation pour proposer au psychologue les outils (catgorisation de chaque item, procdure de calcul des sous-scores, talonnages spcifiques...) permettant deffectuer une telle analyse ? Une application trs concrte des rsultats de recherches tait donc possible ici et, sans remettre en cause lintrt du D2000, on ne peut que regretter le caractre trop classique de cette rnovation. Nous avons prsent nos propositions de catgorisation des items du D70 et du D2000, avec les premiers lments dun cadre dvaluation diagnostique des rponses des sujets dans ce type dpreuve.
4.
Le test R85/R2000
Le test R2000 (test de Raisonnement, version 2000), dit en 2000 aux ECPA, est directement issu du test R85 (de 1985) et du test de raisonnement de Pierre Rennes de 1952. Cest une preuve prsente comme tant une mesure de lintelligence fluide, utilisable chez des sujets de niveaux dtudes suprieures. La particularit de cette preuve est quelle repose sur un matriel assez vari (verbal, numrique et mixte) et value alors galement la flexibilit du raisonnement, dfinie ici comme la capacit de passer dun type de raisonnement un autre (manuel R2000, page 1). Les tches proposes sont donc assez diverses, tant au niveau des supports, quau niveau de la tche relle quil sagit souvent de dcouvrir. Il peut sagir,
245
par exemple, de continuer une suite logique de chiffres, ou de lettres, ou encore de reprer un intrus... Les exemples suivants permettent de se faire une ide de la diversit des items :
36 12 24 4 ? Il sagit ici de trouver le chiffre qui vient remplacer le point dinterrogation. chapeau soulier robe miroir gant Il sagit ici de comprendre quil faut reprer (souligner) lintrus. Nous nous centrerons ici sur la prsentation de la version la plus rcente de ces preuves : le R2000. Cette version comporte 40 items rsoudre en temps limit (20 minutes).
Pour laborer la forme R2000 les auteurs sont partis de la forme R85 (qui comporte 40 items) et ont labor 80 nouveaux items. Ces 120 items ont t tests ( partir de 2 versions parallles) et 40 items ont t slectionns pour la version dfinitive du R2000 : 15 items verbaux, 10 items mixtes et 15 items numriques. Cette version dfinitive a t exprimente sur un chantillon de 625 sujets adultes, de niveau minimum Bac, en situation professionnelle dvaluation (recrutement, bilan, gestion de carrire...).
La sensibilit de lpreuve Avec un score brut moyen de 15,12 points, soit un taux moyen de russite de 37,8 %, nous pouvons constater la difficult de lpreuve. Cette difficult est progressive avec 92,8 % de russite sur litem 1 et 9,8 % sur le dernier item (voir table 3, p. 23 du manuel). La version R2000 est plus difficile que la version R85. Lcart type de 6,56 points tmoigne dun bon niveau de dispersion.
La fidlit Lhomognit interne est value par le calcul de lalpha de Cronbach : la valeur observe de .89 est satisfaisante.
246
Les corrlations items tests phi sont toutes significatives au seuil de .01, et varient de .06 .47. Lerreur-type de mesure est estime 2,13 points.
La validit Concernant la validit, le manuel fait tat des rsultats de trois recherches :
Une comparaison avec le R85, sur un chantillon de 62 sujets, sur lequel
on observe une corrlation de .67. Le manuel indique un degr de liaison important entre ces deux preuves (manuel R2000, p. 26) mais nous pourrions nous attendre observer une valeur suprieure ; Une tude comparative avec le D20001 , portant sur 398 sujets, avec une corrlation de .57 (il sagit visiblement de la mme tude que celle qui a t prsente dans le manuel du D2000). La valeur de cette corrlation entre deux tests mesurant lintelligence fluide, visiblement un peu faible selon les auteurs du manuel, est explique, dune part, par laspect flexibilit du raisonnement qui ne serait prsent que dans le R2000, dautre part, par la diffrence de supports (manuel R2000, p. 25) ; Une tude avec un test de coping (le CISS), qui conclue labsence de liaison avec cette dimension.
La standardisation
La passation Le R2000 est un test de type papier/crayon, dans lequel le sujet rpond directement sur le cahier de passation (1 feuille A4, pli en A5). Aprs les 6 exemples, la passation des 40 items de lpreuve se droule en temps limit (20 minutes).
La cotation La correction est rapide et seffectue laide dune grille. On accorde 1 point par bonne rponse. Le score brut peut donc varier de 0 40 points.
1. Le test D2000 a t prsent plus haut.
247
Les talonnages Lchantillon dtalonnage comporte 625 sujets adultes, gs de 18 54 ans. Cet talonnage doit dater des annes 1999 mais aucune date nest indique. Lchantillon comporte des dsquilibres par rapport au sexe, avec une majorit de femme (elles reprsentent prs de 72 % de lchantillon), par rapport lge, avec une majorit de sujets dans la classe 18-24 ans, ainsi que par rapport au niveau scolaire. Mais seule la diffrence entre les sexes est significative, avec des rsultats en faveur des hommes. Pour cette raison les auteurs proposent un talonnage spar par sexe. Au total quatre talonnages figurent dans le manuel. Il sagit dtalonnages en 11 classes, quon suppose tre des talonnages normaliss (mais aucune indication ce sujet ne figure dans le manuel) : un talonnage global, sur les 625 sujets de lchantillon ; un talonnage hommes (sur 175 sujets) ; un talonnage femmes (sur 448 sujets) ; un talonnage rduit, sur 398 sujets, candidats un concours.
On peut raisonnablement supposer que cet chantillon de 398 sujets est identique au sous-chantillon de 398 sujets cits dans le manuel du D2000. Mais alors que dans le D2000 il est question de 398 jeunes inscrits un concours dentre dans une cole des formations paramdicales (manuel D2000, p. 24) il est ici question de jeunes filles inscrites un concours (manuel R2000, p. 25). Comme pour le test D2000, les rsultats moyens observs sur cet chantillon sont suprieurs ceux de lchantillon total, ce qui peut sans doute sexpliquer par la nature de la situation (concours). Les auteurs du manuel proposent galement de rserver lutilisation de cet talonnage pour des femmes, jeunes, de niveau dtude Bac et dans des situations enjeux (concours, recrutement...) (manuel R2000, p. 26). Comme pour le test D2000, on ne peut que regretter labsence dun talonnage plus reprsentatif de lensemble de la population franaise et/ou dtalonnages spcifiques par ges, niveau dtudes et professions.
Linterprtation des scores
Aucune tude de cas ne figure dans le manuel (qui ne comporte que 31 pages). Linterprtation des scores suivra ici la mme dmarche que celle propose pour le D2000 : il sagira de situer prcisment le niveau de performance du
248
sujet dans ltalonnage le plus appropri (nous ne reprenons pas ici lexpos de cette dmarche et renvoyons le lecteur vers la partie interprtation du D2000). Dans linterprtation de ce score il faudra bien entendu prendre en compte les spcificits de lchantillon dtalonnage, qui sert de rfrence.
Conclusion sur le test R2000
Ce test R2000 est un test qui semble difficile et quil faut rserver aux sujets de niveau dtude minimum Bac/Bac +2. Du fait de son niveau de difficult, et du support vari, il peut susciter un niveau lev de stress lors de la passation. Stress quil faudra ventuellement prendre en compte, par exemple en questionnant le sujet dans la phase de restitution des rsultats. Ce test prsente cependant lavantage de discriminer les sujets de haut niveau de qualification (par exemple des ingnieurs). Il est rapide et facile corriger. Il mriterait cependant dtre accompagn dtalonnages spcifiques par niveau dtudes et/ou professions.
5.
Quelques autres tests de facteur g

Comme nous lavons dj indiqu, il nest pas possible dans cet ouvrage de faire figurer une analyse dtaille de chaque test disponible en France. Nous ne donnerons donc ici que quelques informations sur trois autres tests de mme type : le test de Culture Fair de Cattell, le BLS4, le B53, le RCC.
Le test Culture Fair de Cattell
Le Culture Fair Intelligence test de Cattell, labor en 1940, est une des tentatives de mesure de lintelligence fluide, indpendante de la culture (culture free ) ou encore culturellement quitable (culture fair). Lune des
249
spcificits de cette preuve est de prsenter quatre formats ditems afin, justement, dviter de dsavantager certains sujets par la prsentation dun seul type ditem : des complments de sries, des classifications, une preuve de matrice, une preuve spatiale.
Une version de 1986 est dite par les ECPA mais, selon Grgoire, certaines qualits psychomtriques semblent un peu faibles (Grgoire, 2004, p. 236).
Le BLS 4
Il sagit dun test assez ancien de Bonnardel, labor dans les annes 1950 et qui a t rnov en 2000 et diffus par les EAP. Bonnardel prsente son preuve comme une preuve de facteur g et de potentiel intellectuel (Thibaut, 2000). Dans cette preuve le sujet doit continuer une srie propose.
MODLES RPONSES 3 4
Figure 4.4 Exemple ditem de BLS 4.
Exemple Dans cet exemple, le sujet doit slectionner la rponse (parmi 6 possibilits) qui vient continuer le modle . Le BLS4 comporte 30 items de ce type.
On peut signaler ici deux spcificits de cette preuve :

Il en existe deux versions : lune sous la forme de questions fermes
(rponse slectionner, comme lexemple de la figure 4.4), lautre sous la forme de questions ouvertes (rponses construire). Chaque version possde ses propres talonnages ;
250
Le manuel propose une analyse des erreurs qui permet au praticien
dapprofondir les rponses du sujet. Cette preuve est adapte des sujets de niveau Bac et post-bac. Avec un temps de passation de 10 minutes cette preuve est assez courte. Ce test est utilisable en procdure dorientation et en recrutement (Thibaut, 2000).
Le test B53
Cette preuve, galement de Bonnardel, a t rnove en 2000 (et diffus galement par les EAP) Il sagit galement ici dune tche typique de test de facteur g bas sur la dcouverte de lois de progression entre diffrents lments.
3
1 2 3 4 5 6
Figure 4.5 Exemple ditem du B53.
Exemple Le sujet doit indiquer ici quelle est la gure de droite, parmi les six possibilits, qui doit continuer la srie propose. Le B53 comporte 65 items de ce type (dont les 5 exemples), de diffrents niveaux de difcult. Le temps de passation est limit (15 minutes). La feuille de rponse, auto-corrective, permet une correction trs rapide.
Ce test est utilisable auprs dun public vari : du niveau BEP au niveau Bac + 2 : 10 talonnages sont disponibles Enfin, on peut signaler que le manuel est commun aux deux tests BLS4 et B53.
Le test RCC1
Il sagit dune preuve de raisonnement sur support de cartes jouer. Une suite de cartes est prsente au sujet qui doit dterminer les caractristiques
1. Raisonnement sur Cartes de Chartier (Chartier, 2008b).
251
de la carte qui vient continuer (ou complter) cette srie. La version exprimentale de cette preuve est en phase ddition (chez Eurotests). Elle permet de recueillir plusieurs indicateurs (Chartier, 2008b) :
un score total ; deux sous scores : numrique et spatial (en fonction des logiques de
raisonnement identifies) ;
une analyse des erreurs.
CHAPITRE 5
Les batteries factorielles
Sommaire
L L L
1. La batterie NV7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. La batterie NV5-R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. La batterie DAT 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 255 Page 271 Page 283
255
issues des propositions de Thurstone concernant lexistence daptitudes diffrencies (voir chapitre 1). Elles prennent souvent le nom de batteries factorielles car chaque batterie est constitue dun ensemble de tests. Lune des principales caractristiques de ce type dpreuve est quelles offrent la possibilit dtablir un profil des rsultats du sujet en fonction des aptitudes values. Il sagit l dune diffrence importante avec les tests de facteur g qui ne fournissent gnralement quun score unique. Les batteries factorielles sont le plus souvent des preuves collectives, de type papier-crayon. Chaque preuve dune batterie vise valuer une aptitude dfinie et fait lobjet de consignes et dtalonnages spcifiques. Ainsi, en fonction de ses objectifs, le psychologue peut choisir de faire passer la batterie de tests en totalit ou de slectionner certaines preuves, ce qui permet une certaine souplesse dutilisation. Nous prsenterons dans ce chapitre les principales batteries utilises en France : les batteries NV5, NV7 ainsi que la DAT5. Chaque preuve possde ses spcificits, comme par exemple le nombre daptitudes values ou les talonnages disponibles. Par exemple, la DAT5 et la NV7 se distinguent sur le nombre daptitudes prises en compte (8 pour la DAT5 et 10 la NV7) mais galement sur le public vis, la NV7 tant labore pour des jeunes adultes de faible niveau de qualification, alors que la DAT5 est talonne sur des publics scolaires de niveau fin de collge et de Lyce ainsi que sur des adultes.
ES preuves que nous allons maintenant prsenter sont directement
1.
La batterie NV7
La batterie NV7 est une cration franaise (Bernaud, Priou, Simonet) dite en 1993 aux EAP. Lobjectif des auteurs tait de crer une batterie multifactorielle dvaluation des aptitudes destine un public faiblement qualifi. Pour laborer cette preuve, les auteurs ont slectionn un certain nombre de tests, diffuss antrieurement, pour les runir sous forme dune batterie. La NV7 a t dite en 1993 mais elle regroupe en ralit des tests beaucoup plus anciens,
256
dont certains, nous le verrons plus loin, prsentent des caractristiques historiquement marques (utilisation dimages en noir et banc, style de graphisme des images des items...). Les consignes et les contenus des items sont adapts un public de faible niveau scolaire, sans qualification, ou avec un niveau infrieur au Bac professionnel (voir les talonnages disponibles). Cest une preuve trs utilise actuellement dans les pratiques de bilan de comptences auprs de publics peu qualifis, mais galement dans des valuations de type retour lemploi auprs de sujets qui possdaient un niveau de qualification suprieur mais qui, suite diverses circonstances (accidents, arrt prolong de lactivit professionnelle...) sinterrogent sur leur niveau actuel de performance. Les auteurs ont par la suite labor une version plus difficile, la NV5-R, adapte des sujets de niveau suprieur (niveau Bac et plus) que nous prsentons plus loin. La batterie NV7 comprend dix preuves (ou subtests) : 1. Raisonnement dductif (R1), 2. Raisonnement inductif (R2), 3. Raisonnement analogique (R3), 4. Raisonnement pratique-technique (R4), 5. Spatial, 6. Problmes, 7. Oprations, 8. Attention, 9. Orthographe, 10. Comprhension verbale. Certaines de ces preuves sont proches des aptitudes mentales primaires de Thurstone (exemple : les preuves de raisonnement et daptitude spatiale) tandis que dautres renvoient des apprentissages scolaires (exemple : Orthographe). La passation complte de la batterie ncessite environ 1 heure 45 minutes. Dtaillons maintenant chacun de ces tests.
preuve de Raisonnement dductif (R1) Elle value la capacit raisonner du gnral au particulier et comporte 24 items (dont 2 items dexemple) rsoudre en 8 minutes. Les items prennent la forme de quatre images ordonnes. Le sujet doit indiquer si
257
la suite chronologique est respecte (rponse exacte ) ou non (rponse inexacte ).

1 3 4 2
1
A = exact B = inexact
Figure 5.1 Exemple ditem du subtest Raisonnement dductif (R1).
Deux remarques sur cette preuve :

Les items qui la composent ont une apparence aujourdhui vieillotte
(type de graphisme, images en noir et blanc) ce qui peut avoir un effet sur la motivation du sujet, dautant plus quil sagit de la premire preuve de la batterie ; Le mode de rponse propos, choix entre la rponse A et la rponse B, a comme inconvnient majeur de laisser une probabilit importante de trouver la bonne rponse par le fait du hasard (50 %). Cela aurait pu tre vit en demandant au sujet de produire lui-mme le classement des images.
preuve de Raisonnement inductif (R2) linverse de lpreuve prcdente, il sagit ici de raisonner du particulier au gnral. Lpreuve comporte 29 items (dont 2 items dexemple) rsoudre en 8 minutes. Il sagit de suites numriques dans lesquelles le sujet doit indiquer les deux nombres1 qui viennent complter une srie propose. Exemple ditem : 2-4-6-8-10-12- ?- ?-
preuve de Raisonnement analogique (R3) Cette preuve prsente des situations assez proches des items des matrices de Raven et des tests de facteur g. Il sagit de trouver les lois de transformation
1. Plus prcisment il sagit de slectionner la bonne rponse parmi 4 rponses possibles.
258
entre des lments afin de slectionner (parmi 5 possibilits) la configuration qui doit complter la srie propose.
A 1 3 2 B C D E
Figure 5.2 Exemple ditem de Raisonnement analogique.
Lpreuve comporte 36 items de ce type (dont 1 item exemple) rsoudre en 10 minutes.
preuve de Raisonnement pratique-technique (R4) Les items reprennent ici des situations pratiques ou techniques : estimation de phnomnes physiques ou mcaniques (suite dengrenages, par exemple). Exemple ditem : indiquer limage qui reprsente le clou qui senfoncera le plus facilement.
A B C D
Figure 5.3 Exemple ditem de Raisonnement pratique-technique.
Le sujet doit rsoudre 26 items (dont 1 item dexemple) en 10 minutes. Ces situations sont intressantes mais le style de graphisme qui date des annes 1970 nest cependant gure attrayant.
preuve daptitude Spatiale Elle vise valuer les capacits de visualisation spatiale et plus prcisment les capacits du sujet se reprsenter une configuration en trois dimensions partir dun plan en deux dimensions.
259
Figure 5.4 Exemple ditem de lchelle Spatiale.
Lpreuve comporte 42 items (dont 2 items dexemple) rsoudre en 10 minutes.
preuve de Problmes Dans laquelle le sujet doit rsoudre de courts problmes arithmtiques, prsents par un nonc de quelques phrases. Alors que les quatre oprations mathmatiques lmentaires sont values plus prcisment dans une autre preuve (Oprations) on cherche ici rendre compte de la capacit du sujet appliquer des notions mathmatiques dans des situations-problmes. Comme dans lexemple suivant, le sujet doit slectionner sa rponse parmi 5 possibilits. Exemple (fictif) ditem :
Exemple Une corde de 39 m est coupe en trois parties gales. Quelle est la longueur de chaque partie ? 1) A : 14 m 2) B : 12 m 3) C : 13 m 4) D : 23 m 5) E : 10 m
Ce subtest comporte 16 items rsoudre en 6 minutes. On remarquera ici que lorsque le problme comporte un prix, celui-ci est encore exprim en francs, et non pas en euros, dtail qui renforce limage obsolte de certaines preuves.
260
preuve dOprations Vise explicitement sassurer de la matrise des quatre oprations de base : addition, soustraction, division et multiplication. Pour chaque opration prsente (49 items au total) le sujet doit slectionner ce quil considre comme tant la bonne rponse (5 choix possibles). Temps limit de 10 minutes.
preuve dAttention Consiste reprer si un mot, ou groupe de mots, a t correctement recopi. On vise ici estimer les capacits dattention et de concentration. Le sujet doit dcider si les deux sries sont identiques ou non. Banque Mondiale Banque Mondial Lpreuve comporte 55 items (dont 2 items dexemple) rsoudre en 4 minutes. On peut noter ici la proportion leve de slectionner la bonne rponse en se fiant uniquement au hasard (comme dans le subtest R1 : 50 % de chance).
preuve dOrthographe Comporte 55 items (dont 2 items dexemple). Le sujet doit indiquer si chaque mot propos (de langage courant) est correctement orthographi. Temps limit 4 minutes. On peut remarquer quon ne demande pas au sujet dcrire lorthographe correcte du mot mais uniquement de slectionner la rponse parmi 2 possibles, oui/correcte ou non/incorrecte.
preuve de Comprhension verbale Il sagit dindiquer si deux verbes (comme par exemple : ouvrir fermer) sont semblables ou contraires. Ici encore la probabilit de trouver la bonne rponse par hasard est leve. Lpreuve comporte 55 couples de verbes (dont 2 items dexemple) rsoudre en 4 minutes. La batterie NV7 comporte donc des preuves varies, certaines portent sur des aptitudes cognitives de raisonnement (preuves R1 R4 ) et sur des aptitudes spatiales, tandis que dautres relvent plutt des acquisitions scolaires. Chaque preuve fait lobjet dun score, la batterie comportant 10 preuves, le sujet sera donc caractris par autant de scores. ces dix scores
261
vont se rajouter deux indicateurs composites, EIG (Efficience Intellectuelle Gnrale) et ES (Efficience Scolaire), ainsi que des indices de rapidit et de prcision. Nous prsenterons plus loin chacun de ces indicateurs.
Les qualits psychomtriques de la batterie NV7
Les tudes de validation prsentes dans le manuel ont t ralises sur un chantillon de 867 adolescents et jeunes adultes, de niveaux V VI. Nous en prsenterons les lments principaux.
Analyse de la sensibilit Les auteurs sintressent ici au pouvoir discriminant des preuves. Les donnes de 1993 nous indiquent un bon niveau de sensibilit (formes gaussiennes des distributions globalement respectes et indicateurs de dispersion satisfaisants) mais il faut tre attentif aux points suivants :
Le subtest Problmes est un peu trop difficile, avec seulement environ 30 %
de russite en moyenne. Ce problme sest probablement actuellement estomp du fait de leffet Flynn (cf. chapitre 1) ; Le subtest Comprhension verbale est lui un peu trop facile (58,5 % de russite), ne permet pas de diffrencier finement les scores levs, ce qui est en fait en accord avec les objectifs de cette preuve qui vise principalement dtecter lillettrisme (manuel p. 29). Cependant ce problme sest probablement accentu du fait de leffet Flynn ; Le subtest Attention ne prsente pas une distribution conforme une distribution gaussienne, ce qui rduit la sensibilit de ce subtest.
Analyse de la fidlit Deux mthodes ont t utilises pour rendre compte de lhomognit de chaque preuve : la mthode pair-impair et lindice de Kuder-Richardson (KR 20). Le tableau II du manuel (p. 30) nous en donne les valeurs1 .
1. Nous attirons lattention du lecteur sur le point suivant : ce tableau comporte des erreurs au niveau de lintitul des colonnes : la colonne moyenne correspond en fait aux indicateurs des corrlations pair-impair et la colonne cart type correspond aux valeurs des KR20 !
262
Pour la corrlation pair-impair, les valeurs sont toutes proches de .80, ce qui est acceptable, except pour Raisonnement pratique-technique avec une valeur plus faible (.571 ). Pour les indices KR20, les valeurs schelonnent entre .74 et .97, valeurs galement acceptables, au moins pour les plus leves Recommandation Les deux preuves prsentant les valeurs de fidlit les plus faibles sont celles de Raisonnement pratique technique ( corrlation de .74) et de Problmes ( corrlation de .75). Les notes obtenues par les sujets dans ces preuves doivent tre considres comme des valuations moins prcises des aptitudes concernes (manuel, p. 30). Nous avons ici encore un bon exemple de ce que peut apporter un praticien la lecture attentive du manuel du test : lui fournir les lments utiles linterprtation des rsultats et au reprage des points forts et des ventuelles limites de fiabilit de lpreuve quil utilise.
Analyse de la validit
Validit structurale
Pour la validit structurale, on sattend observer des corrlations non ngligeables entre tous les subtests en raison de lexistence du facteur g. Le manuel (tableau IV, p. 31) indique des valeurs de corrlations qui varient de .28 .70 selon les subtests. Elles vont dans le sens attendu : plus leves entre les subtests censs valuer des dimensions voisines et plus faibles lorsquil sagit daptitudes plus loignes. On observe bien, par exemple, une corrlation plus leve entre deux preuves de raisonnement (.60 entre R1 et R2) quentre une preuve de raisonnement et une autre preuve de la batterie (.28 entre Raisonnement R1 et Attention). En complment de lanalyse simple des corrlations, lanalyse des donnes est approfondie par les mthodes danalyse factorielle. En premire tape, une analyse est ralise sans rotation : on retrouve alors un premier facteur gnral, interprtable comme un facteur g, qui explique plus de 56,4 % de la variance. Ensuite, une mthode de rotation Varimax est utilise, permettant la mise en vidence de trois facteurs, chaque facteur saturant principalement
1. Cette valeur, trop faible selon nous, nest pas commente dans le manuel.
263
une partie des preuves de la NV7. Le tableau VI du manuel (p. 32) fournit les diffrentes valeurs de saturation1 . Lune des applications possibles de ces analyses est de donner des indications concernant ici la construction dindices composites, cest--dire dindices combinant diffrentes preuves. Les auteurs proposent deux indicateurs composites, EIG et ES, directement relis ces facteurs statistiques.
Le facteur 1, qui explique plus dun tiers de la variance totale, sature
particulirement les preuves de raisonnement [R. dductif R1 (.69), R. analogique R3 (.72) et R. pratique-technique R4 (.73)] ainsi que lpreuve Spatiale (.80)]. Les auteurs interprtent ce premier facteur comme un facteur de comprhension gnrale, qui serait relativement indpendant des acquisitions scolaires et du milieu culturel (manuel, p. 32). Ce facteur 1, que lon pourrait qualifier dintelligence fluide, fonde la validit du calcul du score composite EIG (Efficience Intellectuelle Gnrale) ;. Le facteur 2, avec lui aussi plus dun tiers de variance, sature plus particulirement les subtests lis aux acquisitions scolaires : Oprations (.84), Comprhension verbale (.74), Orthographe (.73), et Problmes (.68). Il sature cependant galement lpreuve de raisonnement Raisonnement inductif R2 (602 ). Les auteurs rapprochent ce facteur de lintelligence cristallise (manuel, p. 32). Il servira de support au calcul du second score composite : le score ES (Efficience Scolaire) ; Le facteur 3 est moins important (il nexplique que 13,8 % de la variance). Il sature principalement le subtest Attention, et tmoigne de la spcificit de ce qui est valu dans ce test.
Validit thorique et prdictive
Le manuel ne comporte aucun rsultat de recherche concernant la validit prdictive et la validit thorique de la NV7. Nous pouvons supposer que, la NV7 reprenant des tests dj existants, les auteurs nont pas jug ncessaire de sassurer de nouveau de leur validit thorique. Nanmoins de telles donnes mriteraient notre avis de figurer dans le manuel. Des analyses vis--vis de la russite scolaire seraient galement pertinentes mener.
1. Ici encore une erreur regrettable complique la lecture de ce tableau : la troisime colonne intitule facteur 1 devrait tre rattache la colonne aprs rotation et non pas la colonne avant rotation . 2. Lpreuve R2 prsente une saturation presque aussi leve (.58) dans le facteur 1 que dans le facteur 2 (.60). La dcision des auteurs de le rattacher exclusivement au score ES mriterait probablement des explications supplmentaires.
264
Effets du sexe
Enfin, les auteurs fournissent quelques donnes concernant lanalyse des effets du sexe sur les performances. Sur les dix subtests, on observe cinq diffrences significatives dans le sens attendu : les garons obtiennent des scores moyens suprieurs dans les subtests reposant sur du raisonnement concret et/ou sur des aptitudes spatiales (les subtests Raisonnement technique, Spatial et Problme), les filles obtenant des rsultats moyens suprieurs dans lun des subtests reposant sur des capacits verbales (Orthographe ) ainsi que dans le subtest Attention (daprs les donnes du tableau III, p. 30 du manuel). Recommandation La consquence de ces diffrences entre filles et garons est quil conviendra dutiliser pour ces subtests des talonnages spcifiques selon le sexe.
La standardisation
La passation La NV7 est une preuve de type papier-crayon. Le sujet dispose dun livret de passation de 64 pages (format A4) dans lequel se trouvent les dix subtests de lpreuve. Le psychologue dispose dun manuel qui runit lensemble des consignes. Rappelons que le psychologue peut dcider de ne faire passer quune partie seulement des subtests. Chaque subtest se droule en temps limit (certains subtests sont trs courts : 4 minutes, dautres plus longs : 10 minutes maximum). Pour une passation complte de la batterie il faut compter une dure minimum d1 heure 45 minutes, exemples compris. Le sujet dispose dune feuille de rponse de type auto-scorable sur laquelle il inscrira ses rponses en noircissant les cases correspondantes. Chaque colonne correspond un subtest. Recommandation On peut noter ici que cette feuille nest pas trs attrayante pour le sujet et quune erreur de retranscription est possible. Nous ne pouvons que conseiller au praticien dtre trs attentif aux ventuelles erreurs ce
265
niveau en cherchant, par exemple, vrifier rgulirement lexactitude de lemplacement des rponses donnes par le sujet aux diffrents items.
La cotation La feuille de rponse de type auto-scorable permet une cotation rapide du protocole du sujet (une correction automatise par lecture optique est galement propose dans le manuel). Aprs avoir dpli la feuille de rponse afin de faire apparatre les grilles de cotation, on procde la correction : on attribue 1 point par rponse correcte, puis on en effectue la somme par colonne afin dobtenir un score brut pour chaque preuve. On reporte ensuite ces dix scores bruts dans la colonne notes brutes du tableau danalyse du profil. En plus de ces dix scores, le praticien peut calculer les deux indicateurs EIG (Efficience Intellectuelle Gnrale) et ES (Efficience Scolaire) partir des formules suivantes (manuel, p. 12) :
Score brut EIG (Efcience Intellectuelle Gnrale) = R1 + R3 + R4 + Spatial Score brut ES (Efcience Scolaire) = (2 x R2) + (6x Problmes) + (2x Oprations) + Comprhension verbale + Orthographe
La justification de ces coefficients dans le calcul du score ES nest pas donne dans le manuel. Nous pouvons penser quils servent rquilibrer le poids de chaque subtest dans le calcul de lindice ES (car les subtests ne comportent pas le mme nombre ditems). Notre exprience de formation lvaluation nous amne penser que nombre de praticiens effectuent ces calculs avec ces coefficients mais sans rellement en connatre la justification. Pourtant, comme le prcisent tant le Code de dontologie que les textes relatifs lutilisation de tests1 , le psychologue doit toujours conserver la matrise des rsultats quil est amen interprter. Il nous semble alors indispensable que des explications suffisantes soient fournies aux utilisateurs de la NV7 pour quils puissent comprendre le sens et les limites de validit, des calculs quils proposent, et tout particulirement pour ces deux indicateurs composites ES et EIG.
1. Voir par exemple les recommandations internationales dans lutilisation des tests, qui seront prsentes et commentes dans le chapitre 8 de ce livre.
266
Enfin, le praticien peut galement calculer des indicateurs supplmentaires : un indicateur R de rapidit et un indicateur P de prcision, partir des formules suivantes (manuel, p. 13) :
R = (nombre de rponses produites / nombre de rponses possibles) x 100 P = (nombre de bonnes rponses / nombre de rponses produites) x 100
Ces deux indicateurs R et P fournissent des informations sur les stratgies de rponse du sujet chaque subtest : lindicateur R, indicateur de rapidit, correspond au pourcentage de rponses donnes (que ces rponses soient correctes ou non), cest--dire au pourcentage de problmes abords par le sujet ; lindicateur P, indicateur de prcision, correspond au pourcentage ditems correctement rsolus parmi ceux ayant t abords. Le praticien dispose ici dindicateurs la fois quantitatifs et qualitatifs sur les performances du sujet. Recommandation Ces scores prsentent un rel intrt pour une approche clinique de lvaluation ralise et une restitution la personne value dinformations sur son propre fonctionnement. Les talonnages Au total, le praticien dispose de douze scores bruts : les dix scores aux subtests et les deux scores composites ES et EIG. Il dispose galement, pour chaque subtest, des scores bruts aux indices R et P. Chaque note brute doit tre transforme en note talonne afin de pouvoir tre interprte. Trois tudes dtalonnage sont prsentes dans le manuel :
Une tude de 1990-1991 ralise dans le cadre de bilans dorientation sur
300 jeunes faiblement qualifis (ge moyen 20 ans) fournit 3 talonnages : pour la population totale et par sexe (manuel, p. 35 38) ; Une tude de 1991-1992 sur 524 adultes faiblement qualifis, de niveau maximum BEP (ge moyen 35 ans), dans le cadre dvaluation en
267
entreprise (recrutement, promotion) ou de bilans dorientation, fournit 3 talonnages : pour la population totale et par sexe (manuel, p. 43- 49) ; Une tude de 1993 sur 104 jeunes apprentis, en cours de prparation dun diplme du secteur industriel (CAP, BEP ou bac professionnel). Cet chantillon est fortement masculinis ce qui explique ici un talonnage uniquement masculin (manuel, p. 59 62) avec distinction possible selon le niveau de diplme prpar (population totale, prparation CAP/BEP, prparation Bac Professionnel). Les talonnages sont cohrents avec les objectifs de la batterie qui, rappelons-le, est destine lvaluation de jeunes adultes et adultes de faible niveau de qualification Tous les talonnages sont de type normalis en neuf classes. Aprs avoir dtermin ltalonnage le plus appropri au sujet valu, le psychologue va transformer la note brute de chaque subtest en une note talonne. Il va ainsi situer le niveau de performance du sujet parmi les neuf catgories proposes. Une valuation plus globale en cinq niveaux de performance (de -- ++) est galement possible comme indiqu dans le tableau 5.1.
Tableau 5.1 Principes des talonnages de la NV7.
Notes talonnes Codage Classe Rpartition thorique 1 4% 2 3 4 0 5 6 7 + 8 ++ 9 4%
6,6 % 12,1 % 17,5 % 19,6 % 17,5 % 12,1 % 6,6 %
Linterprtation des scores de la NV7
Les auteurs proposent un guide danalyse des rsultats la NV7 trs utile au praticien pour linterprtation et la restitution du test. Ce guide comprend douze tapes allant de la connaissance pralable du sujet la restitution des rsultats (manuel, p. 20 24). Les auteurs y prcisent galement, pour chaque subtest, ce qui est plus spcifiquement valu. Enfin, ils proposent huit tudes de cas (p. 24 28).
268
Le praticien dispose ainsi dans le manuel de diffrentes informations pouvant lui tre utiles. Nous proposons ici une synthse en quatre points des lments principaux concernant linterprtation des diffrents scores de la NV7.
Analyse de chaque score aux dix subtests Il sagit ici de situer le niveau de performance du sujet dans les dix scores talonns, par rapport une population1 de rfrence (chantillon dtalonnage). Le praticien va se rfrer ici la feuille de profil afin de reprer les points faibles (score et --) et les points forts (scores + et ++) du sujet. Dans le cas de codage on peut parler de niveau trs faible, linverse, dans le cas de rsultats ++ on peut parler de rsultats trs levs. Attention ! Attention ici un risque derreur : les scores cods 0 ne correspondent pas des scores bas mais des scores moyens (par rapport la population dtalonnage). laide des pourcentages de rpartition thorique (qui figurent galement sur la feuille de profil) le praticien peut situer plus prcisment la position du sujet sur les dix scores.
Exemple Si le sujet est situ en classe 7, ce score, catgoris +, peut tre considr comme lun des points forts du sujet. Plus prcisment, ce score talonn de 7 nous indique que seulement 10,62 % de la population de rfrence3 dpasse ce niveau de performance, et que 77,3 % des sujets4 de cette population se situent en dessous de ce niveau.
En complment de cette comparaison interindividuelle (qui prcise comment se situent les scores du sujet par rapport aux sujets de ltalonnage) il est galement possible dadopter une approche intra-individuelle (reprer,
1. Il peut galement tre judicieux de comparer les rsultats dun mme sujet plusieurs talonnages afin destimer son niveau de performance par rapport diffrentes populations de rfrence. 2. 6,6 + 4 = 10,6 % 3. Il faut bien entendu toujours caractriser cette population de rfrence (niveau de formation, sexe...). 4. 4 + 6,6 + 12,1 + 17,5 + 19,6 + 17,5 = 77,3 %
269
par exemple, les propres points forts dun sujet, cest--dire ses meilleurs rsultats parmi les dix subtests).
Analyse des deux scores composites EIG (Efficience intellectuelle gnrale) et ES (Efficience scolaire) Il sagit de situer les rsultats du sujet sur les deux grandes dimensions synthtiques que sont lintelligence fluide (reprsente par EIG) et lintelligence cristallise (reprsente par ES). On sintresse ici plus prcisment : au niveau de performance dans chaque indice (en sinspirant des rgles gnrales que nous venons de prsenter) ; au dcalage ventuel entre EIG et ES. On regardera par exemple dans quelle mesure les capacits du sujet sont dpendantes du contenu, plus ou moins scolaire, des preuves, ou encore si le niveau des acquis scolaires (ES) reflte bien les potentialits intellectuelles (EIG) ; Le praticien sera galement attentif lhomognit des rsultats pris en compte dans le calcul de chacun de ces deux scores : on observera sil existe un dcalage de niveau de russite dans les subtests constituant chaque indice, ou au contraire, si les rsultats sont homognes (analyse de la dispersion des scores lintrieur de chaque indice). Ces deux indicateurs peuvent galement constituer des lments prdictifs par rapport un projet de formation : en cas de notes leves lindice ES par exemple, les auteurs conseillent une entre directe en formation de niveau V, tandis quune note faible cet indice doit inciter le praticien conseiller plutt une orientation vers des stages de remise niveau avant lentre ventuelle en formation (manuel, p. 17).
Analyse des indices de rapidit R et de prcision P Cest ici lune des spcificits de cette batterie. Ces deux indices doivent tre analyss conjointement afin de fournir des informations sur certaines caractristiques du sujet. Par exemple un sujet qui prsente, sur la majorit des subtests, des scores R faibles, mais des scores P levs, est probablement un sujet mticuleux, vrifiant ses rponses, ce qui explique la fois le faible nombre ditems traits (R faibles) mais un pourcentage lev de bonnes rponses (P levs). On peut ici faire un lien avec les notions de style cognitif, de rflexion/impulsivit (Huteau, 2002). On sera galement attentif ici aux ventuelles variations de ces deux indices en fonction des subtests. Ces
270
aspects de stratgie de rponse pourront tre abords avec le sujet dans la phase de restitution des rsultats.
Analyse de ladquation entre les rsultats la NV7 et les projets de formation ou les projets professionnels Il ne sagit pas ici bien entendu de rechercher une stricte adquation entre profil du sujet et profil du poste et/ou du contenu de la formation, car les rsultats de la batterie NV7 (comme plus gnralement tout rsultat de test) ne sont quun des lments prendre en compte dans une dmarche de conseil (Aubret & Blanchard, 2005). En effet, dautres facteurs vont intervenir comme lexprience, la motivation, les intrts professionnels, la situation familiale... Mais lanalyse de cette adquation peut tre discute avec le sujet dans la phase de restitution des rsultats. Nous trouvons dailleurs dans le manuel des propositions de lecture des rsultats en fonction de diffrents types dactivits professionnelles : par exemple, en analysant conjointement trois subtests [Raisonnement inductif, Oprations et Problmes] le psychologue pourra estimer le degr daisance du sujet dans des situations professionnelles ncessitant lusage de chiffres. Autre exemple, lanalyse conjointe de trois autres subtests [Raisonnement analogique, Raisonnement pratique-technique et Spatial ] apportera des lments concernant cette fois les activits professionnelles de type atelier (voir les autres indications du manuel, p. 21 et 23).
Conclusion sur la batterie NV7
Comme les auteurs lont souhait, la batterie NV7 est adapte une population de faible niveau de qualification. Ses qualits mtriques sont globalement satisfaisantes Les indicateurs de la performance du sujet sont nombreux, dix scores daptitudes et deux scores composites, et permettent une analyse assez complte des aptitudes du sujet. Le praticien dispose en outre de deux indicateurs, R et P, qui peuvent apporter des informations utiles pour apprcier le fonctionnement de la personne, informations gnralement ngliges dans les autres tests. Le praticien trouvera dans le manuel un bon soutien mthodologique linterprtation des rsultats, ainsi que des tudes de cas.
271
Cela en fait une batterie intressante pour les niveaux les plus faibles qui mriterait dtre mise jour pour corriger les quelques erreurs et manques du manuel ainsi que les aspects dsuets de certains subtests.
2.
La batterie NV5-R
Prsentation de la NV5-R
La batterie NV5-R est en partie inspire de la batterie NV7 mais elle est destine des publics de niveau de qualification plus lev (au minimum quivalent au niveau Baccalaurat). Elle est donc complmentaire, au regard de la population cible, de la batterie NV7. Elle est adapte un public dadolescents et dadultes Cette batterie, diffuse en 2003 est une version rnove de la batterie NV5 de 1987. Comme la NV7, la NV5-R est compose dune combinaison de tests anciens mais les auteurs indiquent que les sous-chelles (ou subtests) ont t slectionnes en fonction dune thorie de rfrence : le modle du Radex . Cette rfrence thorique est assez originale et mrite dtre souligne. Rappelons que, daprs ce modle, les tests dintelligence peuvent tre positionns dans un espace bidimensionnel avec en position centrale les tests de facteur g. Une prsentation synthtique de ce modle est propose dans Dickes et Martin (1998) qui nous empruntons la figure qui illustre ce modle (voir figure 5.5). Linterprtation de ce que mesure un test va alors dpendre de sa position sur ce Radex, partir des principes suivants :
Plus le test est proche du centre de la figure, mieux il mesure (plus il
sature dans) le facteur g ; linverse, plus il est situ dans la priphrie et est distant du facteur g, et plus il exprimera la mesure daptitudes spcifiques ; Cette position peut galement tre interprte en terme de niveau de complexit : plus un test (une tche) est intellectuellement complexe, plus il sera situ au centre de la figure ; Trois zones peuvent tre distingues dans le Radex, qui correspondent globalement trois domaines : verbal, spatial et numrique. partir des ces principes dinterprtation, ce modle en Radex fournit une information sur la liaison du test avec le facteur g (niveau de proximit),
272
spcifique figuratif FIGURATIF
spcifique verbal
COMPLEXIT VERBAL
NUMRIQUE spcifique numrique
Figure 5.5 Exemple de reprsentation dun espace bidimensionnel de type Radex (daprs Dickes et Martin, 1998, p. 31).
ainsi quune estimation du domaine valu plus spcifiquement par lpreuve (verbal, spatial ou numrique). Prcisons que le manuel comporte une large introduction ce modle thorique qui nest sans doute pas trs familier nombre de psychologues. Nous verrons plus loin, dans linterprtation des rsultats, quun certain niveau de connaissance thorique du modle de rfrence est ici particulirement ncessaire afin de pouvoir rellement matriser les indicateurs que lon peut retirer de cette preuve. On retrouve, ici encore, la ncessit pour le psychologue de possder une formation solide, tant au niveau mthodologique quau niveau thorique. Cest sans doute ce qui justifie la partie importante consacre dans le manuel de la NV5-R la prsentation thorique du modle en Radex. La batterie NV5-R regroupe neuf preuves : 1. Raisonnement gnral, 2. Raisonnement inductif, 3. Raisonnement spatial, 4. Raisonnement pratique/technique, 5. Comprhension verbale, 6. Vocabulaire, 7. Orthographe,
273
8. Calcul, 9. Attention. Comme pour la NV7, on peut remarquer ici que certaines preuves valuent un raisonnement et/ou des aptitudes, alors que dautres preuves relvent plutt de connaissances scolaires (comme par exemple Orthographe ou Calcul ). Pour chaque preuve, ou subtest, on dispose de consignes et dtalonnages spars, ce qui offre une souplesse dutilisation (le praticien, par exemple, peut ne faire passer quune partie des preuves). Enfin, comme nous allons le voir, certaines de ces preuves sont directement issues de la NV7 avec parfois des modifications concernant les temps de passation (afin sans doute de rendre les preuves plus difficiles1 .) Dtaillons maintenant chacune de ces 9 preuves :
preuve de Raisonnement gnral Comporte 49 items (dont 7 exemples) diversifis tant au niveau de la tche (on y trouve plusieurs types de raisonnement), quau niveau du support (numrique, verbal...), ceci afin de proposer dans une mme preuve un large ventail de situation. Lobjectif ici tant bien dvaluer un raisonnement gnral, proche de la notion de facteur g, mais galement dvaluer la capacit du sujet faire preuve de flexibilit cognitive (ou dynamisme intellectuel), dfinie comme la capacit du sujet sadapter des changements dans le type de tche propos. Les exemples suivants donnent un aperu de la diversit des items de ce subtest :
1. Des items de type chercher lintrus , exemple : Dsignez parmi les 5 mots suivants celui qui ne fait pas partie de la srie : Bois Bouchon Pierre Bateau Lige 2. Des items de type loi de srie sur support numrique, dans lesquels le sujet doit poursuivre une suite propose ; exemple ctif : 2-4-6-8-10-??-?? 3. Des items de logique verbale ; exemple ctif : Julie est plus petite que Fabienne, Sylvie est plus petite que Julie, par consquent Fabienne est la plus grande des 3 ? 4. Des items dans lesquels le sujet doit montrer sa comprhension de dictons.
1. Le manuel de la NV5 R ne donne pas de prcisions ce sujet. Il nous semble pourtant important que lorigine des items et/ou des subtests soient prcise.
274
Ce subtest est assez proche du test BV9 de Bonnardel1 . Le sujet dispose de 20 minutes pour raliser lpreuve. Cest dailleurs lpreuve la plus longue de la batterie. Le nombre assez consquent ditems, et la dure de passation, font de ce subtest une relle preuve indpendante. Concernant les modalits de rponse, la mme limite apparat que celle voque propos de certains subtests de la NV7 : pour certains items les possibilits de rponse (de type QCM) ne sont pas assez nombreuses et la probabilit de trouver la bonne rponse au hasard est trop leve.
preuve de Raisonnement spatial Le sujet doit se reprsenter une configuration en trois dimensions partir dun plan en deux dimensions. Il sagit en fait de la mme preuve que celle qui est prsente dans la NV72 avec 40 items rsoudre en 8 minutes (au lieu de 10 pour la NV7).
preuve de Comprhension verbale Elle comporte 12 items rsoudre en 8 minutes. Le sujet doit indiquer quelles sont les deux phrases (parmi quatre possibilits) qui sont le plus proches dune pense (exprime sous forme de dicton). Exemple ditems :
On a besoin dun plus petit que soi. 1. Il faut regretter que ce soient toujours les plus forts qui lemportent sur les faibles. 2. Ne ngligeons pas laide que peuvent nous apporter les faibles. 3. Lappui des humbles est parfois utile aux grands. 4. Petit enfant deviendra grand.
preuve de Calcul Cette preuve est directement issue de lpreuve Opration de la NV7 avec ici 48 items rsoudre en 10 minutes.
1. Certains items semblent dailleurs largement inspirs du BV9 de Bonnardel, sans que les auteurs le prcisent explicitement. 2. Comme pour tous les subtests issus de la NV7 nous renvoyons le lecteur aux exemples ditems donns dans la partie prcdente (NV7).
275
preuve de Raisonnement pratique/technique Elle ne comporte pas les mmes items que le subtest de la NV7 mais en est assez proche, aussi bien au niveau du type de support que, malheureusement, au niveau du type de graphisme. Le sujet doit rsoudre ici 33 items en 9 minutes.
preuve de Raisonnement inductif Destine valuer la capacit du sujet raisonner du particulier au gnral, elle comporte 27 items, dont 3 exemples, rsoudre en 8 minutes. Il sagit ici encore dune preuve (R2) de la NV7 dans laquelle le sujet doit dcouvrir les lois de progression de sries numriques.
preuve dAttention Elle aussi est issue de la NV7 et comporte 52 items, avec un temps de passation de 3 minutes.
preuve de Vocabulaire Comporte 56 items, rsoudre en 4 minutes. La tche consiste slectionner parmi 3 mots proposs les deux mots qui sont soit de mme sens, soit de sens oppos. On cherche valuer la connaissance du vocabulaire. Exemple ditems :
1. Grand / 2. Sec / 3. Vaste Rponses possibles : 1 et 2 ; 1 et 3 ; 2 et 3.
preuve dOrthographe Le sujet doit indiquer si le mot prsent est correctement orthographi. Cette preuve comporte 54 items, rsoudre en 3 minutes. Il nest pas demand au sujet dorthographier correctement le mot mais dindiquer si le mot prsente, ou non, une erreur. Ici encore la probabilit de trouver la bonne rponse au hasard nest pas ngligeable. Exemple ditems :
Le tiroire
276
Le manuel dtaille les procdures de rvision des preuves de la NV5 qui ont conduit la NV5-R (rvise) : rvision de la notation, analyse des biais ditems... La phase dexprimentation de la NV5-R a t effectue auprs dun chantillon de 460 sujets, gs de 17 57 (moyenne de 26 ans), de niveau dtude du CAP Bac + 2.
Analyse de la sensibilit Les taux moyens de russite des subtests varient entre 33 % (pour le raisonnement pratique-technique) 77 % (pour le raisonnement inductif). On observe donc une variabilit assez importante des subtests de la batterie NV5-R : ils ne sont pas tous de mme niveau de difficult. Lanalyse des dispersions montre que les scores bruts ne se rpartissent pas tous selon une courbe gaussienne. Cest sans doute ce qui explique lutilisation dtalonnages par dciles (voir plus loin). Comme attendu, les taux de russite varient en fonction du niveau dtudes.
Analyse de la fidlit La fidlit est value partir de lindice dhomognit interne alpha de Cronbach et de lindice KR 20. Les valeurs prises pour ces indices pour chaque preuve figurent dans le tableau 5.2.
Tableau 5.2 Indices de fidlit interne de la NV5-R (daprs le manuel, p. 41-43).
Subtests Alphas de Cronbach R. gnral 0,86 R. spatial 0,88 Comp. verbale 0,83 Calcul 0,85 R. pratique 0,75 R. inductif 0,89 Attention 0,94 Voc. 0,94 Orth. 0,88
Les alphas variant de .75 .94, nous pouvons considrer lhomognit interne de la NV5-R comme satisfaisante. La valeur relativement modre observe pour lpreuve de raisonnement pratique-technique (.75) doit nous inciter nanmoins la prudence dans linterprtation des rsultats ce subtest (manuel, p. 40).
277
Lerreur standard de mesure est variable selon les subtests, mais il faut signaler ici que le manuel fournit une estimation de cette erreur pour chaque score possible dans certains subtests (voir tableau 12, p. 45 du manuel).
Analyse de la validit Une analyse statistique de la validit structurelle de la NV5-R, permet de situer les subtests sur une structure en Radex. Rappelons que ce modle de rfrence (le radex) est assez peu utilis dans les tests, et sans doute peu familier nombre de psychologues, mais que le manuel est bien document ce sujet. Les auteurs cherchent alors savoir si leurs donnes sont bien conformes ce modle thorique. Par un traitement statistique particulier (analyse par chelonnement multidimensionnel) on peut observer que la configuration des subtests de la NV5-R est bien compatible avec le modle thorique suppos. On observe, par exemple, un positionnement central de lpreuve de Raisonnement gnral, et un positionnement dans la zone attendue pour les preuves reposant plutt sur un contenu verbal. Les subtests se rpartissent galement en fonction de leur niveau de gnralit. Comme attendu, les tches les plus complexes apparaissent vers le centre et les tches les plus spcifiques en priphrie. Les dtails de la structure observe figurent dans le manuel (voir en particulier la figure 10, p. 39). Ces donnes apportent des lments de validit interne de lpreuve. Par contre, aucun lment dinformation ne nous est donn sur le niveau des liaisons entre les diffrents subtests de la NV5- R. Comme pour la NV7, aucun rsultat dexprimentations concernant la validit prdictive de lpreuve ou encore la validit de chaque subtest avec une autre preuve (validit concourante) nest malheureusement prsent dans le manuel. Il serait par exemple pourtant utile de disposer de donnes dtudes comparant les rsultats du subtest Raisonnement gnral avec ceux dune preuve de type facteur g.
Recommandation Nous signalons cependant un article postrieur au manuel (Thibaut et al., 2005) qui apporte des lments dinformation sur les qualits prdictrices de cette batterie NV5-R. Larticle prsente les rsultats dune recherche, mene la demande dune entreprise, visant analyser lefficacit de
278
ses mthodes de recrutement. Utilise dans un dispositif de slection de vendeurs amens ensuite suivre une formation, la NV5-R, et plus particulirement les subtests Raisonnement gnral, Comprhension verbale et Orthographe, savrent tre de bons prdicteurs du niveau de russite dans cette formation. Nous renvoyons le lecteur intress par ces aspects la lecture de cet article.
La standardisation
La passation La NV5-R est une preuve de type papier-crayon, utilisable en individuel ou en collectif. Le matriel se compose dun manuel pour le psychologue (de 108 pages), de cahiers de passation et de feuilles de rponse auto-scorables. Chaque subtest se droule en temps limit (de 3 20 minutes selon les subtests) avec au total un temps denviron 2 heures si le sujet passe toutes les preuves. La feuille de rponse est organise comme celle de la NV7 : le sujet doit inscrire ses rponses en noircissant les cases correspondantes sur une feuille de rponse de type auto-scorable. Chaque colonne correspond un subtest. Recommandation Nous signalons, comme pour la NV7, que cette feuille nest pas trs attrayante pour le sujet et quune erreur de retranscription est possible. Nous ne pouvons que conseiller au praticien dtre trs attentif lexactitude de lemplacement des rponses du sujet.
La cotation Aprs avoir dpli la feuille de rponse afin de faire apparatre les grilles de correction, on procde la cotation. On accorde 1 point par bonne rponse (sauf cas particuliers1 signals dans le manuel). Le psychologue additionne les points obtenus dans chaque subtest (chaque colonne) afin dtablir les
1. Il sagit ditems dans lesquels le sujet doit donner 2 rponses : on accordera alors 1 point si et seulement si les 2 rponses sont correctes.
279
neuf scores bruts. Il reportera ensuite ces neuf scores bruts dans le tableau Profil dtaill qui figure en haut de la feuille de profil.
Les talonnages Ils permettent de transformer les scores bruts en notes talonnes. Le manuel propose ici plusieurs talonnages : un talonnage htrogne, sur lchantillon total de 632 sujets, avec trois possibilits : total, garons, filles ; des talonnages par niveau dtudes : niveau dtudes infrieur au baccalaurat (139 sujets), gal au bac (258 sujets) et suprieur au Bac (212 sujets). Par contre on ne dispose pas ici de donnes spares selon le sexe. Tous ces talonnages sont de type dcilage1 . Ce choix est expliqu par le fait que les distributions des scores ne respectent pas suffisamment la courbe de Gauss pour tablir des talonnages standardiss. Recommandation Lutilisateur prendra soins de ne pas confondre linterprtation dun talonnage par dcilage avec linterprtation dun talonnage normalise, comme celui, par exemple, de la NV7. Une fois ltalonnage slectionn (talonnage htrogne ou par niveau dtudes) le psychologue doit donc transformer les neufs scores bruts et dfinir les neuf notes talonnes quil reportera sur la feuille de profil (scores variant de 1 10). Comme pour la NV7, cette feuille lui permettra de reprer rapidement les forces et faiblesses du sujet. partir des notes talonnes, il peut galement calculer des scores composites.
1. Rappelons que dans un talonnage de ce type chaque classe reprsente 10 % de leffectif.
280
Recommandation Attention pour le calcul des scores composites : il sagit bien ici dutiliser les notes talonnes et non pas, comme dans le cas de la NV7, les scores bruts. Deux types de scores composites sont ici envisags : les notes du profil daptitude, les notes du profil cognitif.
Pour dterminer le profil daptitudes, on regroupe les preuves relevant
des mmes dimensions afin dobtenir un score en aptitude verbale, en aptitude spatiale et en aptitude numrique, selon les indications du manuel. ces trois indices va se rajouter laptitude gnrale (preuve de Raisonnement gnral) ; Pour dterminer le profil cognitif, on se rfre au modle thorique de rfrence, le modle en Radex, afin de dterminer trois scores : lun relevant des capacits du sujet face des tches gnrales (et complexes), le second reposant sur des tches de niveau intermdiaire, le dernier relevant de tches spcifiques. Nous reprenons ci-dessous le dtail de chaque profil en indiquant les subtests de rattachement :
1. Profil daptitude Aptitude gnrale : Raisonnement gnral. Aptitude verbale : Comprhension verbale + vocabulaire + attention + orthographe (et diviser cette somme par 4). Aptitude spatiale : Raisonnement spatial + Raisonnement pratique technique (et diviser cette somme par 2). Aptitude numrique : Raisonnement inductif + calcul (et diviser cette somme par 2).
281
2. Profil cognitif Gnral : Raisonnement gnral. Intermdiaire : Comprhension verbale + vocabulaire + Raisonnement spatial + Raisonnement inductif (et diviser cette somme par 4). Spcifique : attention + orthographe + Raisonnement pratique technique + calcul (et diviser cette somme par 4). Rappelons que chaque note de profil est tablie partir des notes talonnes des subtests. Par la division du total de ces notes on obtient alors directement une note de profil talonne, comme les subtests, de 1 10. Au final, le praticien peut disposer des indicateurs talonns suivants : 9 notes de subtests ; 4 notes du profil daptitudes : aptitude gnrale, aptitude verbale, aptitude spatiale et aptitude numrique ; 3 notes du profil cognitif : gnral, intermdiaire et spcifique.
Les bases dinterprtation des scores
Comme pour la NV7, le manuel de la NV5-R propose un support trs apprciable linterprtation des rsultats et des profils observs. Il comprend huit pages ddies linterprtation des diffrents scores (p. 71 78), ainsi quune dizaine de pages consacrs la prsentation de quatre tudes de cas (p. 79 90). Linterprtation propose se fait dans un premier temps au niveau des subtests, puis dans un second temps au niveau des scores composites. La particularit de lpreuve est quelle peut fournir deux types de scores composites (diffrentes combinaisons ditems) en lien direct avec les deux cadres de rfrence thorique proposs (analyse classique en aptitudes ou rfrence au modle du Radex). Quel que soit le niveau danalyse (subtest ou scores composites), rappelons ici que nous disposons dtalonnages de type dcilages, qui comportent 10 % de sujets dans chaque groupe. On considrera un score gal ou infrieur 3 comme un score faible, et un score gal ou suprieur 8 comme un score lev. Les scores compris entre 4 et 7 inclus tant considrs comme des scores moyens (obtenus par 40 % de la population de rfrence). Le
282
praticien trouvera dans le manuel des informations sur ce qui est valu plus prcisment dans chaque subtest (p. 71 75). Lanalyse des neuf subtests permet de dresser le profil du sujet, de cerner ses points forts et ses points faibles. On procdera, comme pour la NV7, une analyse interindividuelle (comment se situent les neufs scores dun sujet par rapport ltalonnage ?) mais galement intra-individuelle (reprer, par exemple, ses points forts, cest--dire ses meilleurs rsultats parmi les neuf subtests). Lanalyse du profil daptitudes prend la forme, assez classique, dune interprtation des rsultats du sujet en fonction de trois domaines : aptitude verbale, aptitude spatiale et aptitude numrique. La note daptitude gnrale, compose, rappelons-le, uniquement du subtest Raisonnement gnral, peut tre considre comme lexpression du niveau de facteur g. Le psychologue pourra cette tape faire des liens entre le profil daptitudes du sujet et ses projets de formation et/ou ses projets professionnels, dans la mme logique dinterprtation des rsultats que celle expose dans la prsentation de la batterie NV7. Pour lanalyse du profil cognitif, linterprtation des scores doit se faire en relation avec la thorie de rfrence : le modle en Radex. La note gnrale, qui correspond en fait la note daptitude gnrale du profil daptitudes, est ici interprte comme lindicateur des capacits du sujet rsoudre des tches gnrales (que lon peut retrouver dans un grand nombre de situations) et complexes. La note intermdiaire va rendre compte des capacits du sujet face des tches un peu moins complexes. Enfin, la note spcifique est relative aux tches spcifiques, relativement simples, le plus souvent rduites lapplication de rgles. Les quatre tudes de cas prsentes dans le manuel permettent dillustrer les grandes lignes dinterprtation des rsultats selon les diffrents niveaux danalyse (subtests ; profil aptitudes ; profil cognitif). Le psychologue pourra ventuellement analyser les rsultats du sujet en rfrence aux profils de rponse caractristiques de quatre groupes de sujets identifis dans le manuel (voir p. 48 56). En ce qui nous concerne, nous ne trouvons quun intrt relatif cette possibilit de comparaison.
283
Conclusion sur la NV5 R
La batterie NV5-R est une batterie assez difficile, adapte des sujets de niveau minimum Baccalaurat. Elle regroupe des subtests assez varis et comprend une mesure fiable de lintelligence gnrale (ou facteur g ) par le subtest Raisonnement gnral. Le psychologue peut dailleurs, sil le souhaite, nutiliser dans un premier temps, que ce subtest, afin dtablir une estimation du niveau gnral du sujet. Puis, par la suite et en fonction des besoins, utiliser les autres subtests de lpreuve. Cette batterie permet dobtenir neuf scores, reprsentatifs de neuf aptitudes distinctes, ainsi que des indices composites, certains assez classiques (les quatre scores du profil daptitudes), dautres plus originaux (les trois scores du profil cognitif). Lune des spcificits de la NV5-R est quelle repose sur un modle thorique assez peu utilis en psychomtrie : le modle en Radex. Ce modle, largement dvelopp dans le manuel, permet de caractriser le sujet par son profil cognitif. Cette possibilit dinterprtation des scores vient sajouter linterprtation classique en terme daptitudes. Le manuel gagnerait tre complt dtudes concernant la validit prdictive de la batterie (mais comme nous lavons indiqu le lecteur pourra consulter larticle de Thibaut et al., 2005). Il fournit, par contre, des indications pertinentes ainsi que des tudes de cas apportant une aide utile dans linterprtation des rsultats.
3.
La batterie DAT 5
Prsentation
La batterie DAT 5 (Differential Aptitude Tests : Tests Diffrentiels dAptitudes) est issue de lpreuve DAT qui a t publie la premire fois en 1947 aux tats-Unis. Cette 5e dition DAT5 est la version franaise de la dernire rvision de lpreuve, dite aux tats-Unis en 1990, et adapte en France par les ECPA dans les annes 1998-2000, avec une diffusion en 2002. Cest une preuve trs utilise aux tats-Unis. Avant la publication de cette dernire version nous ne disposions en France que de la premire version de 1974.
284
La batterie DAT 5 se diffrencie des batteries NV7 et NV5-R que nous venons de prsenter, par la varit des publics auxquels elle convient : elle est utilisable aussi bien pour des publics scolaires (quatre talonnages scolaires sont disponibles : niveau 3e , enseignement professionnel, 2e , 1re et Terminale) que pour des publics adultes (deux talonnages : niveau CAP/BEP et niveau Bac). Comme pour la premire version, la DAT 5 se compose de huit preuves : Trois sont prsentes comme mesurant les aspects principaux de lintelligence (Raisonnement Verbal, Raisonnement Numrique, Raisonnement Abstrait ) ; Deux subtests valuent des aptitudes plus spcifiques (Raisonnement Mcanique et Relations Spatiales) ; Deux subtests valuent plutt des connaissances (Orthographe et Grammaire ) ; Une preuve de rapidit et de prcision (Vitesse de Perception et Prcision). On remarquera quil sagit ici, comme dans les batteries NV5-R et NV7, dvaluer des capacits cognitives (Raisonnement) mais galement des connaissances scolaires (exemple : Orthographe...). Comme pour les autres batteries factorielles, le psychologue dispose de consignes et dtalonnages spars pour chaque subtest, ce qui autorise une grande souplesse dutilisation. La passation complte de la batterie ncessite un temps denviron 2 heures 10 minutes 2 heures 30 minutes. Reprenons chacune des huit preuves.
Lpreuve de Raisonnement Verbal (R.V.) Elle comporte 25 items dans lesquels le sujet doit complter des analogies. Le sujet doit choisir les deux termes qui conviennent le mieux pour complter lanalogie1 prsente (parmi cinq possibilits). Le temps de passation est limit 18 minutes. Lexemple suivant permet de bien comprendre la tche demande :
... est aboyer ce que chat est ... Rponse A : miauler...chaton
1. Sternberg a propos une analyse (composantielle) de ce type de tche (Huteau & Lautrey, 1999, p. 214).
285
Rponse B : chien...miauler Rponse C : chien...griffer Rponse D : chien...chaton Rponse E : se rfugier...griffer
Lpreuve de Raisonnement Numrique (R.N.) Cette preuve comprend 25 items rsoudre en 20 minutes. Ces items refltent divers types de problmes (suites numriques, estimation de calculs, quations...). Il sagit ici dvaluer la capacit raisonner partir de donnes numriques et non pas seulement la capacit effectuer des calculs. Le sujet dispose de 20 minutes. Exemple ditem :
Quel chiffre peut remplacer le ? dans cette addition ? 5? +2 = 58 Rponse A : 3 Rponse B : 4 Rponse C : 7 Rponse D : 9 Rponse E : Aucun
Lpreuve de Raisonnement Abstrait (R.A.) Elle porte sur les capacits de raisonnement non verbal. Les 25 items reprennent des taches typiques de tests de type facteur g : chercher les rgles de transformation et les appliquer afin de trouver une figure qui vient complter une srie propose. Le temps est limit ici 15 minutes.
Problme Rponses
Figure 5.6 Exemple ditem de Raisonnement Abstrait.
Ces trois preuves de raisonnement (Verbal, Numrique et Abstrait ), sont prsentes comme valuant les principaux aspects de lintelligence gnrale
286
(manuel DAT 5, p. 5). Tout en tant des preuves indpendantes, elles sont regroupes dans un mme cahier de passation. Elles constituent le noyau central de la DAT 5 et permettent dvaluer les capacits de raisonnement partir de trois types de support : verbal, numrique et non verbal. Les autres preuves de la DAT 5 valuent des aspects de lintelligence considrs comme plus spcifiques (le raisonnement mcanique, laptitude spatiale et la vitesse de perception) ou des aspects plus lis aux connaissances en Franais (Orthographe et Grammaire). Les huit preuves de la DAT 5 ne se situent donc pas sur le mme plan par rapport limportance des aptitudes values.
Les autres preuves de la DAT 5
Lpreuve de Raisonnement Mcanique (R.M.) Le sujet doit rsoudre des situations assez concrtes comparables aux items prsents dans le subtest Raisonnement Pratique-technique de la NV7 (problmes de phnomnes physiques, dengrenages, de poulies...). Lpreuve comporte 30 items rsoudre en 15 minutes. Les items de type QCM ne comportent que trois possibilits de rponse ce qui semble insuffisant (probabilit non ngligeable de slectionner la bonne rponse au hasard).
Lpreuve de Relations Spatiales (R.S.) Elle comporte 30 items dans lesquels le sujet doit slectionner la figure qui serait obtenue si une figure modle tait plie. Cette preuve porte principalement sur les capacits de reprsentations mentales de figures gomtriques. Le temps est ici limit 15 minutes.
Figure 5.7 Exemple ditem du subtest Relations Spatiales.
287
Lpreuve de Vitesse de Perception et Prcision (V.P.P.) Ici, le sujet doit rsoudre une tche perceptive simple, le plus vite possible. Il sagit de retrouver sur la feuille de rponse la combinaison de deux lettres (ou chiffres) qui est souligne sur le cahier. Cette preuve comporte deux sries de 100 (temps de 3 minutes pour chaque srie), mais seule la deuxime srie interviendra dans la notation. Exemple ditem :
AB AC AD AE AF propositions de rponses : AC AE AF AB AD
Lpreuve dOrthographe Cette preuve consiste reprer le mot qui est crit de faon incorrecte parmi quatre mots prsents. Il sagit dvaluer les connaissances orthographiques partir de mots franais assez courants. Cette preuve comporte 30 items rsoudre en 8 minutes. Exemple ditem :
A : papier B : soleille C : chaise D : agrable
Lpreuve de Grammaire Ici le sujet doit indiquer dans quelle partie dune phrase se trouvent ventuellement des fautes de grammaire, de conjugaison ou de majuscule. Il ne sagit pas de corriger ces fautes mais uniquement dindiquer lendroit o elle est situe (ou indiquer labsence derreur). Lpreuve comporte 30 items rsoudre en 12 minutes. Exemple ditem :
Nous serat-il / possible daller / travailler la / semaine prochaine. A B C D
La DAT 5 est donc compose de huit preuves, et permet de caractriser le sujet selon les huit dimensions correspondant ces preuves. Le calcul dun indicateur defficience scolaire (score composite) est galement possible en combinant les rsultats obtenus lpreuve de Raisonnement Verbal et Raisonnement Numrique (voir plus loin).
288
Les qualits psychomtriques de la DAT 5
Rappelons que la version franaise DAT5 est une version adapte de la DAT 5 amricaine dite en 1990 aux tats-Unis. Le manuel contient une description des conditions dlaboration de cette version amricaine qui comprend deux niveaux : niveau 1 (correspondant des lves de 5e la 3e ) ; niveau 2 (correspondant des lves de la 2e au Bac). Pour laborer la version franaise, la procdure classique dadaptation dune preuve a t suivie : traduction ou cration de nouveaux items, exprimentation et dveloppement des formes dfinitives. Il nest pas inutile de donner les grandes lignes de cette adaptation. Sur cette version amricaine le manuel ne fournit que trs peu de donnes. On apprend juste que les coefficients de fidlit KR-20 varient de .82 .95, ce qui dmontre un bon niveau de consistance interne, que des corrlations trs leves (entre .86 et .90) ont t observes avec des tests daptitude (sans nous prciser de quels tests il sagit) et que les subtests de la DAT5 peuvent tre considrs comme de bons prdicteurs de la russite scolaire (manuel DAT5, p. 26), sans nous donner davantage de prcision. La version franaise est directement adapte de cette version amricaine, mais avec deux particularits : dune part, seul le niveau 2 a t adapt ; dautre part, elle en constitue une forme abrge (rduction du nombre ditems afin de diminuer le temps de passation). Les auteurs indiquent que lobjectif central de cette adaptation a t de rester au plus prs de la version originale. Dans la plupart des cas, les items originaux ont donc t traduits. Lorsquune simple traduction ntait pas pertinente (par exemple pour lpreuve dorthographe), de nouveaux items ont t crs. Au final la forme franaise exprimentale comportait de 45 67 items selon les subtests. Cette preuve a t teste auprs dun public scolaire (2 651 lves de niveau 3e terminale, avec une partie de lchantillon scolaris dans lenseignement professionnel) ainsi que sur un chantillon dadultes (212 adultes, de niveau CAP Baccalaurat). Pour aboutir une version rduite, la slection des items de lpreuve dfinitive a t ralise partir de quatre critres principaux : le pouvoir
289
discriminant des items, la pertinence des distracteurs, la typologie des items et le niveau global de difficult. Le tableau 5.3 rsume les tapes de cette adaptation.
Tableau 5.3 Nombre ditems des diffrentes formes de la DAT 5.
Forme dfinitive amricaine 40 40 40 50 60 40 40 Forme exprimentale franaise 50 60 45 55 67 60 60 Forme dfinitive franaise 25 25 25 30 30 30 30
Subtests de la DAT 5 Raisonnement Verbal Raisonnement Numrique Raisonnement Abstrait Relations Spatiales Raisonnement Mcanique Orthographe Grammaire
Comme nous lindique le tableau, si la version finale franaise est bien une version abrge elle comporte un nombre suffisant ditems (de 25 30) dans chaque subtest pour garantir un certain niveau de fiabilit.
Analyse de la sensibilit
Sur lchantillon scolaire
Les valeurs moyennes de russite, ainsi que les valeurs de dispersion, indiquent que globalement lpreuve est bien adapte ce type de public. Dans lensemble, on observe bien une volution des scores moyens en fonction des niveaux scolaires. Cette augmentation na cependant pas t observe pour les lves de Terminales, ce qui explique que les niveaux 1re et Terminales ont t regroups au sein du mme talonnage.
Sur lchantillon adulte
Les caractristiques moyennes de russite sont galement satisfaisantes avec, comme attendues, des diffrences significatives selon les niveaux de qualification (CAP ou Baccalaurat).
290
Analyse de la fidlit
Les indicateurs alpha de Cronbach varient de .74 .96 selon les subtests, ce qui tmoigne dun niveau global satisfaisant dhomognit interne. La fidlit test-retest a t estime partir dun chantillon dlves de 3e . Les coefficients de corrlation varient entre .56 et .86 selon les subtests. Certaines valeurs sont donc un peu faibles (Vitesse de prcision .56 et Raisonnement Abstrait .58). Signalons que les valeurs caractristiques (moyennes, cart-type), les coefficients alpha de Cronbach, ainsi que les erreurs de mesure figurent, pour chaque niveau scolaire, en annexe du manuel.
Les coefficients alpha varient ici de manire similaire lchantillon scolaire (de .77 .98 selon les subtests) mais la fidlit test-retest na pas t value. Les erreurs de mesure sont galement indiques pour chaque niveau de qualification.
Analyse de la validit
Une premire analyse de validit porte sur la structure de lpreuve. Les coefficients de corrlation entre les huit subtests varient de .06 (entre Orthographe et Raisonnement Mcanique) .65 (entre Grammaire et Orthographe ). On retrouve globalement le pattern attendu : corrlations les plus leves entre des tests valuant des dimensions les plus proches (des valeurs autour de .65 par exemple entre les trois principales preuves de raisonnement : Raisonnement verbal, numrique et abstrait ) et corrlations plus faibles entre des tests valuant des aptitudes plus loignes. Le psychologue trouvera dans le manuel toutes les valeurs des intercorrlations (tableau 7.6, p. 58). Une deuxime tude de validit porte sur la liaison entre la forme DAT de 1974 et la forme DAT 5. Lchantillon est malheureusement assez restreint (une cinquantaine dlves de 3e ) ce qui peut contribuer expliquer la faiblesse de certaines des valeurs observes. En effet, les corrlations varient entre .77 et .43 comme nous lindique le tableau 5.4. Lobtention de valeurs infrieures .70 peut paratre surprenante car il sagit bien ici de comparer deux versions diffrentes (1974 et 2002) du mme test. Cet aspect est signal dans le manuel :
291
Tableau 5.4 Corrlations entre les subtests de la DAT et les subtests de la DAT 5. Raisonnement Verbal Raisonnement Numrique Raisonnement Abstrait Relations Spatiales Raisonnement Mcanique Orthographe Grammaire .77 .43 .45 .55 .71 .65 .50
Certaines corrlations obtenues ne sont pas aussi leves que ce que lon pouvait attendre. (manuel DAT 5, p. 59).
Les auteurs du manuel proposent une explication qui repose sur les volutions temporelles entre les deux versions au niveau du contenu des items et des chantillons. Sans vouloir ngliger ces explications, la faiblesse de certaines corrlations (par exemple,.45 pour le Raisonnement Abstrait) devrait amener les auteurs envisager une autre exprimentation sur un chantillon plus vaste de sujets. Enfin une dernire tude de validit, validit critrie, porte sur les liaisons entre DAT5 et rsultats scolaires. partir des moyennes annuelles en mathmatiques et en franais dlves de 3e , on observe des valeurs satisfaisantes : .54 entre le Franais et le Raisonnement Verbal (R.V) et .63 entre les mathmatiques et le Raisonnement Abstrait (R.A). Une valeur plus leve (.68) est obtenue, comme ctait dj le cas dans la version amricaine, entre deux scores composites : un indicateur RV + RN et un indicateur composite scolaire (Franais + Mathmatiques). Toutes ces valeurs indiquent un bon niveau de validit prdictive de la batterie DAT5.
Une seule tude porte sur cet chantillon. Elle concerne lanalyse interne des intercorrlations. On observe ici des variations un peu moins leves que celles observes sur lchantillon scolaire avec des valeurs de .15 (entre Relations Spatiales et Orthographe) .62 (entre Orthographe et Grammaire), mais on retrouve globalement le mme patron de rsultats (par exemple des valeurs autour de .55 entre les trois principales preuves de raisonnement).
292
La standardisation
La passation Le matriel DAT 5 se compose dun manuel (81 pages), de livrets de passation et de grilles de cotation. Il ny a pas de feuille de passation (except pour lpreuve de Vitesse de Perception) : le sujet rpond directement sur le cahier de passation. Le matriel est de type papier-crayon, destin une utilisation collective mais bien entendu, comme tout test collectif, une utilisation en individuelle est possible. Les huit preuves sont organises en cinq cahiers : le cahier 1 regroupe les trois aptitudes principales (Raisonnement Verbal, Numrique et Abstrait), les subtests Orthographe et Grammaire sont regroupes dans le cahier 2, les autres aptitudes tant sur des cahiers spars. Les consignes et les exemples de chaque preuve figurent au dbut des cahiers de passation. Sont indiqus galement au sujet le nombre dexercices (ditems) et le temps de passation. Les temps varient de 6 minutes (VPP) 20 minutes selon les preuves.
La cotation La cotation est trs rapide : elle seffectue partir de grilles de correction transparentes que lon superpose aux rponses des sujets. On attribue 1 point pour chaque bonne rponse afin dobtenir un score brut pour chaque subtest valu. Le psychologue peut galement additionner le score brut Raisonnement Verbal et le score brut Raisonnement Numrique pour obtenir un score composite (RV + RN). Au total, le sujet peut donc tre caractris par neuf scores.
Les talonnages Les talonnages comportent onze classes (de 0 10). Aucune indication nest cependant fournie concernant le type dtalonnage qui a t utilis. Par dduction on suppose quil sagit dun talonnage normalis en 11 classes, mais cest au psychologue de le dcouvrir ! Rappelons quil existe deux types dtalonnages (les talonnages normaliss et les talonnages par quantilage), et quil est ncessaire de connatre le
293
type dtalonnage qui est propos dans le manuel afin dviter des erreurs dinterprtation (voir chapitre 2 de ce livre si ncessaire). Les auteurs nindiquent pas non plus les proportions thoriques de sujets de chaque classe, ce qui ne facilite pas la tche du praticien. Rappelons que dans ce type dtalonnage la classe centrale (ici la classe 5) regroupe toujours leffectif les plus important (ici 15,9 %), avec une diminution progressive de la proportion de sujets au fur et mesure que lon se dplace vers les classes extrmes, avec par exemple ici1 14,6 % dans la classe 4 (ou 3) mais 3,6 % dans la classe 10 (ou 0). Les talonnages portent sur deux types de population, adolescents scolariss et adultes, avec distinction entre plusieurs niveaux de formation : disponibles : 3e , 2e , 1re /Terminale, et enseignement professionnel ; Concernant les talonnages adultes : trois niveaux : CAP/BEP, Baccalaurat et talonnage total. Pour certains talonnages adolescents , (lorsque les diffrences sont significatives), figurent des talonnages spars par sexe. Cest le cas principalement du Raisonnement Spatial ou encore de Vitesse et Prcision. Une fois ltalonnage slectionn (il doit tre le plus proche possible des caractristiques du sujet) il ne reste plus qu transformer chaque score brut en score talonn. Comme dans les autres preuves, il peut tre intressant de confronter les rsultats dun sujet plusieurs populations de rfrence.
Linterprtation des scores de la DAT5
Concernant les talonnages adolescents , quatre niveaux scolaires sont
Mise part la recommandation de tenir compte de lerreur de mesure2 , les auteurs du manuel de la DAT5 ne fournissent aucune information concernant lanalyse des rsultats : ni mthode dinterprtation des rsultats, ni tude de cas. Nous proposons donc ici une procdure dinterprtation des scores en quatre tapes, globalement semblable celle propose dans les autres batteries : de la prise en compte des rsultats de chaque subtest
1. Le lecteur pourra se rfrer au tableau 2.3 du chapitre 2 de ce livre pour connatre prcisment les effectifs thoriques de chacune des classes. 2. Les auteurs proposent un exemple de calcul et de prise en compte de lerreur de mesure (manuel, p. 19)
294
linterprtation du profil des rsultats en rapport avec les objectifs de lvaluation. Propositions de procdure dinterprtation des scores de la DAT tape 1 : Analyse de chaque score talonn Le psychologue commencera par reporter les notes brutes et les scores talonns dans le tableau de profil situ sur la premire page du cahier 1. tonnamment ne figure pas, dans ce tableau, un emplacement pour le score composite RV + RN alors mme que le psychologue dispose dtalonnages pour ce score. Est-ce un oubli ? Le psychologue devra rajouter manuellement une ligne ce tableau pour y faire figurer cet indicateur. Pour chaque aptitude value, la performance du sujet peut varier de 0 10. Comment interprter ces valeurs ? Nous proposons de regrouper des scores comparables1 . Rappelons quavec un talonnage en 11 classes normalises, un score situ dans la classe centrale (classe 5) correspond un score moyen. On interprtera de la mme manire un score talonn de 6 (lgrement au-dessus de la moyenne) ainsi quun score de 4 (lgrement en dessous de la moyenne). Il faut se rappeler que ces trois classes centrales (4, 5 et 6) regroupent prs de 50 % des sujets2 . Un score situ dans lune de ces trois classes indique donc que la performance du sujet se situe dans la moyenne de lchantillon de rfrence. Les scores infrieurs pourront tre qualifis de faibles (scores 2 et 3), voire trs faibles (scores 0 et 1) et, symtriquement, les scores suprieurs pourront tre qualifis dlevs (scores 7 et 8), ou trs levs (scores 9 et 10). Si le psychologue souhaite tre plus prcis, il peut estimer la proportion de sujets qui obtient une note plus leve, ou moins leve, que celle du sujet valu. Comment interprter par exemple un score talonn de 3 ? On peut dj indiquer que cest un rsultat faible, trs infrieur la moyenne. Ensuite on peut estimer la proportion de sujets qui se situe
1. Ce qui est galement une manire de tenir compte de lerreur de mesure. 2. 45,1 % trs exactement (14,6 + 15,9 + 14,6 = 45,1 %)
295
en dessous, et au dessus, de ce score1 : seulement 15,8 %2 des sujets obtiennent un score plus faible, 11,6 % (proportion de la classe 3) obtiennent un score comparable, et 72,6 % des sujets obtiennent donc un score suprieur. Ces lments confirment bien la faiblesse dun score talonn de 3. Bien entendu, la mme dmarche sapplique pour les scores levs. tape 2 : Analyse du profil Il faut distinguer ici deux types de comparaison : interindividuelles et intra-individuelle. Dans une comparaison interindividuelle le psychologue sera sensible aux scores qui atteignent ou dpassent un certain seuil, par exemple la note de 7, et qui reprsentent les points forts du sujet, comparativement aux autres sujets de ltalonnage. linverse, les scores gaux ou infrieurs 3 peuvent tre considrs comme des points faibles. Dans une comparaison intra-individuelle, le psychologue sera sensible au trac du profil plus quaux valeurs des scores. Il sagit ici de reprer les valeurs leves, et les valeurs faibles, mais en rfrence cette fois non pas aux scores de ltalonnage mais aux autres scores du sujet (sa moyenne personnelle). Ainsi, par exemple, pour un sujet qui nobtient pas globalement de bons rsultats dans la comparaison interindividuelle (avec des scores situs par exemple entre 2 et 5 selon les subtests) le psychologue sera attentif au profil et aux scores extrmes (ici les scores 5 et 2) qui dtermineront les points forts, et faibles, du profil du sujet en rfrence cette fois lensemble de son profil.
tape 3 : Analyse du score composite RV + RN Rappelons que ce score composite prsente une bonne qualit prdictive par rapport aux acquisitions scolaires. Le psychologue interprtera ce score dans ce sens et dans une comparaison interindividuelle. tape 4 : Analyse des relations entre aptitudes values et activits professionnelles Le psychologue trouvera dans le manuel (p. 5 12) des prcisions sur ce qui est valu dans chaque subtests ainsi que des informations
1. Voir tableau 2.3 du chapitre 2. 2. Si on additionne les pourcentages des classes 0, 1 et 2 on obtient 3,6 + 4,5 + 7,7 = 15,8 %
296
succinctes concernant les liaisons entre ces aptitudes et certaines activits professionnelles. Par exemple, pour le Raisonnement Verbal il est signal :
Ce test peut tre utilis pour aider prdire le succs scolaire mais aussi le russite dans certaines disciplines telles que le commerce, le droit, le journalisme, lenseignement, les sciences. (manuel, p. 6).
Dans le cadre dune pratique de conseil, mais dans une moindre mesure, dans le cadre dune pratique de slection, il ne sagit pas, comme nous lavons dj signal propos des autres batteries, de rechercher une parfaite adquation entre le profil du sujet et les activits professionnelles exerces et/ou envisages, mais plutt daider le sujet prendre conscience des ventuels dcalages qui peuvent exister entre son projet professionnel et lestimation de ses aptitudes. Ces dcalages pouvant dailleurs faire lobjet dchanges avec le sujet lors de la procdure de restitution des rsultats.
Conclusion sur la DAT5
Directement adapte dune preuve amricaine, la batterie DAT5 est une batterie assez complte, particulirement bien adapte des publics scolaires (de niveau 3e Baccalaurat). Utilise dans sa totalit elle permet de caractriser chaque sujet selon huit scores daptitudes et selon un score composite supplmentaire. Les diffrents subtests peuvent tre utiliss sparment, ce qui offre une grande souplesse dutilisation. Ses qualits psychomtriques sont globalement satisfaisantes, mais on peut regretter le manque dinformations concernant linterprtation des scores, et tout particulirement labsence dtudes de cas.
TROISIME PARTIE
Utilisation des tests dintelligence
CHAPITRE 6
De la mesure des performances lanalyse des stratgies
Sommaire
L L L L
1. La notion de stratgie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Vicariance et affordance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Comment identifier les stratgies ? . . . . . . . . . . . . . . . . . . . . . . . . . . 4. De lanalyse des stratgies dans lpreuve des cubes de Kohs au logiciel SAMUEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Page 302 Page 305 Page 307
Page 311
301
OBJECTIF principal des tests, et plus prcisment des tests daptitude, est de diffrencier les sujets sur une dimension dfinie, relativement stable, comme, par exemple, laptitude cognitive gnrale (ou facteur g ), ou une aptitude spcifique. Cette diffrenciation, que permet la sensibilit des preuves, porte sur le niveau de performance observ (le ou les scores) dans une tche prcise (les items du test). Cette approche quantitative de la variabilit interindividuelle reprsente le principe gnral de la mesure dans les tests que nous avons prsent dans les chapitres prcdents. Nous aborderons maintenant dans ce chapitre les principaux lments dune autre approche des diffrences individuelles, une approche plus qualitative qui peut reflter lvolution de la psychologie diffrentielle de ces dernires annes. En effet, nous sommes passs dune analyse de la variabilit interindividuelle en terme defficience et de niveau de performance (lie au courant psychomtrique et la mthode des tests) lanalyse des diffrences interindividuelles en terme de fonctionnement cognitif. Ce dernier type de diffrences permettant ventuellement dexpliquer les variations observes en terme defficience :
Les diffrences de performances peuvent sexpliquer dabord, dans une chane causale quil convient dexploiter maillon aprs maillon, par la mise en uvre de modalits de fonctionnement diffrentes chez des individus diffrents confronts la mme situation. (Reuchlin, 1990a, p. 15).
Cette approche peut tre qualifie de cognitivo-diffrentielle . Elle prsente de nombreux points communs avec, dune part, lapproche intgrative1 propose par dautres chercheurs (Rozencwajg, 2005 et 2003), et, dautre part, avec lapproche du diagnostic cognitif2 (Richard, 1996). Lobjectif de cette approche nest donc plus de diffrencier les sujets (uniquement) sur leur niveau de performance mais de les caractriser galement sur les modalits de ralisation de cette performance, sur la singularit de leur fonctionnement cognitif, et plus prcisment, comme nous allons le prsenter ensuite, sur leur(s) stratgie(s) de rsolution.
1. Lapproche intgrative consiste identifier les diffrents aspects du fonctionnement au sein de tches complexes par lidentification des stratgies de rsolution. Ces stratgies, qualitativement diffrentes, sont rvlatrices de fonctionnements individuels diffrents. (Rozencwajg, 2005, p. 105). 2. Le diagnostic se rattache une approche diffrentielle de ltude des processus cognitifs. (Richard, 1996, p. 4).
302
Les recherches dans ce domaine sont nombreuses (voir par exemple louvrage Perspectives diffrentielles en psychologie, Loarer et al. 2008) mais lcart est important entre rsultats de recherches et applications concrtes. Bien que lon dispose maintenant dune assez grande varit de situations dvaluation permettant dillustrer ce type de diffrences individuelles, ces situations relvent le plus souvent dpreuves exprimentales et on ne dispose pas encore de versions rellement utilisables, cest--dire de tests dits, valids et talonns. En effet, le passage est souvent difficile entre les recherches et les pratiques.
Dans le domaine de lintelligence, les mthodes de diagnostic cognitif restent, pour linstant, du domaine de la recherche , observaient dj Huteau et Lautrey en 1999a (p. 247).
Pourtant llaboration de ce type de test prsenterait un grand intrt :

Il semble (...) quil y ait beaucoup attendre dpreuves construire celles-l qui caractriseraient les individus selon les stratgies quils utilisent. (Huteau, 1985b, p. 83).
Le logiciel SAMUEL (Rozencwacg, Corroyer et Altman, 1999, 2001), que nous prsenterons en fin de chapitre, constitue sans aucun doute lexception qui confirme la rgle car il permet dvaluer les stratgies de rsolution des sujets dans une preuve informatise de type cubes de Kohs. Avant de prsenter ce test, et les tudes exprimentales sur lesquelles il repose, il nous faut prciser davantage cette notion de stratgie de rsolution.
1.
La notion de stratgie
Lorsquon observe plusieurs individus accomplissant la mme tche, on constate souvent en effet quils ne procdent pas tous de la mme faon. On dira quils nutilisent pas tous la mme stratgie. (Reuchlin, 1997, p. 117).
Les situations de tests dintelligence peuvent tre considres comme des situations typiques de rsolution de problme dans lesquelles il est possible dobserver de telles diffrences entre individus (Richard et Zamani, 1996). Le test des cubes de Kohs en est un bon exemple, mais on pourrait galement citer le test du Passalong (voir par exemple les travaux de Beuscart-Zphir,
303
Anceaux, Duhamel et Quentin, 1996 et ceux de Richard et Zamani, 1996) ou encore le test D70 (voir par exemple les travaux de Rmy, 2001a). Dans ces situations, o lattention va se dplacer de lanalyse de la performance vers lanalyse de la rsolution, lvaluation portera sur lactivit du sujet pendant toute la passation, et non plus seulement sur ses rsultats :
Lidentification des processus de traitement sappuie ici sur lobservation en temps rel du droulement de la conduite du sujet en train de rsoudre les items du test. (Huteau et Lautrey, 1999a, p. 239).
Le niveau de prcision de cette analyse peut varier et aura comme consquence dapporter quelques nuances cette dfinition :
Si lanalyse est peu pousse la stratgie pourra tre assimile un type dopration, une opration ralise plus ou moins efficacement, ou encore, si on met laccent sur la prparation de lactivit, une attitude. La stratgie ne caractrise plus vraiment la structure de lactivit mais plutt son allure gnrale. (Huteau, 1985b, p. 71)
Ainsi, selon le niveau danalyse, la stratgie peut tre un type dopration mentale, une squence doprations (suite doprations mentales) ou encore une attitude. Pour Reuchlin, stratgie et procdure de rsolution semblent tre synonymes :
Des individus diffrents emploient souvent des procdures (on dit aussi des stratgies ) diffrentes pour excuter la mme tche. (Reuchlin, 1997, p. 107)
Cette diversit de stratgie, cette redondance de fonctionnement, est directement lie, pour ce mme auteur, la diversit des processus mentaux :
Cette diversit des stratgies peut tre attribue la diversit des processus mentaux qui sous-tendent lexcution de la tche. (Reuchlin, 1997, p. 117)
Cette diversit, aussi bien au niveau des processus mentaux que des stratgies, permet alors des individus diffrents dutiliser des moyens diffrents dans la rsolution dune mme tche :
Des composantes ou processus diffrents peuvent tre mis en uvre par des stratgies diffrentes permettant toutes de rsoudre le problme pos. (Reuchlin et Bacher, 1989, p. 136)
Lautrey rapproche galement ces deux notions, stratgies et processus, dans la situation de rsolution de problme :
304
lchelle du temps de la rsolution de problmes, on parle gnralement de diffrences de stratgies pour dsigner ces diffrences dans le choix des processus. (Lautrey, 1995, p. 8)
Enfin, distinguer les sujets sur des diffrences de stratgies, sur des diffrences de processus, cest les diffrencier sur des variables qualitatives :
Nous rservons lexpression diffrences de stratgie des diffrences qualitatives dans la nature des processus mobiliss pour rsoudre un mme problme. (Huteau et Lautrey, 1999a, p. 232)
Ces dfinitions de la notion de stratgie permettent de prciser ce qui va constituer ici lobjet mme de lvaluation. Cette approche, applique la rsolution ditems de tests, peut se prsenter ainsi : il est possible que des sujets diffrents, face un mme item, mettent en place des stratgies diffrentes pour aboutir finalement au mme rsultat (la bonne rponse). Ce type danalyse nest jamais (ou quasiment jamais) effectu dans les tests disponibles actuellement. Pourtant, bien avant les propositions que nous venons rapidement de prsenter (et qui datent des annes 1980-1990), des auteurs se sont intresss la dmarche du sujet, aux procdures de rsolution ditems de tests. Par exemple dans les annes 1930, Kreutz (1934) va consacrer un article la problmatique de linconstance des tests. Son objectif est diffrent de celui expos dans ce chapitre, il ne sagit pas pour lui dtudier finement les dmarches de rsolution pour en faire un objet dtude, mais il souhaite les analyser afin de rduire les sources de variations individuelles et ainsi, rduire lerreur de mesure (suivant lapproche psychomtrique classique dominante cette poque). Certaines de ses rflexions nous apparaissent encore trs pertinentes aujourdhui et semblent annoncer les principes dune analyse cognitivo-diffrentielle que dautres auteurs proposeront plus tardivement. Il note ainsi que :
Les tches mme les plus simples en apparence, peuvent tre rsolues trs diffremment (...) Le moyen de rsoudre la tche est important connatre, vu que les comportements diffrents mobilisent des aptitudes diffrentes ; par consquent, si lon ignore le moyen de rsoudre la tche, il est impossible dinterprter correctement le rsultat. (Kreutz, 1934, p. 229)
Mais au lieu de sintresser plus prcisment cette variabilit il cherche alors la rduire et propose par exemple de fixer la faon dagir, la technique du sujet (p. 234) de faon rendre comparable les rsultats. Et si certains tests ne permettent pas cette uniformisation de la dmarche de rsolution il faut les retirer de la circulation (p. 235) !
305
Pour pouvoir fixer cette modalit de rsolution il faut commencer par recenser les diffrentes stratgies possibles :
Daprs une analyse approfondie du test, connatre tous les moyens possibles de le rsoudre. (p. 235)
Plus de 70 ans plus tard, en relisant ces propositions nous pourrions nous demander si les principes de lanalyse cognitivo-diffrentielle ntaient pas dj noncs par Kreutz en 1934, mme si nous ne reprenons pas notre compte toutes ses conclusions.
2.
Vicariance et affordance
Dans un article de 1978, Maurice Reuchlin prsente avec le modle de la vicariance, un cadre conceptuel visant expliquer les diffrences individuelles. Il propose de considrer quun mme individu dispose de plusieurs processus vicariants (processus pouvant se substituer les uns aux autres) pour laborer sa rponse et sadapter une situation. Chaque sujet disposerait ainsi dun rpertoire1 intra-individuel de processus vicariants. Le recours tel ou tel processus pourrait varier selon les individus certains de ces processus tant plus vocables chez un individu donn ce qui permettrait dexpliquer les diffrences interindividuelles observes au niveau de la performance, tous les processus ntant pas quivalents en terme defficacit. Ainsi les individus pourraient tre diffrencis sur leur hirarchie dvocabilit des processus, en raison de la diversit gntique interindividuelle et la diversit des histoires individuelles (Reuchlin, 1978, p. 135). Cette pluralit de processus permet alors au sujet de sadapter diffrentes situations : les processus mis en uvre par un mme sujet pouvant tre diffrents dans des situations diffrentes. Pour Reuchlin il sagit dun modle probabiliste, qui pourrait tre formalis ainsi : pour un individu I plac dans une situation S, le processus P a une certaine probabilit dtre voqu , et qui distingue deux types de paramtres : individuels et situationnels. Pour les paramtres individuels, Reuchlin envisage lexistence dune certaine stabilit dans le fonctionnement :
Il se trouve, pour des raisons encore mal dfinies, que chaque individu, mme sil dispose potentiellement de tout le rpertoire procdural
1. On trouve aussi dans la littrature le terme catalogue .
306
caractristique de son espce, accorde de faon relativement stable une priorit dvocation plus ou moins forte certains de ces processus vicariants. (Reuchlin, 1990a, p. 20.)
Cette stabilit peut permettre alors didentifier la stratgie prfrentielle du sujet, pour une classe donne de situations. Concernant les paramtres situationnels, ils vont agir sur le niveau defficacit des processus, et au final, sur le niveau de performance des sujets :
Dans une situation dtermine, tous ces processus ne seraient pas galement efficaces : ils seraient plus ou moins coteux pour le mme niveau dadaptation ou auraient des probabilits ingales de conduire la russite. (Reuchlin, 1978, p. 135.)
Ces propositions de Reuchlin vont avoir des retombes importantes dans les recherches en psychologie diffrentielle : nombre de chercheurs vont ainsi utiliser ce modle, ou des aspects de ce modle, pour expliquer des diffrences inter (et intra) individuelles observes dans diffrents types de situation. Par exemple, pour Lautrey :
Cette notion de vicariance offre un cadre conceptuel intressant pour rendre compte des diffrences individuelles qui ont t appeles qualitatives (...) cest--dire des diffrences tenant ce que les individus peuvent rsoudre un mme problme par des processus diffrents, des stratgies diffrentes. (Lautrey, 1999, p. 54)
Ohlmann va sintresser tout particulirement au second type de paramtre avec la notion daffordance (Ohlman, 1991, 1995). Ses recherches concernent plus prcisment les effets des caractristiques de la situation sur les stratgies utilises par les sujets. Pour cet auteur, lobservation de diffrences interindividuelles en terme de stratgies ne peut se raliser que dans certaines conditions, situations dites contrainte faible, qui laissent une marge de libert au fonctionnement individuel des sujets. Dans ces situations lexpression de diffrences interindividuelles stratgitaires est alors possible. Par contre, dautres situations, niveau de contrainte plus lev, ne seraient pas propices lexpression de ces diffrences. Chaque situation peut donc tre caractrise par son niveau de contrainte, et cest ce niveau qui va dterminer les possibilits dexpression de stratgies diffrentes. Pour caractriser les situations, Ohlmann propose dutiliser la notion daffordance, concept propos par Gibson en 1979 dans le domaine de la perception. Ohlmann nous en propose une premire dfinition en 1990 :
307
Cest une possibilit daction tablie partir des relations entre un organisme et son environnement. (Ohlmann, 1990b, p. 425.)
Dfinition quil complte un peu plus tard :

Le concept daffordance pourrait se dfinir comme la perception dune utilit. Autrement dit, pour un organisme insr dans un environnement, cest la possibilit deffectuer une action finalise. (Ohlmann, 1991, p. 212.)
Ainsi les affordances perues/cres par le sujet vont dpendre des caractristiques de la situation. Mais, situation identique, elles peuvent diffrer en fonction des sujets. Ohlmann propose donc une approche diffrentielle de la notion daffordance :
On peut suggrer aussi que des individus diffrents quoique dune espce identique tireront dun environnement identique des affordances diffrentes. Autrement dit, selon litem qui est plac en tte de catalogue individuel de processus, les proprits utiles du milieu seront perues diffremment. (Ohlmann, 1991, p. 214-215.)
Les recherches dOhlmann vont alors porter principalement sur ces interactions individu-situation dans la cognition spatiale, et plus prcisment sur lanalyse des conduites posturales et des situations de conflit vision/posture (Ohlmann, 1990a, 1990b, 1991, 1995, 2000).
3.
Comment identifier les stratgies ?

Identifier la stratgie de rsolution dun sujet dans une tche donne ncessite de disposer pralablement de donnes fiables concernant les lments suivants :
Connatre toutes les possibilits de rsolution (lister lensemble des
stratgies possibles), ; Slectionner les indicateurs pertinents pour chacune de ces stratgies ; laborer un dispositif adapt de recueil de donnes. Nous avons vu prcdemment que, ds 1934, Kreutz proposait dobserver les diffrents modes de rsolution des items de test. Il envisageait alors trois possibilits mthodologiques : 1 Recourir lintrospection ;
308
2 Observer les conduites en cours de rsolution ; 3 Procder une analyse raisonne du test (on pourrait dire aujourdhui une analyse cognitive du test) afin de reprer les diffrentes possibilits de rsolution (Kreutz, 1934, p. 238). Nous pouvons retrouver des liens entre ces trois pistes de Kreutz et diffrentes mthodologies utilises actuellement dans les recherches. Nous ne prsenterons ici que trois exemples, lun, lanalyse des temps de rponse, car cest sans doute historiquement lune des premires mthodes employes, les deux autres, lanalyse dynamique de la rsolution et la cration dun matriel spcifique, car ils sont directement lis lexemple de lpreuve SAMUEL que nous prsenterons ensuite.
Lanalyse de la structure des temps de rsolution
Cette mthode chronomtrique a t largement utilise ds les premires recherches de psychologie cognitive diffrentielle partir du postulat suivant : des traitements (stratgies) diffrents vont se diffrencier par des patrons diffrents de temps de traitement. La validation des modles thoriques des stratgies (modles stratgitaires) reposera sur lanalyse des temps de prparation et/ou de rsolution. Ainsi on a montr, par exemple dans des tches de rotation mentale, que lutilisation dune stratgie analogique (image) pouvait se reprer par une liaison linaire entre le temps de rsolution et la valeur de langle de rotation de la figure tandis que dans le cas de lutilisation de la stratgie propositionnelle, le temps de rsolution nest pas en relation directe avec langle de rotation (voir par exemple Gilles, 1991 et 1993). Mais le caractre univoque de la signification des temps de rponse a t remis en cause en raison de deux critiques principales (Marquer et Pereira, 1987, 1990) :
un mme patron temporel peuvent correspondre des traitements
diffrents ; Des patrons identiques peuvent traduire des traitements diffrents. partir danalyses de rsultats de recherches, ces auteurs nous indiquent bien que ce type dindicateur nest pas toujours valide.
309
Lanalyse dynamique de la rsolution
Cette mthode, qui consiste suivre pas pas la dmarche du sujet dans la rsolution du problme, a t trs utilise pour ltude de la rsolution ditems de tests. Plusieurs mthodes de recueil des donnes sont utilisables : ltude des mouvements oculaires ; lenregistrement vido ; lautomatisation du recueil des variables. Nous prsentons quelques recherches qui illustrent ces diffrentes mthodologies.
Ltude des mouvements oculaires Dans une tude portant sur la rsolution des Progressives Matrices de Raven (Carpenter, Just et Shell, 1990), les auteurs vont analyser les procdures de rsolution des sujets partir des donnes suivantes : temps de rsolution, erreurs, verbalisation des rgles trouves en cours de rsolution et mouvements oculaires pendant la rsolution. Cette dernire variable leur permet danalyser trs finement les regards des sujets, et la dynamique de ces regards, afin, par exemple, de savoir quelles sont les matrices les plus regardes, quelles sont celles qui subissent le plus dallers-retours visuels... et de comprendre alors la dynamique de rsolution du sujet dans la dcouverte des rgles de transformation des lments de la matrice. Les auteurs montrent ainsi que les sujets dcomposent souvent le problme global en plusieurs problmes plus lmentaires (comme la recherche de la rgle de progression entre deux lments). Les auteurs laborent alors un programme informatique (Fairaven) cens simuler la procdure de rsolution des sujets les moins performants, puis un second programme (Bettaraven) adapt la procdure de rsolution des sujets les plus performants. On peut considrer ces deux programmes comme reprsentatifs des deux types de stratgies de rsolution, la seconde tant la plus efficace.
Lenregistrement vido des passations Une observation directe de la conduite du sujet en temps rel est assez difficile raliser, mme laide de grille dobservation, car les informations prendre en compte sont trs nombreuses. Un enregistrement vido permet
310
le recueil de toutes les observations dordre comportemental qui pourront ensuite tre analyses et codes afin de fournir des indicateurs caractristiques des stratgies utilises par les sujets. Une telle mthodologie a t utilise, par exemple, dans la rsolution des cubes de Kohs (Beuscart-Zphir et Beuscart, 1988 ; Rozencwajg, 1991). Ces recherches confirment lexistence de plusieurs stratgies dans cette preuve (nous dvelopperons plus loin ces tudes).
Lautomatisation du recueil des observables Lenregistrement vido des passations, sil prsente de nombreux avantages, comporte galement des inconvnients, en particulier une lourdeur mthodologique (camras, codage des bandes vidos...) qui limitent son utilisation. Des chercheurs ont alors envisag dautomatiser le recueil des donnes, soit en conservant la situation mais en utilisant un dispositif lectronique qui enregistre les donnes (voir par exemple Beuscart-Zphir et Beuscart, 1989, et Beuscart-Zphir et al., 1996, sur lpreuve du passalong ), soit en informatisant la tche (voir par exemple Rozencwajg, Corroyer et Altman, 1999, et Houssemand, 1999a et 1999b, sur lpreuve des cubes de Kohs ; Richard et Zamani, 1996, sur lpreuve du passalong ). Dans le premier cas, la situation est strictement la mme pour le sujet (en comparaison des modalits de passation classique de lpreuve), par contre, dans le second cas, lpreuve est profondment modifie de part linformatisation (transformation de la relation sujet/tche du test par la mdiation de lordinateur, passage en deux dimensions...). Ces procdures dautomatisation du recueil des donnes ne consistent pas uniquement automatiser la passation et la correction (comme cest simplement le cas dans la grande majorit des tests informatiss) mais permettent de recueillir de manire automatique plusieurs types dindicateurs stratgitaires pertinents pour caractriser les diffrentes stratgies (temps de rsolution, cart temporel entre deux actions, ordre des actions...). partir de ces indicateurs il est possible dlaborer des modles thoriques des stratgies, voire de raliser un diagnostic automatique de la stratgie utilise par le sujet (voir plus loin lexemple du logiciel SAMUEL).
311
La cration dun matriel spcifique
Une approche originale pour reprer la stratgie des sujets a t propose et mise en uvre par Rmy (2001a et 2001b). la suite des premiers travaux de Dickes et Martin sur le test D70 (Dickes et Martin, 1998), dans lesquels ces auteurs proposent une catgorisation des items des tests de type dominos (voir chapitre 4), Rmy va laborer une preuve originale reposant sur des items pouvant tre rsolus selon deux logiques diffrentes : soit par une stratgie spatiale, soit par une stratgie numrique. Et ce qui fait loriginalit de cette approche cest que la rponse du sujet ces items (nomms items quipotents1 ) sera diffrente selon la stratgie quil a utilise. Autrement dit, il y a pour chaque item deux bonnes rponses, chacune tmoignant de lutilisation dune stratgie dfinie. Linfrence de la stratgie utilise par le sujet prsente donc ici toutes les garanties dobjectivit car la rponse est univoque et dpend entirement (en cas de bonne rponse) de la procdure utilise. notre connaissance il nexiste pas de version utilisable de cette preuve. Un second exemple de cration de matriel spcifique porte sur lpreuve des cubes avec la cration dun logiciel, SAMUEL, dont lobjectif principal consiste valuer la stratgie utilise par le sujet. Ce sera lobjet de la partie suivante.
4.
De lanalyse des stratgies dans lpreuve des cubes de Kohs au logiciel SAMUEL
Lanalyse des stratgies dans lpreuve des cubes
Lpreuve des cubes de Kohs est une preuve trs connue des psychologues. Rappelons quelle a donn lieu de multiples versions et de nombreuses recherches (Chartier, 2002a). Nous nous intresserons tout particulirement dans cette partie aux donnes concernant lanalyse des stratgies de rsolution. Wechsler, qui avait introduit un subtest cubes ds les premires versions de ses chelles dintelligence, notait ds 1944 (Wechsler, 1956 pour la
1. Items permettant lutilisation des deux stratgies (soit lune, soit lautre) pour arriver la bonne rponse.
312
traduction franaise) quil existait une liaison entre la faon dont les sujets se reprsentaient le modle et le niveau de russite lpreuve :
Assez curieusement, les individus russissant le mieux ce test ne sont pas ceux qui voient, ou tout au moins suivent, le modle comme un tout, mais ceux qui sont capables de le fractionner en petites portions. (Wechsler, 1956, p. 113)
Et cette diffrence interindividuelle dans la reprsentation mentale du modle peut avoir une incidence sur la mthode utilise par le sujet :
Nous avons dj mentionn la question des diffrences dans la mthode pouvant tre employe pour faire les dessins, savoir, suivre la figure ou au contraire la dcomposer en ses lments (Wechsler, 1956, p. 114).
Wechsler distinguait ainsi deux grands types de rsolution, que lon retrouvera ensuite dans les recherches ultrieures : soit suivre limage , stratgie qualifie ensuite de globale ; soit sparer le dessin en ses parties constituantes (p. 113), stratgie appele par la suite analytique. Cette variabilit possible dans la rsolution de la tche explique que, pour Wechsler :
Le test de cubes colors est non seulement un excellent test dintelligence gnrale, mais un de ceux qui se prtent admirablement lanalyse qualitative. (Wechsler, 1956, p. 114)
Ces premires observations de Wechsler rejoignent celles de Goldstein et Scheerer qui distinguaient galement, dans la mme priode, deux approches possibles dans la rsolution de cette tche : une approche concrte et une approche abstraite (Goldstein et Scheerer, 1941). Ces deux mthodes de rsolution, ces deux stratgies, sont rapprocher des deux principaux types de traitement de linformation qui ont t proposs plus tardivement par les recherches en psychologie cognitive : un traitement global et un traitement analytique. On retrouve dailleurs cette distinction global/analytique dans le manuel du Kohs, diffus par les ditions EAP1 :
Lobservation du comportement permet dapprcier la qualit de la russite ou de lchec, de caractriser le procd de construction, qui reflte
1. Lpreuve de Kohs a t diffuse la fois par les ditions EAP et par les ditions ECPA, ce qui explique lexistence de deux manuels pour ce test.
313
le niveau de comprhension ; le sujet : qui structure systmatiquement le modle : processus analytique, qui fractionne le modle en suivant le primtre, les angles, les motifs, etc : processus semi-analytique, qui procde par ttonnements, soit systmatiques, soit empiriques. (EAP, 1978, p. 36).
Ces premires propositions des annes 1950-1970 confirment bien lexistence, au moins dans cette preuve, dune possibilit de variabilit interindividuelle dans la procdure de rsolution utilise par les sujets. Pour le praticien qui sintresse ce type de diffrences, lun des problmes sera alors de pouvoir reprer la stratgie utilise par le sujet. Une rponse va tre fournie par Bonnardel en 1953, pour le test B101 (lune des versions de lpreuve de cubes), avec la prsentation dune grille dobservation de la conduite du sujet en cours dpreuve. Cette grille distingue cinq niveaux de structuration : dune analyse par range ou colonnes (catgoris en A+), des essais empiriques, dsordonns (catgoris C-). Si nous reprenons les deux types de constructions proposs par Wechsler (voir plus haut), nous pouvons rapprocher la structuration de type A+ de la stratgie analytique ( sparer le dessin en ses parties lmentaires ), et la structuration de type B de la stratgie globale ( suivre limage ). Malgr son intrt, cette grille de Bonnardel ne semble pas avoir t souvent utilise1 ni dans les pratiques valuatives, ni dans les recherches. Toutes ces approches vont tre reprises dans les annes 1980 par diffrentes recherches relevant de psychologie cognitive et/ou diffrentielle qui vrifient lexistence de ces deux stratgies :
Une stratgie analytique (la plus performante) dans laquelle le sujet
procde une segmentation mentale du modle en ses composantes lmentaires (les diffrents cubes), puis identifie la face du premier cube et son orientation avant de le disposer sur laire de construction, et continue ainsi sa construction, cube aprs cube ; Une stratgie globale 2 dans laquelle le sujet est plus sensible laspect gestalt du modle, et ne parvient pas, ou trs difficilement, oprer cette segmentation mentale du modle, et procde alors, dans sa construction,
1. Nous trouvons peu de rfrences cette grille dans la littrature, mise part une prsentation dans larticle de Rozencwajg et Huteau (1996). 2. La plupart des auteurs de langue anglaise utilisent le terme synthtique pour dsigner cette stratgie, mais nous utiliserons ce terme de stratgie globale pour deux raisons : dune part cette stratgie correspond la stratgie globale dcrite par ailleurs, dautre part, Rozencwajg a propos une stratgie spcifique quelle a qualifie de synthtique et qui ne correspond pas cette stratgie globale (voir plus loin).
314
plutt par ttonnements, par essais et erreurs afin de reconstituer la forme globale perue. Nous ne reprendrons ici que les principaux rsultats des recherches. Jones et Torgesen (1981) se sont intresss lvolution des stratgies avec lge partir de lhypothse suivante : les enfants plus gs devraient utiliser prfrentiellement la stratgie la plus performante, la stratgie analytique. partir de passations vidoscopes, ils analysent finement les squences de placement des cubes (indicateurs de la stratgie utilise) mais ne constatent pas de diffrences entre les enfants de diffrents groupes dge. Schorr, Bower et Kiernan (1982) observent cette variabilit sur une population dadultes : une stratgie analytique, dans laquelle le sujet procde une dcomposition mentale du modle, et une stratgie globale, dans laquelle le sujet cherche reproduire le forme globale. Les auteurs montrent lexistence dune liaison entre le nombre dartes visibles et la stratgie analytique : plus ce nombre est important, plus la dcomposition mentale est facilite par le modle, ce qui favorise lutilisation de la stratgie analytique1 . Pour les auteurs, la stratgie analytique est, dune part, la plus employe dans leur chantillon, dautre part, la plus performante, car la plus rapide. Spelberg (1987) mne une exprience sur un large chantillon denfants (770 enfants de 6 16 ans) et trouve galement un lien entre le nombre dartes visibles, la rapidit dexcution et la stratgie analytique. Il suggre galement, la suite de Jones et Torgesen, que le choix de lune ou lautre des deux stratgies dpendrait plus de la nature du stimulus que des prfrences personnelles du sujet. Beuscart-Zphir et Beuscart (1988), dans le cadre gnral danalyse cognitive des situations de rsolution de problmes, proposent une formalisation de la tche des cubes en termes de buts et de sous-buts :
Lune des formalisations possibles est la suivante : but final : reconstitution du modle avec des cubes diffrents (ou avec des cubes identiques orients diffremment). Pour raliser ce but final, il faut savoir de combien de cubes est constitu le modle. 1r sous-but : identifier le nombre de cubes. Il faut galement savoir quel type de cubes mettre en chaque position. 2e sous-but : identifier les n cubes, rouge (r) ou blanc (b) ou mixte (m). Il faut enfin, quand cest ncessaire (faces mixtes), reprer lorientation du cube.
1. Nous pouvons relier cette observation aux propositions de Ohlmann, exposes plus haut, avec la notion daffordance.
315
3e sous-but : identifier lorientation des cubes mixtes (m). Une fois que les trois sous-buts sont atteints, le but final est directement ralisable. Si le sujet a procd lanalyse in extenso, il est capable de mettre correctement en position chaque cube. (Beuscart-Zphir et al., 1988, p. 37.)
Les deux stratgies classiques dans cette tche se diffrencient alors de la manire suivante : la stratgie analytique, la plus performante, est caractrise par lidentification des buts et sous-buts alors que pour la stratgie globale seul le but final est identifi. Le sujet sengage directement dans le processus de reconstruction. Il assemble les cubes vraisemblablement en utilisant des indices perceptifs . Lorsque les items deviennent complexes on retrouve alors la description dune stratgie par essais et erreurs . (Beuscart-Zphir et al., 1988, p. 37). On retrouve bien ici les oprations fondamentales de dcomposition mentale du modle en cubes lmentaires qui caractrisent la stratgie analytique. partir de passations vidoscopes les auteurs vont analyser les procdures de construction utilises par les sujets. Ils distinguent ainsi trois types de construction :
Une procdure dans laquelle les sujets positionnent directement les faces
correctes des cubes au bon endroit (donc peu de manipulation et rapidit dexcution) qui peut correspondre soit une stratgie globale russie, soit une stratgie analytique ; Une procdure comportant plus de manipulations, plus longue, avec des corrections, qui semble correspondre une stratgie analytique ralise avec difficult ; Une procdure comprenant de nombreux essais dassemblages de cubes, dans laquelle le sujet ne cherche pas (ou narrive pas) laborer une reprsentation mentale du modle, procdure qui correspond une stratgie globale. Enfin, Rozencwajg (1991) et Rozencwajg et Huteau (1996) vont confirmer, sil en tait besoin, lexistence de ces deux stratgies mais surtout vont identifier lexistence dune troisime stratgie, stratgie quils nomment synthtique , qui serait une combinaison des stratgies globale et analytique. Cette stratgie consiste analyser le modle en motifs gomtriques ou gestalts (comme par exemple un triangle rouge compos de deux cubes bicolores), motifs que le sujet peut ventuellement retrouver sur plusieurs modles. Dans sa construction le sujet sappuie alors sur cette
316
reprsentation mentale et reproduit le modle prfrentiellement partir de ces motifs gomtriques. La figure 6.1 prsente ces motifs gomtriques.
Gestalt lmentaire : le triangle Gestalt lmentaire : la bande Gestalt complexe : le losange Gestalt complexe : le bande
Modle a
Modle b
Modle c
Modle d
Figure 6.1 Les formes gomtriques lmentaires (gestalts) identifies par Rozencwajg (daprs Rozencwajg, 2005, figure 10, p. 145) reproduit avec laimable autorisation de lauteur.
Ces formes gomtriques peuvent comporter de deux quatre faces de cubes : par exemple le triangle est compos de deux cubes, la bande est compose de trois cubes. On peut remarquer que cette procdure de construction par motif avait dj t propose en 1978 dans le manuel des EAP et qualifie alors de semi-analytique (EAP, 1978, p. 36). Dans cette stratgie synthtique, le sujet procde une autre forme de segmentation mentale, il ne dcomposerait plus (ou plus seulement) le modle en cubes lmentaires (comme dans la stratgie analytique) mais en groupements de cubes formant une forme gomtrique particulire (triangle de 2 cubes, losange de 4 cubes, bande de 3 cubes...). Pour les auteurs, cette stratgie est plus performante que la stratgie analytique car elle permettrait au sujet de ne pas traiter tous les cubes isolment et davoir de ce fait moins dinformations prendre en compte (Rozencwajg et Huteau, 1996, p. 59). la suite de passations vidoscopes quatre principaux indices ont t retenus pour caractriser ces trois stratgies : placement des cubes, frquence du contrle visuel, qualit des squences qualit de lanticipation.
317
Les trois stratgies identifies (globale, analytique et synthtique) se diffrencient sur ces indices ainsi que sur leur niveau defficacit : les stratgies analytique et synthtique tant les plus performantes (avec une lgre supriorit de la stratgie synthtique). Les deux principales diffrences entre les deux stratgies les plus performantes concernent dune part, la frquence des regards (frquence plus faible pour la stratgie synthtique) et, dautre part, lordre de placement des cubes : dans la stratgie analytique le sujet procde prfrentiellement par un placement en ligne ou en colonne, cube par cube, dans la stratgie synthtique le sujet privilgie un ordre de placement des cubes selon les gestalts (les motifs gomtriques). Les auteurs observent galement une forte stabilit intra-individuelle de la stratgie utilise par le sujet et ils catgorisent alors les sujets sur leur stratgie dominante (ou prfrentielle). Les rsultats de Rozencwajg montrent galement une liaison entre stratgie et style cognitif D.I.C1 : les sujets synthtiques et analytiques, sont plus proches du ple dindpendance lgard du champ, alors que les sujets utilisant la stratgie globale sont plus proches du ple dpendance. Les propositions de Rozencwajg sur lexistence de la stratgie synthtique vont tre confirmes par dautres chercheurs (voir par exemple : Houssemand, 1999 ; Chartier, 1999 ; Vrignaud et Chartier, 2003). Certains sinterrogent nanmoins sur le niveau de stabilit intra-individuelle des stratgies observes et sur la possibilit de diffrences interindividuelles en terme de flexibilit (voir sur cet aspect Chartier, 1999). Enfin, il faut signaler lhypothse dune quatrime stratgie : la stratgie de rptition. Dans un important travail consacr lanalyse des procdures de rsolution dans une preuve informatise de cubes, Houssemand va montrer quil existe une mthode gnrale de rsolution des modles 9 cubes, quels que soient les sujets et quels que soient les modles :
Un placement des faces selon les lignes ou selon les colonnes (Houssemand, 1999a, p. 228).
Cette mthode correspond la stratgie analytique souvent dcrite dans les recherches. Mais cette stratgie gnrale va lui servir de rfrence pour reprer dautres stratgies, plus spcifiques (Houssemand, 1999b). Houssemand distingue ainsi la stratgie de rptition , qui consisterait reprer des
1. Dpendance/Indpendance lgard du champ perceptif (pour une prsentation voir Huteau, 2002).
318
faces identiques de cubes (et orientes de la mme faon) prsentes dans un mme modle, et les placer prioritairement la suite :
Il existe un mode de rsolution particulier, nomm stratgie de rptition, consistant en un placement prioritaire des faces rptes dans les configurations. (Houssemand, 1999a, p.272).
Cette rptition de faces, critre de redondance intra-figurale (caractristique descriptive des modles de cubes dj tudie dans le cadre de lanalyse de la difficult de la tche) serait alors support dun mode de rsolution spcifique, ventuellement automatis. Les rsultats indiquent aussi que cette stratgie de rptition nest pas observe chez tous les sujets et que son utilisation nest pas lie aux aptitudes cognitives. Nanmoins, lexistence de cette quatrime stratgie mriterait dtre confirme par dautres recherches.
Le logiciel SAMUEL de Rozencwajg
Le logiciel SAMUEL est prsent comme une preuve permettant dtablir un diagnostic cognitif1 partir dune version informatise de la tche des cubes de Kohs :
SAMUEL est une version cognitive du test des cubes de KOHS. Il oprationnalise ce que les psychologues font depuis fort longtemps dans leur pratique des cubes de Kohs, cest--dire un diagnostic cognitif qui sappuie sur des indices cliniques qui vont bien au-del du temps de rsolution et de la performance (Rozencwajg et al., 1999, p. 11)
Un psychologue mme le plus comptent, ne peut prendre en compte quun nombre limit dindices cliniques lors de la passation dune preuve. Cest tout lintrt davoir labor ce dispositif informatis qui permet le recueil et lanalyse dun grand nombre de variables (voir plus loin). Ainsi,
Samuel fournit donc un exemple, assez rare, dutilisation de linformatique pour faire dun test ancien un test vraiment nouveau apportant des informations que le test ancien ne fournissait pas. (Huteau, introduction du manuel de SAMUEL, p. II )
Cest un exemple, peut-tre le seul, dpreuve utilisable par un praticien (cest--dire dite et talonne, avec des conditions de standardisation
1. Voir le sous titre du manuel et du test Samuel. Diagnostic du fonctionnement cognitif (Rozencwajg et al., 1999).
319
dfinies...), et qui a t labore spcifiquement pour mettre en vidence des diffrences interindividuelles qualitatives (les stratgies de rsolution). Signalons que sur le site de lditeur de SAMUEL (www.delta-expert.com) il est possible de tlcharger une version de dmonstration de ce logiciel.
Principe gnral de SAMUEL1 Ce test est directement li aux rsultats des recherches de Rozencwajg (voir plus haut) et a t labor dans lobjectif de dterminer automatiquement les stratgies de rsolution dune tche de performance cognitive (Rozencwajg et al., 1999, p. 1). La procdure dvaluation est totalement informatise : de la prsentation des modles aux calculs des diffrents indicateurs de la performance du sujet. La figure 6.2 prsente la situation du test SAMUEL.
Figure 6.2 Prsentation de la situation du test SAMUEL (daprs Rozencwajg, 2005, figure 11, p. 148) reproduit avec laimable autorisation de lauteur.
La figure 6.2 reprsente un modle en cours de construction. Lcran de SAMUEL est compos de trois parties : en haut gauche, apparat (sur demande du sujet2 ) le modle reproduire ;
1. Le nom de ce test est un hommage Samuel Kohs. 2. Le sujet doit cliquer sur licne voir le modle pour que le modle apparaisse. Le modle reste affich jusquau moment o le sujet clique sur un cube. On mesure ainsi lun des indicateurs stratgitaires : la frquence des regards vers le modle.
320
droite (sur fond noir) figure laire de construction ; en bas, sont disposes les faces des cubes. laide de la souris, le sujet doit slectionner lune des faces puis la dplacer jusqu laire de construction. Aprs quelques items de familiarisation, le sujet doit reproduire quatre modles ( 9 carrs) qui comportent des formes gomtriques identifies comme gestalts par les auteurs. Bien que les caractristiques de la tche soient profondment modifies par la procdure dinformatisation (passage dun univers rel trois dimensions un univers deux dimensions, passage des cubes rels en carrs virtuels, contrainte de non rotation des carrs, obligation de manipuler un seul carr la fois, affichage du modle sur demande du sujet...), les auteurs reprennent les caractristiques des trois stratgies de rsolution prcdemment observes dans leurs recherches1 . Ainsi, partir de modlisations thoriques, les trois stratgies (globale, analytique et synthtique) sont alors identifies partir de plusieurs indices de comportement (segmentation, anticipation, frquence des regards, ordre de placement des cubes par gestalts, ordre de placement des cubes par lignes/colonnes) (Rozencwajg et al., 1999, p. 13). Le tableau 6.1 prsente les valeurs thoriques des indicateurs pour les trois stratgies.
Tableau 6.1 Profils thoriques des trois stratgies (daprs Rozencwajg et al., 1999, p. 41).
Indices stratgiques de SAMUEL Segmentation Anticipation Frquence des regards 0.20 1 0.50 Ordre de construction par gestalts 1 0.40 0.50 Ordre de construction linaire 0 1 0
Stratgie Synthtique Stratgie Analytique Stratgie Globale
1 1 0.50
1 1 0.50
Lindice de segmentation porte sur la qualit des squences (correction des erreurs), lindice danticipation affine lindice de segmentation et concerne plus particulirement la proportion de cubes placs correctement du premier
1. Bien quil nexiste pas, notre connaissance, dtudes comparatives sur lutilisation des mmes stratgies, par les mmes sujets, dans les deux situations.
321
coup. Par construction, ces indicateurs varient de 0 1 : plus la valeur est proche de 1, plus la construction est de bonne qualit. La frquence des regards sobtient en rapportant le nombre de regards du modle au nombre dactions (saisie/repose dun cube). Enfin, les deux autres indices sont relatifs au type de placement effectu par le sujet : lordre linaire correspond un placement effectu en suivant les lignes ou les colonnes, lordre par gestalt correspond un placement effectu en suivant les formes gomtriques. Plus la valeur est proche de 1, plus le placement observ correspond au placement attendu. Le logiciel va prendre en compte les valeurs de chaque indicateur pour calculer le profil personnel de chaque sujet. Ce profil sera compar aux profils thoriques afin de catgoriser le sujet par la stratgie dont il est le plus proche (Rozencwajg et al., 1999, p. 42). Il est possible dobtenir la stratgie utilise par un sujet sur chacun des items ainsi que sa stratgie prfrentielle1 . Sur leur chantillon, les auteurs retrouvent bien les trois stratgies postules. Ils observent que la stratgie globale est la plus utilise (dans 42 % des items), puis la stratgie synthtique (33 %) et enfin, la stratgie analytique (25 %). Cette rpartition volue avec lge des sujets dans le sens dune diminution progressive de lutilisation de la stratgie globale au profit de la stratgie synthtique. Ils observent galement, au niveau du groupe, des diffrences de stratgies en fonction des items : les items avec losange sont par exemple plus souvent rsolus avec la stratgie synthtique2 .
Indicateurs psychomtriques de SAMUEL Le manuel de SAMUEL (Rozencwajg et al., 1999) comporte 116 pages (annexes comprises) et comporte un certain nombre dinformations concernant linstallation du logiciel, le cadre thorique de rfrence, les qualits psychomtriques... Le lecteur y trouvera galement des tudes de cas. Concernant tout particulirement les qualits psychomtriques, sont prsentes des donnes concernant la fidlit de lpreuve, ainsi que sa validit.
1. Stratgie sur laquelle le profil du sujet prsente la distance la plus faible. 2. On retrouve ici la notion daffordanc e propose par Ohlmann.
322
Par une mthode test/retest la fidlit des indicateurs de SAMUEL a t estime : les corrlations varient de .56 .79 selon les indicateurs (daprs le tableau 62, p. 63 du manuel). Certaines valeurs semblent un peu faibles, en particulier celles concernant lordre de placement des cubes (.56 .64). Sur une partie de lchantillon dtalonnage (50 lves de niveau de 5e de collge), qui tait confronte un ensemble de tests, les auteurs observent les rsultats suivants concernant la validit de SAMUEL :
Sur un test spatial (subtest des PMA de Thurstone), comme sur un test
de facteur g (matrices de Raven) les sujets synthtiques1 obtiennent, en moyenne, un meilleur score, devant les sujets analytiques puis les sujets globaux ; Sur une preuve de DIC2 (GEFT) ce sont les sujets analytiques qui obtiennent les meilleurs rsultats, puis les sujets synthtiques et enfin les sujets globaux. Ce dernier rsultat est plutt inattendu car les auteurs pensaient retrouver un lien plus important entre dpendance/champ et stratgie synthtique (en rfrence aux premiers rsultats de Rozencwajg et Huteau, 1996). Des tudes supplmentaires seraient mener pour claircir ce point. Rappelons que ces rsultats ont t observs sur un chantillon spcifique (50 lves de collge) et quil serait souhaitable de pouvoir disposer de rsultats portant sur dautres populations pour pouvoir gnraliser avec confiance ces indications. Pour la passation il faut utiliser le logiciel SAMUEL Test.
La passation
La passation comporte deux phases : une phase de familiarisation avec le dispositif informatique, dans laquelle le sujet doit reproduire des bonhommes et des fleurs ; une phase de test, qui comporte six modles 4 carrs, et quatre modles 9 carrs. Rappelons que le diagnostic concernant les stratgies nest effectu que sur les modles 9 carrs. Le temps nest pas limit3 (bien que le temps de rsolution soit lune des variables prises en compte) et les auteurs estiment 15 20 minutes environ le temps de passation.
1. Les lves ont t catgoriss dans leur stratgie dominante. 2. Dpendance/Indpendance lgard du champ. 3. Il ny a pas de critres darrt.
323
La cotation
La cotation est effectue par le logiciel. Plusieurs variables sont mesures pour chaque item : russite, temps de rsolution, frquence des regards, temps de regard total, temps de regard moyen, indices stratgitaires (segmentation, anticipation, ordre de placement). partir des modles thoriques des trois stratgies (voir plus haut) le sujet est catgoris pour chaque item dans la stratgie la plus proche de son profil. Le logiciel dtermine galement, sur lensemble des 4 items, la stratgie dominante (ou prfrentielle) de chaque sujet.
Les talonnages
Le manuel comporte des indications sur six classes dge : 9, 11, 13, 15, 17 et 25 ans. Pour chacune de ces classes on dispose de donnes descriptives concernant les variables prcites (moyenne, cart-type, mini, maxi). Pour les rsultats talonns, ils sont organiss selon deux possibilits : par groupe dge (les six classes) et par stratgies. Il sagit dtalonnages deffectifs gaux (cinq classes comportant chacune 20 % de lchantillon).
Interprtation des rsultats Le manuel comporte plusieurs types dinformations utiles au praticien : un guide dinterprtation des rsultats (p. 105) et des tudes de cas (p. 77 87). Linterprtation portera principalement sur la rsolution des quatre modles 9 carrs. Le principe gnral dinterprtation se divise en deux phases :
Lanalyse de la variabilit interindividuelle, dans laquelle le sujet sera situ
sur sa stratgie dominante et sur ses rsultats obtenus sur les diffrentes variables mesures, comparativement aux sujets du mme groupe dge ; Lanalyse de la variabilit intra-individuelle, dans laquelle lattention sera porte ici sur les volutions ventuelles de la stratgie utilise par le sujet travers les quatre items (stabilit ou flexibilit ; apprentissage en cours dpreuve...). Les tudes de cas du manuel reposent sur lanalyse des protocoles de 12 sujets, avec confrontation des indices de SAMUEL avec des rsultats lchelle de Wechsler dintelligence (version WAIS) et des informations recueillies lors dentretiens. Le praticien dispose aussi du second logiciel, SAMUEL-Diagnostic, sur lequel sont enregistres toutes les actions effectues par le sujet.
324
Dautres informations sur lutilisation de SAMUEL Plusieurs publications, postrieures la publication du manuel, mritent dtre signales car elles fournissent des indications concernant les utilisations possibles de ce logiciel SAMUEL. Un exemple dutilisation de cette preuve dans un cadre scolaire a t dvelopp par lauteur (Rozencwajg et Francequin, 1999). Cette publication correspond en grande partie au contenu des tudes de cas du manuel. SAMUEL a galement t utilis aprs dadultes salaris (Rozencwajg et al., 2005). Enfin, deux publications de Rozencwajg prsentent, dans le cadre dune approche intgrative de lintelligence, les principaux lments dune valuation reposant sur ce logiciel (Rozencwajg, 2005 et 2003).
Conclusion sur SAMUEL
La dmarche utilise par les concepteurs de ce logiciel SAMUEL nous semble trs intressante et elle constitue un bon exemple dune application concrte de rsultats de recherches llaboration de tests daptitudes qui dpassent le simple constat dun niveau de performance. Sans revenir sur les intrts de SAMUEL, certains aspects de la dmarche des auteurs mriteraient dtre prciss afin de mieux assurer la fiabilit de la catgorisation (des stratgies et des sujets) qui est effectue : 1 La modlisation thorique des trois stratgies nous indique quil est relativement ais de reprer la stratgie globale, mais que les stratgies analytique et synthtique, toutes les deux performantes dans cette situation, sont plus difficiles distinguer sur les critres retenus. Lune des deux variables considres comme pertinentes pour cette distinction (voir le tableau 6.1) est la frquence des regards : un sujet analytique regarderait plus souvent le modle (1 regard par cube en moyenne, donc une valeur thorique de 1 sur cet indice) tandis que le sujet synthtique regarderait moins souvent le modle (1 regard par forme gomtrique, soit un indice thorique de 0.20). On peut rappeler que, dans SAMUEL, le modle napparat qu la suite dune demande du sujet (un clic de souris) et il disparat ds que le sujet effectue une action (prendre un cube, par exemple). Rappelons quen situation classique de passation, le modle est consultable tout instant par le sujet. Les caractristiques de ce dispositif informatis peuvent alors avoir des effets sur cette frquence des regards, comme par
325
exemple, inciter le sujet mmoriser davantage le modle1 quil ne le ferait dans une passation classique. Une faible frquence des regards ne pourrait donc plus tre associe de manire systmatique une stratgie synthtique. Dailleurs nous pouvons trouver dans le manuel des lments dobservation qui viennent confirmer nos remarques :
Il faut souligner quun nombre non ngligeable de personnes utilisant un ordre linaire de placement des carrs conserve nanmoins lensemble du modle en mmoire. (Rozencwajg et al., 1999, p. 25).
De plus, on peut galement envisager que la signification dun regard diffre en fonction des sujets : vrifier une action2 , prparer une action... 2 Dans le calcul du profil individuel, tous les indices ont le mme poids (voir Rozencwajg et al., 1999, p. 42), ce qui signifie que les auteurs considrent que ces indices sont du mme niveau de pertinence dans lidentification des stratgies. Pourtant nous pourrions envisager que certains indicateurs, et nous pensons ici plus particulirement lordre de placement des cubes, sont plus rvlateurs que dautres de la stratgie utilise par le sujet. Il pourrait tre pertinent denvisager alors une pondration des indices dans le calcul du profil individuel. 3 Le sujet est catgoris pour chaque item dans la stratgie la plus proche de son profil (en terme de distance). Mais que se passe-t-il quand ce profil est trs loign des trois stratgies ? Autrement dit, le sujet est-il catgoris quelles que soient les valeurs de ses indices ? A priori, daprs les informations du manuel, la rponse est positive. Une autre approche, qui nous semble plus satisfaisante, consisterait dfinir une valeur minimale (un seuil) pour pouvoir catgoriser, avec plus de confiance, le sujet dans lune des stratgies. De mme, en cas de diffrences minimes entre deux profils stratgiques, il conviendrait de dfinir une valeur minimale de diffrence pour pouvoir, l encore, catgoriser le sujet. Une rflexion pourrait tre mene ce sujet. 4 Le diagnostic de SAMUEL ne repose que sur un nombre limit ditems, les quatre items 9 carrs. Un nombre plus important ditems complexes permettrait, l encore, de mieux assurer la mesure.
1. De manire lui viter davoir raliser une nouvelle demande de consultation visuelle du modle. 2. Un lien est possible ici avec des variables conatives : par exemple, on peut envisager quun sujet plus anxieux va vrifier plus souvent le modle quun autre sujet utilisant pourtant la mme stratgie...
326
Conclusion sur lanalyse des stratgies dans les tests
Comme nous venons de lillustrer, lidentification des stratgies utilises par un sujet est une problmatique dlicate, ce qui explique sans doute le faible nombre dpreuves de ce type : mis part SAMUEL, qui vient faire lobjet de cette prsentation, il ny a, notre connaissance, aucun test disponible. On peut ventuellement signaler le test C.A.S1 de Naglieri et Das, prsent par Kaufman (2001), qui vise galement identifier des stratgies mais, linverse de SAMUEL, cet aspect ne semble pas essentiel dans les mesures effectues par ce test. De plus le C.A.S nest pas diffus en France. Pouvoir distinguer les sujets sur leur dmarche de rsolution, sur le type de stratgie quils ont utilis dans une preuve, et donc au final sur leurs processus cognitifs, apporterait sans aucun doute aux praticiens des informations pertinentes, qualitatives, complmentaires aux constats classiques des tests qui ne reposent, le plus souvent, que sur des informations quantitatives relatives au niveau de performance. Ces informations peuvent tre particulirement utiles dans une perspective ducative ou de remdiation. Cette approche cognitivo-diffrentielle, que lon peut galement qualifier dvaluation diagnostique, centre sur les processus cognitifs, et applique aux tests, mrite dtre dveloppe car elle renseigne sur les processus mentaux en jeu dans ces preuves. Elle constitue sans aucun doute lune des perspectives les plus prometteuses de renouvellement des tests dintelligence (voir galement sur ce point Huteau et Lautrey, 1999a, chapitre VIII).
1. Cognitive Assessment System.
CHAPITRE 7
Lvaluation dynamique
Sommaire
L L L L L L L L L
1. Les principes de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . 2. Les procdures dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Les conceptions du potentiel dapprentissage . . . . . . . . . . . . . . . . . . 4. Les objectifs de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . 5. Les difficults pratiques et mthodologiques de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. Les problmes thoriques de lvaluation dynamique : que mesure t-on exactement ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Quels usages des preuves de potentiel dapprentissage ? . . . . . . . . 8. Prsentation dpreuves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9. Conclusions sur le potentiel dapprentissage . . . . . . . . . . . . . . . . . .
Page 341
329
A
1.
Dfinition
PPARUE
il y a une vingtaine dannes dans le paysage de la psychomtrie, lvaluation dynamique a t prsente (cf. Brown & French, 1979 ; Sternberg, 1985 ; Lidz, 1987) comme innovante et susceptible de renouveler les pratiques de diagnostic cognitif. De quoi sagit-il et quelles mthodes existe-t-il ?
Les principes de lvaluation dynamique
Lvaluation dynamique se distingue de lvaluation conventionnelle, dite statique , principalement sur deux aspects : la nature de ce qui est valu et le rle de lexaminateur. Alors que lvaluation classique mesure les capacits quun individu a dveloppes, un moment donn, et porte sur ses performances obtenues dans le test, lvaluation dynamique vise valuer les capacits latentes, celles qui ne sexpriment pas spontanment, et cherche apprcier la sensibilit du sujet une situation dapprentissage dans laquelle il est plac. Il dcoule de cette diffrence dobjectif une diffrence de procdure de passation. Dans le cadre de lvaluation classique, lexaminateur reste neutre, il ne doit pas influencer le sujet dans sa manire de rpondre, ne pas donner de feed-back et tablir de la faon la plus objective possible une mesure de ce que le sujet peut produire lorsquil est laiss ses seules ressources. Au contraire, la caractristique principale de lvaluation dynamique est quelle combine valuation et formation du sujet. Plusieurs procdures dvaluation existent. Tous font intervenir lexaminateur pour fournir au sujet du feed-back et des aides lui permettant de progresser dans sa manire de rsoudre les tests. Les progrs raliss sont alors considrs comme des indicateurs de ce qui est appel le potentiel dapprentissage du sujet.
Lvaluation dynamique : les prcurseurs
Deux auteurs ont particulirement contribu tablir les bases thoriques de lvaluation dynamique. Le premier est Vygotski dont les conceptions publies en 1934 dans Pense et Langage ont fortement influenc les
330
recherches dans le domaine durant ces vingt dernires annes. Vygotski (1934/1985) introduit le concept de zone proximale de dveloppement (ZPD) pour rendre compte de la marge dducabilit que possde lenfant un moment donn de son dveloppement. Il sagit de lespace de dveloppement possible, au-del du niveau de dveloppement actuellement atteint, que lenfant pourra sapproprier avec laide dun tiers. Le modle de Vygotski met laccent sur la mdiation sociale du dveloppement. La ZPD correspond donc lcart entre le niveau actuel de lenfant, cest--dire celui de sa performance autonome, et celui quil pourra atteindre sil est aid de faon adquate. Le second auteur dont la contribution la dfinition de la notion dvaluation dynamique a t particulirement marquante est Andr Rey. La mme anne que Vygotski publiait Pense et Langage, il publiait de son ct et de faon indpendante, un article intitul Dun procd pour valuer lducabilit dans lequel il nonait des principes trs voisins du concept de ZPD en insistant sur la ncessit de faire porter lexamen sur la forme et la vitesse des processus daccommodation (Rey, 1934, p. 299). Cette proposition saccompagne dune critique svre des tests conventionnels qui valuent des performances bases sur des apprentissages antrieurs dont on ne connat rien. Cela conduit alors comparer selon les mmes critres des individus qui nont pas ncessairement bnfici des mmes occasions et conditions dapprentissage, cest--dire comparer ce qui nest pas comparable. Afin de rendre la comparaison possible, lauteur proposait alors de placer les sujets dans des conditions standardises dapprentissage et de faire porter lvaluation sur lapprentissage lui-mme, celui-ci rendant mieux compte de lducabilit de lindividu que ne le font les performances.
2.
Les procdures dvaluation

Le dispositif dvaluation de lducabilit que proposait Rey tait une tche dapprentissage dun dispositif spatial dcouvert par ttonnements (le test des plateaux) dans lequel la vitesse dapprentissage tait mesure par le nombre dessais ncessaires pour parvenir la russite. Par la suite, deux procdures dvaluation se sont imposes (Bchel et Paour, 1990 ; Loarer et Chartier, 1996a) : la procdure Test-Apprentissage-Retest (T-A-R) et la procdure dAide au Cours du Test (ACT).
331
Dans la procdure T-A-R, les performances des sujets sont initialement
values lors dune premire passation tout fait classique. Vient ensuite une session dapprentissage au cours de laquelle des explications sur la manire de rsoudre les problmes poss et sur la faon dviter les erreurs quils ont commises lors du test sont fournies aux sujets. Une seconde passation de la mme preuve ou dune version parallle de la premire preuve est ensuite propose. Le progrs du sujet entre le test et le retest donnera la mesure de son potentiel dapprentissage. Dans la procdure Aide au Cours du Test (ACT), la passation est unique et individuelle. Les aides sont fournies au sujet en cours de passation, chaque item chou. Le plus souvent ces aides sont standardises et hirarchises, permettant loprateur de donner dabord des indices minimaux puis de les enrichir progressivement si ncessaire. La mesure du potentiel dapprentissage tient alors compte de la quantit et de la nature des aides fournies et des russites qui en dcoulent.
Prsentation schmatique des 2 procdures
Procdure
Test
Apprentissage
Retest Score retest
Indicateurs Score
test
Aide au cours du test
Procdure
Item 1
si russite
si chec
aide 1
si russite
si chec
aide 2
Item 2 etc
Item 2
Indicateurs
Nombre et nature des aides ncessaires
Figure 7.1 Prsentation des deux procdures.
3.
Les conceptions du potentiel dapprentissage

Lide de prendre en compte dans lvaluation non seulement le niveau de performance de lindividu mais galement la dynamique de son apprentissage
332
a sduit de nombreux auteurs qui y ont vu une manire damliorer la validit de la mesure de lintelligence. Plusieurs revues de questions ont t consacres ce thme (Bchel et Paour, 1990 ; Bchel, 1995 ; Haywood & Tzuriel, 1992 ; Grigorenko et Sternberg, 1998 ; Laughton, 1990 ; Lidz, 1987). Lanalyse de ces nombreux travaux fait merger des conceptions du potentiel dapprentissage qui divergent selon les auteurs, notamment pour ce qui est de ses rapports avec lintelligence. Nous en avons principalement identifi trois :
La premire : le potentiel dapprentissage serait un reflet plus pur de
lintelligence que celui fourni par les tests conventionnels mais nen serait pas de nature trs diffrente ; La seconde : le potentiel dapprentissage recouvrirait strictement la notion de Zone Proximale de Dveloppement de Vygotski et se dmarquerait donc de lintelligence value par les tests statiques ; La troisime : dfendue par Feuerstein qui dcrit sous le terme de modifiabilit cognitive , une entit la fois distincte de la ZPD de Vygotski et de lintelligence classiquement value.
30 A erreurs 20 10 0 10 B
C D E 20 30 40 50 60 essais
Courbe d'apprentissage garon de 4;9 ans. De A B, phase de triage ; de B C, phase des persvrations unilatrales ; de C D, formation d'associations autonomes ; de D E, phase de russites sous l'effet de stimulations verbales. -- Les perpendiculaires traces en pointill sur l'abscisse marquent les sances successives.
Figure 7.2 Les tests de plateaux dAndr Rey.
Le test des plateaux dAndr Rey (1934) : Le test est constitu de 4 plateaux : petites planches carres de 14 cm de cts. Chaque plateau est perc de 9 trous dans lesquels viennent sencastrer des petits disques. Ces disques sont amovibles sauf lune dentre eux. Lapprentissage consiste
333
apprendre localiser ce dernier sans se tromper, alors que son emplacement est diffrent pour chaque plateau. Le temps ncessaire pour y parvenir et la courbe dcroissante des erreurs sont des indicateurs de la capacit dapprentissage.
Le potentiel dapprentissage comme meilleure mesure de lintelligence
Cette premire conception est partage par les auteurs qui, comme Andr Rey, estiment que les tests classiques ne disent rien sur les conditions dans lesquelles ont t raliss les apprentissages antrieurs permettant de les russir, et qui pensent que lon peut obtenir une meilleure mesure du potentiel de lindividu en lvaluant dans une situation dapprentissage dont on contrle les paramtres. Cest la position dfendue par Milton Budoff et ses collaborateurs (Budoff, 1987 ; Budoff et Corman, 1974 ; Budoff et Hamilton, 1976) dont la figure 7.3 illustre le modle.
Test defficience
Gagnants
Test dapprentissage
Scores levs
Non gagnants
Figure 7.3 Modle de Budoff (daprs Loarer, 2001).
Lobjectif des recherches de Budoff tait damliorer le diagnostic du retard mental en valuant le potentiel dapprentissage de sujets de faible niveau intellectuel (QI<90). Dans ses premiers travaux, il cherche ainsi distinguer les sujets qui sont capables de tirer profit des aides quon leur apporte (les gagnants), de ceux qui ny parviennent pas (les non-gagnants). Les capacits
334
des gagnants auraient t sous-values par les tests conventionnels qui ne permettent pas de faire cette distinction entre handicap ducatif et handicap rel . Suite aux critiques faites notamment par Lidz (1991) concernant la dlimitation des catgories proposes, il a, dans ses travaux les plus rcents, substitu aux catgories des chelles dvaluation continues, sans que cela naffecte les principes de son modle. Il utilise, pour lvaluation dynamique, des adaptations de tests de facteur G et considre le potentiel dapprentissage comme une mesure particulire du facteur G (Budoff, 1968). Lvaluation dynamique tant moins sujette aux biais socioculturels, il propose de la substituer la mesure classique pour lvaluation des enfants concerns par lducation spciale.
Le potentiel dapprentissage comme mesure de la zone proximale de dveloppement
Vygotski (1934/1985, p. 269) introduit lide que :

Le psychologue doit ncessairement, pour dterminer ltat du dveloppement, prendre en considration non seulement les fonctions venues maturit mais aussi celles qui sont au stade de la maturation, non seulement le niveau prsent mais aussi la zone proximale de dveloppement.
Il prcise ensuite que le niveau prsent de dveloppement est valu laide de problmes que lenfant doit rsoudre seul, et que la zone proximale de dveloppement est dtermine par lcart entre ce niveau et celui que peut atteindre lenfant lorsquil est aid par un adulte ou quelquun de plus comptent que lui. Les deux procdures dvaluation (statique et dynamique) sont clairement prsentes comme complmentaires. Elles donnent accs deux facettes du dveloppement cognitif : ltat du dveloppement dj ralis grce aux apprentissages antrieurs, mais aussi ltendue de la zone dans laquelle les futurs apprentissages pourront donner lieu de nouveaux dveloppements. Or, affirme encore Vygotski :
La zone de proche dveloppement a une signification plus directe pour la dynamique du dveloppement intellectuel et la russite de lapprentissage que le niveau prsent de leur dveloppement. (p. 270)
Ni Vygotski ni ses collgues nont vritablement apport de validation exprimentale cette affirmation (Grigorenko et Sternberg, 1998), mais le modle propos a inspir de nombreux psychologues, non seulement dans les pays de lEst, en Russie et en R.D.A. (Guthke, 1990, 2000 ;
335
Rubtsov, 1981) mais aussi aux tats-Unis (Brown, & French, 1979 ; Campione & Brown, 1987 ; Rogoff & Wertsch, 1984 ; Wertsch et Tulviste, 1992). Pour ces auteurs, le potentiel dapprentissage est diffrent de lintelligence classiquement value. Ainsi, par exemple, la conception de la complmentarit des mesures statiques et dynamiques apparat clairement dans une recherche mene par Campione & Brown (1987). Les auteurs ont ralis auprs denfants dge prscolaire une tude sur la validit prdictive dun test de QI (le WPPSI) et dun test de potentiel dapprentissage (procdure T-A-R des Matrices de Raven). Intgrant dans une rgression multiple comme critre le score de gain rsiduel au test dapprentissage et, comme prdicteurs, le nombre daides dans ce test et le score de QI au WPPSI, ils concluent que les deux scores ne se confondent pas, puisque chacun explique une fraction diffrente de la variance des scores de gain. De mme, Guthke et collaborateurs qui ont dvelopp Leipzig depuis le milieu des annes soixante des travaux sur les tests dapprentissage , proposent de sparer (Guthke, 1980 cit par Guthke, 1992) ce quils appellent lintellectual status que lon pourrait traduire par statut (ou tat) intellectuel et ce quils appellent le potentiel intellectuel (intellectual potential).
Le potentiel dapprentissage comme valuation de la modifiabilit cognitive
La position de Feuerstein est ne de sa pratique. Il a t amen valuer, en Isral, des adolescents immigrants, issus de pays diffrents et pour la majorit peu scolariss. Jugeant les tests conventionnels trop fortement marqus culturellement et inaptes guider des interventions de remdiation, il a labor deux programmes complmentaires : lun visant lvaluation du potentiel dapprentissage, le learning Potential Assessment Device (LPAD ; Feuerstein, Rand, & Hoffman, 1979 ; Jensen, & Feuerstein, 1987) ; lautre visant la remdiation cognitive, le Programme dEnrichissement Instrumental (PEI ; Feuerstein, Rand, Hoffman, & Miller, 1980). Les deux dmarches sont indissociables et visent toutes deux, grce la mdiation mise en uvre, augmenter la modifiabilit cognitive du sujet. Le but du LPAD est de fournir, par une intervention courte, les lments qui vont guider lintervention plus lourde mene par le PEI.
336
Constitu dune batterie de quinze preuves verbales et non verbales inspires de tests classiques, le LPAD structure une dmarche clinique devant aboutir un bilan qualitatif des fonctions cognitives et des prconisations pdagogiques. Le but de lapplication du LPAD expliquent Feuerstein, Rand, Jensen, Kaniel, & Tzuriel (1987, p. 42) est de provoquer des modifications cognitives structurales afin den tablir les limites tant quantitatives que qualitatives. Contrairement aux preuves dapprentissage proposes par les autres auteurs, la passation est peu standardise. Le nombre dpreuves, leur dure, la nature et la quantit de mdiation fournie dpendent largement des caractristiques du sujet et de la perception que lexaminateur en a. Le concept dexprience dapprentissage mdiatis (Mediated learning experience (MLE) ; Feuerstein et al., 1980) est trs voisin de celui de mdiation sociale du dveloppement propos par Vygotski. Feuerstein explique les dficits cognitifs comme rsultant dun manque de MLE et envisage de remdier ces dficits en apportant, loccasion de tches proposes dans le LPAD et dans le PEI, une bonne mdiation. Bien que sinspirant trs largement de la thorie de Vygotski, Feuerstein ne fait pas explicitement rfrence la notion de ZPD et ne positionne pas lvaluation du potentiel dapprentissage comme complmentaire de lvaluation statique. La dfinition de la modifiabilit cognitive comme une capacit trs gnrale dauto-adaptation et dapprentissage voque, il est vrai, de nombreuses dfinitions habituellement donnes de lintelligence.
4.
Les objectifs de lvaluation dynamique

De lensemble des travaux mens ces dernires annes et de ces diffrentes conceptions voques, nous identifions principalement quatre grands objectifs distincts, et parfois complmentaires, poursuivis par les auteurs qui se proposent de mener, laide des dispositifs dcrits, des valuations dynamiques.
1r objectif : Amliorer la mesure de lintelligence
Lvaluation dynamique est suppos permettre lobtention dune mesure plus complte et plus valide de lintelligence que celle ralise par
337
lvaluation traditionnelle. Plusieurs arguments sont avancs pour tayer cette affirmation.
Elle permet de limiter leffet du hasard dans les rponses. Lvaluation
donnant lieu gnralement une double mesure (procdure T-A-R), la probabilit quune bonne rponse soit obtenue au hasard est rduite ; Elle permet de corriger les biais socioculturels qui affectent la mesure classique. Les occasions dapprendre ayant pu tre diffrentes suivant les personnes, la phase dapprentissage incluse dans le dispositif dvaluation fournit tous une gale opportunit de familiarisation aux tches. Le rsultat obtenu aprs entranement reflterait donc mieux laptitude raisonner que la performance spontane produite sans aides ; Elle permet de distinguer entre vrai et pseudo-dficit. Les travaux de Budoff et col. (Budoff & Corman, 1974 ; Budoff et Hamilton, 1976 ; Budoff, 1987) illustrent cette proprit de la mesure du potentiel dapprentissage. Ayant fait passer une preuve de potentiel dapprentissage des sujets prsentant des troubles de comportement ou ayant une vie familiale perturbe, les auteurs distinguent trois types de sujets : les gagnants , se montrant capables de bnficier dun apprentissage, les non-gagnants , qui ne profitent pas ou trs peu dun apprentissage, et les sujets scores levs , ainsi nomms en raison de leur score lev ds le prtest. Les sujets des deux premiers groupes ayant des scores faibles au prtest, nauraient pas t distingus par une valuation statique. Or, ils nont pas la mme capacit profiter de la situation dapprentissage et lobservation de leurs comportements ultrieurs le confirme. Aussi, les auteurs concluent-ils que la mesure du potentiel dapprentissage est une mesure de lintelligence plus fiable que la mesure traditionnelle ; Elle est plus complte parce quelle intgre les fonctions intellectuelles en cours de dveloppement (cf. Vygotsky) et permet de mesurer directement deux composantes de lintelligence dcrites comme importantes selon les thories cognitivistes du traitement de linformation : la vitesse dapprentissage et lefficience du transfert (Brown & Ferrara, 1985, p. 286).
2e objectif : valuer lducabilit cognitive de lindividu
La vise premire de lvaluation dynamique est, pour plusieurs auteurs, la mesure de lducabilit des individus. Le potentiel dapprentissage est alors
338
pris comme prdicteur du dveloppement cognitif ultrieur de la personne. Cette conception rejoint directement celle de Vygotsky (1935/1985) qui affirmait que la mesure du niveau de dveloppement potentiel a une valeur prdictive plus grande pour la dynamique du dveloppement intellectuel que la mesure du niveau actuel de dveloppement. Sous le terme dducabilit, Rey, pour sa part, considre ladaptabilit du sujet une situation nouvelle. Il se propose de la mesurer travers la qualit et la vitesse de lapprentissage dune tche dexploration et de localisation spatiale. De mme, selon Feuerstein, le but de lapplication du LPAD est la mesure de la modifiabilit cognitive des sujets quil dcrit comme la possibilit que possde tout individu de se modifier et de former de nouvelles structures cognitives qui ntaient pas auparavant dans son rpertoire (Feuerstein, 1990, p. 123). De faon concrte, Budoff (cit par Dias, 1991) utilise des tests de potentiel dapprentissage pour intgrer des lves de classes spcialises dans des classes dites normales.
3e objectif : Pronostiquer la russite dans les apprentissages ultrieurs
Les tests daptitudes classiques sont frquemment utiliss en bilan dorientation pour pronostiquer la russite scolaire ou ladaptation des formations professionnelles. Ils remplissent dailleurs assez bien cette fonction. Dans ce cas, le pronostic des acquisitions futures est fait laune du niveau des acquisitions antrieures, et donc du constat actuel. Pourtant, nombreux sont les auteurs qui critiquent cette dmarche (e.g. Wagner & Sternberg, 1984) et certains considrent plus valide pour diagnostiquer les capacits dapprentissage dune personne de la placer directement en situation relle dapprentissage. Le pronostic dapprentissage nest plus alors fond sur un chantillon de performances mais sur un chantillon dapprentissage. Cette recherche dune meilleure homognit de contenu entre la variable observe et la variable prdite est de mme nature que celle qui motivait les expriences menes dans les annes vingt (dcrites par Caroll, 1962, cit par Hurtig, 1995) o lon faisait apprendre aux enfants des langues artificielles pour estimer leur aptitude lapprentissage des langues trangres. La dmarche est galement dans lesprit des tests in basket qui consistent prlever un chantillon de la situation pour laquelle on cherche prdire ladaptation
339
du sujet et le proposer sous la forme dun test standardis. Lvaluation dynamique prsenterait donc une meilleure validit de contenu vis--vis des apprentissages ultrieurs. Une seconde raison menant prfrer lvaluation dynamique pour le diagnostic de ladaptation aux situations futures de formation est avance par Budoff (1987). Lvaluation dynamique offre une meilleure conformit aux situations relles de la vie, proprit que lon pourrait qualifier de meilleure validit cologique. En effet, les conditions de standardisation des preuves classiques placent le sujet dans un contexte artificiel ayant, de nombreux gards, peu voir avec les situations naturelles quil aura ensuite affronter (voir Paour et al., 1995, p. 64). On notera particulirement labsence de possibilit qua le sujet, dans la dmarche classique, de tirer profit de ses erreurs au cours de la passation. Or, dans la vie courante la capacit tenir compte du produit de ses propres actions est un facteur important dapprentissage. Lvaluation dynamique lui permet de se manifester.
4e objectif : Recueillir des indications utiles lintervention pdagogique
La finalit pdagogique de lvaluation dynamique est exprime par de nombreux auteurs. Contrairement lvaluation classique de lintelligence dont lincapacit fournir des indications utiles pour lenseignant a de nombreuses fois t souligne, il semble quil y ait une passerelle naturelle entre mesure du potentiel dapprentissage et intervention pdagogique.
Les mthodes dducation cognitives constituent le prolongement naturel et ncessaire des instruments dvaluation dynamique des aptitudes. (Paour et al., 1995, p. 86)
Lvaluation dynamique, affirme Das (1987) est reli de faon symbiotique aux concepts dintervention et denrichissement. Cette finalit pdagogique de lvaluation dynamique est galement trs explicitement affiche par Feuerstein (Feuerstein et al., 1979, 1987). Alors que la plupart des auteurs (voir par exemple Guthke, 1990) sparent scrupuleusement le temps du diagnostic dapprentissage du temps de lintervention pdagogique, Feuerstein considre ces deux aspects comme indissociables et fait dbuter lintervention pdagogique au cours de la phase dvaluation. Lintervention devient alors un moyen dvaluation. Le but de lapplication du LPAD est, dit-il (1987, p. 42) de provoquer des modifications cognitives structurales afin den tablir les limites tant quantitatives que qualitatives. Il prvoit
340
en outre que lvaluation se prolonge par un programme de remdiation cognitive (le PEI) permettant de remdier aux dficiences des fonctions cognitives constates chez le sujet.
Les mrites de lvaluation dynamique
On laura compris la lecture de ce qui prcde, lvaluation dynamique est suppos prsenter des avantages multiples sur lvaluation classique. La composante dapprentissage introduite dans le test est considre comme un moyen de dtecter les possibilits dvolution future des capacits de lindividu et, dans la mesure o elle neutralise les diffrences de familiarit avec la situation dvaluation, de limiter les biais socioculturels. Ce serait donc une meilleure base de pronostic de la russite et du dveloppement ultrieurs que le test classique, notamment pour les sujets culturellement dfavoriss ou issus dune culture diffrente de celle dont les tests sont issus. Dautres avantages sont galement souligns. Lvaluation dynamique permettrait, mieux que le test classique lobservation du fonctionnement du sujet (Paour et al., 1995), ce qui correspond une proccupation de la psychologie cognitive contemporaine. Elle produirait galement des informations plus directement utilisables dans une perspective ducative que le test classique (Campione & Brown, 1987). Elle serait enfin pour le sujet moins anxiogne et moins stressante (cf. Flammer & Schmid, 1995) et amliorerait son sentiment de comptence (Budoff, 1987). Pourtant, si lvaluation dynamique prsente tous ces avantages sur lvaluation classique, on peut se demander pourquoi elle ne la pas supplante depuis longtemps et nest pas aujourdhui mieux inscrite dans les pratiques. La raison est, nous semble t-il rechercher du ct des difficults diverses que soulve ce type dapproche. Nous avons repr, dune part, des problmes relatifs la mesure du potentiel dapprentissage :
Problmes pratiques, relatifs la mise en uvre de protocoles dvaluations
plus complexes et plus lourds que dans lvaluation classique ; Problmes mthodologiques lis principalement la difficult de mesurer le changement et garantir les qualits mtrologiques de lvaluation dynamique ; Problmes thoriques qui concernent la nature mme de ce qui est valu. Il est de toute vidence artificiel de dissocier radicalement les aspects mthodologiques et thoriques. Ainsi, par exemple, la faon dont les diffrents auteurs envisagent de prendre en compte les qualits
341
mtrologiques de lvaluation dpend de la conception quils ont du potentiel dapprentissage. Nous examinerons ces diffrentes difficults et prsenterons quand ils existent des lments de rponse, issus de recherches actuelles.
5.
Les difficults pratiques et mthodologiques de lvaluation dynamique

Nous ne nous appesantirons pas sur les difficults rencontres par les praticiens confronts la mise en uvre de procdures nettement plus lourdes que pour lvaluation statique. Il est vrai que lvaluation du potentiel dapprentissage sinscrit dans une certaine dure puisquil convient dajouter la dure de lvaluation la dure de lapprentissage ou des aides (procdure ACT), ainsi que la dure du retest (procdure T-A-R). Elle peut galement ncessiter une passation individuelle et des observations plus fines (ACT) et parfois une formation ou une expertise particulire. Nous suivons cependant volontiers Huteau et Lautrey (1999a) lorsquils soutiennent que les problmes pratiques ne constituent pas un obstacle insurmontable au dveloppement de lvaluation dynamique (p. 267). Lacceptation de ces contraintes pratiques est notre avis strictement dpendante de la valeur ajoute que peut apporter ce type dvaluation et dpend donc de la rsolution des problmes mthodologiques et thoriques. Les problmes mthodologiques tiennent principalement au fait que la mesure du potentiel dapprentissage est une mesure de changement. Elle prsente de ce fait des risques de biais de mesure (Bacher, 1967 ; Embretson, 1987). Diffrents indices du potentiel dapprentissage sont envisageables et permettent diffrents niveaux de contrle des biais de mesure (Loarer et Chartier, 1994, 1996 ; Loarer, 2000 ; Huteau et Lautrey, 1999a). Les problmes rencontrs ne sont pas identiques selon la procdure utilise : T-A-R ou ACT.
Problmes mthodologiques relatifs la procdure ACT
La procdure daide au cours du test suppose lintervention du psychologue des moments cls de la passation afin dapporter au sujet une aide adapte la rsolution dune difficult particulire sur laquelle il bute pour rsoudre la tche. Le choix du moment dintervention et la nature de laide apporte
342
peuvent dpendre de lapprciation du psychologue, ce qui rend alors la procdure peut standardisable et destine lpreuve uniquement au cadre dune intervention clinique. Dans ce cadre, on ne pourra attendre de lpreuve quelle prsente les qualits mtrologiques classiquement attendues dun test. Certains auteurs ont souhait standardiser la procdure dintroduction des aides ainsi que la nature mme de ces aides. Cest le cas de lpreuve de Ionescu prsente ci-dessous. Nanmoins, mme dans ce cas, plusieurs problmes mthodologiques demeurent. Nous citerons en particulier la difficult interprter les indices de performance. Par exemple, le nombre de russites conscutives une aide, indice qui peut reflter la capacit du sujet tirer profit de laide (et donc son potentiel dapprentissage ), est fortement dpendant du nombre daides fournies et donc du niveau initial de russite aux items. Il faut chouer litem pour se voir proposer laide correspondante. Le potentiel dapprentissage devient alors artificiellement corrl ngativement avec le niveau de russite initiale. Le calcul dun rapport aide russie/aide fournie ne rsout que trs partiellement le problme. Par ailleurs, les aides tant fournies en cours dpreuve, le score de russite spontane un item inclut les effets des aides ventuellement donnes aux items prcdents. Cette procdure ne permet donc pas de disposer dune mesure trs pure du niveau initial du sujet. Enfin, cette procdure ne peut que trs difficilement aboutir des mesures fidles. Cest ce que dmontrent de nombreuses tudes. Cette faiblesse de fidlit peut en particulier tenir au fait que les scores daides ne se distribuent souvent pas normalement, ce qui affecte le calcul de coefficients de fidlit. Compte tenu de ces difficults nous recommandons de rserver le recours cette procdure une approche clinique de lvaluation, notamment lorsquil sagit de dtecter un potentiel individuel apprendre, sans que lon ait le souci dune comparaison quelconque avec dautres sujets ou de rfrence prcise avec des critres externes, ou encore lorsque lon sintresse principalement au rapport subjectif du sujet aux situations de rsolution de problme et dapprentissage.
Problmes mthodologiques relatifs la procdure T-A-R
La procdure T-A-R, vite certaines difficults rencontres dans la procdure ACT. Elle prsente cependant galement, comme nous allons le voir, diffrentes difficults relatives au choix et linterprtation des indices, ainsi quen ce qui concerne la fidlit de ces indices.
343
Les indices de potentiel dapprentissage Le potentiel dapprentissage peut tre mesur par le gain (G) entre le test (X) et le retest (Y), donn par la diffrence YX. Cependant, ce gain prsente une faible fidlit. Pourquoi les scores de diffrences sont-ils peu fidles ? Comme nous lavons vu dans le chapitre 2 de cet ouvrage, selon la thorie classique des tests, le score du sujet obtenu un test (score observ) peut tre dcompos en un score vrai et une erreur de mesure. score observ = score vrai + erreur de mesure Lorsque lon procde 2 mesures, on obtient deux scores observs (SO1 ; SO2 ) et chacun est compos dun score vrai (SV1 ; SV2 ) et dune erreur de mesure (E1 ; E2 ). Lorsque lon calcule la diffrence entre deux scores observs, les erreurs de mesures ne se soustraient pas mais se cumulent SV 2 - SV1 = (SV2 SV1 ) + (E2 + E1 ) Le score de diffrence est donc affect dune variance derreur suprieure celle de chacun des scores pris en compte. La meilleure faon, dans labsolu, de rsoudre les problmes lis la mesure du changement est de faire appel aux modles de rponse litem (Item Response Theory) appels aussi modles traits latents (Dickes, Tournois, Flieller & Kop, 1994 ; Embretson 1987, 1989, 1991, 1995 ; Hambleton, Swaminathan & Rogers, 1991 ; Hambleton & Slater, 1997 ; Vrignaud, 1994, 1996). Ces modles supposent lexistence dun continuum latent sur lequel sujets et items peuvent tre situs. Ils permettent de placer sur une chelle commune (le paramtre daptitude) les items du pr-test et du posttest et rsolvent ainsi les effets de rgression et les problmes de fidlit. Ils permettent, en outre, destimer sparment le niveau de difficult des items et le niveau de comptence des individus, ce qui est commode pour valuer des progrs. Dans cette approche, on peut considrer le gain individuel du paramtre daptitude comme une mesure du potentiel dapprentissage. Embretson (1991) a propos un modle multidimensionnel adapt la mesure du potentiel dapprentissage qui distingue deux variables unidimensionnelles : laptitude du sujet dune part et sa modifiabilit dautre part. La mise en uvre des modles IRT est cependant dlicate. Ils reposent sur des axiomes (dunidimensionnalit, dindpendance locale, etc.) qui
344
sont rarement satisfaits dans les situations concrtes et leur mise en uvre ncessite un nombre lev de sujets. Il est donc utile denvisager dautres indices refltant le potentiel dapprentissage qui prsenteraient moins dinconvnients que le score de simple diffrence mais seraient plus oprationnels que ceux qui sappuient sur les modles IRT. On peut, par exemple, corriger les effets de rgression vers la moyenne en calculant un score de gain rsiduel. Le score de gain rsiduel (GR) est la part du score observ qui nest pas attribuable la rgression du pr-test sur le post-test. La dmarche consiste calculer un score attendu Y grce lquation de la droite de rgression des scores au retest sur les scores au pr-test, pour tous les sujets ayant un score donn au pr-test, et de calculer ensuite la diffrence entre ce score attendu Y et le score observ Yobs .Ce score ne permet cependant pas de distinguer entre deux sources de gains : celle qui est lie la sance dapprentissage (effet dapprentissage) et qui peut concerner les principes logiques sollicits dans la tche, et celle qui est lie la rptition de la passation du test (effet du retest) et qui dcoule dune meilleure familiarisation la situation et du temps gagn par le sujet dans les items dont il se souvient. Or, on peut penser que ces deux effets nont pas le mme sens ni la mme capacit prdire les apprentissages futurs. Cela nous a amens proposer un nouvel indice (Loarer & Chartier, 1994) que nous avons appel score de gain rsiduel diffrentiel (GRD) qui consiste estimer le score attendu Y non plus sur le groupe exprimental, mais sur un groupe contrle ne bnficiant pas de la sance dapprentissage. Le pronostic calcul par rapport ce groupe (soit Ycont = aX+b) donne leffet propre du retest. Pour un sujet du groupe exprimental, le score de potentiel dapprentissage sera la diffrence entre le score attendu sil avait fait partie du groupe contrle Ycont et le score observ Yobs. Il sagit dun gain hypothtique, reprsentant la part de la note observe non attribuable leffet de retest. Lavantage de cette mesure est donc disoler leffet de la sance dapprentissage. Linconvnient est la lourdeur du dispositif dvaluation qui la destine principalement la recherche. Le score au retest apparat cependant comme un compromis intressant puisquil permet dviter les problmes lis la rptition de la mesure tout en tant dobtention aise. Il a nanmoins linconvnient de mler dans un score global le niveau initial et le gain d lapprentissage. Huteau et Lautrey (1999a, p. 256) proposent une faon lgante de sparer ces deux lments lorsque lon possde un critre extrieur, en calculant la corrlation partielle du post-test avec le critre lorsque la corrlation avec
345
le pr-test est partialise, ou encore en ralisant une analyse de rgression dans laquelle on introduirait successivement comme prdicteurs le pr-test puis le post-test. La fraction de variance supplmentaire explique par le post-test correspondant leffet propre de lapprentissage. Cependant, cette pratique est rserve des recherches et peu adapt aux pratiques classiques dvaluation. En outre, dans de nombreuses tudes, la mise en uvre de ce traitement est gne par la prsence de colinarit entre les variables. lissue dun ensemble dtudes menes pour comparer les proprits des diffrents indices de potentiel dapprentissage, Loarer (2000) conclut que lindice le plus commode utiliser et le plus valide est bien le score au post-test.
La fidlit des mesures dapprentissage La fidlit des mesures dapprentissage est menace par plusieurs types de phnomnes : 1. Les effets de plafonnement des scores : Les preuves de potentiel dapprentissage sont frquemment confrontes des problmes techniques lis un effet de plafond : la marge de progression possible dans une preuve ntant pas infinie, les scores dapprentissages peuvent sen trouvent affects. Par exemple, Bchel et al. (1990) cherchant valuer la stabilit, dans le temps, des gains entre test et retest se heurtent un effet de plafond dans les apprentissages ; 2. Les effets des erreurs de mesure : Comme dans lvaluation conventionnelle, la fidlit test-retest des preuves dapprentissage est relative aux erreurs de mesure alatoires affectant lobservation (laptitude du sujet donne par la "mesure vraie"). Lorsque le score dapprentissage sappuie sur deux scores (test et retest), les erreurs de mesure sont alors cumules ; 3. La stabilit du changement : Dans lvaluation dynamique, la fidlit est galement dpendante de la stabilit du phnomne observ. La fidlit de la mesure du potentiel dapprentissage suppose une stabilit dans la faon de changer, ce qui nest pas toujours le cas.
346
6.
Les problmes thoriques de lvaluation dynamique : que mesure t-on exactement ?

Au-del des problmes pratiques et mthodologiques qui ont t prsents et pour lesquels, nous lavons vu, des rponses satisfaisantes semblent pouvoir tre trouves, un certain nombre de problmes dordre thorique subsistent aujourdhui et divisent les auteurs. Dans la priode rcente, de nombreux travaux portent sur lvaluation dynamique et proposent des techniques de mesure du potentiel dapprentissage . Cependant, le concept nest pas toujours clairement dfini et lorsquil lest, les conceptions quen ont les diffrents auteurs diffrent assez largement.
Proccups surtout par la construction dinstruments destins mesurer le potentiel dapprentissage expliquaient dj Ionescu & Jourdan-Ionescu (1984, p. 920) les chercheurs ont nglig les laborations thoriques.
Ce manque dunit de vue sur la notion de potentiel dapprentissage, encore prsent aujourdhui, donne parfois limpression que lon ne sait pas trs bien ce que lon mesure mme si lon sait parfaitement le mesurer.
Les rapports entre le potentiel dapprentissage et lintelligence
Certains auteurs ne voient pas la ncessit thorique de distinguer les deux dimensions. Pour eux, les tests classiques et les tests de potentiel dapprentissage mesureraient, sous des formes diffrentes, la mme chose. En effet, les tests classiques dintelligence mesurant, travers le niveau defficience actuel, le produit des apprentissages antrieurs, ils prendraient indirectement en compte le potentiel dapprentissage. La mesure statique de lintelligence intgrerait donc celle du potentiel dapprentissage. Lautrey (1994) fait remarquer que cette position ne devrait cependant pas ncessairement exclure lintrt dune valuation dynamique. En effet, compte tenu du fait que les occasions dapprendre peuvent avoir t diffrentes suivant les individus, peut-tre obtiendrait-on une meilleure valuation de lintelligence par une mesure directe de la capacit dapprentissage qu travers ses produits. Nous noterons que dans ce cas, le recours lvaluation dynamique nest alors envisag que comme une possibilit que se donne le psychologue de compenser, pour mieux mesurer lintelligence, certains biais culturels.
347
Pour dautres auteurs, il semble que les deux dimensions soient fondamentalement distinctes. Les tests classiques et les tests de potentiel dapprentissage mesureraient des ralits diffrentes. Pour Vygotsky, par exemple, et donc pour les auteurs qui sen inspirent (Brown & Ferrara, 1985 ; Campione & Brown, 1987 ; Day, 1983), la zone proximale de dveloppement dbutant l ou finit la zone de dveloppement actuel, les tests classiques et les tests de potentiel dapprentissage mesureraient donc, par dfinition des entits psychologiques distinctes. Cette hypothse semble tre confirme par les rsultats obtenus par plusieurs auteurs (Guthke, 1982 ; Lidz, 1987) qui montrent que les scores de russite spontane (ou prtests) et les scores dapprentissage (post-tests ou scores de gains) sont faiblement intercorrls. Cependant Flammer & Schmid (1995, p. 193) expliquent que ces rsultats peuvent tre dus des artefacts mthodologiques.
La nature et la signification des progrs conscutifs lapprentissage valu
Les fondements de lvaluation dynamique sappuient sur le postulat de lducabilit de lintelligence crivent Paour et al. (1995, p. 47). Nous pouvons ajouter que si lvaluation dynamique et lducation cognitive partagent les mmes racines pistmologiques ils partagent galement les mmes ambiguts thoriques. Aussi, la question cruciale de la nature des effets induits par le programme dducation cognitive est pose ici propos des progrs mesurs par le potentiel dapprentissage. Les progrs rsultent-ils dune transformation du sujet, dune modification de sa reprsentation de la tche et/ou dune rduction de la complexit initiale de la tche ? sinterrogent trs justement Paour et al. (1995, p. 82). On a vu limportance de cette question propos de lvaluation des effets de mthodes de remdiation cognitive (cf. Loarer, 1998). Faut-il interprter les effets observs lissue dun programme dducation cognitive consistant entraner les sujets rsoudre des problmes extraits directement ou inspirs de tests dintelligence, comme des indices de dveloppement cognitif ou bien comme le simple rsultat dune familiarisation aux situations de tests ? Tout comme pour les effets des mthodes dducation cognitive, la rponse cette question passe par ltude de lintgration fonctionnelle de ce qui a t acquis propos de certaines tches (transfrabilit proche et loigne, immdiate et diffre des tches diffrentes requrant une activit cognitive de mme type) (cf. Huteau et Loarer, 1992). Seule une
348
telle tude permettra de dire si le sujet a seulement t entran russir au test ou a fait lapprentissage de procdures cognitives nouvelles rutilisables ultrieurement et transfrables des situations analogues.
La nature des contenus et oprations cognitives qui sont valus et entrans dans le cadre de lvaluation dynamique
Le reproche majeur fait aux tests dintelligence est quils ne permettent gnralement pas de comprendre le fonctionnement cognitif des individus (voir chapitre 7). De ce fait, ils sont dun faible secours dans ltablissement dun diagnostic sur la nature des difficults de fonctionnement ni dans la prescription de mesures de remdiation. linverse, lvaluation dynamique sinscrit dans cette dmarche dlucidation des contenus cognitifs des tests dintelligence (Paour et al., 1995, p. 52). La construction dun test dvaluation de potentiel dapprentissage et particulirement llaboration des aides spcifiques fournies au sujet, ainsi que le choix de tches de transfert demande en effet une connaissance des domaines cognitifs valuer et une analyse fine des items proposs. Quels que soient les objectifs poursuivis, lvaluation dynamique ne peut se dispenser dune analyse des contenus et des processus mobiliss dans la rsolution des tches proposes au sujet. Ceci est particulirement vrai lorsque la finalit de lvaluation est lintervention psychopdagogique. Diffrentes dmarches danalyse des tches cognitives ont t proposes (cf. Sternberg, 1977 ; Glaser & Pellegrino, 1978/79 ; Pellegrino, 1985), mais la complexit de leur mise en uvre les rend essentiellement utilisables dans un contexte de recherche. Sur ce point, lvaluation dynamique rencontre des limites qui sont celles de lavancement des recherches en psychologie cognitive. Bien entendu, le besoin de connaissances de ce type pour les applications psychomtriques et pdagogiques peut constituer une incitation importante ce que sintensifient les travaux dans le domaine. Mais on sait aussi que ces recherches sont coteuses et que la production de connaissances nouvelles est lente. Nous noterons galement que mme si lanalyse des tests peut aboutir la comprhension des processus cognitifs de rsolution impliqus dans les tches, elle ne dit pas comment on peut ensuite aider les individus acqurir la matrise de ces processus lorsque lon constate quils leur font dfaut. Sur
349
ce point, on se reportera aux travaux sur les mthodes dducation cognitive (voir par exemple Loarer et al., 1995 ; Loarer, 2001).
La validation du potentiel dapprentissage et des critres de validit
La notion de validit prdictive des preuves de potentiel dapprentissage est fonde sur le postulat que la capacit apprendre qui se manifeste aujourdhui dans une situation de test, se manifestera nouveau demain dans des situations relles. Ce postulat soulve notre avis deux problmes majeurs. Le premier concerne la gnralit de la mesure ralise. Le second sa fidlit.
Gnralit de la mesure Au cours de lvaluation dynamique, lentranement est ralis dans un domaine donn et dans des conditions donnes. Lhypothse que cet chantillon particulier dapprentissage soit reprsentatif de tous les apprentissages que la personne sera amene effectuer nous parat trs audacieuse et dire vrai peu fonde. Bien sr, on constatera que les tches retenues par la majorit des auteurs (Feuerstein, Guthke, Budoff, Ionescu, ...) pour servir la fois de support lvaluation et lapprentissage sont des tests fortement saturs en facteur g. Est-ce dire que laptitude apprendre, avec laide dun psychologue, rsoudre des tests de facteur G tmoigne dune capacit gnrale dapprentissage ? Les travaux mens en psychologie cognitive durant ces trente dernires annes sont nombreux conclure limportance des contenus et des contextes spcifiques dans lacquisition et la mise en uvre des procdures cognitives (Chi, 1978 ; Borkowski & Cavanaugh, 1979 ; Lautrey et al. 1986 ; Pignault, 2007). Ces rsultats concernent directement la problmatique de lvaluation dynamique. On a vu galement plusieurs reprises (Loarer et al., 1995 ; Loarer, 2001) comment ils justifiaient la rvision des postulats de base de certaines mthodes de remdiation cognitive. Une tude que nous avons mene afin de tester le degr de gnralit ou de spcificit de la capacit apprendre (Loarer & Chartier, 1994) renforce ce point de vue. Nous avons bti, selon la procdure T-A-R trois preuves de potentiel dapprentissage, chacune explorant un domaine cognitif diffrent : raisonnement inductif, raisonnement spatial et crativit.
350
Appliques aux mmes sujets (123 adolescents de lyce professionnel et jeunes adultes en formation) les preuves aboutissent des mesures de la capacit dapprentissage trs faiblement corrles entre elles, ce qui atteste de la spcificit du potentiel dapprentissage. Les scores de potentiel dapprentissage ne renvoient donc pas une capacit gnrale apprendre, mais une capacit qui varie selon les domaines sur lesquels ont port les apprentissages. Ce point de vue corrobore celui nonc par Campione & Brown (1987), Brown & Ferrara (1987), ou encore Klauer (1990). Il semble donc ncessaire, ce qui limite srieusement la porte de certaines preuves, que pour raliser une mesure de potentiel dapprentissage des fins pronostiques, le psychologue slectionne soigneusement les tches en relation avec les domaines viss. La concordance entre lpreuve de potentiel dapprentissage et lapprentissage ultrieur nest pas seulement considrer du point de vue des contenus. Elle est aussi envisager sous langle du format de lapprentissage. Ainsi, pour ce qui est de la prdiction de la russite scolaire, la validit des tests dapprentissage va dpendre de la concordance entre le mode dentranement et le mode denseignement. On ne voit en effet pas bien pour quelle raison le score de potentiel dapprentissage obtenu aprs une sance dentranement trs individualis et donnant lieu une forte mdiation de la part du formateur constituerait un bon prdicteur de la russite du sujet dans une formation ultrieure collective et faiblement mdiatise. Cest ce qui fait dire de nombreux auteurs (Laughton, 1990 ; Jensen & Feuerstein, 1987 ; Lidz & Thomas, 1987 ; Flammer & Schmid, 1995) que les rsultats scolaires ne sont pas toujours de bons critres de validation des scores de potentiel dapprentissage. De mme, pour ce qui est de lducabilit cognitive de la personne, nombreux sont les auteurs (par exemple Feuerstein et al., 1979, 1998 ; Dias, 1991) qui soulignent la ncessit, pour que lvaluation dynamique ait un sens, que la personne puisse continuer ultrieurement se trouver dans un environnement favorable son dveloppement.
La perspective ouverte par la thorie du potentiel dapprentissage ne peut tre pleinement satisfaite que dans un environnement qui offre ses membres les conditions de se modifier. (Dias, 1991, p. 132).
Faute dun tel environnement, la mesure du potentiel dapprentissage restera la mesure non pas dun dveloppement futur mais... dun potentiel futur non ralis et de ce fait non validable. Si lon considre dune part que les conditions habituelles de formation scolaire ou professionnelle sont rarement de mme type que celles prconises
351
par les auteurs pratiquant lvaluation dynamique et dautre part que lvaluation du potentiel dapprentissage est, comme nous lavons dit, essentiellement pertinente pour les personnes qui vivent dans un environnement socioculturel dfavorable, alors on aboutit un certain paradoxe de la mthode : le potentiel dapprentissage serait un bon prdicteur pour des situations dans lesquelles le sujet a peu de chances de se trouver plac. Ceci limite notre avis ltendue du domaine de validit prdictive du potentiel dapprentissage.
Fidlit de la mesure Le pronostic dapprentissage suppose une certaine stabilit dans la faon de changer et renvoie au problme de la fidlit de la mesure du potentiel dapprentissage.
Si lvaluation du potentiel dapprentissage ntait pas fidle, au moins un moment donn, elle ne pourrait fonder la moindre activit diagnostique ou pronostique et elle serait donc strictement inutile prcise Lautrey (1994, p. 138).
Pourtant, cette proprit de la mesure a rarement t tudie pour les preuves de potentiel dapprentissage, probablement en raison des problmes techniques quelle pose et que nous avons voqus. notre avis, cependant, le problme de fidlit de la mesure des potentiels dapprentissages est plus thorique que mthodologique, notamment lorsquil sagit de pronostiquer le dveloppement (diagnostic dducabilit). Le pronostic de dveloppement ultrieur fait implicitement rfrence un modle linaire du dveloppement cognitif. Lorsque Vygotski affirme que la ZPD renseigne mieux que le niveau actuel sur les apprentissages ultrieurs, il suppose une certaine stabilit individuelle des caractristiques de la ZPD. Lorsque les auteurs contemporains suggrent dvaluer le potentiel dapprentissage des individus, ils supposent galement que celui-ci peut tre considr comme un trait caractristique du sujet. La liaison recherche est gnralement tudie par une rgression statistique, simple ou multiple, de type linaire. Or, aucune thorie gntique nenvisage aujourdhui le dveloppement cognitif comme un processus monotone. Nous pouvons mme aller plus loin et souligner combien cette rfrence implicite est en contradiction avec certains postulats de base de lducabilit cognitive. Dans le cadre de lvaluation classique de lintelligence, la validit de la prdiction sappuie sur la stabilit dans le temps des caractristiques
352
individuelles (relativement au groupe de rfrence). Cest le cas, par exemple du QI. De ce fait, le niveau futur peut tre pronostiqu partir du niveau actuel. Les tenants de lvaluation dynamique postulent, au contraire, que la capacit dapprentissage, la modifiabilit ou lducabilit nest pas, pour un individu, une quantit fixe gntiquement une fois pour toutes, mais est susceptible de variations importantes en raison de multiples facteurs externes ou internes. Ainsi, par exemple, Feuerstein prtend provoquer par son intervention (LPAD ou/et PEI) une augmentation de la modifiabilit cognitive des individus et cela quel que soit leur ge (Feuerstein, 1980, 1990). De leur ct, Campione & Brown (1987, p. 87) soulignent la ncessit de ractualiser frquemment la mesure du potentiel dapprentissage. La mesure de lducabilit dun individu, disent-ils, nest valable que pour de brves priodes parce quelle peut changer avec lentranement ou linstruction. Feuerstein va plus loin et rejette lide mme de fidlit dans lvaluation du potentiel dapprentissage au nom de linstabilit du phnomne observ (Feuerstein et al., 1987). Nous ne le rejoignons pas sur ce point car il devient alors inutile de tenter toute mesure. Ce point de vue trs optimiste ne prend pas en compte ce que les thoriciens du dveloppement appellent les contraintes ou les limites dveloppementales prsentes dans toutes les thories du dveloppement. Ce manque dintgration de lvaluation dynamique dans un modle explicite du dveloppement cognitif peut surprendre. De Ribaupierre (1995) explique ce phnomne par le clivage historique entre thories de lapprentissage et thories dveloppementales. Certains promoteurs de lvaluation dynamique tant essentiellement des thoriciens de lapprentissage, ils ont eu tendance dvelopper leurs conceptions en marge des grandes thories du dveloppement et de ce fait sous-estimer les contraintes structurales sexerant sur lampleur des progrs possibles.
7.
Quels usages des preuves de potentiel dapprentissage ?

Quel que soit le modle dfendu, lvaluation dynamique est suppos fournir les bases dun meilleur pronostic des apprentissages ultrieurs que ne le fait lvaluation statique. Aussi, les tudes comparant les validits prdictives, du point de vue de la russite scolaire, de tests de potentiel dapprentissage et de tests conventionnels de QI, sont assez nombreuses dans la littrature
353
(Grigorenko & Sternberg, 1998). Force est de constater quelles ne vont pas toutes dans le sens de lhypothse. Ainsi, par exemple, Sewell (1979, 1987) observe dans une tude de ce type mene en premire anne de primaire que la meilleure prdiction est donne, pour lensemble de lchantillon test, par les tests conventionnels. Taylor & Richards (1990) arrivent aux mmes conclusions : le Wisc-R savre tre un meilleur prdicteur de la russite scolaire en primaire que les tests dapprentissage quils ont utiliss. Une tude conduite par Guthke (1990) fournit galement des rsultats allant dans le mme sens. Il constate, sur un chantillon de 400 enfants faisant lobjet dun suivi durant leur scolarit primaire, que les rsultats obtenus par un test classique de facteur G (MPC) prdit mieux la russite scolaire (value par les notes, les apprciations des matres et des tests de rendement scolaire) que ne le font les rsultats dun test de potentiel dapprentissage (le RKL). Ce type de rsultats a amen certains auteurs (par exemple Flammer, 1974, cit par Flammer & Schmid, 1982/1995, p. 204) conclure quavec des sujets normaux , lapport de lvaluation dynamique ntait pas suffisant pour justifier son cot supplmentaire. Il nen va cependant pas de mme lorsque lon sintresse aux sujets les plus faibles. Dans une tude de 1979, Sewell constate ainsi que, si le score classique de QI prdit mieux la russite scolaire denfants blancs de classe sociale moyenne, cest le score de retest de lpreuve de potentiel dapprentissage que fournit la meilleure prdiction pour un groupe dlves noirs de classe sociale dfavorise. De mme, Guthke (1990) rapporte que lorsquil observe non plus lensemble de lchantillon, mais seulement les lves (5 %) qui avaient t signals par la matresse de maternelle, leur entre en primaire, comme prsentant un risque dchec, cest le score de potentiel dapprentissage qui prdit le mieux leur russite scolaire. Les rsultats que nous avons nous-mmes obtenus dans lpreuve des SPM, et prsents ci-dessous, vont dans le mme sens. La sance daide ou dapprentissage apparat augmenter la validit de la mesure (score au retest). Lvaluation dynamique permet ainsi damliorer sensiblement le pronostic de russite pour les sujets les plus faibles, alors quelle napporte aucune information supplmentaire concernant les sujets niveau initial lev. Ces deux lments tayent, parmi les trois conceptions du potentiel dapprentissage que nous avons dcrites, celle qui voit dans la mesure du potentiel dapprentissage une amlioration de la mesure de lintelligence, notamment en limitant les biais socioculturels. Ces rsultats illustrent un paradoxe et saccordent avec le point de vue de Budoff (1987) : les tests dintelligence ont souvent t construits pour
354
reprer les dficits intellectuels et sont massivement utiliss pour lvaluation des enfants dficients, cest--dire pour lusage dans lequel ils semblent les moins valides. Cela conforte la position de Budoff sur le sens donner la notion de potentiel dapprentissage. Il apparat clairement ici que lvaluation dynamique prsente un intrt pour la compensation des biais socioculturels dans lvaluation de lintelligence. Lun des avantages souvent cit par les dfenseurs de lvaluation dynamique est quelle permet de recueillir des indications utiles lintervention pdagogique. Nous disposons en ltat actuel de peu dlments probants allant dans ce sens. Il nous semble que des avances ne pourront tre faites dans cette voie : sans un effort de conception de nouvelles tches dvaluation permettant une analyse fine des stratgies mises en uvre par les sujets (nous avons voqu les limites des tches adaptes de tests classiques pour analyser les erreurs des sujets) ; sans une avance conjointe des connaissances sur les interactions entre individus et situation pdagogiques ; sans llaboration de situations de formation capables de fournir des critres fiables de validation des stratgies dapprentissage repres dans la situation de test.
8.
Prsentation dpreuves
Les preuves dvaluation du potentiel dapprentissage sont, quelques exceptions prs, peu diffuses et accessibles en France. Beaucoup ont t dveloppes loccasion de recherches. Nous avons fait le choix ici de prsenter trois preuves :
Une premire preuve adapte des cubes de Kohs (Ionescu et al., 1985,
1987, Loarer et Chartier, 1994) qui adopte la procdure ACT, Une seconde preuve adapte des Matrices de Raven (Loarer et Chartier, 1994, Loarer, 2001) qui utilise la procdure T-A-R, Une troisime preuve adapte dun test de Faverge : le TEDE6 de Pasquier (2003) qui a opt pour une variante de la procdure T-A-R dans laquelle ne subsistent que les phases dapprentissage de retest.
355
Seule cette dernire preuve est disponible chez un diteur. Les deux premires preuves sont prsentes ici afin de fournir des exemples prototypiques de matriels et de procdures dvaluation dynamique.
Lpreuve de type Aide au cours du test de Ionescu et collaborateurs fonde sur les cubes de de Kohs
Une procdure dvaluation dynamique base sur lpreuve des cubes de Kohs a t labore par Ionescu et al. (1985), Ionescu, Jourdan-Ionescu, & Alain (1987) et reprise et complte par Chartier & Loarer (1994).
Lpreuve Le matriel utilis a t construit partir des neuf planches de lpreuve de cubes de lchelle dIntelligence de Wechsler pour adultes (WAIS-R). Les principales caractristiques de la procdure sont les suivantes :
La passation est individuelle ; Chaque personne passe lensemble de lpreuve, compose de 9 items ; Les aides ne sont donnes quen cas dchec mais le sont jusqu lobtention
de la russite ; Les aides sont standardises et hirarchiss, cest--dire que loprateur commence par donner des indices minimaux, qui sont progressivement enrichis en cas dchec ; Les aides sont fournies au sujet au cours de la passation en fonction des erreurs quil commet ; Une srie de trois aides hirarchises est prvue pour chaque item (voir figure 7.4) : 1. La premire de ces aides consiste prsenter le modle lchelle 1 (le modle original est lchelle 1/2). Elle permet de compenser dventuels problmes perceptifs ou des difficults lis au changement dchelle ; 2. La seconde aide prsente un modle o sont traces les limites des diffrents cubes, induisant une stratgie danalyse de la figure en lments spars ; 3. La troisime aide est une dmonstration ralise par le psychologue laide des cubes.
356
En cas de russite avec aide on revient systmatiquement au modle initial de litem afin dvaluer ce que les auteurs appellent le transfert dapprentissage. Ce dernier constitue un aspect essentiel de la mesure du potentiel dapprentissage. Il se rfre la capacit qua la personne qui passe le test de profiter de laide, ou des aides apportes, non seulement pour russir le niveau de tche pour lequel laide a t apporte mais galement dexploiter le principe appris pour mieux russir litem de niveau de difficult suprieur.
Figure 7.4 Principe des aides.
Les aides ne sont donnes quen cas dchec, selon le schma de passation dcrit dans la figure 7.5. Quel que soit litem considr, le temps de rflexion du sujet est limit 2 minutes pour la planche standard et 1 minute pour chacune des aides.
Les indices Dans les tudes ralises par Ionescu et al. auprs de dficients mentaux, trois notes ont t prises en compte, calcules soit partir des russites spontanes des sujets (NS, note spontane) soit partir du nombre daides efficaces fournies conscutivement un item initialement chou (NA, note daide) ou encore du nombre de russites du modle initial aprs aide (NT, note de transfert). Les auteurs considrent la note spontane comme quivalente une mesure classique de laptitude. Cela nest pas notre avis tout fait justifi, car leffet dapprentissage tient alors aussi bien la familiarisation avec lpreuve quaux aides ventuellement fournies. Quoi quil en soit, dans ces conditions, la prise en compte de la note de transfert dans un score global (NG = NS+NT) amliore quelque peu la validit prdictive de lpreuve par rapport un critre externe qui est la notation des moniteurs ayant eu superviser le travail des sujets. Cette note globale explique 29 % de la
357
ITEM i (planche i A) si russsite si chec planche i B si chec planche i C si chec faire le modle avec des cubes devant le sujet russite ou chec si russsite si russsite
ITEM i +1
planche i A
ITEM i +1
planche i A
ITEM i +1
planche i A
ITEM i+1
Figure 7.5 Schma de la passation.
variance de lchelle de Comptence Professionnelle sur laquelle les sujets sont valus. Chartier et Loarer (1994) introduisent une variante en proposant 2 nouveaux scores par rapport Ionescu et al. (1987) pour limiter le problme concernant la liaison ngative observe habituellement entre le score de russite spontane et le nombre daides ou de transferts russis. Il sagit de deux rapports :
Le rapport (appel RA, rapport daide ) donn par lopration : nombre
de russites conscutives une aide/nombre daides fournies, qui dsigne la capacit du sujet tirer parti des aides qui lui sont fournies ; Le rapport (appel RT rapport de transfert ) donn par lopration : nombre de transferts russis/nombre doccasions de transfrer, qui dsigne la capacit du sujet gnraliser le principe de russite appris au cours de laide.
Utilisation Cette preuve, dcrite ici comme illustration dune dmarche dvaluation dynamique est principalement destine lvaluation de lintelligence de
358
sujets prsentant des carts et/ ou des carences socioculturelles par rapport aux populations habituellement values. Elle permet en particulier, selon une approche principalement clinique, de tester lhypothse de dficit culturel.
preuve dvaluation dynamique base sur le SPM de Raven
Lpreuve, labore par Loarer et collaborateurs (cf. Loarer et Chartier, 1994 ; Loarer, 2001) est base sur les progressives matrices de Raven (voir pour une prsentation de cette preuve le chapitre 4) et utilise la procdure T-A-R. Des aides portant sur la rsolution de chaque type ditems du test ont t conues en sappuyant sur les travaux de Carpenter, Just, & Shell (1990), de Laroche (1956), de Raven (1981) et sur un travail complmentaire danalyse des procdures de rsolution de chaque item ralis par les auteurs. La passation est individuelle. Le sujet ralise une premire fois le test puis se voit ensuite proposer un apprentissage sur les items auxquels il a chou. Enfin, il passe le test une seconde fois. Les deux passations se font en temps limit. La figure 7.6 prsente un exemple daide, correspondant un principe de rsolution utilis dans lpreuve de Raven. La passation dure donc le temps ncessaire pour les deux passations compltes du SPM et pour la phase dapprentissage, soit environ 1 heure et 30 minutes.
Figure 7.6 Exemple daide propose correspondant lun des principes de rsolution des items des Matrices de Raven SPM (Loarer et Chartier, 1994).
Une tude de validit de cette preuve a t mene auprs dlves de 3e de collge (Loarer, 2001). La dmarche a consist valuer les lves en dbut danne scolaire laide des matrices de Raven, selon la procdure T-A-R, et comparer les rsultats au pr-test (mesure classique) et les scores
359
au post-test (mesure incluant les effets de lapprentissage) du point de vue de leur validit pronostique. Les notes scolaires aux 1r et 3e trimestres ont t prises comme critres (centres et rduites par classe et par matire). Les coefficients de validit ont t calculs initialement pour la totalit de leffectif, puis une partition du groupe la mdiane a t opre selon les rsultats au pr-test. Les rsultats montrent que pour lensemble des sujets, le post-test napporte pas, par rapport au pr-test, un surcrot significatif de validit. Par contre, aprs partition du groupe (cf. tableau 7.1) on constate que cest le score au post-test qui est le plus valide pour les sujets ayant les scores les moins levs, les coefficients de validit des scores au pr-test tant non-significatifs.
Tableau 7.1
Coefficients des corrlations (rbp) entre les scores aux SPM sans apprentissage (pr-test) et aprs apprentissage (post-test) et les notes scolaires aux 1er et 3e trimestres pour le groupe le plus faible Pr-test rBP Notes 1 trim. Notes 3 trim.
e er sign.
Post-test rBP .30 .22

sign.
09 .02
ns. ns.
p<.05 p<.05
Nous retenons donc de cette tude que le score au retest aprs apprentissage reflte mieux le niveau rel des sujets les plus faibles. En passation individuelle, linterprtation du rsultat au test des fins de pronostic de la russite ultrieure consiste alors prendre le score au retest aprs apprentissage comme refltant le niveau rel du sujet. La solution idale serait de disposer dun talonnage des scores de retest pour diffrentes populations de rfrence. Il sagit l dune possibilit intressante de dveloppement de ce test.
Le Test dvaluation Dynamique de lducabilit, 6e dition (T.E.D.E.6) de Pasquier
Le T.E.D.E. 6 a pour objectif principal, selon son auteur (cf. Manuel, p. 5), la mesure de lducabilit de la personne par lvaluation de son potentiel dapprentissage . II est destin des populations adultes, apprentis ou candidats apprentis sachant lire le Franais.
360
Le test adopte la procdure apprentissage-test, variante de la procdure T-A-R sans effectuer le test initial. La mesure du potentiel dapprentissage correspond la performance obtenue par le test effectu aprs apprentissage.
Tche Inspire du test de calcul des longueurs de Faverge (1955), la tche, de nature spatiale et logico-mathmatique, est double : il sagit dune part de composer une galit partir de segments de droites et, dautre part, de tracer les flches figurant les superpositions de segments justifiant cette galit (cf. figure 7.7)
6,7 12,3 15,1
FIGURE
? C
2e EXEMPLE - Figure C. On vous a donn 3 longueurs en trait fort : 6,7 ; 15,1 ; 12,3 et on vous demande de calculer une quatrime longueur en trait fort devant laquelle on a mis un point d'interrogation. Vous voyez quelle est la diffrence entre 15,1 - 6,7 - 8,4. La rponse est 8,4. Il tait donc inutile de se servir de la longueur donne 12,3. Avez-vous bien compris ?
Figure 7.7 Exemple ditem du test de calcul des longueurs de Faverge (1955) et dont sinspire le TEDE.
Le TEDE comprend trois niveaux de difficult des items selon la complexit des oprations effectuer. Les 12 items de la phase dapprentissage et les 18 items de la phase de test couvrent 3 niveaux de complexit des oprations raliser.
Matriel et passation Le matriel comprend deux livrets (le livret dapprentissage et le livret de test) et un dossier dinstructions. La premire phase de la passation est consacre
361
(a-b+c)
(a+b-c+d)
(a+b+c-d)
Figure 7.8
lapprentissage de la tche excuter. Pour cette premire phase, les sujets accompagns de lexaminateur travaillent en situation dauto-formation assiste laide du dossier dinstructions et du livret pour lapprentissage. Les personnes sont ensuite invites raliser les exercices du livret de test (3 exemples + 3 sries de 6 items) sans aucune aide. La passation peut tre individuelle ou collective. Le temps de passation est de 2 heures (apprentissage : 1 heure + pause de 15 minutes + test : 45 minutes). Le temps de correction est denviron 5 minutes (logiciel de correction).
lments de validation Le manuel prsente de nombreuses donnes de validation, tant en ce qui concerne la validit interne du test (analyse des items, cohrence interne, analyse de biais diffrentiels, fidlit) quen ce qui concerne les validits externes (concourantes et prdictives). Ainsi, le manuel fait tat dune cohrence interne (coefficient alpha de Cronbach) de 0,92 et dune stabilit temporelle (corrlation test-retest une semaine dintervalle de 0,94). Ces deux indices ont des niveaux trs satisfaisants. On peut cependant regretter que la stabilit soit value sur un chantillon trs restreint (15 sujets). Les donnes relatives la validit prdictive relativement des indicateurs de russite en formation sappuient sur des chantillons plus larges (n=161 pour lchantillon adulte et n=244 pour lchantillon apprentis) et sont en moyenne leves : les corrlations vont de 0,40 0,83 pour les diffrents groupes composant lchantillon adultes et de 0,38 0,71 pour les diffrents groupes composant lchantillon des apprentis.
362
Des lments de validit concourante sont galement prsents dans le manuel, relativement diffrents tests de raisonnement et de connaissance, ce qui se comprend bien, mais aussi avec des inventaires dintrts (modle de Holland) et de personnalit (preuve de Gordon) ce qui se comprend moins aisment. Nous retiendrons que le test prsente globalement de bons indices de validit et semble bien adapt la fois au type de populations vises mais aussi aux objectifs viss (prdiction de la russite en formation). Nous remarquerons cependant que le choix de la procdure d Aideretest ne permet pas de savoir quelle est la part du niveau initial et quelle est celle de lapprentissage dans la russite au test. La procdure permet probablement de limiter lincidence de biais induits par le manque de familiarit avec la tche, lappartenance socioculturelle ou encore ventuellement lmotivit. Lpreuve apparat donc poursuivre principalement un objectif damlioration de la mesure de lintelligence logique. Une analyse de la squence dapprentissage et de ces relations avec le test lui-mme permet nanmoins daller bien au-del de cet objectif et de fournir des indications relatives lapprentissage lui-mme.
Corrections et exploitation des rsultats Le test est fourni avec un programme permettant de saisir les rsultats du sujet. Ce programme donne accs diffrents traitements du protocole. Il permet de le positionner au regard de ltalonnage adapt mais il permet aussi afin danalyser les caractristiques de la phase dapprentissage et de dgager ce qui est appel des profils du sujet. Il sont de trois types : profil fonctionnel, profil dapprentissage, profil de transfert.
Le profil fonctionnel correspond la rpartition des russites selon les trois
niveaux de complexit du test et selon les aspects de la tche : galits et dplacements ; Le profil dapprentissage fournit une analyse des erreurs faites et de la faon dont elles ont t traites ; Le profil de transfert reflte le lien entre la squence dapprentissage et le test proprement dit.
363
Cinq cas de figures ont t rpertoris : russite ritre (litem est russi lapprentissage et au test) ; gain (litem non russi lapprentissage lest au test) ; perte (litem russi lapprentissage ne lest plus au test) ; chec ritr (litem nest russi ni lapprentissage ni au test) ; omission ritre (litem nest ralis ni lapprentissage ni au test). Ces profils donnent accs une information qui peut tre utile dans une perspective psychopdagogique, ce que peu de tests permettent.
talonnages Les talonnages disponibles portent sur une population dadultes et sur une population dapprentis. Des talonnages spcifiques sont en outre proposs : Pour la population adulte selon 4 niveaux de qualification : groupe 1 : les hommes et femmes de niveau II et ID, les hommes de niveau IV, tous ges confondus, groupe 2 : les hommes juniors (16- 29 ans) de niveau V et les femmes juniors (16-29 ans) de niveau IV, groupe 3 : les femmes de niveau V, les hommes seniors (29-58 ans) de niveau V et les femmes seniors (29-58 ans) de niveau IV, groupe 4 : les hommes et femmes de niveau VI, tous ges confondus ; Pour la population des apprentis et candidats apprentis, selon 4 niveaux de qualification des diplmes prpars : CAP, BEP, BP, Bac.
Restitution Le manuel fournit un modle de fiche de synthse et des indications concernant la restitution des rsultats la personne qui a pass lpreuve. Cette restitution sappuie en particulier sur lanalyse des profils qui a t faite.
9.
Conclusions sur le potentiel dapprentissage

La perspective de disposer dinstruments nouveaux permettant de dpasser les limites des instruments classiques est rjouissante. Pour cela, le concept dvaluation dynamique constitue manifestement une rupture pistmologique (Paour et al., 1995) par rapport aux approches traditionnelles de diagnostic
364
cognitif, et la dmarche dvaluation qui en dcoule semble prometteuse. Lvaluation dynamique apporte dj une amlioration notable la mesure de lintelligence pour les sujets de faible niveau de performance. Neutralisant, au moins partiellement, les diffrences individuelles bases sur des ingalits socioculturelles, elle permet alors de raliser un diagnostic plus valide (plus dmocratique) de leurs capacits cognitives. Cependant, bien que trs sduisante dans ses principes gnraux, lvaluation dynamique ne va pas sans poser un certain nombre de problmes pineux. Comme le font remarquer trs justement Bchel et Paour (1990), les tentatives pour dynamiser la psychomtrie ont jusquici soulev autant de problmes quelles en ont rsolus. Dun point de vue mthodologique, nous retenons les faibles qualits mtrologiques des indices dynamiques et la bonne tenue des scores de posttest, tant du point de vue de la fidlit que de la validit. Nos observations confirment donc le choix fait par plusieurs auteurs de privilgier ce dernier (Guthke & Wigenfeld, 1992 ; Guthke et al., 1997 ; Klauer, 1975, cit par Klauer, 1995 ; Speece, Cooper, & Kibler, 1990). Ce constat prsente un intrt vident pour le praticien. La prise en compte de la note au retest permet dutiliser un indice dont la transparence facilite la restitution aux personnes concernes (sujets, enseignants,...) et dont la dtermination vite la mise en uvre dun plan exprimental difficilement conciliable avec les contraintes des pratiques habituelles dvaluation. Pour ce qui est de ses finalits diagnostique et pronostique, trop de problmes non rsolus ou rsolus seulement partiellement, notamment des problmes relatifs lobjectivit des observations, la fidlit et la validit des mesures, et leur caractre plus ou moins analytique, subsistent. Le nombre de ces inconvnients, voire de ses limites, risque de la rendre difficile mettre en uvre dans la pratique courante des bilans psychologiques. Pour ce qui est de sa finalit ducative, il est probable que ds que lon pourra proposer des mthodes dvaluation fournissant de faon fiable des informations utiles aux formateurs et enseignants, bon nombre de praticiens se dtourneront des mthodes statiques au profit de lvaluation dynamique. Il sagit donc dune approche prometteuse et actuellement encore insuffisamment dveloppe.
CHAPITRE 8
Sommaire
L L L L
1. Les conditions dutilisation des tests . . . . . . . . . . . . . . . . . . . . . . . . . . 2. La pratique des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Exemples de contextes dutilisation des tests dintelligence logique 4. diteurs de tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
367
utilise des tests dintelligence ? Comment les utilise-on ? Dans quels contextes ? Cest lobjet de ce chapitre. Pour le qui , les utilisateurs de tests sont, au moins en France, majoritairement des psychologues. Nous en exposerons les raisons. Pour le comment , nous dtaillerons les grandes tapes de lutilisation de tests psychologiques : de lanalyse de la demande la restitution des rsultats. Enfin, concernant les contextes dutilisation, ils sont nombreux : des bilans psychologiques effectus dans le systme ducatif pour les scolaires (enfants et adolescents) aux pratiques de recrutement et de gestion des ressources humaines pour les adultes, sans oublier les pratiques plus contemporaines de conseil et daccompagnement (bilan de comptences...), ou encore les bilans psychologiques effectus dans les hpitaux ( la demande des psychiatres et les neurologues), sans oublier les demandes dexpertise des tribunaux... Nous prsenterons les grandes lignes de quelques-uns de ces contextes dutilisation.
Q
1.
UI
Les conditions dutilisation des tests
Qui peut utiliser des tests en France ?
Les utilisateurs de tests en France sont, comme nous venons de lindiquer, le plus souvent des psychologues. En effet, un nombre important de tests nest accessible quaux personnes pouvant justifier du titre de psychologue. Rappelons ce propos que la profession de psychologue est rglemente depuis la loi de 1985. Pour pouvoir faire usage du titre de psychologue il est ncessaire : 1) davoir valid un cursus complet dtudes suprieures en Psychologie (Licence et Master), 2) davoir ralis (et valid) un stage dans un contexte professionnel dune dure minimale de 500 heures. La vente de tests psychologiques se trouve donc, du moins en France, et pour certains tests seulement, limite aux personnes pouvant justifier du titre de psychologue. Pourtant, et la Socit Franaise de Psychologie (SFP) le prcise dans un document relatif la problmatique de lutilisation des tests (SFP, non dat, disponible sur son site internet), du point de vue de la lgislation franaise actuelle, une personne non psychologue pourrait attaquer en justice un diteur de test pour refus de vente. La restriction de
368
la vente relve donc plus dun accord informel entre diteurs et auteurs (et organisation professionnelle ?) que de lexistence de rels textes lgislatifs. Certaines preuves sont ainsi accessibles aux non psychologues, cest par exemple le cas, pour rester dans le champ des tests de logique, des matrices de Raven, qui peut tre considr comme le, ou lun des exemples prototypiques dun test dintelligence. Laccs libre cette preuve nous semble regrettable car le titre de psychologue constitue une garantie des capacits de lutilisateur utiliser de manire pertinente ce test. Ce qui est en jeu nest pas la dfense dun titre professionnel et de ses prrogatives, mme si cet argument doit tre pris en compte dans la rflexion sur le sujet, mais bien la protection des intrts de la personne qui fait lobjet dune valuation. Le psychologue est gnralement, du fait de sa formation et de son exprience, et de son code de dontologie, mme dapprcier la pertinence dutiliser ou non un test, de choisir le plus appropri une situation donne, destimer le niveau de fiabilit de lpreuve slectionne compte tenu de la situation et du contexte, capable den interprter correctement les rsultats et de les restituer de faon adquate la personne... Bref, il possde les connaissances et comptences qui conditionnent un bon usage des tests. Car il existe bien de mauvais usages des tests, et une personne non psychologue pourra tre amene, non pas ncessairement en raison de mauvaises intentions mais plus simplement par manque de connaissances et de vigilance sur certains aspects, mettre en uvre de telles pratiques nfastes, par exemple en utilisation mcaniquement le test, en linterprtant sans nuance ou encore en lappliquant hors de son champ de validit. On peut argumenter quune grande diversit existe dans les formations de psychologie et que toutes ne fournissent pas de formation pousse en psychomtrie. Cela est vrai et plus encore aujourdhui depuis lorganisation des formations universitaires selon le systme europen de formation (LMD) qui a abouti augmenter la diversit des parcours de formation universitaires. Nanmoins, lvaluation psychologique et la pratique des tests font partie des connaissances et comptences de base du psychologue et, mme si tous les psychologues ne sont pas au sens strict du terme, spcialiss dans ce domaine, la formation quils ont reue et le code de dontologie qui encadre leur pratique constitue ce jour la meilleure garantie en la matire. Un article de Castro et al. (2001) est justement consacr ce problme de lutilisation des tests psychologiques par des psychologues et des non psychologues. partir dune enqute auprs de psychologues il ressort que ces derniers regrettent une absence totale de rglementation ce
369
niveau et ne souhaitent pas que des non psychologues puissent utiliser des tests psychologiques : lensemble des rpondants soppose formellement lutilisation des tests psychologiques par des non-psychologues et ce pour deux raisons distinctes lies la formation et la notion de responsabilit (p. 105). Lactivit dvaluation par des tests psychologiques est perue comme un acte psychologique ncessitant un haut niveau de formation en psychologie. Les auteurs de larticle, dans leurs commentaires sur les rsultats de lenqute, avancent les arguments suivants :
Lutilisation dontologique des tests (dans lintrt des personnes values) suppose donc un niveau de formation appropri, qui ne peut tre atteint qu travers un cursus complet de psychologie (p. 107).
Sept ans aprs ce constat, la rglementation na pas chang et les pratiques dvaluation psychomtriques par des non-psychologues a plutt tendance se dvelopper. Plusieurs raisons peuvent tre invoques. Une raison vidente est de nature commerciale : alors que le march de lvaluation psychologique est actuellement en plein essor, en particulier sous leffet du dveloppement des tests informatiss et des tests en ligne, il peut apparatre souhaitable certains (notamment certains diteurs) de laisser les choses en ltat. Une autre raison est peut-tre rechercher au sein mme de la profession qui ne prsente pas de rel consensus sur cette problmatique. Une pratique de diffusion des tests conditionne au suivi dune formation spcifique se dveloppe actuellement. Elle concerne essentiellement mais non exclusivement les preuves de type questionnaires (intrts professionnels ou dimensions de la personnalit). Cette pratique consiste conditionner la vente de lpreuve, et donc son utilisation, au suivi obligatoire dune formation courte relative lpreuve vendue. Mme si cette pratique prsente des limites (et constitue un vrai march en soi car ces formations sont onreuses) elle constitue lvidence un progrs par rapport une situation de vente libre des tests. Cependant, de telles formations courtes ne peuvent tre profitables qu des personnes ayant dj des prrequis dans le domaine de lvaluation psychologique. En outre, une application stricte de la rgle aboutit parfois obliger des psychologues parfaitement mme dutiliser les preuves suivre galement cette formation... Une rflexion est donc mener sur les conditions dune ouverture de lutilisation des tests des non-psychologues. Quels aspects de la pratique et sous quelles conditions (dexprience, de formation la psychomtrie, de formation spcifique lpreuve...) la pratique des tests pourrait-elle tre largie des non-psychologues ? Cela peut probablement dpendre
370
du type de test et de lexprience professionnelle1 du non-psychologue qui souhaite utiliser une preuve. Une contribution cette rflexion est propose par la SFP (SFP, non dat). Si la passation dune preuve, ou du moins de certaines preuves, voire mme leur cotation, peut ventuellement faire lobjet dune formation relativement limite, il nen est pas de mme pour linterprtation des rsultats, la rflexion sur lusage de tests dans le cas dune pratique professionnelle, sur le respect de la personne etc. Tous ces lments justifient bien le haut niveau de formation ncessaire pour pouvoir exercer des activits de psychologue, en lien direct avec les aspects thiques et dontologiques de cette profession. Afin de garantir la qualit de cette activit, dindiquer quelles devraient tre les lments dune bonne pratique professionnelle, mais galement de garantir les droits des usagers, les organisations professionnelles de psychologues (dont la SFP) ont labor un code de dontologie afin de cerner les droits et les devoirs du psychologue, de dfinir un cadre de rfrence : le prsent code de dontologie est destin servir de rgle professionnelle aux hommes et aux femmes qui possdent le titre de psychologue, quels que soient leur mode dexercice et leur cadre professionnel, y compris leurs activits denseignement et de recherche .
Le code de dontologie des psychologues
La dernire version du code de dontologie date de 1996. Elle figure en annexe de cet ouvrage. Nous en reprendrons ici quelques articles, en lien direct avec lutilisation des tests. Au tout dbut de ce document, dans les principes gnraux, il est indiqu que le psychologue dcide du choix de ses mthodes :
Dans le cadre de ses comptences professionnelles, le psychologue dcide du choix et de lapplication des mthodes et techniques psychologiques quil conoit et met en uvre. Il rpond donc personnellement de ses choix et des consquences directes de ses actions et avis professionnels.
Ces mthodes doivent reposer sur des fondements thoriques solides et explicites :
1. Que pourrait tre une Validation des Acquis de lExprience sur ce point ?
371
Les modes dintervention choisis par le psychologue doivent pouvoir faire lobjet dune explicitation raisonne de leurs fondements thoriques et de leur construction. Toute valuation ou tout rsultat doit pouvoir faire lobjet dun dbat contradictoire des professionnels entre eux.
Ces lments sont repris ensuite dans larticle 18 du code :

Les techniques utilises par les psychologues pour lvaluation, des fins directes de diagnostic, dorientation et de slection, doivent avoir t scientifiquement valides.
Le psychologue doit tre capable destimer la fiabilit des mesures quil ralise mais aussi, plus globalement, des preuves quil utilise, comme nous lindiquent les articles suivants :
Le psychologue est averti du caractre relatif de ses valuations et interprtations. Il ne tire pas de conclusions rductrices ou dfinitives sur les aptitudes ou la personnalit des individus, notamment lorsque ces conclusions peuvent avoir une influence directe sur leur existence (article 19) ; La pratique du psychologue ne se rduit pas aux mthodes et techniques quil met en uvre. Elle est indissociable dune apprciation critique et dune mise en perspective thorique de ces techniques. (article 17.)
Cette capacit de matrise des tests, outils et mthodes doit faire lobjet dune formation spcifique dans laquelle :
Il est enseign aux tudiants que les procdures psychologiques concernant lvaluation des individus et des groupes requirent la plus grande rigueur scientifique et thique dans leur maniement (prudence, vrification) et leur utilisation (secret professionnel et devoir de rserve), et que les prsentations de cas se font dans le respect de la libert de consentir ou de refuser, de la dignit et du bien-tre des personnes prsentes. (article 32.)
Mais certaines de ces rgles de bonne conduite proposes dans le code de dontologie ont parfois quelques difficults tre respectes dans les situations concrtes. Par exemple : quen est-il du choix de ses preuves lorsque le psychologue ne peut disposer, au sein de sa structure, que dun nombre parfois trs limit de tests ? Quen est-il de la restitution des rsultats dans le cadre dutilisation de tests dans une procdure de slection ? Llaboration dun code est ncessaire mais faut-il encore quil soit facilement applicable et adapt aux diffrentes situations professionnelles. Pour Huteau et Lautrey les indications fournies par les codes de dontologie
372
et les textes lgislatifs demeurent souvent assez vagues et leur application est parfois problmatique (1997, p. 110). Ils en donnent alors quelques exemples :
Quest-ce quune technique scientifiquement valide si lon ne se rfre pas des normes ? [...] La confidentialit est forcment mise mal dans les procdures de recrutement : le psychologue est bien oblig de fournir des informations concernant les candidats puisquil est pay pour cela ! (p. 110).
Le code de dontologie est un outil ncessaire et indispensable, cest une rfrence pour une profession mais cest au psychologue, en dernier recours, destimer, en fonction du contexte, quelle application de ce code est possible. Claude Lvy-Leboyer, dans un article ancien, mais toujours pertinent, consacr aux problmes thiques poss par lusage des tests (Lvy-Leboyer, 1987) distingue trois questions principales : Le problme dontologique renvoie donc trois questions qui sont, en fait, de nature mthodologique : quelles rgles dapplication faut-il respecter ? quelle est la valeur de loutil que constituent les tests eux-mmes ? comment la prouver de manire objective et raliste la fois ? (LvyLeboyer, 1987, p. 473). Ces trois questions, qui rejoignent certains points du code de dontologie relatifs lvaluation des personnes, peuvent guider le psychologue dans ses activits dvaluation. Pour Lvy-Leboyer il existe aussi un lien troit entre formation et comptences requises pour utiliser des tests dans de bonnes conditions : seuls ceux qui ont reu une formation thorique et pratique adquate sont capables de choisir des tests adapts chaque situation, de les faire passer dans des conditions satisfaisantes, de les interprter et de les utiliser dans le cadre plus large de dcisions concernant la carrire des individus, et leur orientation, ou encore dactivits de conseil psychologique (p. 474). Un autre aspect intressant de larticle concerne les dcisions importantes qui peuvent tre prises partir des rsultats de tests. Pour Levy-Leboyer il faut multiplier les sources dinformation sur le sujet, et galement, si possible, multiplier les personnes en charge de la dcision : dune part, aucune dcision ne peut tre prise sur la base dun seul test, ni mme en fonction des seules informations que les tests apportent ; dautre part, aucune dcision importante ne devrait tre prise par une seule personne (Lvy-Leboyer, 1987, p. 484).
373
Le lecteur souhaitant approfondir la rflexion sur les aspects dontologiques de lactivit de psychologue pourra consulter les publications de Bourguignon (2000 et 2003) ainsi que le numro spcial de janvier 2000 de la revue Bulletin de psychologie consacr thique en psychologie et dontologie des psychologues .
Qui diffuse les tests en France ?
Les tests sont diffuss en France par des entreprises dditions. Historiquement en France, les plus anciennes, et sans doute les plus connues, sont les EAP1 et les ECPA2 , regroupes depuis quelques annes au sein des ECPA. On peut galement signaler la prsence, plus rcente, dautres diteurs de tests tels quEurotests, Hogrefe, OPP... Nous avons recens en fin de chapitre les coordonnes des principaux diteurs de tests en France. Le psychologue pourra consulter sur internet le catalogue de ces diffrents diteurs et sapercevra rapidement que certaines maisons ddition, plus anciennes, possdent un nombre important dpreuves tandis que dautres, plus petites et/ou plus rcentes, ont un catalogue plus rduit et/ou en cours de dveloppement. Signalons enfin que certaines de ces entreprises organisent des prsentations de tests, et de nouveauts, sous forme de petits-djeuners . Cest loccasion, pour le psychologue, de se tenir inform de lactualit des tests. Les politiques de ces diteurs peuvent tre sensiblement diffrentes : certains sont plus spcialiss dans les outils destinations des adultes, dautres proposent galement des tests destination denfants ; certains tentent de diffuser des preuves europennes et/ou francophones alors que dautres adaptent surtout des tests dorigine anglo-saxonne. Avant dacheter un test il est fortement conseill, si lon ne connat pas lpreuve, de se rendre chez lditeur afin de pouvoir consulter lpreuve dans son ensemble, et tout particulirement les informations contenues dans le manuel qui accompagne le test.
1. ditions et Applications Psychologiques. 2. ditions du Centre de Psychologie Applique.
374
La formation lutilisation des tests
Nous pouvons distinguer ici trois types de formation offrant des enseignements sur la pratique des tests : les formations universitaires en Psychologie, les formations de psychologues statut fonctionnaires et les organismes de type formation continue.
Les formations universitaires en psychologie1 Comme nous lavons indiqu auparavant, toute formation de psychologue doit comporter un enseignement significatif dans le domaine des tests. Gnralement, une premire approche de la mesure en psychologie, et des tests, est propose aux tudiants pendant la Licence de Psychologie. Cette formation est ensuite dveloppe en Master, mais restreinte au domaine spcifique de la spcialit du Master : par exemple, on ne prsentera pas aux tudiants dun Master de psychopathologie, les mmes preuves quaux tudiants suivant un Master en Psychologie du travail. De plus, le nombre limit dheures de cours ne permet gnralement pas daborder un ensemble vaste dpreuves. Enfin, la place accorde lvaluation dans les programmes de formation peut dpendre du contexte historique et institutionnel de chaque Universit. Toutes ces sources possibles de variations expliquent que, mme si tout tudiant diplm en psychologie, de niveau Master, possde thoriquement les bases thoriques, mthodologiques et les comptences pratiques, ncessaires la bonne utilisation de tests, il est possible que, comme dans la ferme des animaux (Orwell), certains soient plus gaux que dautres ce niveau. Et ces diffrences de formation auront des consquences dans la pratique ultrieure, comme nous lindique Dana Castro : deux choses sont certaines : toute la multitude de tests actuellement disponible nest pas enseignable et les enseignements dispenss aux futurs psychologues au cours de leur formation initiale vont marquer de leur empreinte, et pour longtemps, leur pratique ultrieure (Castro, 2001, p. 52). De plus, au-del de la formation, une relle exprience est indispensable :
Le fait de possder des diplmes universitaires en psychologie ne remplace pas lexprience acquise et tous les psychologues diplms ne sont pas forcment comptents pour tous les tests existants. (Levy-Leboyer, 1987 p. 474).
1. Nous pouvons intgrer galement ici le cursus de psychologie du travail propos par le CNAM.
375
Les formations de psychologues statut de fonctionnaires Deux formations de psychologues amens exercer avec un statut de fonctionnaire dans lducation nationale sont voques ici : il sagit de formations de type universitaire mais recrutement particulier : les psychologues scolaires et les Conseillers dorientation-psychologues. Les psychologues scolaires interviennent dans lenseignement primaire. Leur formation (dune dure dun an) est rserve aux instituteurs ou professeurs des coles, titulaires dune licence de psychologie. Les Conseillers dorientation-psychologues (COP) interviennent dans les tablissements denseignement secondaire et dans le suprieur, ainsi que dans les Centres dInformations et dOrientation (CIO). Le recrutement, sur concours, est ouvert aux titulaires dune licence de psychologie et la formation dure ensuite deux ans. Dans ces deux formations des enseignements significatifs portent sur lvaluation psychologique, les tests et lexamen individuel. Nous prsenterons plus loin quelques lments descriptifs des activits professionnelles des COP dans le domaine de lvaluation des personnes.
La formation continue Le psychologue est tenu de maintenir ses connaissances jour et doit pouvoir bnficier de stages de formations. Les universits et des instituts spcialiss (comme par exemple lINETOP), mais aussi des cabinets privs ou encore les diteurs de tests, proposent des formations continues dans le domaine de lvaluation psychologique. Il peut sagir de formations portant sur des modles thoriques, sur la pratique dune preuve ou dun groupe dpreuves (analyse de protocoles, tudes de cas...), ou encore de formations spcifiques accompagnant la sortie dune nouvelle preuve, ou dune version rnove (comme par exemple les formations sur le WISC-IV proposes par les ECPA et lINETOP).
Lapproche par la dfinition de normes et par lanalyse des comptences des utilisateurs de tests
Nous venons daborder les conditions dutilisation des tests en France et avons signal que cette possibilit dutilisation reste marque, dans ce pays, et pour diffrentes raisons, par la distinction entre psychologue et non psychologue. Dautres pays ont suivi une approche diffrente et se sont questionns sur les comptences que devrait possder tout utilisateur de
376
tests. Il faut signaler ici le travail important ralis il y a quelques annes par plusieurs organisations amricaines de psychologues et professionnels de lvaluation1 , repris et traduit en 2003 par Georges Sarrazin et collaborateurs (Sarrazin (Ed.), 2003). On peut noter que ce travail de traduction a t ralis linitiative de lOrdre de conseillers et conseillres dorientation du Qubec. Lobjectif de cet ouvrage est de proposer des normes de rfrence pour toute utilisation des outils dvaluation :
Lobjectif vis par les Normes de Pratiques est de promouvoir une utilisation valide et thique des tests et de fournir une base lvaluation de la qualit des pratiques de testing. (p. 1)
Il sagit de proposer la fois des critres dvaluation pour les tests mais galement des normes dans la pratique de ces instruments de mesure afin den garantir une bonne utilisation :
Pour tre efficace, le testing et lvaluation requirent de tous ceux qui participent au processus la possession de connaissances, dhabilets et daptitudes (p. 2).
Sont ainsi viss les utilisateurs de tests mais galement les concepteurs et diteurs. Louvrage est structur en trois parties. Dans la premire, Construction de tests, valuation et documentation, sont abordes les principales notions psychomtriques (qui ont t prsentes dans le chapitre 2 de notre livre). La deuxime, quit en valuation, est relative lanalyse de biais potentiels dans les tests2 . La troisime partie, Application du testing, est consacre aux conditions dune bonne utilisation des tests. Chaque partie est compose de plusieurs chapitres et la fin de chaque chapitre figure une liste de normes. Prenons quelques exemples afin dillustrer la dmarche des auteurs : Norme 1.2, relative la validit des tests (partie I du livre) :
Les concepteurs de tests devraient expliquer clairement la faon dinterprter et dutiliser les scores dun test. La ou les populations pour lesquelles le test a t conu devraient tre clairement dlimites et la
1. American Educational Research Association, American Psychological Association, National Council on Measurement in Education. 2. Lquit tant dfinie comme une absence de biais ou le fait que tous les candidats sont traits galement dans le processus dvaluation (p. 90).
377
construction mentale que le test est cens mesurer devrait tre dcrite avec prcision (p. 19).
Norme 10.1, relative lvaluation des personnes prsentant un handicap (partie II du livre sur lquit) :
Dans lvaluation des personnes handicapes, ceux qui conoivent, administrent et utilisent les tests devraient prendre toutes les mesures ncessaires pour garantir que les infrences faites partir des scores refltent avec exactitude la construction mentale en cause, plutt quun handicap ou les attributs qui lui sont associs sans rapport avec lobjet de la mesure. (p. 127).
Norme 11.1, relative la responsabilit des utilisateurs de tests (partie III du livre) :
Avant dadopter et dutiliser un test publi, son utilisateur devrait analyser et valuer les documents fournis par son concepteur, particulirement le matriel qui rsume les objectifs du test, spcifie ses modalits administratives, dfinit les populations cibles et passe en revue les possibles interprtations de scores bass sur des donnes fiables et fidles. (p. 136).
Comme nous pouvons le constater, ces normes visent bien lensemble du processus dvaluation, de la qualit de linstrument de mesure jusquaux connaissances et comptences que lutilisateur de test doit matriser. Tout particulirement, cest dans cette dernire partie de louvrage (partie III) que lon trouve les recommandations (et normes) relatives aux comptences et qualifications que doit possder tout utilisateur de test. Ainsi, comme nous lavons dj soulign dans notre ouvrage, lutilisateur de test doit tre capable dexercer un regard critique, un regard dexpert, sur le test quil souhaite utiliser :
Quand il slectionne un test, le professionnel fait davantage que revoir le nom du test ; il fonde sa dcision sur les preuves de validit et de fidlit et sur lapplicabilit des donnes normatives qui sont disponibles pour ce test dans la recension de la documentation de recherche. En plus tout fait vers dans les procdures administratives appropries, le professionnel doit aussi tre familier avec les preuves de validit et de fidlit spcifiques lutilisation envisage et avec les objectifs viss par les tests et les inventaires choisis et doit tre prt dvelopper une analyse logique soutenant les diffrentes facettes de lvaluation et les infrences qui en dcoulent. (p. 144).
378
Et cest tout naturellement que ces aspects de lactivit professionnelle sont mis en relation avec les qualifications de lutilisateur de tests, comme, par exemple, dans la norme 11.3 (p. 136) :
La responsabilit de lutilisation dun test devrait tre uniquement assume (ou dlgue) par des personnes formes cette fin, possdant toutes les comptences professionnelles et lexprience requise pour en prendre charge. Toute qualification particulire pour administrer ou interprter le test et spcifie dans le manuel devrait tre respecte.
Ce travail de rflexion, et de propositions de normes, trs intressant, ne semble pas tre (trs) connu en France. Un autre document international, et cest lobjet de la partie suivante, a fait lobjet dune plus large diffusion.
Les recommandations internationales sur lutilisation des tests
La Commission Internationale des Tests (International Test Commission) a publi en 2000 des Recommandations internationales sur lutilisation des tests . Ce document (31 pages) a fait lobjet dune adaptation en langue Franaise, diffuse en juin 2003 par la SFP1 (dans le cadre dun numro spcial hors srie de la Revue Pratiques Psychologiques) et disponible sur son site internet (www.sfpsy.org). Nous ne prsenterons ici que quelques extraits de ce document que le lecteur intress pourra trouver en annexe de cet ouvrage. Ces recommandations ont t labores partir de lanalyse de diffrents documents relatifs aux tests : le travail sur les recommandations a dbut en rassemblant les documents se rapportant aux normes sur les tests, codes de dontologie, dutilisation de tests, etc., dans un grand nombre de pays (p. 10). Les Recommandations comportent de 3 parties : 1) Les recommandations gnrales (p. 13-16) ; 2) Les recommandations concernant un usage thique des tests (p. 17-18), [agir de faon professionnelle et thique, sassurer de ses comptences, prendre ses responsabilits dans lutilisation des tests, scurit du matriel, confidentialit des rsultats] ; 3) Les recommandations pour assurer une pratique correcte dans lutilisation des tests (p. 19-24) [estimer lintrt ventuel dune utilisation des tests
1. Socit Franaise de Psychologie, qui est lune des associations professionnelle franaise de psychologues.
379
dans une situation dvaluation donne, choisir des tests techniquement fiables et appropris la situation, sassurer de labsence de biais, faire les prparations requises pour la sance de tests, administrer les tests de manire approprie, corriger et analyser les tests avec exactitude, interprter les rsultats de manire approprie, communiquer les rsultats clairement et prcisment aux personnes concernes, contrler ladquation du test et de son utilisation]. Les objectifs de ce texte rejoignent les objectifs du travail sur les normes que nous venons de prsenter. En effet, il sagit de promouvoir une bonne utilisation des tests et dencourager des pratiques exemplaires dans le domaine de lvaluation (p. 9). Mais ici le but ultime nest pas de dfinir des normes mais plutt de lister les comptences que devrait possder tout utilisateur de test : le but long terme de ce projet comprend la production dun ensemble de recommandations qui se rapportent aux comptences (connaissances, capacits, savoir-faire et autres caractristiques personnelles) requises des utilisateurs de tests. Ces comptences sont dfinies en terme de critres de performances valuables. (p. 10). On trouve ainsi une liste de connaissances et comptences que devrait possder tout utilisateur de test : Connaissances dclaratives pertinentes Connaissances des principes et procdures de base de la psychomtrie, et des exigences techniques des tests (par exemple, fidlit, validit, standardisation) ; Connaissance suffisante des tests et de la mesure, pour permettre une comprhension approprie des rsultats des tests ; Connaissance et comprhension des thories pertinentes et des modles des aptitudes, de la personnalit et dautres construits psychologiques ou de la psychopathologie, autant que ncessaire pour sinformer sur le choix des tests et linterprtation des rsultats ; Connaissance des tests et des fournisseurs de tests dans le secteur dapplication o lon intervient. Connaissances pratiques et comptences Connaissances et comptences relatives aux procdures spcifiques dvaluation ou aux instruments, y compris lutilisation des procdures dvaluation assiste par ordinateur ; Connaissances spcialises et comptences pratiques ncessaires pour une bonne utilisation des tests situs lintrieur du rpertoire doutils dvaluation de chacun ;
380
Connaissances et comprhension de la ou des thorie(s) sous-jacente(s) aux scores au test, lorsque cest important si lon veut tre en mesure de tirer des infrences valides partir des rsultats au test. Ces Recommandations, fortes intressantes aussi bien pour la pratique des tests que pour lenseignement, et malgr leur diffusion par la SFP, semblent pourtant assez mconnues des praticiens... Enfin, nous pouvons galement citer une version de ces Recommandations concernant les tests informatiss et les tests sur internet disponible galement sur le site de la SFP.
2.
La pratique des tests
Quelques rappels
Avant daborder plus concrtement les principales tapes de la pratique de tests il nous semble ncessaire de rappeler un certain nombre de points importants, que nous avons dj abords dans les chapitres prcdents mais que nous avons souhait regrouper ici car ils conditionnent la fiabilit dune pratique valuative. Ils concernent : le manuel du test, lerreur de mesure, la notion de biais, ltalonnage, les tests informatiss et les tests en ligne.
Le manuel du test Comme nous lavons dj indiqu plusieurs reprises, tout test doit tre accompagn dun, ou de plusieurs, manuel(s). La consultation du manuel est trs importante et une premire information sur la qualit probable du test pourra tre infre partir de lpaisseur de celui-ci : en effet certains manuels sont trs minces alors que dautres sont plus consquents, avec parfois sparation en plusieurs volumes. Cest le cas par exemple du WISC-IV qui propose deux manuels : un manuel pour la passation et la cotation et un manuel pour les qualits psychomtriques et linterprtation des rsultats (voir prsentation de ce test dans le chapitre 3 de ce livre). Que doit comporter un manuel ? Bien entendu le psychologue va y trouver toutes les indications utiles pour la passation et la cotation de lpreuve (consignes, temps, matriel, talonnages...). Il peut y trouver galement des aides pour linterprtation des rsultats (comme par exemple des tudes de
381
cas). Enfin il doit y trouver toutes les tudes relatives lexprimentation de lpreuve et lanalyse de ses qualits psychomtriques. Le psychologue doit conserver un esprit critique sur les informations contenues dans les manuels et, par exemple, tre capable de cerner les intrts mais aussi les limites du test quil compte utiliser partir de lanalyse de ces informations. Il pourra ventuellement complter les donnes du manuel par dautres sources dinformations comme, par exemple, les ouvrages et publications spcialiss. On peut indiquer ce propos la diffusion rgulire dun cahier outils, mthodes et pratiques professionnelles en orientation dans la revue LOrientation Scolaire et Professionnelle destin prsenter un outil, une mthode ou une pratique daide lorientation et dans lequel figure rgulirement la prsentation de tests et/ou de pratiques dvaluation.
Lerreur de mesure Il convient toujours de se rappeler que le score observ (la mesure) nest quune estimation du score vrai du sujet. Comme nous lavons indiqu, il est possible destimer cette erreur de mesure (le manuel comporte souvent une rubrique ce propos), certains tests incitant mme fortement le psychologue encadrer chaque score obtenu dun intervalle de confiance (voir par exemple les chelles de Wechsler). Si lon ne souhaite pas, pour diffrentes raisons, procder ce calcul, il faut, au minimum, prendre en compte lerreur de mesure de manire plus qualitative dans lanalyse des rsultats, en relativisant par exemple la caractrisation des performances du sujet par un seul score talonn (et tout particulirement lorsque le score brut du sujet est proche du seuil qui spare deux scores talonns).
Les biais Bien que lanalyse des biais dans les tests soit de plus en plus frquente, elle reste le plus souvent assez superficielle (Vrignaud, 2002a). Le psychologue devra toujours sinterroger sur les biais potentiels dutilisation dune preuve sur un sujet, ou un groupe de sujets, particulier. Il sera, par exemple, attentif au vocabulaire contenu dans lpreuve (est-il connu de tous les sujets ?), aux aspects culturels, et sociaux, qui pourraient avoir une influence, dans un sens comme dans lautre, sur les rsultats des sujets (connaissance a priori
382
de certains aspects du test ? familiarit avec la situation dvaluation ?), aux modalits de prsentation des items, et aux modalits de rponse...
Les talonnages Rappelons ici quil est indispensable de sinterroger sur ltalonnage, en particulier sur la date de recueil des donnes (effet Flynn), mais galement sur la composition de lchantillon des sujets de ltalonnage (C.S.P, sexe...). Un examen minutieux de ces lments permettra destimer dans quelles limites la comparaison des rsultats dun sujet avec la population de rfrence de ltalonnage est adapte. Rappelons galement quil est parfois possible dobtenir des talonnages supplmentaires (postrieurs la publication du manuel par exemple) auprs de lditeur du test.
Les tests informatiss et les tests en ligne sur internet Depuis quelques annes un vritable march sest ouvert dans le domaine des tests en ligne. Par exemple en entrant test dintelligence sur un moteur de recherche, on obtient 383 000 rponses !!! Il ne sagit pas bien entendu de 383 000 tests dintelligence : dans un certain nombre de cas il sagit de sites 1 qui proposent des passations gratuites de tests, ou dun prix modique (quelques euros...), mais avec, le plus souvent, un supplment si lon souhaite recevoir un compte rendu de la passation. La qualit scientifique de ces tests est trs variable. Il peut sagir de tests semblables ceux que lon trouve dans des magazines, plus conus pour distraire le lecteur que pour valuer rellement ses carctristiques. Ce sont alors des tests souvent trs courts (peu ditems) et prsents de faon trs attrayante. Ils tmoignent souvent, comme lobserve Gaudron, dune imagination inversement proportionnelle la validation scientifique (Gaudron, 2008). Lvaluation par les tests en ligne peut prsenter une relle solution pour les entreprises et les particuliers en raison de la souplesse et de lconomie de temps que reprsente ce mode de passation. Nanmoins, force est de constater qu ce jour, dans la plupart des cas, on ne dispose daucune information fiable sur les preuves proposes, sur leur validit, sur les comparaisons
1. Il peut sagir galement de blogs personnels, et enfin, plus rarement, de liens avec de rels diteurs de tests.
383
ventuellement effectues avec un groupe de rfrence (talonnages...). Cest lun des points soulevs par Gaudron (1999 et 2008) qui liste un certain nombre de problmes spcifiques poss par les procdures automatises dvaluation, dont les tests en ligne. Pour les tests informatiss, en ligne ou non, les mmes problmes peuvent tre soulevs. Il faut ici distinguer les versions informatises de tests connus, dj diffuss par des diteurs de tests, des tests proposs par des entreprises et/ou des cabinets et/ou sur internet dont on ignore, bien souvent, lorigine. Il faut rappeler par exemple, quun test informatis doit prsenter les mmes qualits quun test papier-crayon et donc tre accompagn dun manuel... ce qui nest pas toujours le cas dans certaines preuves informatises utilises ou utilisables, par exemple, dans le domaine de la gestion des ressources humaines (qui reste lun des grands marchs actuels de lvaluation...). On ne peut quinciter le psychologue une grande prudence dans ce domaine. Il doit exercer son regard critique sur les informations communiques relatives aux qualits psychomtriques du test (et a fortiori sur leur absence !) afin destimer la fiabilit de lpreuve quon lui propose. Un document diffus sur le site de la SFP et relatif aux Recommandations Internationales sur les tests informatiss ou les tests distribus par internet peut tre dune grande aide sur le sujet. En cas dinterrogation sur la fiabilit dun test informatis, et/ou en ligne, le psychologue peut galement consulter la commission des tests de la SFP.
La pratique des tests : de lanalyse de la demande la restitution des rsultats
Dans une pratique dvaluation, nous pouvons distinguer plusieurs tapes entre la phase de rflexion sur la demande jusqu la phase de restitution des rsultats : 1. Rflexion sur la demande et sur la pertinence dutiliser des preuves standardises 2. Choix les preuves adaptes, 3. Entretien pralable avec le sujet, 4. Passation des preuves, 5. Cotation, 6. Interprtation des scores, 7. Prparation de la restitution,
384
8. La restitution orale, 9. La restitution crite (le compte rendu). Bien entendu cette dcomposition en 9 tapes nest quune des possibilits de rendre compte des diffrentes phases dune pratique valuative et doit tre adapte au contexte de lvaluation (situation de slection, de conseil, dexpertise...). Le plus important, quel que soit le nombre des tapes, est de prendre le temps daborder tous ces aspects.
Rflexion sur la demande et sur la pertinence dutiliser des preuves standardises Rappelons que lutilisation de tests se situe dans une pratique globale de psychologue et quil est ncessaire, avant toute intervention, danalyser la situation. Cest lune des distinctions probables entre une pratique (valuative) dun psychologue (pour qui lanalyse de la demande est essentielle) et une pratique valuative dun non psychologue (qui aura tendance rpondre directement la demande exprime). Pour tenter de comprendre tous les lments de la demande le psychologue peut (doit) se poser les questions suivantes : Quelle demande est exprime ? Exprime par qui ? Dans quels termes ? Reprer la demande explicite et lventuelle demande implicite, la demande institutionnelle... Le plus souvent la simple question qui devrai-je prsenter les rsultats ? , permet de reprer le rel demandeur ! Le psychologue peut ainsi sparer la commande de la demande : un premier niveau danalyse doit sappuyer sur la distinction classique des psychosociologues entre la commande, le besoin qui est explicitement exprim, et la demande, qui pose le vritable problme et dont la personne a plus ou moins conscience (Guillevic et Vautier, 1998, p. 19). La (ou les) demande(s) tant prcise(s), et claircie(s), le psychologue doit alors se positionner, en tant que professionnel par rapport cette demande : dans quelle mesure peut-il y rpondre ? Comment ? Dans quelles limites ? Il peut se rfrer ici, si ncessaire, au code de dontologie. Puis il doit cerner lintrt dutiliser des preuves standardises pour rpondre au problme pos : que vont apporter de plus, et/ou de spcifique, ce ou ces preuves ? Et quels lments du problme ne seront ventuellement pas pris en compte par ces preuves ? Il sagit bien ici de cerner les limites de lutilisation de tests.
385
Cette phase danalyse de la demande est essentielle car elle permet, bien souvent, de rvler la complexit dun problme prsent comme une simple valuation.
Choisir les preuves adaptes Ce nest quune fois que le problme sera correctement pos, et que lune des solutions envisages consistera utiliser une ou plusieurs preuves, quil faudra dterminer le(s) type(s) dpreuve et leur nombre. La, ou les, preuve(s) sera/seront adapte(s) 1 au problme pos, 2 aux caractristiques du sujet1 (ge, sexe, niveau dtude...). Pralables : la connaissance des preuves existantes et leur possibilit daccs. Par exemple, si le psychologue ne dispose dans sa structure que dun nombre limit dpreuves, cet lment limite de fait le champ des possibles. Le psychologue questionnera galement son degr de connaissance, et de matrise, de ou des preuves envisages.
Entretien pralable avec le sujet Toute passation de tests doit tre prcde dun entretien avec le sujet. Le psychologue va ainsi sassurer que la personne est bien consentante pour une passation de test (en particulier lors dune procdure de recrutement...) et va recueillir des informations sur lexprience ventuelle du sujet dans ce domaine (a-t-il dj pass des tests ? dans quelles conditions ? ...). Lors de cet entretien seront galement voqus les objectifs de la passation, les modalits de passation, le type de tche rsoudre... Le psychologue devra tre conscient que la majorit des personnes a souvent beaucoup dapprhension par rapport aux tests2 et fera en sorte de prparer du mieux possible le sujet la passation (dans les limites dfinies dans le manuel du test). Bernaud parle ainsi de pratiques de testage ouvert qui consiste fournir aux participants, quelque temps avant la sance dvaluation, des informations sur son contenu et les moyens de sy prparer (2007, p. 87). On peut rappeler lexistence dun dispositif, assez rare, que lon trouve dans la version APM des Matrices Raven : la possibilit de proposer au sujet
1. Il faut toujours sinterroger ds cette tape sur les talonnages disponibles. 2. Et dautant plus quand il y a des enjeux, comme par exemple, laccs un emploi ou une formation...
386
une srie ditems (un livret dapprentissage), srie non value qui servira de prparation la passation de lpreuve proprement dite (voir dans le chapitre 4 de ce livre la prsentation de la version APM des Matrices de Raven). Si lon pousse ce dispositif lextrme, nous nous retrouvons dans des situations proches de celles proposes dans le cadre dune valuation dynamique (voir chapitre 7 de ce livre).
Passation des preuves Avant la passation, le psychologue prpare le matriel ncessaire, en quantit suffisante (en cas de passation collective...). Lors de la passation des exemples, il est attentif aux ventuels problmes de comprhension des consignes, de report des rponses du sujet... Il sagit de crer ce que lon dsigne par une relation positive (Bernaud, 2007, p. 88), propice au bon droulement du test et limplication du sujet : qualit de laccueil du sujet, information claire et objective sur les procdures... Pour la passation du test, le psychologue respecte scrupuleusement les consignes du manuel (le matriel, lattitude du psychologue, les consignes, les exemples, le temps de passation...) de manire garantir la standardisation. Tout en restant dans les limites de celle-ci, il doit sassurer de la bonne comprhension, par le sujet, de la situation globale de la passation. Il observera, si possible, la conduite du sujet pendant la passation : hsitations, lassitude, niveau de motivation, implication1 , dcouragement, comportement face la difficult (surtout dans les items difficiles), rapidit globale dexcution, temps de passation... Ces observations seront plus faciles raliser dans le cadre dune passation individuelle ou en petit groupe. Elles seront ventuellement reprendre avec le sujet dans la phase de la restitution des rsultats ( il ma sembl que vous avez hsit tel moment... que vous vous tes un peu dcourag en fin dpreuve... avez-vous manqu de temps ? ) et pourront galement tre utiles dans la phase dinterprtation des rsultats.
1. Essayer de reprer les rponses visiblement donnes au hasard (par exemple : cochage systmatique des rponses en ligne ou en colonne...).
387
Cotation des preuves

Calcul des scores bruts
Pour la cotation du protocole des rponses du sujet, il faut suivre les indications du manuel. On accorde gnralement 1 point pour chaque bonne rponse ( vrifier dans le manuel). Au pralable le psychologue aura analys la validit du protocole en vrifiant : labsence de rponses systmatiques au hasard (par exemple des rponses situes systmatiquement en ligne ou en colonne...) ; la concordance entre rponses du sujet et items : vrifier que le sujet ne sest pas tromp dans le report de ses rponses (attention aux dcalages ventuels des rponses du sujet par rapport aux items...). En cas de doutes il est conseill de reprendre quelques items loral afin de vrifier labsence de biais ce niveau ; les ventuelles observations du sujet pendant la passation (implication...).
Les scores talonns
Le psychologue slectionne le, ou les, talonnages les plus adapts et transforme les scores bruts en scores talonns. Il doit tre attentif lerreur de mesure, tout particulirement quand le score brut du sujet se situe proximit dun seuil qui spare deux catgories de notes talonnes (dans ce cas il peut tre prfrable de situer le sujet sur ces 2 scores talonns).
Interprtation des scores Avant dinterprter les scores talonns le psychologue doit analyser le ou les talonnages disponibles (description de lchantillon dtalonnage, date de ltalonnage, rpartition selon le sexe, la CSP...) de manire vrifier la fiabilit des comparaisons, et des ventuelles gnralisations, quil va effectuer. Il convient toujours de limiter les conclusions sur le niveau de performance dun sujet aux caractristiques de la population dtalonnage. Par exemple, si lon observe de bons rsultats la batterie NV7, il faut considrer que ce ne sont pas des bons rsultats dans labsolu mais de bons rsultats relatifs aux caractristiques de la population dtalonnage, qui est ici peu qualifie... Si lon dispose de plusieurs scores, linterprtation suit gnralement le principe suivant : partir des scores les plus gnraux (le score total) et aborder
388
ensuite les scores les plus spcifiques (notes aux diffrentes sous chelles, voire scores certains subtests). Quest-ce que chaque score reprsente ? Le manuel doit fournir des informations sur ce point. Il faut ici revenir vers le modle thorique de rfrence (par exemple le facteur g sil sagit dun test de ce type) afin de situer la performance observe dans un cadre thorique plus large. Il faut galement prendre en compte les ventuelles spcificits de lpreuve (type ditems, type de rponse, temps libre ou limit...) qui donnent une coloration de ce qui est plus prcisment valu par lpreuve utilise. Il peut tre intressant ce propos de distinguer la comptence (ce que lon cherche mesurer) de la performance (mesure ralise dans un contexte prcis, avec un certain test...) pour aborder les limites de la gnralisation de ce qui a t valu. Enfin, il faut mettre en relation les rsultats observs et ce que lon connat, par ailleurs, du sujet (exprience, qualification, mtiers exercs, projets...) : quels sont les rsultats concordants ? Les rsultats discordants ? Quels sont les ventuels dcalages ?...
Analyse des erreurs ?
Il peut tre parfois utile de procder une analyse des erreurs en reprant quels sont les items chous et en essayant den comprendre la cause. On peut ainsi envisager de revenir sur ces checs lors de lentretien de restitution, afin de tenter de mieux comprendre le raisonnement du sujet. On peut galement distinguer labsence de rponse dune rponse fausse. Il peut sagir galement de reprer les absences de rponse en distinguant celles situes en cours dpreuve (assimilables un chec) de celles situes en fin dpreuve (attribuables, au moins en partie, un manque de temps dans le cas dpreuve temps limit). Il peut tre intressant par exemple de confronter le sujet aux items quil na pas eu le temps daborder lors de la passation de lpreuve afin destimer sa capacit rsoudre les items situs en fin dpreuve, qui sont souvent les plus difficiles. Bien entendu, on ne tiendra pas compte de ses ventuelles russites supplmentaires dans son score, car elles se situent hors limites de temps, mais ces informations peuvent tre utiles. Rappelons ce propos que certaines preuves proposent des talonnages avec passation en temps libre (par exemple les Matrices de Raven).
389
Prparation de la restitution
Avant de sengager dans la phase de restitution proprement dite, un pralable indispensable consiste : sassurer que le bnficiaire a pass les preuves dans de bonnes conditions ; linterroger sur lintrt induit par les preuves ; concevoir et proposer des mthodes susceptibles de laider comprendre les rsultats, se les approprier, y ragir de faon argumente et, enfin, en faire la synthse. (Blanchard et al., 1999, p. 287.)
Il sagit donc, avant de communiquer les rsultats au sujet, de vrifier certaines conditions de validit (condition de passation, niveau dimplication...) mais aussi, et cest lobjet de cette partie, de prparer la restitution en fonction des objectifs proposs par ces auteurs et en particulier de faire en sorte que le sujet 1) comprenne ses rsultats, 2) se les approprie. Cette approche de la prsentation des rsultats est assez rcente et concerne principalement lutilisation de tests dans le cas de dmarche de conseil et/ou de bilans. Dans ces contextes dutilisation, limportance de cette phase de restitution (on parle aussi de rtroaction) sest considrablement dveloppe ces dernires annes. En effet, avec le dveloppement des pratiques de conseil, lobjectif principal des valuations sest progressivement modifi et vise maintenant, en totalit ou en grande partie, amliorer la connaissance de soi des individus. Cest le cas, par exemple, dans les pratiques de bilans de comptences o lon cherche alors dvelopper la connaissance du sujet sur ses aptitudes, ses intrts, ses traits de personnalit... Lobjectif final tant de lui permettre de mieux faire ses choix dorientation. Do un intrt de plus en plus vif, dans les pratiques comme dans les recherches, pour cette phase de lvaluation. Mais dans la majorit des cas cet intrt se porte sur les questionnaires de personnalit ou de choix dactivits professionnelles (les questionnaires dintrts) et non sur les tests dintelligence. On trouve, par exemple, dans louvrage de Bernaud et Vrignaud de 2005, consacr lvaluation des intrts professionnels, une prsentation de plusieurs mthodes de restitution des rsultats. Par contre, peu dtudes ou de recherches portent sur la restitution des rsultats des tests dintelligence logique. Pourquoi ? Lune des pistes explicatives tient peut-tre au fait que les questionnaires dintrt sont plus frquemment utiliss dans les pratiques de conseil que ne le sont les tests dintelligence. Peut-tre aussi quil y a plus dlments restituer dans un tel questionnaire que dans une preuve de performance.
390
Nanmoins, certains manuels donnent des indications sur cette phase de restitution. Cest par exemple le cas de la batterie NV7 (voir la prsentation de ce test dans le chapitre 5 de ce livre). Le psychologue pourra donc sinspirer des ventuelles informations des manuels pour prparer la restitution. Nous allons prsenter ici quelques lments gnraux concernant la restitution des rsultats. Ces lments sont particulirement adapts une pratique dvaluation destine accompagner le sujet dans une dmarche de rflexion sur lui-mme. Quelle que soit lpreuve, dans la phase de prparation de la restitution le psychologue doit se poser les questions suivantes : Quoi dire ? Cerner lessentiel, et le superflu en fonction, dune part, des capacits du sujet prendre en compte ces informations, dautre part, des objectifs de lvaluation. Comment le dire ? Moduler les modalits de restitution, et le vocabulaire utilis, en fonction des caractristiques du sujet. Comment faciliter la comprhension des rsultats par le sujet ? Il faudra ventuellement envisager de revenir sur lpreuve (ce quelle mesure ? comment elle le mesure ?), en reprenant ventuellement des exemples ditems. Prciser galement ce que le test ne prend pas en compte (ses limites). Dans la mesure du possible il peut tre pertinent de trouver (ou de faire trouver) des liens entre ce qui est valu par le test et des situations de la vie quotidienne et/ou professionnelle du sujet. Enfin, on peut inciter le sujet reformuler avec ses propres mots les points les plus importants qui ont t abords dans la restitution (linciter prendre des notes par exemple...). Comment aider le bnficiaire de lvaluation grer cette nouvelle information sur lui-mme ? Le rsultat un test dintelligence logique, surtout lorsquil a donn lieu au calcul dun QI, prsente, quon le veuille o non, des enjeux de comparaison sociale. Il convient de prendre en compte cette dimension et daider le sujet bien la grer. Cela dpasse proprement parler la phase dvaluation et de comprhension de celle-ci par le sujet, et concerne les consquences pour lui-mme de cette valuation. Un accompagnement de la personne sur ce point peut ventuellement ncessiter un rendez-vous ultrieur. Le point essentiel ici est le suivant : il faut que la restitution soit adapte au sujet, ses caractristiques personnelles (ses capacits de comprhension, son
391
niveau de langage...), lobjectif de lvaluation (pourquoi a-t-il demand ou accept de passer ces tests ? quelles sont ses attentes ?), ainsi qu sa situation personnelle. Il faut galement que la restitution soit adapte au psychologue : chacun a son propre style, ou doit le trouver. Par exemple, certains psychologues peuvent utiliser des schmas, des illustrations partir de courbes de Gauss (par exemple pour faire comprendre la notion dtalonnage...) tandis que dautres seront plus laise dans des explications verbales... On ne peut que conseiller au psychologue de rechercher (et de trouver) son style, de crer ses propres outils de restitution en laborant, par exemple, quand il nexiste pas, un cahier (ou livret) de restitution pour le sujet quil compltera lui-mme au fur et mesure de la prsentation de ses rsultats. Le psychologue doit laisser la place, dans cette phase de restitution, lexpression par le sujet du vcu de sa passation : a-t-il t surpris par lpreuve ? A-t-il rencontr des difficults ? Que peut-il dire, aprs coup, de cette situation de passation ? Dans la mesure du possible on envisagera une restitution dynamique , pour le sujet, dans laquelle il pourra commenter les rsultats prsents par le psychologue, les questionner voire les contester. En effet, il est souvent plus clairant et plus dynamisant dinviter le bnficiaire commenter et tayer ses rsultats, voire sopposer ceux-ci lorsquils semblent contredire un aspect de sa personnalit ou de ses comptences (Bernaud, 2000, p. 101). La situation de restitution doit tre conue comme une situation de communication, dchange (Gudon et Savard, 2000) et non pas comme (uniquement) un discours dexpert. Enfin, il faut toujours prvoir lavance les ventuelles traces, les ventuels documents, que le sujet va (peut) conserver de sa passation et de ses rsultats. Une rgle gnrale consiste ne jamais laisser la feuille de passation au sujet. En effet, pour des motifs de respect des rgles de copyright mais galement pour des raisons dontologiques, il nest pas possible que le sujet reparte avec un exemplaire du test. Par contre, plusieurs possibilits de conservation des traces de ses rsultats sont possibles allant des simples notes prises par le sujet lui-mme au cours de lentretien au cahier de restitution, disponible avec certains tests (ou ventuellement labor par le psychologue).
Le droulement de la restitution orale La restitution est le plus souvent individuelle mais on peut envisager, au moins certains moments, une phase collective (en petit groupe).
392
La restitution doit se drouler comme le psychologue la prvu (cf. la partie prcdente) tout en sadaptant aux ractions du sujet : une certaine souplesse est ncessaire ! Elle peut suivre le plan suivant : 1. Rappel des objectifs de lvaluation, 2. Prsentation des bases thoriques de lpreuve utilise : ce quelle mesure ; comment elle le mesure (rappels des caractristiques des items...) ; les indicateurs quelle permet de calculer (le ou les scores)... 3. Prsentation de la notion dtalonnage et de comparaison un groupe de rfrence, 4. changes sur les conditions de passation 5. Recueil ventuel des reprsentations a priori du sujet par rapport ses rsultats : comment pense-t-il quil va se positionner ? 6. Prsentation des rsultats 7. Confrontation entre les rsultats du test et les reprsentations a priori du sujet 8. Bilan de lvaluation par rapport aux objectifs de dpart et analyse de ses consquences. On peut terminer lentretien de restitution en demandant au sujet ce quil a retenu de lentretien, ce qui lui semble le plus important, et/ou le plus surprenant... On pourra ainsi reprer quelles informations il a retenu (slectionn) et quelles informations ne lui semblent pas essentielles... On peut aussi se rendre compte des ventuelles erreurs dinterprtation des rsultats, des points reprendre avec lui, de suite ou dans le cadre dun autre rendez-vous. Enfin, il convient de replacer lvaluation dans la problmatique gnrale du sujet : le test comme lune des tapes dun processus daccompagnement.
La restitution crite (le compte rendu) Dans la plupart des cas, le psychologue va rdiger un compte rendu crit. La premire question se poser concerne le destinataire de ce document : est-ce un document de travail pour le psychologue qui ne sera pas communiqu un autrui ? Est-ce un document pour le principal intress ? Pour une institution ? Pour un tiers lorigine de la demande ? Pour un autre psychologue ?...Qui demande un compte rendu crit, et pourquoi ?
393
Le psychologue peut ainsi tre amen rdiger plusieurs comptes rendus diffrents, plus ou moins toff, dun mme cas en fonction des destinataires, en adaptant la fois la forme et le fond. Il doit galement prciser, au dbut du document, quel est le destinataire et quelles sont les limites de diffusion de ce document. Enfin, il doit dater et signer tout document quil est amen rdiger. Lun des rgles du psychologue tant le respect de la confidentialit, le praticien devra faire preuve de prudence et de rflexion dans ses crits. On peut retrouver cette rgle de base dans le code de dontologie des psychologues : les documents manant dun psychologue (attestation, bilan, certificat, courrier, rapport...) portent son nom, lidentification de sa fonction ainsi que ses coordonnes professionnelles, sa signature et la mention prcise du destinataire. Le psychologue naccepte pas que dautres que lui-mme modifient, signent ou annulent les documents relevant de son activit professionnelle. Il naccepte pas que ses comptes rendus soient transmis sans son accord explicite, et il fait respecter la confidentialit de son courrier (chapitre 2, article 14). Dans le cas dun document usage interne, le psychologue runit les diffrentes informations concernant le sujet pour laborer un dossier dexamen psychologique de la personne. Dana Castro rappelle que ce dossier est la proprit du psychologue (Castro, 2006, p. 473). Pour les autres types de comptes rendus, le contenu peut ventuellement tre discut avec le sujet : quelles informations nous a-t-il confies (par exemple dans la phase danalyse des rsultats ou lors dun entretien...) et quil ne souhaite communiquer autrui ?
Quelles informations communiquer dans un compte rendu crit ?
Comme nous venons de lindiquer, ces informations vont dpendre du destinataire mais on peut prciser ici ce qui nous semble tre la base de tout compte rendu crit : Indiquer le ou les objectifs de lvaluation (clarification de la demande) ; Prciser toujours les preuves utilises (et les situer rapidement dans un cadre thorique... avec les limites ventuelles de ce cadre...), les talonnages consults (date dlaboration et caractristiques des populations dtalonnage...) et les ventuelles limites de comparaison compte tenu des caractristiques de la personne value ; Situer les rsultats du sujet (sans oublier la notion derreur de mesure) ; Nuancer ventuellement ces rsultats en fonction dindications cliniques releves durant la passation (motivation, arrts, comportement face
394
la difficult...) et/ou dinformations sur le sujet (exemple : niveau dexprience par rapport aux tests ...). Terminer le compte rendu en articulant les rsultats aux autres informations recueillies sur le sujet (rsultats plus ou moins en accord avec ce qui tait attendu en fonction, par exemple, du niveau dtude du sujet et/ou de son exprience professionnelle...) et en analysant de quelle manire les rsultats rpondent lobjectif de dpart. Enfin, il peut tre pertinent de dire quelques mots sur la restitution orale : comment le sujet a-t-il ragi ? Ses remarques, son degr daccord ou de dsaccord avec les rsultats, avec les interprtations proposes ? Les limites ventuelles de comprhension de ses rsultats ?...
3.
Exemples de contextes dutilisation des tests dintelligence logique

Comme nous lavons indiqu dans lintroduction de ce chapitre, les tests dintelligence sont utiliss dans plusieurs secteurs dactivit : lcole, lentreprise, lhpital, le tribunal... Il est impossible de dresser un panorama exhaustif de ces contextes dusages. Nous ne prsenterons donc ici que certains dentre eux qui nous semblent tre les plus reprsentatifs : le systme ducatif, le recrutement et les ressources humaines, les pratiques plus actuelles de conseil tout au long de la vie, et enfin, le secteur de la formation.
Dans le systme ducatif
Dans lenseignement public, il existe les psychologues scolaires, qui interviennent auprs dlves scolariss dans lenseignement lmentaire, et les Conseillers dorientation-psychologue, qui interviennent principalement dans lenseignement secondaire. Les activits des psychologues scolaires1 concernent un public denfants et ne correspondent donc pas lobjet principal de cet ouvrage relatif aux tests utilisables auprs dadolescents et dadultes. Par contre, nous voquerons
1. Pour une prsentation des psychologues scolaires le lecteur peut consulter Cognet (2006).
395
les activits des conseillers dorientation-psychologues1 (C.O.P) qui sont amens utiliser des tests dintelligence auprs dadolescents et dadultes. Il sagit principalement des situations suivantes : 1. Dans le cadre de leur activit daide lorientation, de conseil auprs de publics scolaires, ils peuvent utiliser des tests dintelligence logique comme un outil daide la connaissance de soi : identifier ses points forts, ses atouts... mais aussi ses faiblesses... Le COP peut utiliser ici des tests collectifs comme les batteries factorielles (rappelons que la DAT5 propose des talonnages pour les collgiens et les lycens) mais galement des preuves de type facteur g. 2. Alerts par les quipes pdagogiques des tablissements scolaires au sujet dlves en difficult, ils peuvent galement procder une valuation des capacits cognitives, complmentaire aux valuations scolaires. Cest le cas, par exemple, dlves de 6e en grande difficult scolaire et pour lesquels, aprs le plus souvent un redoublement, lquipe pdagogique envisage une orientation vers un enseignement adapt. La loi de 2005 sur le handicap a modifi la procdure dorientation vers ce type denseignement. Un dossier doit tre transmis une commission dpartementale dorientation, dossier devant comporter un bilan psychologique tabli par le C.O.P (circulaire n 2006-139 relative aux enseignements adapts dans le second degr). Ce bilan, prcise la circulaire, doit tre tay explicitement par des valuations psychomtriques . Le plus souvent les COP utilisent alors une chelle dintelligence, comme le WISC, qui permet lestimation dun Q.I. En de dune certaine valeur de Q.I (gnralement autour de 70/75), et en fonction dautres informations complmentaires, le COP peut proposer, dans les conclusions de son bilan, une telle orientation. Mme si la notion de Q.I fait actuellement dbat en France (voir par exemple larticle Gare au Q.I, publi dans Le journal des psychologues, n 230 de septembre 2005), la rfrence ce type dindicateur est encore dusage largement majoritaire dans ces situations. 3. Un autre usage des tests, reposant sur les mmes preuves et sur le mme type dindicateur (Q.I), concerne le diagnostic des lves dits surdous ou intellectuellement prcoces . Si un enfant prsente des signes dun possible surdouement , les parents (voire les enseignants) peuvent demander au conseiller dorientation-psychologue
1. Pour une prsentation plus complte : Huteau (2006).
396
de procder un examen individuel afin dtablir un diagnostic sur ce plan. L encore, cest essentiellement les chelles de Wechsler qui seront utilises1 . Mais rappelons que lindice de Q.I nest pas lui seul suffisant pour diagnostiquer une prcocit mentale (voir les lments que nous avons prsents sur ce point dans le chapitre 2 de ce livre). 4. Enfin, mais cest plus rare, le COP peut tre amen utiliser des tests dintelligence logique auprs dadultes. Cest le cas, par exemple, dtudiants en chec lUniversit qui sinterrogent sur les raisons de cet chec ou encore dadultes en demande de reconversion qui consultent un Centre dInformation et dOrientation (lieu principal dactivit des COP).
Dans le recrutement et les ressources humaines
Le recours lusage des tests afin de slectionner des personnes pour occuper un emploi donn, est lune des toutes premires pratiques de la psychologie du travail (Vrignaud et Loarer, 2008). En France, lide dutiliser la psychotechnique pour mieux mettre en relation individus et emplois, est envisage ds 1904 par douard Toulouse qui y voyait un moyen de classer les individus suivant leurs aptitudes avec une prcision bien autre que celle que peuvent fournir des examens superficiels (cit par Huteau, 2004). Cette ide conduira la cration en 1928 de lInstitut National dOrientation Professionnelle par Henri Piron et lapparition des premiers services de psychologie dans des grandes entreprises comme Renault (1928) et Citron (1929). On doit galement voquer les travaux prcurseurs de Jean-Marie Lahy, fondateur du Laboratoire Psychotechnique de la STCRP (future RATP) en 1924 et de celui de la Compagnie des chemins de Fer du Nord (puis SNCF) en 1932. Il sagissait, dans tous les cas, de crer et valider les preuves psychomtriques utiles une slection optimale des personnels. Dans un premier temps, les auteurs ont cherch valuer lensemble des aptitudes requises dans les diffrents emplois. Certaines batteries comprenaient prs dune cinquantaine de tests partir desquels on pouvait constituer des batteries plus restreintes adaptes aux besoins de slection dans tous les emplois. Les tests les plus pertinents taient slectionns a priori ( partir dune analyse de lemploi) ou a posteriori ( partir des
1. Ce diagnostic peut galement tre ralis par un cabinet libral, le plus souvent avec les mmes preuves (de type Q.I).
397
rsultats de personnes dj en place) (Vrignaud et Loarer, 2008). partir des annes 1960, les batteries se sont simplifies. La raison principale en est mthodologique : les avances des mthodes danalyse factorielle, en particulier lanalyse factorielle confirmatoire, ont abouti la construction de modles plus synthtiques (une hirarchie de facteurs) et plus conomiques qui ont conduit liminer de nombreuses aptitudes, en fait trs redondantes (voir chapitre 1 de cet ouvrage).
La place des tests dintelligence dans les pratiques de recrutement Les mthodes de recrutement sont multiples et les recruteurs peuvent sappuyer sur des techniques varies dvaluation des personnes. Les tudes menes dans ce domaine, permettent de saisir cette diversit de techniques et de pratiques. Les tests sont frquemment utiliss mais lexamen de la littrature internationale montre que leur usage varie fortement selon les pays et selon les praticiens. Ils ne figurent notamment pas dans ce que Cook (1988, cit par Lvy-Leboyer, 2002) appelle le trio classique des techniques les plus systmatiquement mises en uvre pour raliser un recrutement que sont : lentretien, lanalyse des donnes biographiques (CV, fiches de renseignement standardises...), et les rfrences (attestations, recommandations...). Une tude mene en France par Bruchon-Schweizer et Ferrieux (1991) auprs de 102 responsables de recrutement en cabinets et entreprises, est illustrative de ce phnomne. Les rsultats en sont prsents dans le tableau 8.1.
Tableau 8.1 Classement des mthodes dvaluation utilises en France dans le recrutement selon le % total des services les utilisant (daprs Bruchon-Schweizer et Ferrieux, 1991).
Frquence demploi Techniques utilises Entretien(s) Examen graphologique approfondi Tests daptitudes ou dintelligence Tests de personnalit Mini-situations de travail Techniques projectives Autres techniques (morphopsychologie, astrologie...) Systmatique 95 55 31 35 7,5 12 9 Occasionnel 4 38 32 26 26,5 8,5 6 Total 99 93 63 61 34 20,5 15
398
Les deux techniques auxquelles les services de recrutement ont le plus systmatiquement recours sont lentretien (95 %) et lexamen graphologique approfondi (55 %). Les tests de personnalit viennent ensuite (35 %). Les tests dintelligence ne sont utiliss systmatiquement que par 31 % dentre eux. Dautres tudes ont confirm ces rsultats (Vom Hofe et Lvy-Leboyer, 1993, Ballico, 1997, 1999). Ce classement des techniques selon la frquence de leur usage varie cependant fortement dun pays lautre. Une tude de Dany et Torchy (1994) comparant les pratiques de recrutement dans 12 pays europens, montre ainsi que lutilisation des tests cognitifs est plus frquente quen France dans une majorit de pays europens, et que la France est seule avoir un recours si important la graphologie.
La valeur pronostique des preuves de recrutement La question essentielle en matire de recrutement est de savoir dans quelle mesure les valuations ralises fournissent des informations sur les performances professionnelles futures du candidat. Les informations sur les caractristiques psychologiques des personnes recueillies laide des tests ne prennent de sens quen fonction du poste pour lequel on cherche recruter. Cette mise en relation du profil de personnes avec les exigences dun emploi peut se faire selon des procdures plus ou moins explicites et validables. Elles peuvent galement varier selon la manire dont les tests sont utiliss dans la procdure : par exemple si les tests sont utiliss pour faire une prslection, cest--dire constituer une liste rduite partir dun ensemble important de candidats ou si les tests sont utiliss pour classer un petit nombre de candidats pralablement slectionns dans un ensemble plus important de candidats. Une premire approche, que lon peut qualifier de classique par son anciennet historique, est de considrer que les tests valuent des caractristiques gnrales relativement dcontextualises et, de ce fait, pertinentes pour tous les emplois. Dans le domaine cognitif, on utilisera alors une preuve de facteur G ou une batterie de tests daptitudes et cela quel que soit lemploi concern par le recrutement. Cette pratique, qui peut paratre caricaturale reste encore aujourdhui courante car elle prsente un caractre conomique et permet de contribuer efficacement une prise de dcision relativement quitable et pertinente, notamment lorsquil sagit de faire un premier tri parmi un grand nombre de candidats. Nanmoins, et bien que la validit prdictive du facteur G, relativement la russite professionnelle soit leve, comme en attestent de nombreuses tudes, cette mthode ne
399
saurait suffire pour estimer prcisment ladquation dune personne avec un emploi donn. Une approche alternative, et souvent complmentaire, consiste, partir dune analyse prcise du travail, identifier les caractristiques spcifiquement requises dans lemploi (capacits ou aptitudes, comportements, "savoir tre", etc.) afin de les valuer de faon cible. Cette approche prsente lavantage dune meilleure proximit entre les preuves utilises et les activits menes dans lemploi mais possde galement des limites. Dune part il est difficile de reprer ces lments car ils ne sont pas directement visibles (seuls les comportements et les performances le sont) et ne peuvent qutre infrs. Bien que certains prtendent, par des dmarches parfois simplistes, y parvenir aisment, ce passage des activits aux qualits humaines que ces activits mobilisent demande en ralit la mise en uvre de dmarches relativement complexes, rigoureuses et contrles, qui dpassent largement 1 le simple bon sens . Elle doit tre taye par des cadres conceptuels solides et valids, afin dviter des noncs flous et donc peu informatifs ou ne prsentant pas de cohrence entre eux. Dautre part, il nexiste pas toujours dpreuves psychomtriques permettant dvaluer de faon valide les caractristiques identifies. Pour savoir avec quelle prcision une technique dvaluation permet de connatre les capacits dune personne russir dans un emploi, on value la cohrence statistique entre les rsultats dune preuve (prise comme prdicteur) et des indicateurs de russite professionnelle (prises comme critres). Le coefficient de corrlation appel alors coefficient de prdiction et sa valeur maximum est donc de 1. Lapproche pronostique de la validit, quel que soit loutil considr, consiste mettre en relation les rsultats du test au moment de la slection, avec des informations (performances professionnelles par exemple) obtenues en un temps T+1, situ plusieurs mois ou annes aprs le recrutement. Cette approche pose de nombreux problmes mthodologiques (cf. Vrignaud et Loarer, 2008).
Exemple de difcults mthodologiques des tudes de validit pronostique des tests de recrutement Une premire difcult est que lchantillon utilis est dans la plupart des cas constitu dune partie seulement de lchantillon de dpart. Ce sous-chantillon a en outre t slectionn en utilisant linstrument que lon cherche valider. Outre le problme de la dpendance entre linstrument et la procdure, ces donnes sont censures cest--dire que les candidats slectionns ne sont pas rpartis sur toute ltendue de la distribution mais se situent dans les scores les plus levs ou du moins proches des seuils jugs optimaux. La variance du sous-chantillon va donc se trouver rduite ce qui aura, entre
400
autres consquences, celle de rduire ltendue potentielle des corrlations avec les variables critrielles utilises. Une seconde difcult mthodologique est le choix du critre retenu pour la validit pronostique qui pose la question de la manire dont se fait lvaluation de la performance dans lemploi. Dans certains cas, il est possible de trouver des critres relativement objectifs, comme par exemple le volume de vente pour des preuves de slection aux mtiers de la vente. Mais cela nest pas toujours ralisable pour tous les emplois. Bien souvent on va se baser sur une information dclarative, provenant soit de la hirarchie, soit du candidat lui-mme (par exemple sur la satisfaction dans le poste). La dlit de ces critres nest pas trs leve, en tout cas, moindre que celle des tests. Or la corrlation entre deux variables est limite par les valeurs des dlits de ces variables. (Vrignaud et Loarer, 2008, p. 354.)
De nombreux chercheurs se sont mobiliss pour mesurer les coefficients de prdiction de diffrentes techniques dvaluation par rapport la russite professionnelle. Des rsultats souvent htrognes ont t obtenus. Cette htrognit sexplique par la qualit des critres retenus (il est difficile dchantillonner et de standardiser les indicateurs de russite professionnelle) ainsi que par les effectifs, souvent limits, des recherches ralises. Pour limiter ces difficults, des synthses (appeles mta-analyses) ont t produites. Il sagit dtudes qui agglomrent les rsultats de nombreuses recherches ralises sur une mme question et comportant des conditions comparables. Plusieurs mta-analyses ont ainsi pu tre ralises, notamment par Hunter et Hunter, 1984 ; Hunter et Schmidt, 1996 ; Schmidt et Hunter, 1998 ; Robertson et Smith (2001) ; Salgado et al. (2003). Elles fournissent des comparaisons intressantes et fiables des capacits respectives des diffrentes techniques dvaluation pronostiquer la russite professionnelle. Comme le montrent les rsultats prsents dans le tableau 8.2 ci-dessous issus dtudes qui portent sur plus de 30 000 personnes (daprs Schmidt et Hunter, 1998 et Robertson et Smith, 2001), les mises en situations professionnelles sur des situations slectionnes prsentent gnralement les meilleurs coefficients de prdiction (0,54). Cela peut se comprendre par la proximit leve quil y a entre la situation dvaluation et la situation professionnelle. Le prdicteur est alors trs proche du critre. Cette technique est cependant gnralement coteuse et difficile mettre en uvre et ne garantit en rien ladaptation de la personne long terme, notamment lorsque les caractristiques du travail voluent ou lorsque la personne est amene changer demploi. Les tests dintelligence gnrale, outre leur facilit de mise en uvre, donnent une bonne prdiction de la performance
401
au travail (0,51). Ils sont suprieurs lensemble des autres techniques utilisables (que se soient les assessment center, les preuves de personnalit, lanciennet au travail ou lexprience professionnelle). Lentretien prsente une validit faible lorsquil nest pas structur (0,14 0,23, Robertson et Smith, 1989), mais cette validit samliore si lentretien est structur (0,51). On remarquera que les questionnaires de personnalit et dintrt prsentent des validits plus faibles que les tests daptitude cognitive. On notera galement la validit nulle de la graphologie. Ce dernier rsultat a t souvent dmontr (Huteau, 2005) et la persistance de certains recruteurs utiliser cette mthode non valide ne peut manquer dtonner. Comme le met en relief ltude de Bruchon-Schweizer et Ferrieux (1991), ce sont les mthodes les moins valides qui ont tendance, en France, tre les plus utilises.
Tableau 8.2 Validit prdictive de diffrentes techniques dvaluation utilises en recrutement (selon Schmidt & Hunter, 1998 et Robertson & Schmidt, 2001).
Mthodes dvaluation chantillons de travail Tests dintelligence (aptitude mentale gnrale) Entretiens structurs valuations par des pairs Tests de connaissances professionnelles Tests dintgrit Assessment centers
Validit prdictive (corrlation avec la performance au travail) 0,54 0,51 0,51 0,49 0,48 0,41 0,37 0,35 0,31 0,26 0,18 0,10 0,10 0,02
Inventaires biographiques Tests de personnalit Rfrences Exprience professionnelle antrieure (nb dannes) niveau de scolarit (nb dannes) valuation des intrts Graphologie
tant donn le caractre plus conomique en temps de passation et de cotation et la possibilit de passations collectives, on peut considrer que les
402
tests dintelligence prsentent le meilleur compromis validit/cot. Hunter et Schmidt (1996) ont en outre montr que cette prdiction tait gnrale lensemble des tches et des professions, ce qui assure la validit long terme de la prdiction. Une autre mta-analyse mene par Salgado et al. (2003) sur 89 tudes portant sur des chantillons europens a largement confirm ces rsultats et montr que lintelligence gnrale est un bon prdicteur, non seulement de la performance au travail, mais aussi de lefficacit dune formation. Par ailleurs, Hunter et Hunter (1984) et Hunter et Schmidt (1996) ont apport un lment de validit supplmentaire en montrant (mta-analyse portant sur plus de 400 tudes) que la validit de la prdiction par les tests dintelligence augmente avec le degr de complexit de la tche. Ainsi, de 0,38 pour des tches de complexit rduite (20 % des emplois tudis), elle passe 0,51 pour des tches de complexit moyenne (63 % des emplois) et 0,57 pour des tches de grande complexit (17 % des emplois). Aprs avoir compar les validits des diffrentes techniques dvaluation les chercheurs se sont galement intresss la possibilit de combiner diffrentes preuves afin damliorer le pronostic global de la performance professionnelle. Plusieurs recherches (par exemple Ree et collaborateurs, 1991, 1994) ont montr que la prise en compte des capacits cognitives spcifiques (aptitudes primaires verbales, numriques, spatiales, mcaniques) ne fournissait pas dinformation complmentaire substantielle dans la prdiction des performances professionnelles. Par contre, lorsquil sagit dpreuves valuant des dimensions autres que cognitives, des possibilits de gains de validit existent. Ainsi Hunter et Hunter (1984) et Hartigan et Wigdor (1989) ont constat que les aptitudes psychomotrices augmentaient la validit des tests de facteur G pour les emplois faible niveau de complexit. De leur ct, Schmidt et Hunter (1998) ont constat que lajout un test dintelligence gnrale dun test dintgrit (valuant le risque de comportements contre productifs tels que voler, se battre, abmer le matriel...) donne une validit totale de 0,63 (amlioration de 0,12). Lajout dun test du caractre consciencieux (lun des facteurs de personnalit du modle en 5 facteurs appel Big five ) produit galement un gain de validit et donne une validit totale de 0,65 (amlioration de 0,14). Ces rsultats plaident donc pour une combinaison dpreuves, sachant que lessentiel est apport par lpreuve dintelligence gnrale.
403
Comment interprter ces rsultats ? Linterprtation des coefficients de prdiction issus de ces mta-analyses peut tre guide par deux considrations concernant la taille de ces coefficients. Un coefficient de 0,50 correspond une fraction de variance (des performances professionnelles) explique (par le test) de 25 % (cest--dire r2 ). On peut donc considrer que les tests dintelligence gnrale expliquent environ 1 de la performance professionnelle. Cest plus que ne le font la 4 plupart des autres prdicteurs mais cela peut sembler peu. Une premire remarque est que les mta-analyses sont bases sur un ensemble demplois trs varis et cela peut contribuer produire des coefficients de prdiction moins levs que lorsquon travaille sur des emplois trs homognes. Cela est vrai pour lensemble des techniques prsentant une bonne validit. Une seconde remarque est que le fait de prendre appui pour tayer une dcision de recrutement sur des preuves prsentant ces niveaux de validit amliore trs sensiblement la qualit du choix ralis et rduit fortement le risque derreur. Un ensemble important de recherches menes notamment par Rosenthal et ses collgues (Rosenthal et Rubin, 1982 ; Rosenthal et DiMatteo, 2001) dans le domaine mdical a montr la pertinence dune analyse de ces coefficients de prdiction en termes de risques relatifs entre des solutions diffrentes de comportement. Ainsi, ces auteurs montrent (cit par Rolland, 2004) quun coefficient de prdiction de 0,60 entre le respect du traitement dune maladie et le risque de dcs d cette maladie quivaut un risque relatif de 4, cest--dire que le patient qui ne suit pas le traitement a 4 fois plus de chances de mourir que dans le cas contraire. Sur le mme principe, on peut considrer que le recours des tests dintelligence pour dcider dun recrutement, permet de faire environ 3,3 fois moins derreurs que si lon utilise pour cela une preuve non valide. Ce ratio est considrable, surtout lorsque lon considre le cot humain et financier dune erreur de recrutement.
Tests dintelligence et respect de la loi contre les discriminations Une dernire remarque est relative la notion dquit dans le processus de slection. Alors que la lutte contre les discriminations lembauche est devenue un enjeu social majeur et une proccupation essentielle des professionnels du recrutement, le fait de disposer de mthodes valides et quitables est primordial. La loi relative la lutte contre les discriminations
404
du 16 novembre 2001 inclut la question des discriminations relatives aux procdures de recrutement et prcise que les discriminations vises peuvent tre directes ou indirectes. On entend par discrimination indirecte une discrimination qui se produit lorsquune disposition, un critre ou une pratique apparemment neutre, est susceptible dentraner un dsavantage particulier pour des personnes par rapport dautres personnes, moins que cette disposition, ce critre ou cette pratique apparemment neutre ne soit objectivement justifie par un objet lgitime, et que les moyens de raliser cet objectif ne soient appropris et ncessaire (cit par Gavand, 2006). Les pratiques dvaluations en vue de recrutement sont bien videmment susceptibles de produire des discriminations indirectes lencontre de certains candidats, en particulier si elles sont affectes de biais avantageant ou dsavantageant systmatiquement certaines catgories de candidats sur des bases non justifies par lobjectif de lvaluation. La notion de test quitable nest pas nouvelle. On dit quun test est quitable lorsquil aboutit prendre la mme dcision (par exemple le recrutement) indpendamment des caractristiques des sujets (par exemple le genre, lorigine sociale, ethnique) (Vrignaud et Loarer, 2008). Le concept dquit (fairness en anglais) a pour origine un questionnement ancien sur les limites de lutilisation des tests en gnral et pour le recrutement en particulier. Il a donn lieu des dveloppements mthodologiques trs sophistiqus pour identifier et rduire les biais pouvant induire des diffrences de rsultats entre les groupes composant la population. Aux tats-Unis, plusieurs procs intents par des victimes de discrimination, ont conduit les utilisateurs ainsi que les diteurs et les auteurs de tests procder la recherche des biais et publier dans le manuel des rsultats de ces analyses. La publication de ces informations est dailleurs explicitement inscrite dans les recommandations lusage des utilisateurs de tests (voir annexes). De nombreux travaux ont dj t raliss, notamment sur les tests dintelligence et mritent dtre poursuivis pour parfaire la validit des tests. Sans rentrer ici dans le dtail des diffrents types de biais et des mthodes pour les contrler (voir le chapitre 2 de cet ouvrage, ainsi que Vrignaud, 2002a) nous retiendrons simplement que de nombreux travaux ont montr la supriorit des mthodes structures et standardises pour prvenir ou rduire le risque de biais et quil est clair que les tests cognitifs, prsentent, de ce point de vue, de nombreux avantages en situation de recrutement par rapport des situations moins standardises qui laissent une place plus grande la subjectivit de lvaluateur.
405
Dans les pratiques de conseil, daccompagnement et dorientation tout au long de la vie
Depuis les annes 1980, les pratiques dorientation, traditionnellement destination des lves, se sont dveloppes et touchent maintenant les adultes et les seniors (Guichard et Huteau, 2006). On parle ainsi dorientation tout au long de la vie. Dans ces pratiques de conseil, les tests dintelligence sont utiliss. Bien que les preuves soient, le plus souvent, identiques celles utiliss dans les pratiques de recrutement (Laberon, Lagabrielle et Vonthron, 2005), lobjectif du psychologue est, comme nous allons le dvelopper, foncirement diffrent. Il ne va pas sagir en effet dutiliser ces outils dans un objectif de diffrenciation, de slection, mais dans un objectif daide la connaissance de soi, voire daide au dveloppement de soi... La posture mme du psychologue va changer dans ce contexte : il va passer de la position de lexpert celui de conseiller : un conseiller qui ne donne pas obligatoirement de conseils, qui ne se place pas, ou pas exclusivement, en position dexpert, mais plutt un conseiller qui tient conseil avec son consultant (Lhotellier, 2000). Ainsi lvaluation de type examen psychologique traditionnel (examen psychotechnique) et lvaluation de type bilan de comptences, approche plus rcente, se distinguent sur la place donne (attribue) au sujet : dans lexamen la personne est objet de lvaluation, dans le bilan elle devient partie prenante du processus dvaluation et dauto-valuation (Blanchard, 2002 et 2007).
Quest-ce quun bilan ? Il faut comprendre ici cette notion de bilan comme refltant une approche globale du sujet, dpassant le cadre dun simple examen psychologique, pour prendre en compte un vaste ensemble de variables, afin de tenter de cerner les diffrents aspects dune personne. Aubret et Blanchard, dans leur ouvrage consacr la pratique du bilan personnalis (2005) nous en proposent une dfinition : la notion de bilan personnalis renvoie une approche globale de la personne considre dans son unit, ses identits, ses rapports soi, au travail, autrui, ses valeurs, confronte des vnements ou des situations problmes impliquant recherche de solutions et prises de dcisions (p. 1). Lune des formes possibles du bilan personnalis appliqu ladulte est le bilan de comptences.
406
Le bilan de comptences Le bilan de comptences est institu en France depuis 1991 la France semble dailleurs en avance ce niveau comparativement dautres pays, comme lAllemagne par exemple (Eckert et al., 2008) et est rgi par des textes rglementaires. Ainsi, une loi de 1991 instituant le bilan de comptences en dfini les objectifs : les actions permettant de raliser un bilan de comptence ont pour objet de permettre des travailleurs danalyser leurs comptences professionnelles et personnelles ainsi que leurs aptitudes et leurs motivations afin de dfinir un projet professionnel et, le cas chant, un projet de formation (cit par Aubret et Blanchard, 2005, p. 23) Pour effectuer ce bilan, les professionnels sont, le plus souvent, des psychologues.
Les tapes du bilan de comptence. Dune dure maximale de 24 heures, le bilan de comptences comporte trois phases : 1. Une phase daccueil et dinformation. On apporte au bnficiaire une information adapte sa demande, on prcise cette demande, on vrifie que le bilan correspond aux besoins et attentes de la personne ; 2. Une phase dinvestigation. Cest la phase la plus longue au cours de laquelle diffrentes mthodes et outils (dont les tests) peuvent tre utiliss afin damliorer 1 la connaissance de soi du bnficiaire, 2 la connaissance de son environnement professionnel. Le(s) projet(s) personnel(s) commence(nt) prendre forme ; 3. Une phase de conclusion. Le conseiller et le bnficiaire hirarchisent les diffrents projets, et examinent les conditions de leur ralisation. Un document de synthse est remis au bnficiaire. 4. Cest donc dans la deuxime phase du bilan que le psychologue va utiliser des tests.
Lutilisation des tests dans une pratique de bilan Dans le cadre du bilan, et de la construction dune alliance de travail entre le bnficiaire du bilan et le psychologue, ce dernier propose des techniques dvaluation visant dvelopper chez lui une meilleure connaissance de
407
soi, de ses comptences professionnelles et personnelles et une meilleure connaissance du monde professionnel (Blanchard, 2007, p. 65). La situation du sujet valu est donc assez particulire dans le cadre du bilan : il nest plus un sujet passif mais un sujet actif : lindividu devient un partenaire, voire un acteur de la gestion de sa carrire (Guichard et Huteau, 2006, p. 281). Les psychologues intervenant en bilan utilisent massivement des preuves destines valuer les aspects conatifs de la personne : motivation, personnalit, intrts professionnels (Blanchard, Sontag et Leskow, 1999) et galement, mais de manire souvent moins systmatique, des preuves cognitives pour valuer les acquis, aptitudes et comptence. La place donne aux tests dintelligence dans une pratique de bilan peut galement varier selon les professionnels du bilan. Dans une enqute comparative sur les pratiques dvaluation en recrutement et en bilan de comptences, nous pouvons relever les constats suivants (Laberon, Lagabrielle et Vonthron, 2005) : mme si les objectifs des deux situations diffrent, les mthodes et outils utiliss sont similaires ; les tests daptitudes sont utiliss par 84 % des conseillers bilans interrogs. Par contre, aucune information nest donne dans cet article sur les tests utiliss. Daprs nos propres constats, nous pouvons avancer que les preuves cognitives les plus utilises dans le contexte du bilan de comptences sont les batteries factorielles, telles que la NV5 et la NV7, mais galement, en fonction des caractristiques du bnficiaire (et essentiellement de son niveau de formation), des preuves de facteur g comme par exemple le D2000 ou encore le R2000.
Dans la formation des adultes
Lusage des tests sexplique ici essentiellement par leur pouvoir prdictif1 quant la russite en formation. Dans le processus de slection des demandeurs de formation, mais aussi dans le cadre de conseil, il est judicieux dintgrer des tests dintelligence logique. Cest le cas, par exemple, pour les formations proposes par lAssociation Nationale pour la Formation
1. Nous ne reprendrons pas ici la prsentation des tudes de validit prsentes dans la partie recrutement (voir plus haut).
408
Professionnelle des Adultes (A.F.P.A). Cest cet exemple que nous allons maintenant rapidement dvelopper.
Quest-ce que lAFPA ? Cre en 1945, LAFPA est lorganisme le plus important en France au niveau de la formation qualifiante. Elle collabore troitement avec lANPE et propose, aux demandeurs demploi mais aussi aux salaris et aux entreprises, diffrents services : orientation, formations, reclassement... La psychologie lAFPA, et tout particulirement la pratique (et la recherche sur) des tests, est une histoire ancienne mais toujours dactualit (Fraise, 1991 ; Chartier, 2002).
Les psychologues lAFPA Environ 700 psychologues travaillent lAFPA. Ils peuvent exercer directement dans les centres rgionaux de lAFPA mais galement dans un tablissement spcialis de lAFPA, lInstitut National de lOrientation et de lInsertion Professionnel (I.N.O.I.P). Dans les centres rgionaux, ils interviennent dans les procdures dvaluations, daccompagnement, de conseil, ainsi que dans diffrentes activits lies lorientation des adultes (conseil en formation, bilans de comptences...). Au sein de lINOIP, ils assurent des missions de recherche et dtude et dveloppent, par exemple, des mthodes et outils utilisables dans les domaines de lorientation et de la formation. Cest dans ce cadre quils peuvent tre amens dvelopper des tests psychologiques.
La pratique des tests lAFPA Diffrentes formes dvaluation sont pratiques lAFPA, diffrents moments de la formation : en amont, en cours de formation et en fin de formation (Chartier, D., 2002). En ce qui concerne les tests dintelligence, ils sont principalement utiliss en amont de la formation lors de lvaluation des capacits dapprentissage des demandeurs de formation. De par leurs qualits psychomtriques, et tout particulirement de leur validit prdictive : la mthode des tests a t introduite des fins de prvisions, conjointement dautres modes dinvestigation : questionnaires de connaissances gnrales ou professionnelles, et entretien psychologique (Fraise, 1991, p. 129).
409
Pour chaque formation une valeur seuil a t dfinie pour chacune des dimensions values par les tests. Llaboration de ce seuil est le rsultat dune procdure complexe qui tente de combiner une double contrainte : admettre les candidats qui ont de fortes chances de russir la formation, carter ceux qui ont une forte probabilit dchouer. Dans ce type de dcision, Fraise, en 1991, distinguait deux types derreurs possibles : 1) ne pas admettre une personne qui russirait, 2) admettre une personne qui ne russirait pas (Fraise, 1991). Mme si la dfinition de la valeur seuil, et son utilisation, semble moins rigide aujourdhui quauparavant (Chartier, D., 2002), la mme problmatique se pose encore actuellement :
Ce qui importe le plus, lorsquon fixe un seuil, nest pas le classement des stagiaires qui russissent, mais le fait quon essaie de minimiser le nombre de personnes cartes tort de la formation quils souhaitent tout en nenvoyant pas en formation des personnes dont la probabilit dchec est trop leve (Chartier, D., 2002, p. 9).
Mais ce seuil nest pas la seule information prise en compte aujourdhui par le psychologue de lAFPA : dautres lments (motivation, exprience antrieure...) vont intervenir. Cest partir de cet ensemble dinformations que le psychologue va prendre sa dcision sur lentre en formation dun candidat demandeur de formation. On retrouve ainsi lAFPA une volont de garantir un certain niveau dobjectivit dans les procdures de slection des candidats Cet exemple dutilisation de tests dans une procdure de slection de candidats une formation, associe une certaine souplesse dans la prise de dcision, illustre bien quel peut tre lapport de ces preuves dans un processus de formation.
4.
diteurs de tests
Nous prsentons les coordonnes des principaux diteurs de tests franais (classs par ordre alphabtique). ditions Delta Expert, 15, bis rue des Pas Perdus, BP-8338, 95804 Cergy Cedex www.delta-expert.com
410
ditions ECPA et EAP, 25, rue de la plaine, 75980 Paris Tl : 01 40 09 62 62 www.ecpa.fr ditions EUROTEST, 1, impasse de la baleine, 75011 Paris Tl : 01 48 06 25 75 www.eurotests.com www.eurotests.eu ditions HOGREFE France, 75 avenue Parmentier, 75011 Paris Tl : 01 40 21 42 08 www.hogrefe.fr ditions Qui plus est , 9, rue du Liban, 75020 Paris Tl : 01 43 66 61 16 www.editionquiplusest.com ditions OPP, 112 rue Raumur, 75002 Paris Tl : 01 55 34 92 00 www.opp.eu.com ditions SHL, 21 - 23 rue de Madrid, 75008 Paris Tl : 01 53 04 94 44 Fax : 01 53 04 94 45 www.shl.com/shl/fr/
Fiches pratiques
1.
Le test DAT5
Prsentation du test
Nom du test : Differential Aptitude Test version 5 (DAT 5) Auteurs : Bennet, G. K., Seashore, H. G. et Wesman, A. G. Version : Il sagit de la 5e version de lpreuve publie en 1947 aux tats-Unis. Dates ddition et de rnovation : La version DAT5 a t diffuse en France en 2002 diteur : ECPA. Format : papier/crayon Type dpreuve : batterie factorielle Type ditems : la DAT5 se compose de huit preuves indpendantes : Raisonnement Verbal, Raisonnement Abstrait, Raisonnement Numrique, Raisonnement Mcanique, Relations Spatiales, Vitesse de Perception et Prcision, Orthographe et Grammaire. Chaque preuve comporte des items reprsentatifs de laptitude value. Indicateurs : Le psychologue dispose dun score pour chaque preuve ainsi que dun score composite indicateur de lefficience scolaire. Populations vises : adolescents scolariss (3e Baccalaurat) et adultes.
Passation
Temps de passation : variable selon les preuves (de 6 20 minutes). Pour une passation de toutes les preuves il faut prvoir un temps total de 1 h 45 environ. Modalits de passation : individuelle ou collective Matriel : rponse sur le cahier de passation ; manuel (81 pages).
412
Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : Pour les adolescents en fonction de la formation suivie : classe de 3e , classe de 2e et classe de 1re /Terminale ; Pour les adultes trois niveaux : CAP/BEP, Baccalaurat et talonnage global.
Informations diverses
Ce test a fait lobjet dune prsentation dans le chapitre 5 de ce livre.
2.
Les tests de dominos : D48, D70 et D2000
Prsentation du test
Nom des tests : D48 ; D70 ; D2000 Auteur : versions adaptes dune preuve anglaise de Anstey de 1943. diteur : ECPA. Dates ddition et de rnovation : Premire version D48, dite en 1948. Les noms des versions correspondent aux dates des ditions. La dernire version D2000 a donc t dite en 2000. Les indications de cette fiche concernent la version D2000. Format : papier/crayon. Type dpreuve : facteur g (intelligence fluide). Type ditems : quelle que soit la version, D48, D70 ou D2000, il sagit toujours du mme type de tche : le sujet doit trouver la rgle de progression, cest--dire dfinir la (ou les) relation(s) existant entre les faces des diffrents dominos qui constituent une certaine suite logique, puis appliquer cette (ou ces) rgle(s) de progression afin de dterminer les caractristiques du domino manquant. Indicateurs : un score unique. Populations vises : adulte.
Passation
Temps de passation : 20 minutes (40 items) Modalits de passation : individuelle ou collective Matriel : cahier de passation ; feuille de passation ; manuel (30 pages).
Fiches pratiques
413
Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : un talonnage adulte (N = 682), de niveau BEP Baccalaurat + 5 (sans distinction du niveau) ; un talonnage concours dentre niveau Bac (398 sujets)
Ce test a fait lobjet dune prsentation dans le chapitre 4 de ce livre Publications relatives ce test : Chartier, P. ( paratre en 2008), Les tests dominos (D70 et D2000) : comment dpasser le constat du seul score total ? Exemples danalyses des rponses, Pratiques Psychologiques. Dickes, P., et Martin, R. (1998). Les composantes de lintelligence gnrale du D70 . Psychologie et Psychomtrie, 19 (1), 27-51. Rmy, L. & Gilles, P-Y. (1999). Stratgies de rsolution spatiale et numrique du D70. In M. Huteau & J. Lautrey (Eds), Approches diffrentielles en Psychologie. Rennes : P.U.R.
3.
Les tests NNAT
Prsentation du test
Nom du test : NNAT (Test dAptitude Non Verbal de Nagliri). Auteur : J. A. Naglieri. diteur : ECPA. Dates ddition et de rnovation : Le test NNAT a t dit aux tats-Unis en 1996 et adapt en France en 1998. Format : papier/crayon. Type dpreuve : facteur g (intelligence fluide). Type ditems : Le test NNAT est dclin en 7 formes, correspondant 7 niveaux de difficult : de la forme A (lves de lcole maternelle) la forme G (lves de Lyce). Les tches sont proches des matrices de Raven : slectionner llment qui vient continuer une srie propose. La spcificit de ce test rside dans la distinction de plusieurs types de raisonnement dans lpreuve : reprsentation spatiale, raisonnement analogique et raisonnement
414
en srie. Chaque forme du NNAT comporte 38 items, avec cependant une rpartition diffrente des diffrents types ditems selon les formes. Indicateurs : un score total et 3 sous-scores (relatifs aux 3 types de raisonnement). Populations vises : enfants et adultes.
Passation
Temps de passation : 30 minutes (38 items) Modalits de passation : individuelle ou collective Matriel : pour chaque forme : cahier de passation ; feuille de rponse auto-scorable. Le manuel (81 pages) est commun aux 7 formes. Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : Il faut signaler ici la possibilit dinterprter la performance du sujet de deux manires : par un talonnage selon le niveau scolaire, par un talonnage selon lge.
4.
Le test R2000 (R85)
Prsentation du test
Nom du test : Raisonnement 2000 Noms de lauteur : P. Rennes diteur : ECPA. Dates ddition et de rnovation : La version R2000 est la version dite en 2000 du test R85 de 1985, issu de lpreuve de raisonnement de Rennes de 1952. Format : papier/crayon Type dpreuve : facteur g (intelligence fluide) et flexibilit cognitive. Type ditems : Le test R2000 comporte des items de raisonnement sur des supports varis : verbal, numrique et mixte. La pluralit des supports et des tches (trouver lintrus dune srie de mots, suites numriques...) permet
Fiches pratiques
415
dvaluer une capacit de flexibilit mentale. Le test comporte 40 items. Ce test est assez difficile. Indicateurs : un score total. Populations vises : adultes de niveau de formation Bac + 2 minimum.
Passation
Temps de passation : 20 minutes (40 items) Modalits de passation : individuelle ou collective Matriel : cahier de passation ; feuille de rponse ; manuel (31 pages). Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : deux talonnages disponibles : un talonnage global, avec distinction selon le sexe, un talonnage de candidats un concours (sans autre prcision).
5.
Les tests de Raven : la version SPM
Prsentation du test
Nom du test : Standard Progressive Matrices (SPM) Auteur : John C. Raven diteur : EAP. Dates ddition et de rnovation : La premire version de lpreuve date de 1938 (connue sous lappellation PM38). La dernire version dite en France date de 1998. Format : papier/crayon Type dpreuve : facteur g (intelligence fluide) Type ditems : la version SPM comporte 60 items, organiss en cinq sries de 12 items. Les sries sont prsentes selon leur niveau de difficult. Il sagit toujours du mme type de tche : slectionner llment qui vient continuer une srie. Pour pouvoir russir, le sujet doit trouver la rgle de progression,
416
cest--dire dfinir les relations existant entre les diffrents lments dune matrice afin de slectionner llment qui vient complter la srie propose. Indicateurs : un score unique Populations vises : adolescents et adultes de niveau de formation jusqu bac +2 (au-del il est prfrable dutiliser la version APM).
Passation
Temps de passation : variable selon ltalonnage : de 20 30 minutes. Possibilit galement de passation en temps libre. Modalits de passation : collective ou individuelle. Matriel : cahier de passation ; feuille de rponse auto-scorable. Deux manuels : lun commun avec les autres tests de Raven (manuel section 1 de 96 pages) qui constitue une introduction aux diffrents tests, lautre spcifique cette version SPM (manuel section 3 de 80 pages). Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : les talonnages sont nombreux mais trs varis tant au niveau des populations (enfants, scolaires, adultes, de diffrentes nationalits...) quau niveau des conditions de passation (temps limit 20 ou 30 minutes, temps libre...). Le praticien devra reprer, avant de faire passer lpreuve, ltalonnage qui lui semble le plus adapt afin de respecter les conditions de passation de celui-ci (en particulier le temps de passation). Notons quil existe un complment dtalonnage diffus en 2003.
Ce test a fait lobjet dune prsentation dans le chapitre 4 de ce livre. Il existe une version plus difficile : les APM. Principales publications relatives ce test : De nombreuses rfrences de publications figurent dans le manuel. On peut citer galement, en langue franaise : Raven, J. (2001), Les Progressives Matrices de Raven. Changement et stabilit travers les cultures et le temps, In M. Huteau, Les figures de lintelligence. Paris : EAP. Vigneau, F., Douglas, A. B. et Stokes, T. L. (2001), La multidimensionnalit dun test de facteur g ? Vers une approche exprimentale du test des Matrices de Raven, In A. Flieller, C. Bocran, J-L. Kop, E. Thibaut, A-M. Toniolo et J. Tournois (Eds.), Questions de psychologie diffrentielle. Rennes : PUR.
Fiches pratiques
417
6.
Les tests de Raven : la version APM
Prsentation du test
Nom du test : Advanced Progressive Matrices (APM) Auteur : John C. Raven. diteur : EAP. Dates ddition et de rnovation : La premire version de lpreuve date de 1943, rnove en 1947 (connue sous lappellation PM47). La dernire version a t dite en France en 1998. Format : papier/crayon. Type dpreuve : test de facteur g (intelligence fluide). Type ditems : la version APM comporte deux sries ditems dont lune, le set 1, est destine familiariser le sujet avec la situation dvaluation. La seconde srie (set II), qui constitue rellement le test APM, comporte 36 items Les items sont prsents selon leur niveau de difficult. Il sagit de tches analogues celles de la version SPM (certains items sont communs) : slectionner llment qui vient continuer une srie. Pour pouvoir russir, le sujet doit trouver la rgle de progression, cest--dire dfinir les relations existant entre les diffrents lments dune matrice afin de slectionner llment qui vient complter la srie propose. Indicateurs : un score unique Populations vises : Cette version, plus difficile que la version SPM, concerne les adultes de niveau minimum Bac + 2.
Passation
Temps de passation : 40 minutes ou en temps libre (en fonction de ltalonnage slectionn). Modalits de passation : collective ou individuelle. Matriel : cahier de passation ; feuille de rponse auto-scorable. Deux manuels : lun commun avec les autres tests de Raven (manuel section 1 de 96 pages), lautre spcifique cette version SPM (manuel section 4 de 126 pages). Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : comme pour la version SPM les talonnages sont nombreux mais assez htrognes. Le praticien devra reprer, avant de faire
418
passer lpreuve, ltalonnage qui lui semble le plus adapt afin de dfinir les conditions de passation (en particulier le temps de passation).
Ce test a fait lobjet dune prsentation dans le chapitre 4 de ce livre. Principales publications relatives ce test : De nombreuses rfrences de publications figurent dans le manuel. Raven, J. (2001), Les Progressives Matrices de Raven. Changement et stabilit travers les cultures et le temps, In M. Huteau, Les figures de lintelligence. Paris : EAP.
7.
Le test Samuel
Prsentation du test
Nom du test : SAMUEL Noms des auteurs : Rozencwajg, P., Corroyer, D. et Altman, P. diteur : Delta Expert. Dates ddition : Le test SAMUEL a t dit en 1999. Format : preuve informatise Type dpreuve : test cognitif : analyse des stratgies de rsolution. Type ditems : Il sagit dune adaptation informatise de la tche des cubes de Kohs : le sujet doit reproduire sur lcran de lordinateur une configuration modle laide de plusieurs faces de carrs (unicolores et bicolores) quil manipule laide de la souris. Indicateurs : Le psychologue dispose de deux types dindicateurs : en terme de niveau de russite, en terme de stratgie de rsolution. Concernant le niveau de russite, les indicateurs sont nombreux : qualit globale de la construction, indice danticipation, vitesse dexcution... Pour les indices stratgitaires, le psychologue dispose de la stratgie mise en uvre par le sujet dans chaque item (stratgie globale, analytique ou synthtique) et de la stratgie la plus frquente sur lensemble de lpreuve (possibilit danalyse de la variabilit inter et intra-individuelle). Populations vises : adolescents et adultes.
Fiches pratiques
419
Passation
Temps de passation : environ 15 minutes. Modalits de passation : individuelle. Matriel : logiciel ; manuel (108 pages). Modalits de cotation : rapide et automatique. talonnages disponibles : par classe dge : de 9 ans lge adulte.
Ce test a fait lobjet dune prsentation dans le chapitre 6 de ce livre. Principales publications relatives ce test : Rozencwajg, P. (2005). Pour une approche intgrative de lintelligence. Un sicle aprs Binet. Paris : LHarmattan. Rozencwajg, P. (2001). Prsentation dun test cognitif informatis : SAMUEL , in A. Flieller, C. Bocran, J.L. Kop, E. Thibaut, A.M. Toniolo et J. Tournois (Eds.). Questions de Psychologie Diffrentielle (pages 107-111), Rennes, PUR.
8.
Le test TEDE 6
Prsentation du test
Nom du test : TEDE6 Auteur : Daniel Pasquier diteur : ECPA Dates ddition : Le TEDE6 est la 6e version du test TEDE. Premire version en 1989. Format : papier/crayon Type dpreuve : test dvaluation dynamique satur en facteur G (intelligence fluide, potentiel dapprentissage) Type ditems : Il sagit dune adaptation du test des longueurs de Faverge (1955). Lpreuve comprend 12 items dapprentissage et 18 items de test. Chaque item comprend un double aspect : logico-mathmatique dune part (le sujet doit composer une galit de longueurs de segments de droite selon la structure additive de type A=B+C) et visuo-projectif dautre part (le
420
sujet doit montrer que lgalit est vraie par superposition des segments en oprant les projections ncessaires). Populations vises : populations adultes, apprentis ou candidats apprentis sachant lire le franais.
Passation
Temps de passation : 2 heures (apprentissage : 1 heure + pause de 15 minutes + test : 45 minutes). Modalits de passation : collective ou individuelle. Matriel : Deux livrets (le livret dapprentissage et le livret de test), un dossier dinstructions et un logiciel de correction. Correction : Le temps de correction est denviron 5 minutes laide du logiciel de correction. Ce programme donne accs diffrents traitements : positionnement au regard de ltalonnage adapt, calcul de diffrents profils du sujet. talonnages disponibles : 2 talonnages : population dadultes et population dapprentis. Des talonnages spcifiques sont en outre proposs : pour la population adulte selon 4 niveaux de qualification : groupe 1 : les hommes et femmes de niveau II et ID, les hommes de niveau IV, tous ges confondus. groupe 2 : les hommes juniors (16-29 ans) de niveau V et les femmes juniors (16-29 ans) de niveau IV groupe 3 : les femmes de niveau V, les hommes seniors (29-58 ans) de niveau V et les femmes seniors (29-58 ans) de niveau IV groupe 4 : les hommes et femmes de niveau VI, tous ges confondus. pour la population des apprentis et candidats apprentis, selon 4 niveaux de qualification des diplmes prpars : CAP, BEP, BP, Bac
Ce test a fait lobjet dune prsentation dans le chapitre 7 de ce livre. Principales publications relatives ce test : Pasquier D. (1994). Le test dvaluation dynamique de lducabilit (T.E.D.E.), in Huteau M. (Ed.). Les techniques dvaluation des personnes. Issy-les-Moulineaux : EAP.
Fiches pratiques
421
Pasquier, D. (1995). Le T.E.D.E. Pdagogies de Mdiations, Documents du CRU/SE. Poitiers : CUFEP. Pasquier D., Estebe I., Jaigu J. (2001). Prvoir la russite chez de jeunes apprentis : approche exploratoire , Pratiques Psychologiques, 1, 99-110. Pasquier, D. (2005). Manuel dutilisation et dinterprtation du TEDE 4. Paris : ECPA
9.
Les tests de WECHSLER : le WISC-III
Prsentation du test
Nom du test : Wechsler Intelligence Scale for Children version III (WISC-III) Auteur : David Wechsler. diteur : ECPA. Dates ddition et de rnovation : 3e version de lpreuve de Wechsler pour enfant. Version adapte en France en 1996. Format : variable selon les subtests : questionnement du psychologue et tests de performance. Type dpreuve : chelle composite dintelligence pour enfant. Type ditems : la structure du WISC-III comporte deux chelles, une chelle verbale et une chelle de performance. Chaque chelle est compose de diffrents subtests qui composent des situations trs varies dvaluation (approche globale de lintelligence). Pour lchelle verbale (13 subtests) lenfant doit rpondre oralement des questions poses par le psychologue : trouver la relation entre deux notions, connaissance de son environnement, petits problmes arithmtiques... Pour lchelle de performance (7 subtests) lenfant doit raliser diffrentes tches : constructions laide de cubes, arrangements dimages en ordre chronologique, assemblages dlments de type puzzle... Dans chaque subtest les items sont prsents selon leur niveau de difficult. Indicateurs : comme toutes les chelles de Wechsler, les performances sont exprimes sous forme de QI : un QIT (ou QI Total) et un QI pour chaque chelle (QIV et QIP). Le psychologue dispose galement de scores standardiss pour chaque subtest (analyse du profil des rsultats). Pour cette version WISC-III se rajoute la possibilit de calculer 3 indices factoriels : Indice de comprhension verbale (ICV), indice dorganisation perceptive (IOP) et indice vitesse de traitement (IVT).
422
Populations vises : enfants et adolescents gs de 6 16 ans.

Passation
Temps de passation : 1 h 15 1 h 45 (variable selon le niveau de russite de lenfant : rgles darrt). Modalits de passation : individuelle. Matriel : une mallette regroupe lensemble du matriel ncessaire dont un manuel de 294 pages. Modalits de cotation : la cotation est assez complexe. Les indications du manuel seront prcieuses. Certaines rponses sont classiquement cotes 0 ou 1 point tandis que pour dautres (certains subtests de lchelle verbale) la cotation est plus fine en distinguant les bonnes rponses 1 point des rponses de qualit suprieures cotes 2 points Le psychologue calcule une note pour chaque subtest, puis combine ces notes pour obtenir les QI et les indices factoriels. Attention : 10 subtests sont obligatoires pour pouvoir calculer un Q.I talonnages disponibles : talonnages trs prcis, par classe dge de 4 mois, de type Q.I pour les 3 indicateurs QIT, QIV et QIP comme pour les 3 indices factoriels. talonnages pour chaque subtest (score de 1 19).
Ce test a fait lobjet dune prsentation dans le chapitre 3 de ce livre. Une version plus rcente (WISC-IV) est diffuse depuis 2005 en France. Principales publications relatives ce test : Arbisio, C. (2003). Le bilan psychologique avec lenfant. Approche clinique du WISC-III. Paris : Dunod. Grgoire, J. (2000a). Lexamen clinique de lintelligence de lenfant. Sprimont : Mardaga.
Fiches pratiques
423
10. Les tests de WECHSLER : le WISC-IV

Prsentation du test
Nom des tests : Wechsler Intelligence Scale for Children version IV (WISCIV) Auteurs : David Wechsler. diteur : ECPA. Dates ddition et de rnovation : 4e version de lpreuve de Wechsler pour enfant. Version adapte en France en 2005. Format : variable selon les subtests : questionnement du psychologue, papier/crayon et tests de performance. Type dpreuve : chelle dintelligence pour enfant. Type ditems : la structure du WISC-IV est sensiblement diffrente de celles des anciennes versions du Wechsler pour enfant. En effet disparaissent ici les deux chelles classiques, lchelle verbale et lchelle de performance, au profit de quatre indices factoriels : Indice de Comprhension Verbale (ICV), Indices de Raisonnement Perceptif (IRP), Indice de Mmoire de Travail (IMT) et Indice de Vitesse de Traitement (IVT). Seul lindicateur QIT est conserv. Il sagit donc plus dune relle transformation du WISC que dune simple rnovation. Chaque indice est compos de diffrents subtests qui sont proches des subtests de lancienne version WISC-III ou de la version pour adulte WAIS-III. Ces situations dvaluation restent assez varies : trouver la relation entre deux notions, comprhension de situations de la vie courante, devinettes, petits problmes arithmtiques, constructions laide de cubes, matrices analogiques... Dans chaque subtest les items sont prsents selon leur niveau de difficult. Au total le WISC-IV comporte 15 subtests, certains dentre eux tant optionnels. Indicateurs : par rapport aux versions prcdentes seul lindicateur QIT (quotient intellectuel total) est conserv. Le psychologue dispose de 4 indicateurs relatifs aux indices ICV, IRP, IMT et IVT (exprims dans la mme mtrique que le QI) ainsi que des indicateurs normaliss pour chaque subtest (analyse du profil des rsultats). Populations vises : enfants et adolescents gs de 6 16 ans 1/2.
424
Passation
Temps de passation : 1 h 15 1 h 45 (variable selon le niveau de russite de lenfant : rgles darrt). Modalits de passation : individuelle. Matriel : une mallette regroupe lensemble du matriel ncessaire. Deux manuels accompagnent lpreuve, lun destin la passation et la cotation (273 pages), lautre centr sur les qualits psychomtriques de lpreuve et les lments dinterprtation des scores (123 pages). Modalits de cotation : la cotation est assez complexe. Les indications du manuel seront prcieuses. Certaines rponses sont classiquement cotes 0 ou 1 point tandis que pour dautres (certains subtests de lchelle verbale) la cotation est plus fine en distinguant les bonnes rponses 1 point des rponses de qualit suprieures cotes 2 points. Le psychologue calcule une note pour chaque subtest, puis combine ces notes pour obtenir les QI et les indices. Il existe un Cd-rom daide la cotation. talonnages disponibles : talonnages trs prcis, par classe dge de 4 mois, dans une mtrique de type Q.I (m=100 et cart type de 15) pour le QIT et les quatre indices (ICV, IRP, IMT et IVT). talonnage pour les notes aux subtests
Ce test a fait lobjet dune prsentation dans le chapitre 3 de ce livre. Principales publications relatives ce test : Grgoire, J. (2006). Lexamen clinique de lintelligence de lenfant. Fondements et pratique du WISC-IV. Sprimont : Mardaga. Rozencwajg, P. (2006). Quelques rflexions sur lvaluation de lintelligence gnrale : un retour Binet, Pratiques Psychologiques, 12 (3), 395-410
11. Les tests de WECHSLER : la WAIS-III

Prsentation du test
Nom du test : Wechsler Adult Intelligence Scale version III (WAIS-III)
Fiches pratiques
425
Auteur : David Wechsler. diteur : ECPA. Dates ddition et de rnovation : 3e version de lpreuve de Wechsler pour adultes. Version adapte en France en 2000. Format : Variable selon les subtests : questionnement du psychologue, papier/crayon et tests de performance. Type dpreuve : chelle dintelligence pour adulte. Type(s) ditems : la structure de la WAIS-III est comparable celle du WISC-III : une chelle totale (QIT) et deux sous chelles, verbale (QIV) et performance (QIP). On retrouve galement la possibilit de calculer des indices factoriels, ici au nombre de quatre : Comprhension Verbale (I.C.V), Organisation Perceptive (I.O.P), Mmoire de Travail (MT) et Vitesse de Traitement (IVT). Chaque indicateur (Q.I ou indice factoriel), prend appui sur diffrents subtests. Les situations dvaluation sont varies : trouver la dfinition dun mot, la similitude entre deux notions, comprhension de situations de la vie courante, petits problmes arithmtiques, constructions laide de cubes, matrices analogiques... Au total, la version WAIS-III comporte 14 subtests. Dans chaque subtest les items sont prsents selon leur niveau de difficult. Indicateurs : Le psychologue dispose dun total de 7 indicateurs : les 3 indicateurs de type Q.I (QIT, QIV et QIP) et les 4 indices factoriels (ICV, IOP, IMT et IVT). Il dispose galement dindicateurs plus spcifiques concernant le niveau de russite dans chaque subtest (analyse du profil des rsultats). Populations vises : adolescents et adultes gs de 16 89 ans.
Passation
Temps de passation : 1 h 15 1 h 45 (variable en fonction du niveau de russite : rgles darrt). Modalits de passation : individuelle. Matriel : une mallette regroupe lensemble du matriel ncessaire. Le manuel est compos de 357 pages. Modalits de cotation : comme les autres chelles de Wechsler la cotation est assez complexe et le psychologue non expriment suivra scrupuleusement les indications (nombreuses) du manuel. On retrouve dans certaines subtests la cotation en trois niveaux : 0, 1 ou 2 points.
426
Le psychologue calcule une note pour chaque subtest, puis combine ces notes pour obtenir les QI et les indices. talonnages disponibles : talonnages trs prcis, par classe dge, dans une mtrique de type Q.I (m=100 et cart type de 15) pour les QI et les quatre indices. talonnage pour les notes aux subtests.
Ce test a fait lobjet dune prsentation dans le chapitre 3 de ce livre. Principales publications relatives ce test : Castro, D. (2006). Pratique de lexamen psychologique en clinique adulte. Paris : Dunod Grgoire, J. (2004). Lexamen clinique de lintelligence de ladulte. Sprimont : Mardaga.
12. Le test NV5-R

Prsentation du test
Nom du test : NV5-R Auteurs : Robert Simonet (1987) puis Thibaut, E et Bidan-Fortier (2003). diteur : EAP. Dates ddition et de rnovation : version rnove de lpreuve NV5 publie en 1987, la version NV5-R a t dite en 2003. Format : papier/crayon. Type dpreuve : batterie factorielle. Type ditems : la NV5-R est compose de plusieurs tests indpendants. Plus prcisment elle comporte 9 preuves : Raisonnement gnral, Raisonnement inductif, Raisonnement spatial, Raisonnement pratique/technique, Comprhension verbale, Vocabulaire, Orthographe, Calcul et Attention. Chaque preuve comporte des items reprsentatifs de laptitude value. Lpreuve de Raisonnement gnral est un peu atypique ici car elle est compose de diffrents types ditems. Indicateurs : Le psychologue dispose dun score pour chaque aptitude. partir de ces scores il peut procder deux types danalyse en dterminant : 1 un profil daptitude qui comporte 4 scores (aptitude gnrale, verbale,
Fiches pratiques
427
spatiale et numrique), 2 un profil cognitif, qui repose sur le modle thorique du radex, avec distinction de trois niveaux de raisonnement (gnral, intermdiaire, spcifique). Populations vises : adultes de niveau minimum Baccalaurat (utiliser la version NV7 pour des niveaux plus faibles).
Passation
Temps de passation : variable selon les preuves. Pour une passation de toutes les preuves il faut prvoir un temps total de 1 h 45 2 heures environ. Modalits de passation : individuelle ou collective. Matriel : cahier de passation ; feuille de rponse auto-scorable ; manuel (108 pages). Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : un talonnage htrogne avec sparation par niveau dtude.
Ce test a fait lobjet dune prsentation dans le chapitre 5 de ce livre. Publications relatives ce test : Thibaut, E. et Richoux, V. (2005), lments de validit prdictive des scores la batterie daptitudes cognitives NV5-R, Pratiques Psychologiques, 11, 404-416.
13. Le test NV7

Prsentation du test
Nom du test : NV7. Auteurs : Il sagit dune laboration dun collectif (Bernaud, Priou et Simonet) partir de la slection de tests existants. diteur : EAP. Dates ddition : version dite en 1993. Format : papier/crayon. Type dpreuve : batterie factorielle.
428
Type ditems : la NV7 est compose de dix preuves indpendantes : Raisonnement dductif, Raisonnement inductif, Raisonnement analogique, Raisonnement pratique/technique, Spatial, Problmes, Oprations, Attention, Orthographe et Comprhension verbale. Chaque preuve comporte des items reprsentatifs de laptitude value. Indicateurs : Le psychologue dispose dun score pour chaque preuve ainsi que de deux scores composites : Efficience Intellectuelle Gnrale (EIG) et Efficience Scolaire (ES). Il dispose galement dindicateurs concernant la rapidit des rponses et leur prcision. Populations vises : adolescents et adultes de bas niveau de qualification (infrieur au Baccalaurat).
Passation
Temps de passation : variable selon les preuves. Pour une passation de toutes les preuves il faut prvoir un temps total de 1 h 45 environ. Modalits de passation : individuelle ou collective. Matriel : cahier de passation ; feuille de rponse auto-scorable ; manuel (64 pages). Modalits de cotation : rapide, 1 point par bonne rponse. talonnages disponibles : jeunes peu qualifis ; adultes faiblement qualifis ; jeunes apprentis.
Annexes
1.
Code de dontologie des psychologues praticiens1
Prambule
Le prsent Code de Dontologie est destin servir de rgle professionnelle aux hommes et aux femmes qui ont le titre de psychologue, quels que soient leur mode dexercice et leur cadre professionnel, y compris leurs activits denseignement et de recherche. Sa finalit est avant tout de protger le public et les psychologues contre les msusages de la psychologie et contre lusage de mthodes et techniques se rclamant abusivement de la psychologie. Les organisations professionnelles signataires du prsent Code semploient le faire connatre et respecter. Elles apportent, dans cette perspective, soutien et assistance leurs membres. Ladhsion des psychologues ces organisations implique leur engagement respecter les dispositions du Code.
Titre I. Principes gnraux
La complexit des situations psychologiques soppose la simple application systmatique de rgles pratiques. Le respect des rgles du prsent Code de Dontologie repose sur une rflexion thique et une capacit de discernement, dans lobservance des grands principes suivants :
1. Code sign par lAssociation des Enseignants de Psychologie des Universits (AEPU), lAssociation Nationale des Organisations de Psychologues (ANOP), la Socit Franaise de Psychologie (SFP) le 22 mars 1996.
430
1. Respect des droits de la personne Le psychologue rfre son exercice aux principes dicts par les lgislations nationale, europenne et internationale sur le respect des droits fondamentaux des personnes, et spcialement de leur dignit, de leur libert et de leur protection. Il nintervient quavec le consentement libre et clair des personnes concernes. Rciproquement, toute personne doit pouvoir sadresser directement et librement un psychologue. Le psychologue prserve la vie prive des personnes en garantissant le respect du secret professionnel, y compris entre collgues. Il respecte le principe fondamental que nul nest tenu de rvler quoi que ce soit sur lui-mme.
2. Comptence Le psychologue tient ses comptences de connaissances thoriques rgulirement mises jour, dune formation continue et dune formation discerner son implication personnelle dans la comprhension dautrui. Chaque psychologue est garant de ses qualifications particulires et dfinit ses limites propres, compte tenu de sa formation et de son exprience. Il refuse toute intervention lorsquil sait ne pas avoir les comptences requises.
3. Responsabilit Outre les responsabilits dfinies par la loi commune, le psychologue a une responsabilit professionnelle. Il sattache ce que ses interventions se conforment aux rgles du prsent Code. Dans le cadre de ses comptences professionnelles, le psychologue dcide du choix et de lapplication des mthodes et techniques psychologiques quil conoit et met en uvre. Il rpond donc personnellement de ses choix et des consquences directes de ses actions et avis professionnels.
4. Probit Le psychologue a un devoir de probit dans toutes ses relations professionnelles. Ce devoir fonde lobservance des rgles dontologiques et son effort continu pour affiner ses interventions, prciser ses mthodes et dfinir ses buts.
Annexes
431
5. Qualit scientifique Les modes dintervention choisis par le psychologue doivent pouvoir faire lobjet dune explicitation raisonne de leurs fondements thoriques et de leur construction. Toute valuation ou tout rsultat doit pouvoir faire lobjet dun dbat contradictoire des professionnels entre eux.
6. Respect du but assign Les dispositifs mthodologiques mis en place par le psychologue rpondent aux motifs de ses interventions, et eux seulement. Tout en construisant son intervention dans le respect du but assign, le psychologue doit donc prendre en considration les utilisations possibles qui peuvent ventuellement en tre faites par des tiers.
7. Indpendance professionnelle Le psychologue ne peut aliner lindpendance ncessaire lexercice de sa profession sous quelque forme que ce soit.
Clause de conscience Dans toutes les circonstances o le psychologue estime ne pas pouvoir respecter ces principes, il est en droit de faire jouer la clause de conscience.
Titre II. Lexercice professionnel

Chapitre 1. Le titre de psychologue et la dfinition de la profession

Article 1
Lusage du titre de psychologue est dfini par la loi n 85-772 du 25 juillet 1985 publie au J.O. du 26 juillet 1985. Sont psychologues les personnes qui remplissent les conditions de qualification requises dans cette loi. Toute forme dusurpation du titre est passible de poursuites.
Article 2
Lexercice professionnel de la psychologie requiert le titre et le statut de psychologue.
432
Article 3
La mission fondamentale du psychologue est de faire reconnatre et respecter la personne dans sa dimension psychique. Son activit porte sur la composante psychique des individus, considrs isolment ou collectivement.
Article 4
Le psychologue peut exercer diffrentes fonctions titre libral, salari ou dagent public. Il peut remplir diffrentes missions, quil distingue et fait distinguer, comme le conseil, lenseignement de la psychologie, lvaluation, lexpertise, la formation, la psychothrapie, la recherche, etc. Ces missions peuvent sexercer dans divers secteurs professionnels.
Chapitre 2. Les conditions de lexercice de la profession

Article 5
Le psychologue exerce dans les domaines lis sa qualification, laquelle sapprcie notamment par sa formation universitaire fondamentale et applique de haut niveau en psychologie, par des formations spcifiques, par son exprience pratique et ses travaux de recherche. Il dtermine lindication et procde la ralisation dactes qui relvent de sa comptence.
Article 6
Le psychologue fait respecter la spcificit de son exercice et son autonomie technique. Il respecte celles des autres professionnels.
Article 7
Le psychologue accepte les missions quil estime compatibles avec ses comptences, sa technique, ses fonctions, et qui ne contreviennent ni aux dispositions du prsent Code, ni aux dispositions lgales en vigueur.
Article 8
Le fait pour un psychologue dtre li dans son exercice professionnel par un contrat ou un statut toute entreprise prive ou tout organisme public, ne modifie pas ses devoirs professionnels, et en particulier ses obligations concernant le secret professionnel et lindpendance du choix de ses mthodes et de ses dcisions. Il fait tat du Code de Dontologie dans ltablissement de ses contrats et sy rfre dans ses liens professionnels.
Annexes
433
Article 9
Avant toute intervention, le psychologue sassure du consentement de ceux qui le consultent ou participent une valuation, une recherche ou une expertise. Il les informe des modalits, des objectifs et des limites de son intervention. Les avis du psychologue peuvent concerner des dossiers ou des situations qui lui sont rapportes. Mais son valuation ne peut porter que sur des personnes ou des situations quil a pu examiner lui-mme. Dans toutes les situations dvaluation, quel que soit le demandeur, le psychologue rappelle aux personnes concernes leur droit demander une contre-valuation. Dans les situations de recherche, il les informe de leur droit sen retirer tout moment. Dans les situations dexpertise judiciaire, le psychologue traite de faon quitable avec chacune des parties et sait que sa mission a pour but dclairer la justice sur la question qui lui est pose et non dapporter des preuves.
Article 10
Le psychologue peut recevoir, leur demande, des mineurs ou des majeurs protgs par la loi. Son intervention auprs deux tient compte de leur statut, de leur situation et des dispositions lgales en vigueur. Lorsque la consultation pour des mineurs ou des majeurs protgs par la loi est demande par un tiers, le psychologue requiert leur consentement clair, ainsi que celui des dtenteurs de lautorit parentale ou de la tutelle.
Article 11
Le psychologue nuse pas de sa position des fins personnelles, de proslytisme ou dalination dautrui. Il ne rpond pas la demande dun tiers qui recherche un avantage illicite ou immoral, ou qui fait acte dautorit abusive dans le recours ses services. Le psychologue nengage pas dvaluation ou de traitement impliquant des personnes auxquelles il serait dj personnellement li.
Article 12
Le psychologue est seul responsable de ses conclusions. Il fait tat des mthodes et outils sur lesquels il les fonde, et il les prsente de faon adapte ses diffrents interlocuteurs, de manire prserver le secret professionnel. Les intresss ont le droit dobtenir un compte rendu comprhensible des valuations les concernant, quels quen soient les destinataires. Lorsque ces conclusions sont prsentes des tiers, elles ne rpondent qu la question pose et ne comportent les lments dordre psychologique qui les fondent que si ncessaire.
434
Article 13
Le psychologue ne peut se prvaloir de sa fonction pour cautionner un acte illgal, et son titre ne le dispense pas des obligations de la loi commune. Conformment aux dispositions de la loi pnale en matire de non-assistance personne en danger, il lui est donc fait obligation de signaler aux autorits judiciaires charges de lapplication de la Loi toute situation quil sait mettre en danger lintgrit des personnes. Dans le cas particulier o ce sont des informations caractre confidentiel qui lui indiquent des situations susceptibles de porter atteinte lintgrit psychique ou physique de la personne qui le consulte ou celle dun tiers, le psychologue value en conscience la conduite tenir, en tenant compte des prescriptions lgales en matire de secret professionnel et dassistance personne en danger. Le psychologue peut clairer sa dcision en prenant conseil auprs de collgues expriments.
Article 14
Les documents manant dun psychologue (attestation, bilan, certificat, courrier, rapport, etc.) portent son nom, lidentification de sa fonction ainsi que ses coordonnes professionnelles, sa signature et la mention prcise du destinataire. Le psychologue naccepte pas que dautres que lui-mme modifient, signent ou annulent les documents relevant de son activit professionnelle. Il naccepte pas que ses comptes rendus soient transmis sans son accord explicite, et il fait respecter la confidentialit de son courrier.
Article 15
Le psychologue dispose sur le lieu de son exercice professionnel dune installation convenable, de locaux adquats pour permettre le respect du secret professionnel, et de moyens techniques suffisants en rapport avec la nature de ses actes professionnels et des personnes qui le consultent.
Article 16
Dans le cas o le psychologue est empch de poursuivre son intervention, il prend les mesures appropries pour que la continuit de son action professionnelle soit assure par un collgue avec laccord des personnes concernes, et sous rserve que cette nouvelle intervention soit fonde et dontologiquement possible.
Annexes
435
Chapitre 3 : Les modalits techniques de lexercice professionnel

Article 17
La pratique du psychologue ne se rduit pas aux mthodes et aux techniques quil met en uvre. Elle est indissociable dune apprciation critique et dune mise en perspective thorique de ces techniques.
Article 18
Les techniques utilises par le psychologue pour lvaluation, des fins directes de diagnostic, dorientation ou de slection, doivent avoir t scientifiquement valides.
Article 19
Le psychologue est averti du caractre relatif de ses valuations et interprtations. Il ne tire pas de conclusions rductrices ou dfinitives sur les aptitudes ou la personnalit des individus, notamment lorsque ces conclusions peuvent avoir une influence directe sur leur existence.
Article 20
Le psychologue connat les dispositions lgales et rglementaires issues de la loi du 6 janvier 1978 relative linformatique, aux fichiers et aux liberts. En consquence, il recueille, traite, classe, archive et conserve les informations et donnes affrentes son activit selon les dispositions en vigueur. Lorsque ces donnes sont utilises des fins denseignement, de recherche, de publication, ou de communication, elles sont imprativement traites dans le respect absolu de lanonymat, par la suppression de tout lment permettant lidentification directe ou indirecte des personnes concernes, ceci toujours en conformit avec les dispositions lgales concernant les informations nominatives.
Chapitre 4. Les devoirs du psychologue envers ses collgues

Article 21
Le psychologue soutient ses collgues dans lexercice de leur profession et dans lapplication et la dfense du prsent Code. Il rpond favorablement leurs demandes de conseil et les aide dans les situations difficiles, notamment en contribuant la rsolution des problmes dontologiques.
Article 22
Le psychologue respecte les conceptions et les pratiques de ses collgues pour autant quelles ne contreviennent pas aux principes gnraux du prsent Code ; ceci nexclut pas la critique fonde.
436
Article 23
Le psychologue ne concurrence pas abusivement ses collgues et fait appel eux sil estime quils sont plus mme que lui de rpondre une demande.
Article 24
Lorsque le psychologue remplit une mission daudit ou dexpertise vis--vis de collgues ou dinstitutions, il le fait dans le respect des exigences de sa dontologie.
Chapitre 5. Le psychologue et la diffusion de la psychologie

Article 25
Le psychologue a une responsabilit dans la diffusion de la psychologie auprs du public et des mdias. Il fait de la psychologie et de ses applications une prsentation en accord avec les rgles dontologiques de la profession. Il use de son droit de rectification pour contribuer au srieux des informations communiques au public.
Article 26
Le psychologue nentre pas dans le dtail des mthodes et techniques psychologiques quil prsente au public, et il linforme des dangers potentiels dune utilisation incontrle de ces techniques.
Titre III. La formation du psychologue
Chapitre 1. Les principes de la formation

Article 27
Lenseignement de la psychologie destination des futurs psychologues respecte les rgles dontologiques du prsent Code. En consquence, les institutions de formation :
diffusent le Code de Dontologie des Psychologues aux tudiants ds le
dbut des tudes ; sassurent de lexistence de conditions permettant que se dveloppe la rflexion sur les questions dthique lies aux diffrentes pratiques : enseignement et formation, pratique professionnelle, recherche.
Annexes
437
Article 28
Lenseignement prsente les diffrents champs dtude de la psychologie, ainsi que la pluralit des cadres thoriques, des mthodes et des pratiques, dans un souci de mise en perspective et de confrontation critique. Il bannit ncessairement lendoctrinement et le sectarisme.
Article 29
Lenseignement de la psychologie fait une place aux disciplines qui contribuent la connaissance de lhomme et au respect de ses droits, afin de prparer les tudiants aborder les questions lies leur futur exercice dans le respect des connaissances disponibles et des valeurs thiques.
Chapitre 2. Conception de la formation

Article 30
Le psychologue enseignant la psychologie ne participe pas des formations noffrant pas de garanties sur le srieux des finalits et des moyens. Les enseignements de psychologie destins la formation continue des psychologues ne peuvent concerner que des personnes ayant le titre de psychologue. Les enseignements de psychologie destins la formation de professionnels non-psychologues observent les mmes rgles dontologiques que celles nonces aux Articles 27, 28 et 32 du prsent Code.
Article 31
Le psychologue enseignant la psychologie veille ce que ses pratiques, de mme que les exigences universitaires (mmoires de recherche, stages professionnels, recrutement de sujets, etc.), soient compatibles avec la dontologie professionnelle. Il traite les informations concernant les tudiants, acquises loccasion des activits denseignement, de formation ou de stage, dans le respect des Articles du Code concernant les personnes.
Article 32
Il est enseign aux tudiants que les procdures psychologiques concernant lvaluation des individus et des groupes requirent la plus grande rigueur scientifique et thique dans leur maniement (prudence, vrification) et leur utilisation (secret professionnel et devoir de rserve), et que les prsentations de cas se font dans le respect de la libert de consentir ou de refuser, de la dignit et du bien-tre des personnes prsentes.
438
Article 33
Les psychologues qui encadrent les stages, lUniversit et sur le terrain, veillent ce que les stagiaires appliquent les dispositions du Code, notamment celles qui portent sur la confidentialit, le secret professionnel, le consentement clair. Ils sopposent ce que les stagiaires soient employs comme des professionnels non rmunrs. Ils ont pour mission de former professionnellement les tudiants, et non dintervenir sur leur personnalit.
Article 34
Conformment aux dispositions lgales, le psychologue enseignant la psychologie naccepte aucune rmunration de la part dune personne qui a droit ses services au titre de sa fonction universitaire. Il nexige pas des tudiants quils suivent des formations extra-universitaires payantes ou non, pour lobtention de leur diplme. Il ne tient pas les tudiants pour des patients ou des clients. Il nexige pas leur participation gratuite ou non, ses autres activits, lorsquelles ne font pas explicitement partie du programme de formation dans lequel sont engags les tudiants.
Article 35
La validation des connaissances acquises au cours de la formation initiale se fait selon des modalits officielles. Elle porte sur les disciplines enseignes lUniversit, sur les capacits critiques et dauto-valuation des candidats, et elle requiert la rfrence aux exigences thiques et aux rgles dontologiques des psychologues. Code sign par lAssociation des Enseignants de Psychologie des Universits (AEPU), lAssociation Nationale des Organisations de Psychologues (ANOP), la Socit Franaise de Psychologie (SFP) le 22 mars 1996.
Annexes
439
2.
Recommandations internationales sur lutilisation des tests [extrait]1
Introduction et contexte dorigine
Le besoin de Recommandations internationales Lobjectif essentiel vis par la Commission Internationale des Tests (en abrg CIT) travers ce projet de Recommandations est de promouvoir une bonne utilisation des tests et dencourager des pratiques exemplaires dans le domaine de lvaluation. Le travail ralis jusqu maintenant par la CIT pour permettre un haut niveau de qualit dans ladaptation des tests (Hambleton, 1994 ; Van de Vijver F. & Hambleton R., 1996) constitue une tape importante vers une homognisation de leur qualit, en vue de leur utilisation dans diffrentes langues et diffrentes cultures. Lors de sa runion Athnes en 1995, le conseil de la CIT a adopt une proposition visant largir cette proccupation, en incluant des Recommandations sur une utilisation des tests qui soit quitable et conforme lthique. De ces Recommandations peuvent tre tires des normes pour la dfinition des comptences des utilisateurs de tests et leur formation. Il existe un certain nombre de raisons pour lesquelles le besoin de recommandations sur lutilisation des tests au niveau international se manifeste :
Les diffrents pays prsentent des disparits importantes en ce qui
concerne le niveau de contrle lgal, ventuel, quils peuvent exercer sur lutilisation du testing et ses consquences pour ceux qui sont tests. Certaines organisations professionnelles nationales pratiquent un enregistrement lgal des psychologues, dautres non ; certaines disposent de procdures pour contrler les normes dutilisation des tests par des non-psychologues, dautres nen ont pas. Lexistence dun ensemble de recommandations, acceptes au niveau international, peut fournir aux associations nationales de psychologues et autres corps de professionnels concerns, une aide la mise en place de normes, dans les pays o de telles normes sont soit actuellement dficientes, dune manire ou dune autre, soit totalement inexistantes.
1. Publi avec laimable autorisation de la Socit Franaise de Psychologie (SFP). Le texte dans son entier est consultable sur le site de la SFP : www.sfpsy.org.
440
Lorganisation de laccs aux tests, en termes de droits dacquisition ou
dutilisation de ces instruments, varie de manire importante dun pays lautre. Dans certains pays, cet accs est restreint aux seuls psychologues ; dans dautres, aux utilisateurs rpertoris par les diffuseurs nationaux formellement autoriss ; dans dautres encore, les utilisateurs peuvent accder librement au matriel sans restriction auprs des diffuseurs dans leur pays ou directement auprs de diffuseurs domicilis ltranger. Un certain nombre dinstruments bien connus sont apparus sur internet en violation des lois sur la proprit intellectuelle (copyright ), sans lautorisation des auteurs ou des diteurs des tests, et sans considration pour les questions de scurit des tests. Dans le domaine du testing en psychologie du travail, la plus grande mobilit internationale du travail a accru la demande de tests utilisables avec des candidats un emploi venant de pays diffrents, les tests tant souvent administrs dans un pays pour le compte dun employeur dun autre pays. Un travail de dveloppement est actuellement ralis aux tats-Unis et en Grande-Bretagne en vue de permettre une utilisation dInternet pour une valuation distance dans les domaines professionnel et ducatif. Ce phnomne soulve une foule de questions concernant les normes dadministration et le contrle du processus de testing, y compris le problme de la scurit du test.
But et objectifs Le but long terme de ce projet comprend la production dun ensemble de recommandations qui se rapportent aux comptences (connaissances, capacits, savoir-faire et autres caractristiques personnelles) requises des utilisateurs de tests. Ces comptences sont dfinies en termes de critres de performance valuables. Ces critres fournissent la base pour dvelopper des normes de comptence exigible de tout candidat une qualification en tant quutilisateur de tests. Lanalyse de telles comptences doit inclure la prise en compte de questions telles que :
Les normes professionnelles et thiques dans le testing, Les droits de la personne teste et des autres parties concernes par le
processus de testing, Le choix et lvaluation du test parmi un ensemble dpreuves similaires, Ladministration, la cotation et linterprtation du test,
Annexes
441
Le compte rendu crit et la communication des rsultats.
Dans la mesure o elles sont directement lies lutilisation des tests, les Recommandations ont galement des implications pour :
Les normes respecter pour la construction des tests, Les normes pour la documentation lusage des utilisateurs par exemple,
manuel de lutilisateur, manuel technique, Les normes pour rguler lachat et la disponibilit des tests, ainsi que linformation sur les tests. Ces Recommandations reprsentent le travail de spcialistes dans le domaine du testing psychologique et ducatif (cest--dire psychologues, psychomtriciens, diteurs de tests, auteurs de tests) issus dun certain nombre de pays. Lintention de ce document nest pas dinventer de nouvelles recommandations, mais de rassembler les tendances communes qui parcourent les recommandations existantes, les codes de dontologie, les noncs de normes et autres documents pertinents, pour crer une structure cohrente lintrieur de laquelle ces lments puissent tre compris et mis en uvre.
Mise au point des recommandations Les Recommandations doivent tre considres comme des rfrences par rapport auxquelles les normes locales existantes peuvent tre compares en ce qui concerne ltendue de leur prise en charge, ainsi que leur qualit au niveau international. En utilisant les Recommandations comme rfrences ou comme bases pour dvelopper des documents valables localement (par exemple, normes, codes de dontologie, dclarations sur les droits des personnes testes), on favorisera laccs un haut niveau dhomognit transnationale. Le travail sur les recommandations a dbut en rassemblant les documents se rapportant aux normes sur les tests, codes de dontologie, dutilisation des tests, etc., dans un grand nombre de pays1 . Bien que tirant parti de toutes ces sources, ces Recommandations ont t plus particulirement influences par :
1. Une liste de tous les documents qui ont aliment ce processus peut tre obtenue sur demande adresse aux auteurs.
442
The Australian Psychological Society (APS) Supplement to guidelines on the
use of Psychological Tests (Kendall et al., 1997). The British Psychological Society (BPS) Level A and Level B standards for occupational test use (Bartram, 1995, 1996). The American Educational Research Association (AERA), American Psychological Association (APA), & National Council on Measurement in Education (NCME) (1985) Standards for educational and psychological testing. American Association for Counselling and Development (AACD) Responsibilities of Users of Standardized Tests (Schafer, W. D, 1992). The CPA (Canadian Psychological Association, 1987) Guidelines for Educational and Psychological Testing.
Le document de lAPS a t prcieux car il rassemble la plus grande partie de ce qui est contenu dans les publications de la BPS et les publications amricaines, en tirant parti galement des publications du South African National Institute for Psychological Research (NIPR), et des conseils lintention des utilisateurs de tests publis par les diteurs de tests. Il intgre galement beaucoup de ce qui provient des travaux fondateurs du Joint Committee on Testing Practices (JCTP) Test User Qualifications Working Groups (TUQWG), travaux partir dune approche base sur des donnes denqute pour promouvoir une bonne utilisation des tests (par exemple, Eyde et al., 1988, 1993 ; Morelandetal, 1995), et le travail du JCTP sur le Code of Fair Testing Practices in Education (JCTP, 1988 ; Fremer, Diamond, & Camara, 1989). Lannexe B a tir davantage parti des travaux plus rcents du JCTP (JCTP, 2000) sur les droits et responsabilits des personnes testes. Le contenu des sources primaires a t analys et les dclarations classes selon quatorze sections principales. Lorsque ctait appropri, des dclarations uniques ont t rdiges pour prendre en compte, en les synthtisant, un certain nombre de dclarations provenant de diffrentes sources. Les dclarations ont galement t modifies selon un format tel quil se prsente comme la complmentation dune phrase commune (par exemple, Les utilisateurs de tests comptents feront tout leur possible pour... , ou Les utilisateurs de tests comptents peuvent... ). Cette structure initiale de quatorze sections principales et de leur contenu a t intgre dans lavant-projet de document de travail. Celui-ci a constitu le matriel pour un atelier international qui sest tenu Dublin en juillet 1997. Lintention de latelier de la CIT tait dtudier et dvaluer de manire critique tous les aspects du document de cadrage, en ayant pour objectif de produire une premire version dun ensemble
Annexes
443
de recommandations qui auraient une crdibilit et une reconnaissance internationales. Pendant latelier, le document de cadrage a t examin en dtail, et des amliorations ont t proposes en termes de forme, de structure et de contenu. la suite de latelier, le document a t compltement revu (version 2.0) et a circul parmi tous ceux qui lavaient comment. Un avant-projet de document de consultation (version 3.1) a t prpar, qui prenait en compte tous les commentaires et suggestions proposs pour la version 2.0. Des copies de la version 3.1 du document de consultation et une grille de rponse structure ont t largement diffuses aux personnes et organisationscl, pour commentaire. Un total de deux cents exemplaires a t distribu. Un total de vingt-huit rponses dtailles a t reu, incluant des rponses dorganisations telles que lAPA, la BPS, la SFP et quelques autres associations professionnelles europennes. Durant lt 1998, les Recommandations ont t revues la lumire de ces commentaires, et 200 exemplaires (version 4.1) ont t envoys pour une autre consultation. Un total de 18 rponses circonstancies ont t reues pour cette seconde srie de consultations. De plus, des commentaires informels de soutien ont t fournis par de nombreux destinataires du document de consultation par courrier lectronique ou lors de rencontres. En mettant au point la prsente version des Recommandations (Version 2000), tous les efforts ont t faits pour prendre en compte toutes ces rponses. Les rponses taient, sans exception, utiles et constructives1 . Ces Recommandations doivent tre considres comme une aide plutt que comme une contrainte. Il est ncessaire de sassurer que les Recommandations rassemblent les principes de base universels dune pratique correcte des tests, sans chercher imposer une uniformit l o existent des diffrences lgitimes, dun pays ou dune zone dapplication lautre, en ce qui concerne les fonctions ou les pratiques. La structure propose distingue trois principaux aspects des comptences : 1. Les normes professionnelles et thiques de bonne pratique, qui concernent la faon selon laquelle le processus de testing est conduit, et la faon dont les utilisateurs de tests interagissent avec les autres personnes impliques dans le processus.
1. Un compte rendu dtaill sur ces rsultats de la premire consultation a t soumis la runion du conseil de la CIT en aot 1998. Un compte rendu de la seconde consultation joint la Version 5.0 des recommandations a t soumis au conseil de la CIT lors de sa runion de juin 1999. La Version 2000 contient des modifications de rdaction mineures par rapport la Version 5.0.
444
2. Les connaissances, la comprhension et les savoir-faire relatifs au processus de testing : ce que les utilisateurs de test doivent tre capables de faire. 3. Les connaissances et la comprhension qui sont ncessaires pour matriser le processus de testing et ltayer. Ces trois composantes diffrent, et sont pourtant inextricablement lies dans la pratique. Les Recommandations proviennent dun objectif-cl. Celui-ci peut tre caractris comme lordre de mission de lutilisateur de tests. Il constitue la base partir de laquelle les Recommandations sont dveloppes. Chaque recommandation dfinit lune des facettes de comptence des utilisateurs de tests qui contribue lobjectif cl. Joint lobjectif cl, le champ dapplication des Recommandations dcrit les personnes auxquelles elles sappliquent, les formes dvaluation auxquelles elles se rapportent et les contextes dvaluation. Ce document contient : 1. Lobjectif cl et le champ dapplication des Recommandations. 2. La dfinition des comptences des utilisateurs de tests, en relation avec une approche thique des tests. 3. La dfinition des comptences des utilisateurs de tests, en relation avec une pratique correcte de lutilisation des tests.
Les Recommandations
Objectif-cl Un utilisateur de tests comptent utilise les tests de manire approprie, de manire professionnelle, et de manire thique, en prenant en considration les besoins et les droits de ceux qui sont impliqus dans le processus de passation des tests, les justifications de la passation, et le contexte, au sens large, dans lequel la passation se droule. On permettra quil en soit ainsi en sassurant que les utilisateurs de tests disposent des comptences ncessaires pour mener bien une telle procdure, ainsi que les connaissances et une comprhension des tests et de leur utilisation suffisantes pour clairer et tayer ce processus.
Annexes
445
Champ dapplication Toute tentative pour fournir une dfinition prcise dun test ou du testing en tant que processus chouera vraisemblablement parce quelle risque dexclure certaines procdures qui devraient en faire partie, et den inclure dautres qui devraient en tre exclues. Pour les besoins de ces Recommandations, les termes tests et testing doivent tre interprts au sens large. Le fait quune procdure dvaluation soit ou non qualifie de test reste peu probant. Ces Recommandations sont pertinentes pour de nombreuses procdures dvaluation qui ne sont pas appeles des tests ou pour lesquelles on cherche viter cette appellation. Plutt que de fournir une dfinition unique, les propositions suivantes sont une tentative pour organiser le domaine couvert par les Recommandations.
La passation de tests comprend une large gamme de procdures destines
tre employes dans lvaluation psychologique, professionnelle et ducative. La passation de tests comprend des procdures permettant la mesure des comportements normaux ou pathologiques, voire des dysfonctionnements. Les procdures de passation de tests sont habituellement construites pour tre administres selon des conditions soigneusement contrles ou standardises, qui incluent des protocoles cots de manire systmatique. Ces procdures fournissent des mesures de la performance et amnent tirer des infrences partir dchantillons du comportement. Elles comprennent galement des procdures qui peuvent aboutir catgoriser ou classer les personnes (par exemple, en termes de types psychologiques).
Toute procdure utilise pour tester , au sens dfini ci-dessus, devrait tre considre comme un test, sans tenir compte de son mode dadministration, ni du fait quil a t, ou non, construit par un auteur de test professionnel, ni encore du fait quil comprendrait des ensembles de questions ou quil demande de raliser des performances de tches ou doprations. (par exemple, chantillon de tches professionnelles, tests psychomoteurs de poursuite ). Les tests devraient sappuyer sur des constats de leur fidlit et de leur validit en relation avec les objectifs poursuivis. Des preuves devraient tre fournies pour appuyer les infrences qui sont tires des scores au test. Ces preuves devraient tre accessibles aux utilisateurs de tests, et disponibles
446
pour tre examines et values de manire indpendante. Lorsque de telles informations importantes sont publies dans des rapports techniques difficilement accessibles, des rsums comprenant les rfrences compltes devraient tre fournis par le diffuseur du test. Les Recommandations sur lutilisation des tests doivent tre considres comme sappliquant toutes les procdures semblables quelles soient ou non dsignes explicitement comme tests psychologiques ou tests ducatifs et quelles soient ou non confirmes par des constats techniques disponibles. La plupart de ces Recommandations sappliqueront aussi des procdures dvaluation situes en dehors du domaine des tests. Elles peuvent tre pertinentes pour toute procdure dvaluation utilise dans des situations o lvaluation des personnes se fait dans un but srieux et significatif et qui, mal utilise, pourrait aboutir des dommages aux personnes ou des souffrances psychologiques (par exemple, les entretiens de slection professionnelle, les valuations des performances professionnelles, lvaluation diagnostique des besoins daide aux apprentissages scolaires/cognitifs). Les Recommandations ne sappliquent pas lutilisation de matriels qui peuvent avoir une ressemblance superficielle avec les tests, mais que tous les participants reconnaissent comme destins tre utiliss seulement des fins de distraction ou damusement (par exemple, questionnaires de style de vie dans les magazines et les journaux).
qui sadressent les Recommandations ? Les Recommandations sappliquent lutilisation des tests dans une pratique professionnelle. En tant que telles, elles sadressent dabord :
aux personnes qui acquirent ou qui dtiennent des matriels de test ; ceux qui ont la responsabilit de choisir des tests et de dterminer lusage
qui en sera fait ; ceux qui administrent, cotent ou interprtent les tests ; ceux qui fournissent des avis aux autres sur la base des rsultats aux tests (par exemple, psychologues cliniciens, psychologues du travail, psychologues scolaires, conseillers dorientation-psychologues, etc.) ; ceux qui ont la charge de rendre compte des rsultats aux tests et de communiquer leurs rsultats aux personnes qui ont pass des tests.
Annexes
447
Les Recommandations sont galement pertinentes pour dautres personnes impliques dans lutilisation des tests telle quelle a t dfinie ci-dessus. Celles-ci comprennent :
les constructeurs (auteurs) de tests, les diteurs de tests, ceux qui sont partie prenante dans la formation des utilisateurs de tests, ceux qui sont tests, ainsi que leur entourage (parents, pouse, partenaires
de vie), les organisations professionnelles et les autres associations qui sont concernes par lutilisation des tests psychologiques et ducatifs, les dcideurs et les lgislateurs. Bien que destines au dpart aux pratiques professionnelles, les Recommandations seront galement pertinentes pour ceux qui utilisent les tests uniquement des fins de recherche. Les Recommandations nont pas pour but de couvrir tous les types de techniques dvaluation (par exemple, les entretiens structurs ou semistructurs, lvaluation des activits de groupe), ou toutes les situations dans lesquelles une valuation a lieu (par exemple, les centres dvaluation pour lemploi [assessment centers]). Cependant, plusieurs des Recommandations peuvent vraisemblablement sappliquer dans des situations dvaluation et pour des objectifs plus gnraux que ceux observs en premier lieu dans le testing psychologique et ducatif (par exemple, lutilisation des centres de bilan pour le placement ou la slection des salaris, les entretiens structurs ou semi-structurs, ou lvaluation pour la slection, lorientation professionnelle et le conseil en carrire).
Facteurs contextuels Les Recommandations sappliquent au niveau international. Elles peuvent tre utilises pour dvelopper des normes spcifiques et locales (par exemple, nationales) en passant par un processus de contextualisation. Il est admis que de nombreux facteurs affectent la manire dont les normes de qualit peuvent tre gres et mises en place dans la pratique. Ces facteurs contextuels doivent tre pris en considration au niveau local (national) lorsquon interprte les Recommandations et quon cherche dfinir ce quelles veulent dire de manire pratique dans un environnement particulier.
448
Les facteurs qui doivent tre pris en considration, lorsquon transforme les Recommandations en normes spcifiques, comprennent :
les diffrences sociales, politiques, institutionnelles, linguistiques et
culturelles entre les cadres dvaluation ; les lois des pays o se droule le testing ; les Recommandations nationales existantes et les normes de qualit labores par des associations et des organisations professionnelles de psychologues ; les diffrences se rapportant aux valuations individuelles et aux valuations de groupe ; les diffrences se rapportant au domaine du test (ducatif, clinique, travail et autres champs dvaluation) ; les principaux destinataires des rsultats des tests (par exemple les personnes testes, leurs parents ou leur tuteur, le commanditaire du test, un employeur ou un tiers) ; les diffrences relatives lutilisation des rsultats du test (e.g., pour prendre une dcision lissue dun examen de slection, ou pour fournir des informations dans le cadre dune activit de conseil) ; les variations dans le degr auquel la situation fournira la possibilit de vrifier lexactitude de linterprtation la lumire dinformations ultrieures et de la modifier si ncessaire.
Connaissances, comprhension et savoir-faire Connaissances, comprhension et savoir-faire tayent toutes les comptences des utilisateurs de tests. La nature de leur contenu et leur niveau de dtail peuvent varier selon les pays, les domaines dapplication, et le niveau de comptence requis pour utiliser un test. Les Recommandations ne comportent pas de description dtaille de ces lments. Cependant, lorsquon applique les Recommandations dans des situations spcifiques, les connaissances pertinentes, les aptitudes, comptences et autres caractristiques personnelles devront tre spcifies. Cette spcification fait partie du processus de contextualisation par lequel des recommandations gnriques sont dveloppes dans des normes spcifiques. Les descriptions des principaux domaines de connaissances, comprhension, savoir-faire doivent comprendre les points suivants.
Annexes
449
Connaissances dclaratives pertinentes Connaissance des principes et procdures de base de la psychomtrie,
et des exigences techniques des tests (par exemple, fidlit, validit, standardisation) ; Connaissance suffisante des tests et de la mesure, pour permettre une comprhension approprie des rsultats des tests ; Connaissance et comprhension des thories pertinentes et des modles des aptitudes, de la personnalit et dautres construits psychologiques ou de la psychopathologie, autant que ncessaire pour sinformer sur le choix des tests et linterprtation des rsultats ; Connaissance des tests et des fournisseurs de tests dans le secteur dapplication o on intervient.
Connaissances pratiques et comptences Connaissances et comptences relatives aux procdures spcifiques
dvaluation ou aux instruments, y compris lutilisation des procdures dvaluation assiste par ordinateur ; Connaissances spcialises et comptences pratiques ncessaires pour une bonne utilisation des tests situs lintrieur du rpertoire doutils dvaluation de chacun ; Connaissances et comprhension de la ou des thorie(s) sous-jacente(s) aux scores au test, lorsque cest important si lon veut tre en mesure de tirer des infrences valides partir des rsultats au test.
Les recommandations couvrent :

Des comptences gnrales et personnelles relatives aux tches La ralisation dactivits pertinentes telles que ladministration des tests,
le compte rendu et la prparation de la communication des rsultats aux personnes testes et aux autres clients ; Des comptences suffisantes en communication crite et orale pour une prparation approprie des personnes testes, ladministration des tests, la rdaction de comptes rendus des rsultats aux tests, et pour interagir avec les autres personnes concernes (parents, ou dcideurs dans les organisations) ; Des comptences relationnelles suffisantes pour une prparation approprie des personnes testes, ladministration des tests, et la prparation de la communication des rsultats.
450
Des connaissances et comptences contextuelles Savoir quand utiliser ou ne pas utiliser les tests ;
Savoir comment intgrer le testing avec dautres composantes moins
formelles de la situation dvaluation (par exemple donnes biographiques, entretiens non structurs et rfrences, etc.) ; Connaissance des questions dactualit professionnelle, lgale et thique concernant lutilisation des tests, et de leurs implications pratiques pour lutilisation des tests.
Des savoir-faire dans la gestion des tches Connaissance des rgles de dontologie et de pratique correcte concernant
lutilisation des tests et de leurs rsultats, la prparation dun compte rendu, sa production et son archivage, le stockage en scurit des matriels de tests et des donnes de tests ; Connaissance des contextes sociaux, culturels et politiques dans lesquels le test est utilis, et des modalits selon lesquelles ces facteurs peuvent avoir un effet sur les rsultats, leur interprtation et lutilisation qui en est faite.
Des comptences quant la gestion des imprvus Savoir comment grer les problmes, difficults et interruptions en cours
de droulement ; Savoir comment grer les questions poses par une personne teste pendant ladministration du test, etc. Savoir comment grer des situations dans lesquelles il existe une possibilit de mauvais usage des tests ou un risque de mauvaise interprtation des scores au test.
Prendre ses responsabilits pour un usage thique des tests
Les utilisateurs de tests comptents devraient : 1.1. Agir de faon professionnelle et thique. 1.1.1. Promouvoir et maintenir des normes professionnelles et thiques. 1.1.2. tre capables de mettre en pratique une comprhension des questions professionnelles et thiques actuelles et des dbats concernant lutilisation des tests et leur champ dapplication.
Annexes
451
1.1.3. Mettre en place un systme de rgles explicite sur le testing et lutilisation des tests1 . 1.1.4. Sassurer que les personnes travaillant pour, ou avec eux, adhrent aux normes thiques et dontologiques. 1.1.5. Diriger les communications de rsultats en prenant en compte les sensibilits des personnes testes et des tierces parties concernes. 1.1.6. Prsenter les tests et le testing de faon positive et quitable dans les communications avec et partir des mdias. 1.1.7. viter les situations o ils peuvent avoir ou tre perus comme ayant un intrt personnel dans les rsultats de lvaluation, ou dans lesquelles lvaluation risque de nuire la relation avec leur client. 1.2. Sassurer quils ont les comptences pour utiliser les tests. 1.2.1. Travailler dans les limites des principes scientifiques et de lexprience tablie. 1.2.2. Atteindre et maintenir un haut niveau dexigences quant leurs comptences personnelles. 1.2.3. Connatre les limites de leurs propres comptences et travailler lintrieur de ces limites. 1.2.4. Suivre les volutions pertinentes et les progrs concernant lutilisation des tests, et le dveloppement des tests, y compris les changements lgislatifs et politiques qui peuvent avoir un impact sur les tests et lutilisation des tests. 1.3. Prendre leurs responsabilits pour lutilisation quils font des tests. 1.3.1. Ne proposer que les activits de testing et nutiliser que les tests pour lesquels ils sont qualifis. 1.3.2. Assumer ses responsabilits pour le choix des tests utiliss et pour les conseils formuls. 1.3.3. Fournir, aux participants au processus de testing, des informations claires et adquates sur les rgles dthique et les dispositions lgales rgissant le testing psychologique. 1.3.4. Sassurer que le contenu du contrat entre la personne teste et la personne qui fait passer les tests est clair et bien compris2 . 1.3.5. tre vigilant pour dtecter toute consquence inattendue de lusage des tests.
1. Un exemple dbauche de systme de rgles est prsent en annexe A. 2. On trouvera un exemple de contrat entre la personne teste et la personne faisant passer les tests en annexe B.
452
1.3.6. Faire tout son possible pour viter de nuire ou de causer une souffrance ceux qui sont impliqus dans le processus de test. 1.4. Sassurer que le matriel de test est conserv en scurit. 1.4.1. Scuriser le stockage du matriel de test et en contrler laccs. 1.4.2. Respecter les lois sur la proprit intellectuelle et les accords qui existent en ce qui concerne le test, incluant les interdictions de reproduction, ou la transmission du matriel au format lectronique ou autre dautres personnes, que celles-ci soient ou non qualifies. 1.4.3. Protger lintgrit des tests en sabstenant de donner un entranement aux sujets sur du matriel de test ayant cours, ou un autre matriel dentranement dont lusage pourrait influencer de manire inquitable leurs performances aux tests. 1.4.4. Sassurer que les techniques de tests ne sont pas dcrites publiquement dune faon telle que leur utilit en soit affecte. 1.5. Sassurer que les rsultats aux tests sont traits confidentiellement. 1.5.1. Prciser qui aura accs aux rsultats et dfinir des niveaux de confidentialit. 1.5.2. Expliquer les niveaux de confidentialit aux personnes avant que les tests ne soient administrs. 1.5.3. Limiter laccs aux rsultats ceux qui y sont autoriss. 1.5.4. Obtenir un consentement clair avant de communiquer les rsultats dautres personnes. 1.5.5. Protger les donnes stockes sur fichier lectronique de telle manire que seules les personnes autorises puissent y accder. 1.5.6. tablir des rgles claires concernant la dure pendant laquelle les donnes de tests sont conserves dans des fichiers. 1.5.7. ter les noms et autres identifiants personnels des bases de donnes contenant des rsultats qui sont archivs des fins de recherches, dlaboration de normes (talonnages), ou dautres traitements statistiques.
Assurer une pratique correcte dans lutilisation des tests
2.1. Estimer lintrt ventuel dune utilisation des tests dans une situation dvaluation donne. Les utilisateurs de tests comptents devront : 2.1.1. Produire une justification argumente de lutilisation de tests.
Annexes
453
2.1.2. Sassurer quil a t procd une analyse approfondie des besoins du client, des motifs de la consultation, ou du type de diagnostic, de situation, ou demploi vis par cette valuation. 2.1.3. tablir que les connaissances, savoir-faire, comptences, aptitudes ou autres caractristiques, que le test est cens mesurer, sont des indicateurs des comportements pertinents dans le contexte partir duquel on fera des infrences. 2.1.4. Rechercher dautres sources collatrales dinformations pertinentes. 2.1.5. Estimer les avantages et les inconvnients de lutilisation de tests, par comparaison avec dautres sources dinformations. 2.1.6. Sassurer quun plein usage est fait de toutes les sources dinformations collatrales. 2.2. Choisir des tests techniquement fiables et appropris la situation. Les utilisateurs de tests comptents devront : 2.2.1. Examiner linformation actualise couvrant lensemble des tests potentiellement pertinents (par exemple partir de jeux de spcimens, dtudes indpendantes, de conseils dexperts), avant de choisir un test utiliser. 2.2.2. Dterminer si la documentation technique et le manuel de lutilisateur fournissent des informations suffisantes pour apprcier les points suivants : a) Porte ou couverture et reprsentativit du contenu du test, pertinence des talonnages, niveau de difficult du contenu, etc. ; b) Prcision de la mesure et fidlit dmontres en ce qui concerne les populations de rfrences ;
c) Validit (en ce qui concerne les populations de rfrence) et pertinence pour lusage requis ; d) Absence de biais systmatiques au dtriment de lun des groupes de sujets auxquels le test sera administr ; e) Caractre acceptable pour ceux qui seront impliqus dans son utilisation, prenant en compte lquit et la pertinence perues ; f) Faisabilit, tenant compte de la dure, du cot et des besoins en gnral. 2.2.3. Se garder de lutilisation de tests qui ont une documentation technique inadapte ou peu claire. 2.2.4. Nutiliser des tests que dans les situations pour lesquelles des preuves de validit pertinentes et appropries sont disponibles.
454
2.2.5. Se garder de porter un jugement sur un test seulement sur la base de sa validit apparente, des tmoignages des utilisateurs, ou du conseil de personnes qui y ont des intrts commerciaux. 2.2.6. Rpondre aux demandes de toutes les parties (par exemple, les personnes testes, les parents, les responsables hirarchiques), en leur fournissant une information suffisante pour leur permettre de comprendre pourquoi le test a t choisi. 2.3. Prendre effectivement en compte les questions dquit dans lutilisation des tests. Lorsquon utilise des tests avec des personnes appartenant diffrents groupes (par exemple, en termes de sexe, dorigine culturelle, dducation, ou dge), les utilisateurs de tests comptents sassureront, autant que possible, que : 2.3.1. Les tests ne sont pas biaiss et sont adapts pour les diffrents groupes qui vont tre tests. 2.3.2. Les dimensions qui sont values, sont significatives dans chacun des groupes en prsence. 2.3.3. Des donnes sont disponibles sur lexistence de diffrences possibles dans les performances des groupes au test. 2.3.4. Des constats concernant le Fonctionnement Diffrentiel des Items (FDI1 ) sont disponibles, lorsque cest pertinent. 2.3.5. On dispose de donnes confirmant la validit du test, compte tenu de son utilisation prvue pour les diffrents groupes. 2.3.6. Les effets des diffrences intergroupes non pertinentes par rapport lobjectif principal de lvaluation (par exemple diffrences de motivation pour rpondre, ou comptences en lecture) sont minimiss. 2.3.7. Dans tous les cas, les Recommandations concernant lusage quitable des tests sont interprtes la lumire du contexte des politiques et des lgislations nationales. Lorsque les tests utiliss sont administrs dans plusieurs langues ( lintrieur dun mme pays ou entre plusieurs pays), les utilisateurs de tests comptents sassureront, autant que possible, que :
1. Note des traducteurs : Le FDI est traditionnellement appel biais ditem ou biais item/test. le FDI se manifeste lorsquun item mesure une autre variable que la variable quil est cens mesurer et que cette variable parasite favorise ou dfavorise un des groupes en prsence. Une nuisance est ainsi introduite dans la mesure. Pour une revue de questions rcente sur les biais dans les tests et le FDI, on peut consulter Vrignaud, P. (2002). Les biais de mesure : savoir les identifier pour y remdier. Bulletin de Psychologie, 55(6), 625-634.
Annexes
455
2.3.8. La version dans chacune des langues ou dialectes a t mise au point selon une mthodologie rigoureuse et rpondant un niveau dexigence de qualit lev. 2.3.9. Les constructeurs ont t attentifs aux questions de contenu, de culture et de langue. 2.3.10. Ceux qui administreront les tests peuvent communiquer clairement dans la langue dans laquelle le test doit tre administr. 2.3.11. Le niveau de comptence des sujets, pour la langue dans laquelle le test sera administr, est contrl de manire systmatique, et, selon ce qui est le plus adquat, le sujet est valu avec une version du test dans sa langue ou selon une procdure bilingue. Quand on prvoit dutiliser les tests avec des personnes handicapes, les utilisateurs de tests comptents sassureront, autant que possible, que : 2.3.12. On a recherch les avis dexperts comptents concernant les effets potentiels des diffrents handicaps sur la performance aux tests. 2.3.13. On a demand leur avis aux personnes susceptibles de passer le test, et leurs besoins et souhaits sont pris en considration de manire approprie. 2.3.14. Les amnagements adquats ont t prvus lorsquil y a parmi les personnes testes des personnes ayant des difficults daudition, de vision, de motricit, ou dautres handicaps (par exemple, difficults dapprentissage, dyslexie). 2.3.15. Lutilisation dautres instruments dvaluation, plutt que des modifications des tests eux-mmes, a t envisage (par exemple, dautres tests plus adapts, ou dautres formes structures dvaluation). 2.3.16. Lavis de spcialistes comptents a t demand si limportance des modifications requises pour lutilisation avec les personnes handicapes dpasse lexprience de lutilisateur de tests. 2.3.17. Les modifications, si ncessaires, sont adaptes la nature du handicap et sont mises en uvre pour minimiser son impact sur la validit des scores. 2.3.18. Les informations concernant la nature de toutes les modifications faites un test ou une procdure de test sont communiques ceux qui interprtent ou travaillent partir des scores aux tests, chaque fois que la rtention dune telle information pourrait conduire une interprtation biaise ou une dcision inquitable. 2.4. Faire les prparations requises pour la sance de tests. Les utilisateurs de tests comptents devront faire tous les efforts raisonnables pour tre srs de :
456
2.4.1. Fournir aux parties concernes, en temps opportun, une information claire concernant lobjectif de lutilisation de tests, la faon dont ils peuvent le mieux se prparer la sance de tests et la procdure suivre. 2.4.2. Informer les personnes testes, de la langue ou du dialecte pour lesquels le test est considr comme appropri. 2.4.3. Envoyer aux personnes testes des exercices dentranement, chantillons, ou documents de prparation, lorsque ceux-ci sont disponibles et lorsquune telle pratique est cohrente avec les usages recommands pour les tests concerns. 2.4.4. Expliquer clairement aux personnes testes leurs droits et leurs responsabilits1 . 2.4.5. Recueillir laccord explicite des personnes testes ou de leurs reprsentants lgaux avant toute administration de test. 2.4.6. Expliquer aux parties concernes, lorsque la passation des tests est facultative, les consquences dune acceptation ou dun refus de passer les tests, de sorte quelles puissent faire leur choix en connaissance de cause. 2.4.7. Effectuer les amnagements matriels ncessaires en sassurant que : a) Les prparatifs sont conformes ceux qui sont prescrits dans le manuel de lditeur. b) Les lieux et les installations pour la passation des tests ont t prpars suffisamment lavance, lenvironnement physique est accessible, sr, tranquille, ne gnant pas la concentration, et appropri lobjectif vis. c) Les documents, en nombre suffisant, sont disponibles et ont t vrifis afin de sassurer quaucune trace na t laisse par les utilisateurs prcdents sur les livrets de questions ou sur les feuilles de rponse. d) Le personnel qui sera impliqu dans ladministration est comptent ; e) Des amnagements appropris ont t prvus pour tester les personnes prsentant un handicap. 2.4.8. Anticiper les problmes possibles et y remdier par une prparation minutieuse du matriel et des instructions. 2.5. Administrer les tests de manire approprie. Les utilisateurs de tests comptents devraient : 2.5.1. tablir un climat favorable en accueillant les personnes tester et en les informant de manire positive.
1. Voir annexe B.
Annexes
457
2.5.2. Agir pour rduire lanxit des personnes testes et viter de crer ou de renforcer une anxit inutile. 2.5.3. Sassurer que les facteurs de distraction potentiels (par exemple, les alarmes de montre, les tlphones portables, les bippeurs) ont t neutraliss. 2.5.4. Sassurer avant le dbut de la sance que les personnes testes ont en leur possession le matriel ncessaire pour passer le test. 2.5.5. Administrer les tests selon des conditions de surveillance appropries. 2.5.6. Dans la mesure du possible, donner les consignes du test dans la langue principale des personnes testes, mme quand le contenu du test a t conu pour fournir des informations sur les connaissances et les comptences dans une seconde langue. 2.5.7. Suivre strictement les indications et les instructions telles quelles sont spcifies dans le manuel du test, et prvoir des amnagements raisonnables pour les personnes handicapes. 2.5.8. Lire les instructions clairement et calmement. 2.5.9. Laisser assez de temps pour terminer les exemples. 2.5.10. Observer et noter les divergences par rapport la procdure de passation du test. 2.5.11. Surveiller et noter les temps de rponse avec prcision, lorsque cest prvu dans la procdure. 2.5.12. Sassurer que tout le matriel a t rcupr la fin de chaque passation de tests. 2.5.13. Administrer les tests en sassurant dun niveau adquat de surveillance et dauthentification de lidentit des personnes testes. 2.5.14. Sassurer que ceux qui aident ladministration des tests ont reu une formation approprie. 2.5.15. Sassurer que les personnes testes ne restent pas sans surveillance ou que des facteurs extrieurs ne les distraient pendant une sance de tests surveille. 2.5.16. Fournir une assistance approprie aux personnes testes qui montrent des signes de dtresse ou danxit excessifs. 2.6. Corriger et analyser les tests avec exactitude. Les utilisateurs de tests comptents devront : 2.6.1. Se conformer strictement aux procdures standardises pour tablir les scores. 2.6.2. Effectuer la transformation approprie des notes brutes en dautres types dchelles pertinentes.
458
2.6.3. Choisir des types dchelles appropris lusage que lon se propose de faire des scores au test. 2.6.4. Vrifier lexactitude de la conversion des scores en dautres chelles et de toutes les autres procdures de calcul. 2.6.5. Sassurer que des conclusions invalides ne sont pas tires de la comparaison de scores avec des normes inadaptes aux personnes testes, ou primes. 2.6.6. Calculer, lorsque cest appropri, des scores composites en utilisant les formules et les quations standards. 2.6.7. Mettre en uvre des procdures pour reprer des scores improbables ou aberrants parmi les rsultats des tests. 2.6.8. Porter clairement et prcisment les noms des chelles dans les comptes rendus et fournir des lments dinformation clairs sur les normes, les types dchelles et les quations utilises. 2.7. Interprter les rsultats de manire approprie. Les utilisateurs de tests comptents devraient : 2.7.1. Matriser la comprhension des fondements thoriques et conceptuels du test, la documentation technique, et les directives pour lutilisation et linterprtation des chelles. 2.7.2. Bien comprendre les chelles utilises, les caractristiques des normes ou des groupes de rfrence et les limites des scores. 2.7.3. Prendre des mesures pour minimiser les effets sur linterprtation du test des biais ventuels que lutilisateur pourrait introduire lencontre des membres du groupe culturel auquel appartient la personne teste. 2.7.4. Utiliser des normes ou des groupes de rfrence appropris lorsquils sont disponibles. 2.7.5. Interprter les rsultats la lumire des informations disponibles sur les personnes testes (par exemple, lge, le sexe, le niveau dducation, la culture et autres facteurs) en prenant en compte, de manire adquate, les limitations techniques du test, du contexte dvaluation, et des besoins de ceux qui ont un intrt lgitime dans les rsultats du processus. 2.7.6. viter de gnraliser outrance les rsultats dun test jusqu des traits ou des caractristiques humaines qui ne sont pas mesures par le test. 2.7.7. Prendre en considration, lorsquon interprte les scores, la fidlit de chaque chelle, lerreur de mesure et autres caractristiques qui ont pu modifier artificiellement les scores. 2.7.8. Prendre en compte les critres de validit, concernant la variable mesure, pour les membres du groupe dmographique auquel appartient la personne teste (par exemple, groupe culturel, ge, classe sociale, et sexe).
Annexes
459
2.7.9. Dans linterprtation des tests, nutiliser des scores dadmission que si des preuves de la validit de ces scores dadmission sont disponibles et valident leur utilisation. 2.7.10. tre attentif aux strotypes sociaux se rapportant au groupe auquel appartient la personne teste (par exemple, groupe culturel, ge, classe sociale, et sexe) et viter dinterprter le test dune faon qui perptue de tels strotypes. 2.7.11. Prendre en compte, au niveau du groupe ou de lindividu, toute dviation de la procdure standard dans ladministration du test. 2.7.12. Prendre en compte tout indice dune familiarisation antrieure avec le test lorsquil existe des donnes disponibles concernant leffet dune telle familiarisation sur la performance au test. 2.8. Communiquer les rsultats clairement et prcisment aux personnes concernes. Les utilisateurs de tests comptents devraient : 2.8.1. Identifier les parties qui lon peut, de manire lgitime, communiquer les rsultats aux tests. 2.8.2. Avec le consentement clair des personnes testes, ou de leurs reprsentants lgaux, produire des comptes rendus crits ou oraux pour les parties intresses. 2.8.3. Sassurer que les niveaux de technicit et de langage sont adapts au niveau de comprhension des destinataires. 2.8.4. Souligner le fait que les rsultats des tests ne sont quune source dinformation et doivent toujours tre considrs en liaison avec dautres types dinformation. 2.8.5. Expliquer comment limportance des rsultats aux tests doit tre pondre en relation avec les autres informations sur la personne value. 2.8.6. Utiliser pour le rapport une prsentation et un plan qui soient appropris au contexte de lvaluation. 2.8.7. Quand cela savre opportun, fournir aux dcideurs des informations sur la manire dont les rsultats peuvent tre utiliss pour clairer leur dcision. 2.8.8. Expliquer et argumenter lutilisation des rsultats aux tests ayant servi pour classer les personnes en catgories (par exemple, des fins de diagnostic ou de slection professionnelle). 2.8.9. Introduire dans les rapports crits des rsums clairs, et, lorsque cest pertinent, des recommandations spcifiques. 2.8.10. Donner un compte rendu oral aux personnes testes qui soit constructif et, puisse les aider.
460
2.9. Contrler ladquation du test, et de son utilisation. Les utilisateurs de tests comptents devraient : 2.9.1. Contrler et passer priodiquement en revue les changements qui se sont produits au cours du temps dans les populations testes, et dans tous les critres utiliss. 2.9.2. Vrifier si les tests nont pas dventuels impacts ngatifs. 2.9.3. tre attentifs la ncessit de rvaluer lutilisation dun test si des changements sont apports sa forme, son contenu ou son mode dadministration. 2.9.4. tre attentifs lopportunit de rvaluer les preuves de validit du test si lobjectif pour lequel il est utilis, a t modifi. 2.9.5. Lorsque cest possible, chercher valider les tests pour lusage qui en est fait, ou participer des tudes de validation systmatiques. 2.9.6. Lorsque cest possible, contribuer la mise jour des informations concernant les normes, la fidlit, et la validit du test, en transmettant aux constructeurs du test, diteurs ou chercheurs, des donnes pertinentes.
Bibliographie
American Educational Research Associa- Canadian Psychological Association. tion, American Psychological Associa(1987). Guidelines for Educational and tion & National Council on MeasurePsychological Testing. Ottawa : Canament in Education. (1985). Standards dian Psychological Association. for Educational and Psychological Testing. Washington DC : American Psy- Eyde, L.D., Moreland, K.L. & Robertchological Association. son, G.J. (1988). Test User Qualifications : A Data-based Approach to PromoBartram, D. (1995).The Development ting Good Test Use. Report for the Test of Standards for the Use of PsycholoUser Qualifications Working Group. gical Tests in Occupational Settings : Washington DC : American PsycholoThe Competence Approach. The Psygical Association. chologist, May, 219-223. Eyde, L.D., Robertson, G.J., Krug, S.E. Bartram, D. (1996). Test Qualifications et al (1993). Responsible Test Use : Case Studies For Assessing Human Behaviour. and Test Use in the UK : The Competence Approach. European Journal of Washington DC : American PsycholoPsychological Assessment, 12, 62-71. gical Association.
Annexes
461
Fremer, J., Diamond, E.E. & Camara, Kendall, I., Jenkinson, J., De Lemos, M. & Clancy, D. (1997). Supplement to W.J. (1989). Developing a Code of Fair Testing Practices in Education. Guidelines for the use of Psychological American Psychologist, 44, 1062-1067. Tests. Australian Psychological Society. Hambleton, R. (1994).Guidelines for Moreland, K.L., Eyde, L.D., Robertson, G.J., Primoff, E.S. & Most, R.B. adapting educational and psychologi(1995). Assessment of Test User Qualical tests : A progress report. European fications : A Research-Based MeasureJournal of Psychological Assessment, 10, ment Procedure. American Psychologist, 229-244. 50, 14-23. Joint Committee on Testing Practices. Schafer, W.D. (1992). Responsibilities of (1988). Code of Fair Testing Practices Users of Standardized Tests : RUST Stain Education. Washington DC : Joint tement Revised. Alexandria, VA : AmeCommittee on Testing Practices. rican Association for Counseling and Development. Joint Committee on Testing Practices. (2000). Rights and Responsibilities of Van de Vijver, F. & Hambleton, R. Test Takers : Guidelines and Expecta(1996). Translating tests : some practions. Washington DC : Joint Comtical guidelines. European Psychologist, mittee on Testing Practices. 1, 89-99.
Annexes
Annexe A : Recommandations pour lbauche dune politique sur le testing Les recommandations suivantes concernent le besoin que peuvent avoir les organisations de rflchir, de manire systmatique, leur politique de testing et de sassurer que toute personne concerne a une ide claire de cette politique. Le besoin dune politique explicite de testing nest pas limit aux grandes organisations. Les PME et les PMI qui utilisent les tests, aussi bien que les grandes socits, devraient tre attentives leur politique de testing, de la mme manire quelles le sont aux questions de sant et de scurit, la parit, aux handicaps et autres domaines considrs dans le cadre des pratiques correctes de gestion et de traitement du personnel1 .
1. NDT : En France, la loi du 31 dcembre 1992, encadre les pratiques dvaluation en milieu professionnel.
462
Bien que les considrations et les obligations suivantes puissent tre amnages pour tre mises en uvre par les utilisateurs de tests travaillant comme praticiens indpendants, il nen est pas moins important que ceux-ci aient une bonne comprhension de leur propre politique et quils doivent savoir la communiquer leurs partenaires. Une politique sur le testing est labore afin de : Sassurer que les objectifs des personnes et des organisations sont atteints ; Sassurer que les mauvais usages potentiels sont vits ; Montrer son engagement envers les pratiques correctes ; Sassurer que lusage des tests est appropri au but poursuivi ; Sassurer que les tests ne produisent pas de discriminations inquitables ; Sassurer que les valuations sont bases sur des informations compltes et pertinentes ; Sassurer que les tests ne sont utiliss que par des personnels qualifis. Une politique sur le testing devrait couvrir la plupart, sinon toutes, les questions suivantes : Utilisation approprie des tests ; Mise en scurit des tests et des protocoles ; Qui peut administrer, coter, et interprter les tests ; Les conditions de qualification pour ceux qui veulent utiliser les tests ; La formation des utilisateurs de tests ; La prparation des personnes testes ; Laccs au matriel et sa mise en scurit ; Laccs aux rsultats des tests et aux lments confidentiels des protocoles ; La communication des rsultats aux personnes testes ; La responsabilit envers les personnes testes avant, pendant et aprs la passation des tests ; Les responsabilits personnelles et institutionnelles de chacune des personnes utilisatrices. Toute politique doit tre revue rgulirement et mise jour lorsque des volutions dans le testing ou des changements dans les pratiques ont lieu. Les parties concernes doivent pouvoir avoir accs la politique de testing et en tre informs.
Annexes
463
La responsabilit de la politique de testing de toute organisation devrait tre dpose auprs dun utilisateur de test qualifi disposant de lautorit pour sassurer de la mise en place et du respect de cette politique.
Annexe B : Recommandations pour tablir des relations contractuelles entre les parties concernes par le processus de testing. Les contrats entre lutilisateur de test et les personnes testes devraient tre cohrents avec les pratiques correctes, la lgislation et la politique sur le testing de lutilisateur de test. Les lments suivants sont donns comme exemple de la nature des questions quun tel contrat devrait aborder. Les dtails peuvent varier en fonction du contexte de lvaluation (par exemple, travail, ducation, clinique, recherche) et des lois et dispositions rglementaires locales ou nationales. Les contrats entre les utilisateurs de tests, les personnes testes, et les autres parties, sont souvent implicites et tacites (au moins partiellement). Clarifier les attentes, les rles et les responsabilits de toutes les parties peut permettre dviter les malentendus, les dommages et les litiges. Pour sa part, lutilisateur de test fera tout son possible pour : b. 1. Informer les personnes testes de leurs droits en ce qui concerne la manire dont leurs rsultats aux tests seront utiliss et de leurs droits dy avoir accs1 . b. 2. Donner un avertissement a priori et prcis sur tous les cots financiers que peut entraner le processus de testing, qui sera responsable du paiement et la date laquelle ce paiement sera exigible. b. 3. Traiter les personnes testes avec courtoisie, respect et impartialit sans distinction dorigine ethnique, de sexe, dge, de handicap, etc. b. 4. Utiliser des tests fiables, adapts aux personnes testes et aux objectifs de lvaluation. b. 5. Informer les personnes testes avant le testing, sur les objectifs de lvaluation, la nature des tests utiliss, qui les rsultats seront communiqus et lutilisation quon envisage de faire de ces rsultats. b. 6. Avertir de la date laquelle les tests seront administrs, de la date laquelle les rsultats seront disponibles, et si les personnes testes ou
1. La lgislation sur cette question varie selon les pays. Par exemple, le UK Data Protection Act actuel donne des droits daccs aux donnes archives sur fichier lectronique diffrents des droits daccs aux donnes archives dans des dossiers papier. NDT : En France, ces questions sont du ressort de la Commission Nationale de lInformatique et des Liberts (CNIL). Toute collecte dinformations sur les personnes est rgie par la Loi Informatique et Liberts de janvier 1971.
464
dautres pourront ou ne pourront pas, avoir une copie des tests, des feuilles de rponse auxquelles elles ont, elles-mmes, rpondu, et de leurs scores1 . b. 7. Faire administrer les tests par une personne forme et faire interprter les rsultats par une personne qualifie. b. 8. Sassurer que les personnes testes sont informes du caractre facultatif ventuel dun test et dans un tel cas, des consquences de la passation ou non de ce test. b. 9. Sassurer que les personnes testes comprennent les conditions, si cest le cas, selon lesquelles elles peuvent repasser les tests, demander une vrification de la cotation des tests quelles ont passs, voire demander lannulation de leurs scores. b. 10. Sassurer que les personnes testes savent que leurs rsultats leur seront expliqus aussi tt que possible aprs la passation du test dans des termes facilement comprhensibles. b. 11. Sassurer que les personnes testes comprennent que leurs rsultats sont confidentiels dans les limites autorises par la loi et les pratiques correctes. b. 12. Informer les personnes testes de qui aura accs leurs rsultats et quelles conditions leurs scores seront communiqus. b. 13. Sassurer que les personnes testes sont averties des procdures pour porter plainte ou signaler un problme. Les utilisateurs de tests informeront les personnes testes quon attend delles : b. 14. Quelles traitent les autres avec courtoisie et respect pendant le processus de testing. b. 15. Quelles posent des questions avant le dbut du testing, si elles ne sont pas sres des raisons pour lesquelles le test est administr, de la manire dont il sera administr, de ce quil faudra faire et de ce quil adviendra des rsultats. b. 16. Quelles informent une personne comptente sur tout incident dont elles croient quil peut rendre les rsultats du test invalides ou quelles veulent voir pris en considration. b. 17. Quelles suivent les instructions de celui qui administre les tests.
1. Alors que les tests et les feuilles de rponses ne sont jamais communiqus aux personnes testes, il existe des diffrences selon les pays dans les pratiques concernant les lments que les personnes testes ou dautres peuvent obtenir. Quoiquil en soit, il y a davantage de diffrences dans les attentes des personnes testes en ce qui concerne les informations quon leur donnera. Il est important que le contrat clarifie ce quelles n auront pas aussi bien que ce quelles auront.
Annexes
465
b. 18. Quelles doivent tre conscientes des consquences de ne pas passer un test si elles choisissent de ne pas le passer, et tre prtes en accepter les consquences. b. 19. Quelles sassurent que, au cas o elles doivent payer pour la passation des tests, le paiement sera fait la date indique.
Annexe C : Points prendre en considration lorsquon fait des amnagements pour tester des personnes prsentant des infirmits ou des handicaps. Des prcautions considrables et une expertise solide sont requises lorsque le mode dadministration dun test doit tre modifi pour sadapter aux besoins de personnes handicapes. Comme toujours, les lois nationales et locales ainsi que les pratiques1 ont besoin dtre prises en considration, ainsi que le respect de la vie prive des individus. La demande dinformations en ce qui concerne les types et le niveau de handicap doit tre limite la capacit de mettre en uvre les activits demandes pour le test. Une vigilance particulire doit tre exerce dans le domaine de la slection professionnelle2 . Il ny a pas de principe de base simple utilisable pour sassurer quun test est administr de manire quitable des personnes quel que soit leur type de handicap. Cest une question de jugement professionnel de savoir sil vaut mieux utiliser un type dvaluation alternatif ou modifier le test ou ses conditions dadministration. En pratique, il est rarement possible de disposer pour des tests modifis de normes sur des chantillons suffisants de personnes prsentant des handicaps quivalents permettant dassurer la comparabilit du test avec la version habituelle. Cependant, lorsquil existe des donnes, par exemple, sur la modification du temps accord, lutilisation du Braille ou de versions orales enregistres sur bandes magntiques des tests, de telles donnes devraient guider lutilisateur pour procder aux amnagements ncessaires. Bien quil ne soit pas toujours possible de raliser une standardisation complte de la version modifie, une tude pilote sur de petits chantillons devrait tre conduite chaque fois que cest ralisable.
1. Aux tats-Unis, par exemple, on doit faire attention aux dispositions du Americans with Disabilities Act (1990). Au Royaume-Uni, le Disability Discrimination Act (1995), Employment Code of Practice stipule que les employeurs sont tenus de rviser les tests ou la manire dont les rsultats de tels tests sont valus pour prendre en compte les candidats prsentant des infirmits spcifiques . 2. Pour des conseils dtaills ce sujet aux tats-Unis, voir Eyde, Nestor, Heaton and Nelson (1994).
466
tant donn le manque dinformations sur la performance aux tests (quil ait t modifi ou non) des personnes prsentant un handicap, il est souvent plus appropri dutiliser le rsultat au test de manire plutt qualitative. Ces rsultats peuvent tre utiliss pour fournir des indications sur les caractristiques values (aptitudes, motivation, personnalit, etc.) qui peuvent tre compltes et tayes par des informations collectes en recourant dautres mthodes. Pour une valuation individuelle, lvaluateur peut habituellement adapter les procdures dvaluation aux possibilits de la personne value. Cependant, des questions particulires se posent lors dun testing collectif (par exemple, pour la slection professionnelle). Dans ce domaine, il peut y avoir des difficults pratiques rencontres lorsquon introduit des variations dans le mode dadministration pour certains individus au sein dun dispositif dadministration en groupe. En outre, toutes les parties peuvent considrer les diffrences de traitement comme inquitables. Par exemple, si on leur accorde plus de temps pour terminer le test, ceux qui sont handicaps peuvent tre conscients du fait quils sont traits diffremment , et ceux qui ne sont pas handicaps peuvent avoir limpression que ce temps supplmentaire procure un avantage inquitable. Des conseils sur les besoins particuliers peuvent en gnral tre recueillis auprs des organisations de handicaps concernes, aussi bien qu titre individuel, auprs des personnes testes. Cest gnralement utile (lorsque la loi lautorise) de demander directement la personne, dune faon rassurante, si certains lments doivent tre pris en considration1 . Dans la plupart des cas, une telle consultation permettra deffectuer des modifications appropries lenvironnement de passation des tests sans ncessiter de modifications du test lui-mme. Lbauche de protocole suivante fournit un guide gnral pour le processus de prise de dcision visant modifier le testing et sur la manire de raliser la modification2 . Essentiellement, le handicap peut 1) ne contribuer en rien la variance du test, 2) y contribuer de manire pertinente, ou 3) contribuer de manire non pertinente la variance du construit mesur. Dans le premier cas (1), aucune modification nest ncessaire. Dans le dernier cas (3), lobjectif des modifications devrait tre dter la source de variance non
1. Au Royaume-Uni, the Disability Discrimination Act (1995) rend galement obligatoire pour les individus de faire connatre leurs besoins. 2. NDT : Aucune modification ne doit tre apporte une procdure de testing sans une autorisation explicite des ayants droit.
Annexes
467
pertinente ( laide de modifications appropries de lenvironnement de passation du test ou son remplacement par un test plus appropri). Dans le second cas (2) (contribution de manire pertinente la variance du construit mesur), quoiquon fasse, des modifications apportes au test auront un effet sur la pertinence des scores au test. c1. Est-il plausible que le handicap ait un effet sur la performance au test ? De nombreuses personnes ont des handicaps qui ne devraient pas affecter la performance au test. Dans de tels cas, cela ne serait pas appropri de faire des amnagements pour elles. c2. Sil est plausible que le handicap affecte la performance au test, alors est-ce que leffet sur la performance est secondaire par rapport au construit mesur ? Par exemple, une personne atteinte darthrose dune main peut rencontrer des difficults dans un test en temps limit qui fait appel lcriture. Si laptitude raliser des tches manuelles rapidement fait partie intgrante du construit mesur, alors le test ne devrait pas tre modifi. Toutefois, si lobjectif de lvaluation est la vitesse de balayage visuel, alors un mode de rponse alternatif serait appropri. c3. Lorsquun handicap particulier est secondaire par rapport au construit mesur mais peut, de manire plausible, affecter la performance individuelle au test, alors on peut envisager dapporter des modifications la procdure. c4. Les utilisateurs devraient toujours consulter le manuel du test ainsi que lditeur pour des conseils sur les modifications et pour des informations sur les formats et les procdures alternatives envisageables. c5. Les utilisateurs devraient galement consulter les organisations de handicaps pertinentes pour des avis et des conseils sur les implications possibles dun handicap spcifique, la littrature ou la documentation pertinente, et les types dadaptations ou damnagements qui peuvent tre utiles. c6. Toute modification faite au test ou aux procdures dadministration du test devrait tre soigneusement consigne et accompagne des justifications sous-tendant cette modification.
Bibliographie
ARBISIO C. (2003), Le bilan psychologique avec lenfant. Approche clinique du WISC-III. Paris, Dunod. AUBRET J. & BLANCHARD S. (2005), Pratique du bilan personnalis. Paris, Dunod. BACHER F. (1982), Sur certains problmes soulevs par lutilisation des tests psychologiques, LAnne Psychologique, 82, 439-455. BALICCO C. (1997), Les mthodes dvaluation en ressources humaines. La fin des marchands de certitude. Paris, Editions dOrganisation.
BALTES P.B. (1987), Theoretical propositions of life-span developmental psychology, On the dynamics between growth and decline, Developmental Psychology, 23, 611-626. BALTES P.B., BALTES M.M. (1990), Successful aging, Perspectives from the behavioral sciences. Cambridge, Cambridge University Press. BALTES P.B., STAUDINGER U.M. & LINDENBERGER U. (1999), Lifespan psychology, Theory and Application to Intellectual Functioning. Annual Reviw of Psychology. 50, 471-507. BEAUFILS B. (1996a), Statistiques appliques la psychologie. Tome 1 : statistiques descriptives. Rosny, Bral. BEAUFILS B. (1996b), Statistiques appliques la psychologie. Tome 2 : statistiques infrentielles. Rosny, Bral. BERNAUD J-L. (2000a), Tests et thories de lintelligence. Paris Dunod.
BALICCO C. (1999), Approche des mcanismes de prise de dcision dans le choix et lutilisation des mthodes dvaluation et de slection dans le recrutement des cadres en France, Doctorat de Psychologie, Paris. BALINSKY B. (1941), An analysis of the mental factors in various age groups from nine to sixty, Psychologica1 Monograph, 23, 191-234.
470
BERNAUD J-L. (2000b) Ractions au bilan psychologique le point de vue de lusager In D. Castro (Ed.) Les crits en psychologie : rapports expertises bilans. Paris lEsprit du Temps. BERNAUD J.-L. (2000c), Recrutement et valuation du personnel. In J.L. Bernaud et C. Lemoine (2000). Trait de psychologie du travail et des organisations (pp. 95-132). Paris, Dunod. BERNAUD J-L. (2007), Introduction la psychomtrie. Paris, Dunod. BERNAUD J-L. PRIOU P. & SIMONET R. (1993), Manuel de la NV7. Paris, EAP. BERNIER J-J. & PIETRULEWICZ B. (1997), La psychomtrie. Trait de mesure applique. Montral, Gatan Morin diteur. BEUSCART-ZPHIR M-C. & BEUSCART R. (1988), Tests de pereformance : une mthode danalyse des startgies de rsolution. Un exemple : le test de cubes du Wisc-R, European Journal of Psychology of Education, III-1, 33-51. BEUSCART-ZPHIR M-C. & BEUSCART R. (1989), Psychologie cognitive et psychomtrie : apport de lautomatisation lidentification des processus impliqus dans les tests daptitudes. In J-M. Monteil et M. Fayol (Eds.), La psychologie scientifique et ses applications. Grenoble, Presses Universitaires de Grenoble.
BEUSCART-ZPHIR M-C., ANCEAUX F., DUHAMEL A. & QUENTIN S. (1996), Un exemple dapplication du diagnostic cognitif, Psychologie Franaise, 41, 1, 65-76. BINET A. (1911/1973), Les ides modernes sur les enfants. Paris, Flammarion. BINET A. & SIMON T. (1905a), La mesure du dveloppement de lintelligence chez les jeunes enfants. Paris, Socit A. Binet. BINET A. & SIMON T. (1905b), Sur la ncessit dtablir un diagnostic scientifique des tats infrieurs de lintelligence, LAnne Psychologique, onzime anne, 163-244 [Article rdit en 2004. Paris, LHarmattan]. BLANCHARD S. (2002), De lexamen dorientation professionnelle au bilan de comptences. Actes du colloque La place de lvaluation dans le processus dorientation professionnelle des adultes. Lille, INOIP AFPA. 11-23. BLANCHARD S. (2007), Lvaluation dans le cadre du conseil en orientation : lexemple de la dmarche de bilan de comptences, Les Dossiers des Sciences de lEducation, 18, 61-70. BLANCHARD S., SONTAG J-C. & LESKOW S. (1999), Lutilisation dpreuves conatives dans le cadre du bilan de comptences. LOrientation Scolaire et Professionnelle, 28, 2, 275-297.
Bibliographie
471
BONNARDEL R. (1953), Le test B 101, Le travail Humain, 3-4, 253266. BORKOWSKI J.G. & CAVANAUGH J. (1979), Maintenance and generalisation of skills and strategies by the retarded. In N. Ellis (Ed.), Handbook of mental deficiency (pp. 569-617). Hillsdale, NJ, Erlbaum. BOTWINICK J. (1977), Intellectual Abilities. In J.E. Birren & K.W Schaie (Eds), Handbook of the psychology of aging. New york, Van Nostrand Reinhold. BOURGES S. (1979), Approche gntique et psychanalytique de lenfant. Tome 1. Neuchtel, Delachaux et Niestle. BOURGUIGNON O. (2000), Introduction au n spcial du Bulletin de Psychologie, 2000, 53 (1) Ethique en psychologie et dontologie des psychologues .
BROWN A. & FRENCH L.A. (1979), The zone of potential development, Implication for intelligence testing in the year 2000. In R.J. Sternberg & D.K. Detterman (Eds.) Human Intelligence, pp. 217-235. Norwood, N.J., Ablex. BRUCHON-SCHWEITZER M.L. & FERRIEUX D. (1991), Une enqute sur le recrutement en France. Revue Europenne de Psychologie Applique, 41, 1, 9-17. BRUCHON-SCHWEITZER M.L. & LIEVENS S. (1991), Le recrutement en Europe Recherches et pratiques. Psychologie et Psychomtrie 12,7-71. BCHEL F. & PAOUR J.L. (Eds.) (1990), Assessment of learning and development potential, Theory and practices. European Journal of Psychology of Education. 5 (2), 89-95. BCHEL F., DE RIBAUPIERRE A. & SCHARNHORST U. (1990), Le diagnostic du potentiel dapprentissage par le LPAD, une tude de la fidlit. European Journal of Psychology of Education, 5, 135-158. BCHEL F.P. (ED.) (1995), Lducation cognitive, le dveloppement de la capacit dapprentissage et son valuation. Lausanne, Delachaux et Niestl.
BOURGUIGNON O. (2003), Questions thiques en Psychologie. Paris, Mardaga. BROWN A. & FERRARA R.A. (1985), Diagnosing zones of proximal development. In J. Wertsch (Ed.), Culture, communication, and cognition, Vygotskian perspectives, (pp.273-305), Cambridge, MA, Cambridge University Press.
472
BUDOFF M. & CORMAN L. (1974), Demographic and psychomtric factors related to improved performance on the Kohs learningpotential procedure. American Journal of Mental Deficiency, 78(5), 578585. BUDOFF M. & HAMILTON J.L. (1976), Optimizing test performance of moderately and severelymentally retarded adolescents and adults. American Journal of Mental Deficiency, 81, 49-57. BUDOFF M. (1968), Learning potential as a supplemantary testing procedure. In J. Hellmuth (Evaluation dynamique.), Learning disorders (vol. 3, pp.295-343). Seattle, Special Child. BUDOFF M. (1987), Measures for assessing learning potential. In C.S. Lidz (Ed.) Dynamic assessment, (pp. 173-195). New York, The Guilford Press. BUTT D.S. & BEISER M. (1987), Successful aging, a theme for international psychology. Psychology and Aging, 2, 87-94. CAMPIONE J.C. & BROWN A.L. (1987), Linking dynamic assessment with school achievement. In C.S. Lidz (Ed.) Dynamic assessment, (pp. 82-115). New York, The Guilford Press.
CAROFF X. (2004), Lidentification des enfants haut potentiel : quelles perspectives pour lapproche psychomtrique ?, Psychologie Franaise, 49, 3, 233-251. CARPENTER P.A., JUST M.A. & SHELL P. (1990), What one intelligence test measures : A theorical account of the processing in the Raven Progressive Matrice test. Psychological Review, 97, 404-431. CARROLL J.B. (1962), The prediction of success in intensive foreign language training. In R. Glaser (Ed.), Training research and education (pp.87-136). Pittsburgh, University of Pittsburgh Press.,. CARROLL J.B. (1989), The Carroll model, A twenty-five year retrospective and prospective view. Educational Researcher, 18 (1), 26-31. CARROLL J.B. (1993), Human cognitive abilities, A survey of factoranalytical studies. New York, Cambridge University Press. CASTRO D. (2001), Lexamen psychologique au moyen des tests : de la pratique professionnelle la formation universitaire, Le journal des psychologues, 186, 52-55. CASTRO D. (Ed.), (2000), Les crits en psychologie : rapports, expertises, bilans. Paris, lEsprit du Temps. CASTRO D. (2006), Pratique de lexamen psychologique en clinique adulte. Paris, Dunod.
Bibliographie
473
CASTRO D., MOGENET J-L., POZZI B., GLATZ N., CARDOSO C., THIEBAULT P. & PEINTURE S. (2001) Qui doit utiliser les tests psychologiques : psychologues ou non psychologues ?, Pratiques Psychologiques, 2, 103-118. CASTRO D., BERNAUD J-L. (1996), Quel avenir pour les tests psychologiques au XXIe sicle, Pratiques Psychologiques, 4, 1-3. CASTRO D., MELJAC C., JOUBERT B. (1996), Pratiques et outils des psychologues cliniciens franais. Les enseignements dune enqute, Pratiques Psychologiques, 4, 73-80. CATTEL R.B. (1971), Abilities, their structure, growth and action, Boston, Houghton Mifflin. CHARTIER D. (2002), La place de lvaluation dans le processus dorientation de lAFPA. Actes du colloque La place de lvaluation dans le processus dorientation professionnelle des adultes . Lille, INOIP. CHARTIER P. (1999), tude de la variabilit intra et inter-individuelle dans la rsolution dune preuve du type cubes de Kohs. In M. Huteau & J. Lautrey (Eds), Approches diffrentielles en Psychologie. 145-163. Rennes, P.U.R.
CHARTIER P. (2001), Les apports de la recherche en psychologie aux tests dintelligence : quelles consquences pour la pratique ? LOrientation Scolaire et Professionnelle, 30, 4, 509-531.
CHARTIER P. (2002a), Lpreuve de Kohs : validit, adaptations et utilisations, Psychologie et Psychomtrie, 23, 3-4, 21-50.
CHARTIER P. (2002b), Vers une valuation de type diagnostic cognitif , Actes du colloque de lAFPA La place de lvaluation dans le processus dorientation professionnelle des adultes , p.177-181. AFPA.
CHARTIER P. (2002c), Variabilit des situations et variabilit des stratgies de rsolution ? Lexemple dune preuve de type cubes de Kohs. Thse de doctorat. Universit Ren Descartes Paris V.
CHARTIER P. (2005), Piron et la docimologie. Quelques recherches de Piron, et du Service de Recherche de lINETOP, sur lanalyse de la fiabilit de lvaluation scolaire. LOrientation Scolaire et Professionnelle, 3, hors srie, 257-263.
474
CHARTIER P. (2008b), Exprimentation dune preuve de facteur g utilisant comme support des cartes jouer, In E. Loarer, P. Vrignaud, J-L. Mogenet, F. Cuisinier, H. Gottesdiener et P. Mallet, Perspectives diffrentielles en psychologie, 39-42. Rennes, Presses Universitaires de Rennes. CHARTIER P. ( paratre, 2008a), Les tests dominos (D70 et D2000) : comment dpasser le constat du seul score total ? Exemples danalyses des rponses, Pratiques Psychologiques. CHARTIER D. & LOARER E. (1994), valuation dynamique de lintelligence non-verbale par la procdure aide au cours du test, application une population nonfrancophone et des adultes de bas niveau de qualification. In M. Huteau (Ed.), Les techniques psychologiques dvaluation des personnes. (pp.141-144), Issy les Moulineaux, EAP. CHI M.T.H. (1978), Knowledge structure and memory development. In R. Siegler (Ed.), Childrens thinking, What develop ? Hillsdale, NJ, Erlbaum, pp. 73-96. CIANCIOLO A. & STERNBERG R.J. (2004), Intelligence, A brief history. Blackwell Publishing.
COGNET G. (2005), NEMI-2, les options dune rvision. Communication au colloque international Intelligence de lenfant, Fdration Franaise des Psychologues et de psychologie, Paris, 6-8 Octobre. COGNET G. (2006), Les psychologues scolaires, In J. Lautrey, Psychologie du dveloppement et psychologie diffrentielle. p.457-470. Paris, PUF. (Collection dirige par S. Inonescu et A. Blanchet). COOK M. (1988), Personnel selection and productivity, Chichester. CORROYER D., WOLFF M. (2003), Lanalyse statistique des donnes en psychologies. Paris, Armand Colin. CRAIK F.I., BYRD M. & SWANSON J.M. (1987), Patterns of memory loss in three elderly samples. Psychology and Aging, 2, 79-86. DANY F. & TORCHY V. (1994), Recruitment and selection in Europe, policies, practices, and methods. ln C. Brewster & A. Hegewisch (Eds.). Policy and practice in European Human Resource Management. Routledge, London. DAS J.P. (1987), Introduction. In C.S. Lidz (Ed.), Dynamic assessment (pp. Vii-xi). New-York, Guilford Press.
Bibliographie
475
DE RIBAUPIERRE A. (1995), Potentiel dapprentissage et contraintes structurales, Apports des modles piagtiens et no-piagtiens. In F. Bchel (Ed.) Lducation cognitive. Le dveloppement de la capacit dapprentissage et son valuation. (pp. 135-161). Neuchtel, Delachaux et Niestl. DE SHON R-P., CHAN D. & WEISSBEIN D.A. (1995), Verbal overshadowing effects on Ravens Advanced Progressive Matrices : evidence for multidimensional performance determinants, Intelligence, 21, 135-155. DEVOUCHE E. (2003), Les banques ditems. Construction dune banque pour le Test de Connaissance du Franais, Psychologie et Psychomtrie, 24, 2/3, 89-116. DICKES P. (1988), Configurations perceptives et difficult des stimuli construits daprs la technique de Kohs, Bulletin de Psychologie, XLII, 388, 210-218. DICKES P. (1999), Modles de rponse litem (MRI) et recherche en psychologie, Psychologie et Psychomtrie, 20, 2/3, 8-18. DICKES P., HOUSSEMAND C. & REUTER M. (1996), Modles pour le contenu des tches dassemblage de faces gomtriques et difficult des items. Psychologie Franaise, 41,1, 47-55.
DICKES P., MARTIN R. (1998), Les composantes de lintelligence gnrale du D70. Psychologie et Psychomtrie, 19, 1, 27-51. DICKES P., TOURNOIS J., FLIELLER A. & KOP J.L. (1994), La psychomtrie, Paris, PUF. EAP (1978), Manuel des cubes de Kohs. Paris, EAP. ECKERT P., LUDWIG C. & RAFFIN D. (2008), Table ronde francoallemande sur les mthodes et outils du bilan de comptences. Communication au colloque Autour des comptences , Universit de Rouen, 22 mai 2008. ECPA (1961), Test D48. Manuel dapplication. Paris, ECPA. ECPA (1970), Test D70. Manuel dapplication. Paris, ECPA. ECPA (2000a), Test D2000. Manuel dapplication. Paris, ECPA. ECPA (2000b), Test R2000. Manuel dapplication. Paris, ECPA. EMBRETSON S. E. (1987), Toward development of a psychometric approach. In C.S. Lidz (Ed.), Dynamic assessment (pp. 141-170). NewYork, Guilford Press. EMBRETSON S.E. (1989), Latent trait models as an informationprocessing approach to testing. International Journal of Educational Research, 13, 189-203.
476
EMBRETSON S.E. (1991), A multidimensional latent trait model for measuring learning and change. Psychometrika, 56 (3), 495-515. EMBRETSON S.E. (1995), A measurement model for linking individual learning to processes and knowledge, Application to mathematical reasoning. Journal of Educational Measurement, 32, 277-294. FAVERGE J.M. (1955), Calcul des longueurs, test. Braine-leChteau, Applications des techniques modernes. FEUERSTEIN R. (1980), Instrumental Enrichment. Baltimore, University Park Press. FEUERSTEIN R. (1990), Le PEI. In J. Martin & G. Paravy (Eds.), Pdagogies de la mdiation. Lyon, Chroniques sociales. FEUERSTEIN P., HOFFMAN M.B., JENSEN M.R. &, RAND Y. (1985), Instrumental enrichment, an intervention program for structural cognitive modifiability, theory and practice, In J.W. Segal, S.F. Chipman & R. Glaser (Eds.), Thinking and learning skills, Vol. 1. Hillsdale, NJ, Erlbaum. FEUERSTEIN R., RAND Y., HOFFMAN M. & MILLER R. (1979), Cognitive modifiability in retarded adolescents. Effects of Instrumental Enrichment. American Journal for Mental Deficiency, 83, 539-550.
FEUERSTEIN R., RAND Y. & HOFFMAN M.B. (1979), The dynamic assessment of retarded performers, the learning potential assessment device, theory, instruments, and techniques. Glenview, IL, Scott, Foresman & Co. FEUERSTEIN R., RAND Y., HOFFMAN M. & MILLER R. (1980), Instrumental enrichment, an intervention program for cognitive modifiability. Baltimore, MD, University Park Press. FEUERSTEIN R., RAND Y., JENSEN M.R. KANIEL S. & TZURIEL D. (1987), Prerequisites for assessing of learning potential, the LPAD model. In C.S. Lidz (Ed.) Dynamic assessment (pp. 35-51). New York, The Guilford Press. FLAMMER A. & SCHMID H. (1982/1995), Tests dapprentissage, concept, ralisation, valuation. In F. Bchel (Ed.) Lducation cognitive. Le dveloppement de la capacit dapprentissage et son valuation. (pp. 179-214). Neuchtel, Delachaux et Niestl. FLIELLER A., (1999), Etude dun texte lexical (dfinitions lacunaires) par des modles de rponse litem, Psychologie et Psychomtrie, 20, 2/3, 65-84. FLIELLER A. (2001), Problmes et stratgies dans lexplication de leffet Flynn. In M. Huteau (Ed.), Les figures de lintelligence. Paris, EAP.
Bibliographie
477
FLIELLER A., (2002), Quelques remarques sur la mesure en psychologie, Bulletin de Psychologie, 55-6, 555-560. FLIELLER A., SAINTIGNY N. & SCHAEFFER R. (1986), Lvolution du niveau intellectuel des enfants de 8 ans sur une priode de 40 ans (1944-1984). LOrientation Scolaire et Professionnelle, 15, 61-83. FLYNN J.R. (1984), The mean IQ of Americans, massive gains 1932 to 1978, Psychological Bulletin, 95, 29-51. FLYNN J.R. (1987), Massive gains in 14 nations, what IQ tests really measure, Psychological Bulletin, 101, 171-191. FONTAINE R. (1999), Manuel de Psychologie du Vieillissement. Paris, Dunod. FRAISE J-P. (1991), La psychomtrie lAFPA : son rle dans lorientation et le recrutement des demandeurs de formation professionnelle, LOrientation Scolaire et Professionnelle, 20 (1), 127-139. GARDNER H. (1996), Les intelligences multiples. Paris, Retz. GARDNER H. (1999), Les formes de lintelligence (1e d. 1983, Frames of mind, the theory of multiple intelligences). Paris, Odile Jacob.
GAUDRON J-P. (1999), La psychomtrie assiste par ordinateur : problmatiques en question et perspectives de recherches, LOrientation Scolaire et Professionnelle, 28, 1, 31-62. GAUDRON J-P. (2008), Internet, diagnostic informatis et bilan de comptences. Communication au colloque Autour des comptences , Universit de Rouen, 22 mai 2008. GAVAND A. (2006), Prvenir la discrimination lembauche. Paris, Editions dOrganisation. GILLES P-Y. (1991), Etude des diffrences individuelles dans les stratgies de rsolution dune preuve de visualisation spatiale, Actes des IXes journes de psychologie diffrentielle, 188-20. Lige, Presses Universitaires de Lige. GILLES P-Y. (1993), Etude des diffrences individuelles dans les stratgies de rsolution de problmes spatiaux. Thse de doctorat. Universit Ren Descartes Paris V. GILLET B. (1987). Aptitudes et capacits cognitives. In C Lvy-Leboyer et C. Sprandio (Eds.) Trait de Psychologie du Travail. Paris, PUF. GLASER R. & PELLEGRINO (1982), Improving the skills of learning. In D.K. Detterman & R.J. Sternberg (Eds.), How and how much can intelligence be increased, pp. 197-212. Norwood, N.J., Ablex.
478
GOLDSTEIN K. & SCHEERER M. (1941), The Goldstein-Scheerer cube test, Psychological Monographs, 35, 2, 32-56. GOULD S.J. (1983), La mal-mesure de lhomme. Paris, Ramsay. GRGOIRE J. (1996), Grille daide linterprtation des scores aux diffrents subtests du WISC-III Paris, ECPA. GRGOIRE J. (2000a), Lvaluation clinique de lintelligence de lenfant. Thorie et pratique du WISC-III. Lige, Mardaga. GRGOIRE J. (2000b), Orientation, valuation et facteurs culturels, in AFPA, Actes du colloque La place de lvaluation dans le processus dorientation professionnelle des adultes , p.103-112. Montreuil, AFPA. GRGOIRE J. (2004), Lexamen clinique de lintelligence de ladulte. Lige, Mardaga. GRGOIRE J. (2005), Les mtamorphoses des chelles de Wechsler, Questions dorientation, 4, 53-59. GRGOIRE J. (2006), Lexamen clinique de lintelligence de lenfant. Fondements et pratique du WISC-IV. Sprimont, Mardaga. GRIGORENKO E.L. & STERNBERG R.J. (1998), Dynamic testing. Psychological Bulletin, 124 (1), 75-111.
GUDON M-C. & SAVARD R. (2000), Tests lappui. Pour une intervention intgre de la psychomtrie en counseling dorientation. Qubec, les Editions Septembre. GUGUEN N. (2005), Statistiques pour psychologues. Paris, Dunod. GUICHARD J., HUTEAU M. (2006, 2e dition), Psychologie de lorientation. Paris, Dunod. GUILLEVIC C., VAUTIER S. (1998), Diagnostic et tests psychologiques. Paris, Nathan. GUSTAFFSON J.E. (1984), An unifying model for the structure of intellectual abilities. Intelligence, 8, 179-203. GUSTAFFSON J.E. (1988), Hierarchical models of individual differences in cognitive abilities. In R.J. Sternberg (Ed.) Advances in the psychology of human intelligence (Vol.4) Hillsdale, NJ, Erlbaum. GUTHKE J. (1982), The learning test concept, an alternative to the traditional static intelligence test. The German Journal of Psychology, 6 (4), 306-324. GUTHKE J. (1990), Les tests dapprentissage comme alternative ou complment aux tests dintelligence, un bilan de leur volution. European Journal of Psychology of Education, 5 (2), 117-133.
Bibliographie
479
GUTHKE J. (1992), Learning tests, The concept, main research findings, problems and trends. Learning and Individual Differences, 4, 137-151. GUTHKE, J. & BECKMANN J.F (2000), The learning test concept and itt application in practice. In C.S. Litz & J.G. Elliot (Eds.), Dynamic assessment: Prevailing models and applications (pp.17-69). Oxford, England, Elsevier. GUTHKE J. & BECKMANN J.F. & DOBAT H. (1997), Dynamic testing, problems, uses, trends and evidence of validity. Educational and Child Psychology, 14 (4) 17-32. GUTHKE J. & WINGENFELD S. (1992), The learning test concept, Origin, state of the art, and trends. In H.C. Haywood & D. Tzuriel (Eds.) Interactive Assessment, pp. 6494. New York, Springer. GUTTMAN L. (1957), Empirical Verification of the Radex Structure of Mental Abilities and Personality Trait, Educational and Psychological Measurement, 17, 391-407. GUTTMAN L. (1965), The Structure of interrelations among intelligence tests. Invitational Conference on Testing Problems. Princeton, New Jersey, Educational Testing Service, 25-36. GUTTMAN L. & LVY S. (1991), Two structural laws for intelligence tests. Intelligence, 15, 79-103.
HAMBLETON R.K. & SLATER S. (1997), Item response theory models and testing practices, current international status and futur directions. European Journal of Psychological Assessment, 13(1), 21-28. HAMBLETON R.K., SWAMINATHAN H. & ROGERS H.J. (1991), Fundamentals of item response theory, Newbury Park, Ca, Sage. HARTIGAN J.A. & WIGDOR A.K. (1989), Fairness in employment testing, Validity generalization, minority issues and the General Aptitude Test Battery. Washington, DC, National Academy Press. HAYWOOD H.C. & TZURIEL D. (Eds.) (1992), Interactive testing. New York, Springer Verlag. HERTZOG C., SCHAIE K.W. & GRIBBIN K. (1978), Cardiovascular disease and changes in intellectual functioning from middle to old age. Journal of Gerontology, 33, 872-883. HORN J.L. (1970), Organization of data on life-span development of human abilities. In L.R. Goulet et P. B. Baltes (Eds.) Life-span developmental psychology. New york, Academic Press. HORN J. L. & CATTELL R.B. (1966), Refinement and test of the theory of fluid and crystallized intelligence. Journal of Educational Psychology, 57, 253-270.
480
HOUSSEMAND C. (1999a), Adaptabilit stratgitaire dans la rsolution des cubes de Kohs. Thse de doctorat, Universit Nancy 2. HOUSSEMAND C. (1999b), Approche mthodologique pour ltude et lanalyse des stratgies de rsolution. Lexemple des cubes de Kohs. In M. Huteau & J. Lautrey (Eds), Approches diffrentielles en Psychologie. 213-218. Rennes, P.U.R. HUNT E. (1974), Quote the Raven ? Nevermore ! In J. Gregg (Ed.), Knowledge and Cognition, Hillsdale N.J., Erlbaum, 129-157. HUNTER J.E., HUNTER R.F. (1984), Validity and utility of alternate predictors,of job performance. Psychological Bulletin, 96, 72-98. HUNTER J.E., SCHMIDT F.L. (1996), Intelligence and job performance, economic and social implications. Psychology, Public Policy, and Law, 2, 447472. HURTIG M. (I995), Constat dacquisition ou pronostic dapprentissage. Peut-on dynamiser la psychomtrie ? In F. Bchel (Ed.) Lducation cognitive. Le dveloppement de la capacit dapprentissage et son valuation. (pp. 165-178). Neuchtel, Delachaux et Niestl.
HUTEAU M. (1985), Dimensions des diffrences individuelles dans le domaine intellectuel et processus de traitement de linformation. In J. Drevillon, M. Huteau, F. Longeot, M. Moscato et T. Ohlmann, Fonctionnement cognitif et individualit, 41-87. Bruxelles, Pierre Mardaga. HUTEAU M. (1994), Lvaluation psychologique des personnes : problmes et enjeux actuels, in M. Huteau (d.), Les techniques psychologiques dvaluation des personnes. Issy-les-Monlineaux, EAP. HUTEAU M. (1996), Lvaluation par les notes et par les tests. In Lieury, Manuel de psychologie de lducation et de la formation. Paris, Dunod. HUTEAU M. (2002, 2e d.), Psychologie diffrentielle. Cours et exercices. Paris, Dunod. HUTEAU M. (2005), criture et personnalit. Approche critique de la graphologie. Paris, Dunod. HUTEAU M. (2006) Les conseillers dorientation, In J. Lautrey, Psychologie du dveloppement et psychologie diffrentielle. pp. 483-494. Paris, PUF. (Collection dirige par S. Inonescu et A. Blanchet). HUTEAU M. (Ed.). (2001), Les figures de lintelligence. Paris, EAP. HUTEAU M. & LAUTREY J. (1975), Artefact et ralit dans la mesure de lintelligence ( propos du livre de Michel Tort, le QI). LOrientation Scolaire et Professionnelle, 4, 169-187.
Bibliographie
481
HUTEAU M. & LAUTREY J. (1997), Les tests dintelligence. Paris, La dcouverte. HUTEAU M. & LAUTREY J. (1999a), Evaluer lintelligence. Psychomtrie cognitive. Paris, PUF. HUTEAU M. & LAUTREY J. (1999b) (Eds), Approches diffrentielles en Psychologie. Rennes, P.U.R. HUTEAU M. & LAUTREY J. (2006), Les tests dintelligence. Paris, Editions La Dcouverte. HUTEAU M. & LOARER E. (1992), Comment valuer les mthodes dducabilit cognitive ? LOrientation Scolaire et Professionnelle, 21 (1), 47-74. IONESCU S. & JOURDANIONESCU C. (1984/85), Lvaluation du potentiel dapprentissage 1- Utilisation du test des cubes. Bulletin de Psychologie, 38 (372), 919-927.
JONES H.E. & CONRAD H.S. (1933), The growth and decline of intelligence, A study of a homogeneous group between the ages of ten and sixty. Genetic Psychology Monographs, 13, 223-298.a. JUHEL J. (1999), Coordination du numro spcial sur les modles MRI, Psychologie et Psychomtrie, 20, 2/3, 8-18. JUHEL J. (2005), La psychomtrie: la recherche et lvaluation des comptences qui caractrisent lintelligence. In J. Lautrey et J.F. Richard (Dir.), Lintelligence. Trait des Sciences cognitives, pp.23-39. Paris, Herms. KAUFMAN A. (2001), Tendances actuelles dans le domaine de lvaluation de lintelligence, Psychologie Franaise, 46, 3, 271-280. KAUFMAN A. (2005), Capacit dapprentissage, capacit de planification et le nouveau KABC-II. Communication au colloque international Intelligence de lenfant, Fdration Franaise des Psychologues et de psychologie, Paris, 6-8 Octobre. KAUFMAN A. & KAUFMAN N. (1993), Manuel du K-ABC. Paris, ECPA. KLAUER K.J. (1990), A process theory of inductive reasoning tested by the teaching of domain-specific thinking strategies. European Journal of Psychology of Education. 5 (2), 191-206.
IONESCU S., JOURDANIONESCU C., ALAIN S. (1986/87), Lvaluation du potentiel dapprentissage 2- Une nouvelle mthode de quantification. Bulletin de Psychologie, 40 (380), 481-487. JENSEN M.R., FEUERSTEIN R. (1987), The learning potential assessment device, from philosophy to practice. In C.S. Lidz (Ed.) Dynamic assessment (pp. 379-402), New York, The Guilford Press.
482
KLAUER K.J. (1995), Les effets dentranement de la pense sont-ils gnraux ou spcifiques ? Un apport la vrification de la thorie prescriptive de la pense inductive. In F.P. Bchel (Ed.), Lducation cognitive, le dveloppement de la capacit dapprentissage et son valuation. (pp. 285-305). Lausanne, Delachaux et Niestl. KREUTZ M. (1934), Comment remdier linconstance des tests. Archives de Psychologie, 227-244. LABERON S., LAGABRIELLE C. & VONTHRON A.M. (2005), Examen des mthodes dvaluation dans les pratiques de slection et dorientation professionnelles, le cas du recrutement et du bilan de comptences. Revue Internationale de Psychologie du Travail et des Organisations, l (11), 3-14. LARCEBEAU S. (1967). volution de la structure factorielle des aptitudes au cours du cycle dobservation, BINOP, 23, 261-277. LAROCHE J.L. (1956), Lanalyse des erreurs sur le Matrix 38. Bulletin du Centre dEtudes et Recherches Psychotechniques, 6 (2), 161-174. LATHOUD S. (1997), Lexamen dexpertise auprs des commissions de lducation spciale, In Guillard et Guillemard (Eds.), Manuel pratique de psychologie en milieu ducatif. Paris, Masson.
LAUGHTON P. (1990), The dynamic Assessment of intelligence, a review of three approaches. School Psychology Review, 19 (4), 459-470. LAUTREY J. (1994), Lvaluation du potentiel dapprentissage, tat de la question. In M. Huteau (Ed.) Les techniques psychologiques dvaluation des personnes. (pp.134-140), Issy les Moulineaux, EAP. LAUTREY J. (1995), Les apports de la psychologie cognitive la comprhension des diffrences en matire dintelligence et de russite scolaire, in Blanchet. G et al., Intelligences, scolarit et russite. Paris, La pense sauvage. LAUTREY J. (1999), Histoire et volution de la psychologie diffrentielle. In P-Y. Gilles (Ed.), Psychologie Diffrentielle. Rosny, Bral. LAUTREY J. (2001), Lvaluation de lintelligence : tat actuel et tentatives de renouvellement. In M. Huteau, (Ed.), Les figures de lintelligence. Paris, EAP. LAUTREY J. (2004), Etat de la recherche sur la prcocit intellectuelle, Psychologie Franaise, 49, 3, 219-352. LAUTREY J. (2007), Pour labandon du QI, les raisons du succs dun concept dpass. In M. Duru-Bellat et M. Fournier (Eds.), LIntelligence de lenfant. Lempreinte du social. Sciences Humaines ditions.
Bibliographie
483
LAUTREY J., DE RIBAUPIERRE A. & RIEBEN L. (1986), Les diffrences dans la forme du dveloppement cognitif valu avec des preuves piagtiennes, une application de lanalyse des correspondances. Cahiers de Psychologie Cognitive, 6, 575-613. LAUTREY J. & RICHARD J.F. (2005), Lintelligence. Trait des Sciences cognitives. Paris, Herms, 17-20. LAVEAULT D. & GRGOIRE J. (1997), Introduction aux thories des tests en sciences humaines. Paris, De Boeck. LAVEAULT D. & GRGOIRE J. (2002), Introduction aux thories des tests en sciences humaines. Bruxelles, De Boeck Universit. LAVEAULT D. & GRGOIRE J. (2002), Introduction aux thories des tests. Paris, De Boeck. LEMAIRE P. & BEHRER L. (2005), Psychologie du vieillissement, une perspective cognitive. Bruxelles, De Boeck. LVY-LEBOYER C. (1987), Problmes thiques poss par lusage des tests, In C., Lvy-Leboyer et J-C., Sprendio (Eds.), Trait de psychologie du travail, 473-485. Paris, PUF. LVY-LEBOYER C. (1990), Evaluation du personnel. Quelles mthodes choisir ? Paris, Les ditions dOrganisation.
LVY-LEBOYER C. (1996), valuation du personnel, Quels objectifs ? Quelles mthodes ? Paris, Eyrolles. LVY-LEBOYER C. (2002), valuation du personnel, Quels objectifs ? Quelles mthodes ? Paris, Editions dorganisation. LHOTTELIER A. (2000), Lacte de tenir conseil. LOrientation Scolaire et Professionnelle, 29, 1, 27-50. LIDZ C.S. (1991), Practitioners guide to dynamic testing. New York, Guilford Press. LIDZ C.S. (Ed.) (1987), Dynamic assessment, an interactional approach to evaluating learning potential. New York, The Guilford Press. LIDZ C.S. & THOMAS C. (1987), The preschool learning assessment device, extention of a static approach. In C.S. Lidz (Ed.) Dynamic assessment (pp. 288-326). New York, The Guilford Press. LINDENBERGER U. & BALTES P.B. (1997), Intellectual functioning in old and very old age, crosssectional results from the Berlin Aging Study. Psychology and Aging, 12(3), 410-432. LOARER E. (1998), Lducation cognitive, modles et mthodes pour apprendre penser. Revue Franaise de Pdagogie, 122 (1), 121-161.
484
LOARER E. (2000), La plasticit cognitive. Apprentissage et dveloppement cognitif chez ladulte, une approche diffrentielle. Synthse dHabilitation Diriger des Recherches. Paris, Universit !ren Descartes. LOARER E. (2001), Lvaluation dynamique comme moyen de limiter les biais culturels dans les tests dintelligence. In M. Huteau (Ed.), Les figures de lintelligence. Paris, EAP. LOARER E. (2005), Lintelligence sociale et lintelligence motionnelle. In J. Lautrey et J.F. Richard (Dir.), Lintelligence. Trait des Sciences cognitives. Paris, Herms, 91-107. LOARER E. & CHARTIER D. (1994), Le potentiel dapprentissage est-il gnral ou spcifique au domaine dapprentissage ? In M. Huteau (Ed.) Actes du Colloque international "Les techniques psychologiques dvaluation des personnes". Paris (25-27 mai 1993), (pp. 150154). Paris, EAP. LOARER E. & CHARTIER D. (1996a), Lvaluation dynamique des aptitudes, rvolution ou gadget ? In J.F. Richard (Ed.) Numro spcial sur le diagnostic cognitif. Psychologie Franaise, 41(1), 35-46.
LOARER E. & CHARTIER D. (1996b), Etude de validation dune preuve de potentiel dapprentissage utilisable pour pronostiquer ladaptation scolaire des jeunes trangers nouvellement arrivs en France. Rapport au Ministre de lEducation Nationale, Rectorat de Paris et au Fonds dAction Sociale (F.A.S.) (24 p.). LOARER E., CHARTIER D., HUTEAU M. & LAUTREY J. (1995a), Peut-on duquer lintelligence ? Lvaluation dune mthode dducation cognitive. Berne, Peter Lang. LOARER E., LAUTREY J., HUTEAU M. & CHARTIER D. (1995b), Effets dune mthode de remdiation cognitive sur une population dadultes faiblement qualifis. Enfance, 2, 263-271. LOARER, E., VRIGNAUD P., MOGENET J-L., CUISINIER F., GOTTESDIENER H. & MALLET P. (2008), Perspectives diffrentielles en psychologie. Rennes, Presses Universitaires de Rennes. LOHMAN D.F. (2000), Complex information processing and intelligence. In R.J. Sternberg (Ed.). Handbook of intelligence, pp. 285340. Cambridge, Cambridge University Press. LUBART T. (Ed.) (2006), Enfants exceptionnels. Prcocit intellectuelle, haut potentiel et talents. Rosny-sousBois, Bral.
Bibliographie
485
MARQUER J. & PEREIRA M. (1987), Evolution long terme des stratgies dans une tche de comparaison phrase-dessin, LAnne Psychologique, 87, 329-343. MARQUER J. & PEREIRA M. (1990), Les stratgies dans la vrification phrase-dessin. In M. Reuchlin, F. Longeot, C. Marendaz et T. Ohlmann (Eds.), Connatre diffremment. Nancy, Presses Universitaires de Nancy.. MARQUI J.-C. (1997), Vieillissement cognitif et exprience, lhypothse de la prservation, Psychologie Franaise, 42(4), 333-344. MARTIN R. (2003), Le testing adaptatif par ordinateur dans la mesure en ducation : potentialits et limites, Psychologie et Psychomtrie, 24, 2/3, 89-116. Mc GHEE R. (1993), Fluid and crystallized intelligence, Confirmatory factor analyses of the Differential Ability Scales, Detroit Tests of Learning Aptitude-3, and Woodcock-Johnson PsychoEducational Battery-Revised. Journal of Psychoeducational Assessment. MILES C.C. & MILES W.R. (1932), The correlation of intelligence scores and chronological age from early to late maturity. American Journal of Psychology, 44, 44-78. NAGLIERI J.A. (1998), Manuel du NNAT. Paris, ECPA.
NELSON E.A. & ANNEFER D. (1992), Aged heterogeneity, fact or fiction ? The fate of diversity in gerontological research. The Gerontologist, 32, 17-23. NESSELROADE J.R. & THOMPSON W.W. (1995), Selection and related threats to group comparisons, an example comparing factorial structures of higher and lower ability groups of adult twins. Psychological Bulletin 117, 271-84. NGUYEN-XUAN A. (1969). Etude par le modle factoriel dune hypothse sur les processus de dveloppement, BINOP, 25. NOIZET G. & CAVERNI J-P. (1978), Psychologie de lvaluation scolaire. Paris, PUF. OHLMANN T. (1990a), Les systmes perceptifs vicariants. In M. Reuchlin, J. Lautrey, C. Marendaz et T. Ohlmann, Cognition : lindividuel et luniversel. Paris, PUF. OHLMANN T. (1990b), Affordances et vicariances mises en jeu par la rgulation posturale. In Collectif (Eds.), Informatique et diffrences individuelles. Lyon, Presses Universitaires de Lyon. OHLMANN T. (1991), La variabilit intra-individuelle provoque : quelques pistes mthodologiques, Actes des IXes journes de psychologie diffrentielle, 211-231. Lige, Presses Universitaires de Lige.
486
OHLMANN T. (1995), Processus vicariants et thorie neutraliste de lvolution : une ncessaire convergence. In J. Lautrey (Ed.), Universel et diffrentiel en psychologie. Paris, PUF. OHLMANN T. (2000), Contraintes situationnelles et plasticit individuelle. Communication au colloque Invariants et variabilit dans les sciences cognitives : comptences des systmes vicariants . Paris, 28 novembre. PAOUR J.L., JAUME J. & DE ROBILLARD O. (1995), De lvaluation dynamique lducation cognitive, repres et questions. In F.P. Bchel (Ed.), Lducation cognitive, le dveloppement de la capacit dapprentissage et son valuation. (pp. 9-44). Lausanne, Delachaux et Niestl. PASQUIER D. (2003), Test dEvaluation Dynamique de lEducabilit, Paris, EAP. PERLMUTTER M. & NYQUIST L. (1990), Relationship between self-reported physical and mental health and intelligence performance across adulthood. Journal of Gerontology, 45, 145-155. PICHOT P. (1997, 15e d. refondue), Les tests mentaux. Paris, PUF (Que sais-je ? n 626). PIRON H. (1963), Examens et docimologie. Paris, PUF.
POITRENAUD J, (1972). Structure des aptitudes cognitives et vieillissement. Cahiers de la Fondation Nationale de Grontologie, 3-83. RAVEN J. (1981), Manuel des Matrices de Raven. Issy les Moulineaux, EAP. RAVEN J. (2001), Les matrices progressives de Raven : changement et stabilit travers les cultures et le temps. In M. Huteau (Ed.), Les figures de lintelligence. Paris, EAP. REE M.J. & CARRETTA TR. (1998), General cognitive ability and occupational performance. ln, C.L. Cooper & L.T. Robertson (Eds.), International Review of Industrial and Organizational Psychology, Volume 13. Wiley et Sons Ltd, Chichester, pp. 159-184. REE M.J., EARLES J.A. & TEACHOUT M.S., (1994), Predicting job performance, not much more than g. Journal of Applied Psychology, 79, 518-524. RMY L. & GILLES P-Y. (1999), Stratgies de rsolution spatiale et numrique du D70. In M. Huteau & J. Lautrey (Eds), Approches diffrentielles en Psychologie. Rennes, P.U.R. REMY L. (2001a), tude des stratgies de rsolution dune preuve dintelligence gnrale : variabilit intraindividuelle et diffrences interindividuelles. Thse de doctorat. Universit de Provence Aix-Marseille I.
Bibliographie
487
RMY L. (2001b), Les aptitudes des sujets sont-elles lies aux stratgies utilises lors de la rsolution dune preuve de facteur g ?, In A. Flieller, C. Bocran, J-L. Kop, E. Thibaut, A-M. Toniolo et J. Tournois (Eds.), Questions de psychologie diffrentielle. Rennes, PUR. RMY L. (2008), Validation clinique de trois formes abrges de la WAISIII avec un chantillon de patients crbro-lss. Communication aux XVIIIe journes Internationales de Psychologie Diffrentielle, Universit de Genve, 27-29 Aot. REUCHLIN M. (1978), Processus vicariants et diffrences individuelles, Journal de Psychologie Normale et Pathologique, 2, 133-145. REUCHLIN M. (1991), Les diffrences individuelles lcole. Paris, PUF. REUCHLIN M. (1997), La psychologie diffrentielle. Paris, PUF. REUCHLIN M. & BACHER F. (1989), Les diffrences individuelles dans le dveloppement cognitif de lenfant. Paris, PUF. REY A. (1934), Dun procd pour valuer lducabilit. Archives de Psychologie, XXIV (96), 297-337. RICHARD J-F. & AL. (1996), Le diagnostic cognitif, Psychologie Franaise, 41-1. RICHARD J-F. (1996), Les diffrentes approches de lanalyse des comptences cognitives, Psychologie Franaise, 41, 1, 3-8.
RICHARD J-F., ZAMANI M. (1996), Lapplication des modles de rsolution de problmes lanalyse des tests, Psychologie Franaise, 41, 1, 77-88. ROBERTSON I.T., SMITH J.M. (1989), Personal selection methods, in Robertson, I.T., Smith J.M. (Eds), Advances in Selection and Assessment, Wiley, Chichester. ROBERTSON L.T., SMITH M. (2001), Personnel selection. Journal of Occupational and Organizational Psychology, 74, 441-472. ROGERS W.A. & FISK A.D. (1999), Human factors, applied cognition, and aging. In F.I. Craik & T.A. Salthouse (Eds.), The handbook of aging and cognition. 2nd ed. Mahwah, NJ. Lawrence Erlbaum. ROGOFF B. & WERTSCH J.V. (1984), Childrens learning in the "zone of proximal development". San Francisco, Jossey-Bass. ROLLAND J-P. (2001), Comment valuer un test ? In Levy Leboyer et al. (Eds.), R.H. Les apports de la psychologie du travail, p.35-52. Edition dorganisation. ROLLAND J.-P. (2004), Lvaluation de la personnalit. Le modle des cinq facteurs. Sprimont Belgique, Mardaga.
488
ROSENTHAL R & DIMATTEO M.R (2001), Meta-analysis, recent developments in quantitative methods for literature reviews. Annual Review of Psychology, 52, 59-82. ROSENTHAL R. & RUBIN D.B. (1982), A simple, general purpose display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169. ROZENCWAJG P. (2003), Les stratgies de rsolution de problmes : une valuation qualitative et intgrative de lintelligence, Psychologie et psychomtrie, 24-4, 37-62. ROZENCWAJG P. (2005), Pour une approche intgrative de lintelligence, Un sicle aprs Binet. Collection Mouvement des Savoirs. Paris, LHarmattan. ROZENCWAJG P. (2006), Quelques rflexions sur lvaluation de lintelligence gnrale : un retour Binet ?, Pratiques Psychologiques, 12, 3, 395410. ROZENCWAJG P. & FRANCEQUIN G. (1999), Contributions de lanalyse des stratgies de rsolution de problmes lexamen psychologique, LOrientation Scolaire et Professionnelle, 28, 1, 63-82. ROZENCWAJG P. & HUTEAU M. (1996), Les stratgies globale, analytique et synthtique dans les cubes de Kohs. Psychologie Franaise, 41, 1, 57-64.
ROZENCWAJG P., CHERFI M., FERRANDEZ A-M., LAUTREY J., LEMOINE C. & LOARER E. (2005), Age related changes in the strategies used by middle aged adults to solve a block design task. The International Journal of Aging and Human Development, 60-2, 159182. ROZENCWAJG P., CORROYER D. & ALTMAN P. (1999/2002), Samuel : Diagnostic du fonctionnement cognitif (manuel), Cergy, Delta Expert. RUBTSOV V.V. (1981), The role of cooperation in the development of intelligence. Soviet Psychology, 19 (4), 41-62. S.F.P (2003), Recommandations Internationales sur lutilisation des tests, Pratiques Psychologiques, numro spcial hors srie. S.F.P (non dat), La problmatique de lutilisation des tests, document en ligne sur le site de la SFP www.sfpsy. org (consult en mai 2008). SALGADO J.F. (1999), Personnel selection methods. ln, C.L. Cooper, L.T. Robertson (Eds.), International Review ofIndustrial and Organizational Psychology, Volume 14. Wiley et Sons Lld, Chichester, pp. 1-54. SALGADO J.F. (2001), Pourquoi faut-il utiliser des preuves dAptitude Mentale Gnrale en Recrutement ? In Levy-Leboyer et al. (Eds.), R.H. Les apports de la psychologie du travail. Edition dorganisation.
Bibliographie
489
SALGADO LF., ANDERSON N., MOSCOSO S., BERTUA C., DE FRUYT F., ROLLAND J.P., 2003, A meta-analytic study of general mental ability validity for different occupations in the European Community. Journal of Applied Psychology, 88, 1068-1081. SALOVEY P. & MAYER J. D. (1990), Emotional Intelligence. Imagination, Cognition and Personality, 9 (3), 185-211. SALTHOUSE T.A. (1994), The nature of the inflence of speed on adult age differences in cognition. Psychological Review, 30, 240-257. SALTHOUSE T. A. (1996), The processing speed theory of adult age difference in cognition. Psychological Review, 103, 403-428. SARRAZIN G. (Ed), (2003), Normes de Pratique du Testing en psychologie et en ducation. Montral, Institut de recherches psychologiques. SCHAIE K. W. (1979), The Primary Mental Abilities in adulthood, An exploration in the development of psychometric intelligence. In P.B. Baltes & O.G. Brim, Jr (Eds.), Lifespan development and behavior (Vol. 2). New York, Academic Press. SCHAIE K. W. (1983), The Seattle Longitudinal Study, A 21-year exploration of psychometric intelligence in adulthood. In K.W. Schaie (Ed.), Longitudinal studies of adult psychological development. New York, Guilford.
SCHAIE K. W. (1994), The course of adult intellectual development. American Psychologist, 49, 304-313. SCHAIE K.W. (1990), The optimization of cognitive functioning in old age, predictions based on cohort-sequential and longitudinal data. In P.B. Baltes & M.M. Baltes (Eds.), Successful aging, perspectives from behavioral sciences (pp. 94-117). New York, Cambridge University Press. SCHAIE K.W. (1996), Intellect development in adulthood. The Seattle longitudinal study. Cambridge, Cambridge University Press. SCHMIDT F.L., HUNTER J.E., (1998), The validity and utility of selection methods in personnel psychology, practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124, 262-274. SCHMIDT F.L., HUNTER L, (1993), Tacit knowledge, practical intelligence, gencrai mental ability, and job knowledge. Current Directions in Psychological Science 2, 8-9. SCHMIDT F.L., HUNTER J., PEARLMAN K., (1981), Task differences as moderators of aptitude test validity in selection, a red hening. Journal of Applied Psychology, 66, 166-185.
490
SCHORR D., BOWER G. H. & KIERNAN R. (1982), Stimulus variables in the block design task, Journal of Consulting and Clinical Psychology, 50, 4, 479-487. SEWELL T.E. (1979), Intelligence and learning tasks as predictors of scholastic achievement in black and white first-grade children. Journal of School Psychology, 17, 325-332. SEWELL T.E. (1987), Dynamic assessment as a nondiscriminatory procedure. In C.S. Lidz (Ed.) Dynamic testing (pp. 425-443). New York, Guilford Press. SKA B., POISSANT A. & JOANETTE Y. (1997), La variabilit interindividuelle dans les modifications cognitives 1ies Ige. LAnne Grontologique, Numro Spcial, Vieillir avec Succs. SNOW R.E., KYLLONEN P.C. & MARSHALEK B. (1984), The topography of ability and learning correlations. In R.J. Sternberg (Ed.), Advances in the psychology of human intelligence (vol. 2, pp. 47-104). Hillsdale, NJ, Erlbaum. SNOW R.E. & LOHMAN D.F. (1989), Implications of cognitive psychology for educational measurement. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 263-331).
SNYDERMAN M., ROTHMAN S. (1987), Survey of expert opinion on intelligence and aptitude testing. American Psychologist, 42, 2, 308-311. SPEARMAN C.E. (1904), General intelligence objectively measured and determined. American Journal of Psychology, 15, 201-293. SPEARMAN C.E. (1927), The abilities of man, their nature and measurement. New York, Macmillan. SPEECE D.L., COOPER D.H. & KIBLER J.M. (1990), Dynamic testing. Individual differences and academic achievement. Learning and Individual Differences, 2, 113-127. SPELBERG H. (1987), Problemsolving strategies on the blockdesign task, Perceptual and Motor Skills, 65, 99-104. STERNBERG R. J. (1985), Beyond IQ, A triarchic theory of human intelligence. New York, Cambridge University Press. STERNBERG R. & DETTERMAN D. (1986), What is intelligence. New Jersey, Ablex Publishing Corporation. STERNBERG R.J., FORSYTHE G.B., HEDLUND J.H., HORVATH J.A., WAGNER R.K., WILLIAMS W.M., SNOOK S.A. & GRIGORENKO E.L. (2000), Practical Intelligence in Everyday Life. New York, Cambridge University Press.
Bibliographie
491
STERNBERG R.J., GRIGORENKO E.L. & JARVIN L. (1997), Schoolbased tests of the triarchic theory of intelligence, three settings, three samples, three syllabi. Joumal of Educational Psychology. TERMAN L.M., (1916), The measurement of intelligence. Boston, Houghton Mifflin. THIEBAUT E. (2000), Lintelligence et sa mesure. Introduction aux tests de Bonnardel. Paris, EAP. THIEBAUT E. & BIDANFORTIER C. (2003), Manuel de la batterie NV5-R. Paris, EAP. THIBAUT E. & RICHOUX V. (2005), Elments de validit prdictive des scores la batterie daptitudes cognitives NV5-R, Pratiques Psychologiques, 11, 404-416. THORNDIKE E. L. (1920), Intelligence and its use. Harpers Magazine, 140, 227-235. THURSTONE L.L. (1935), The vectors of the mind Chicago, Univ. Chicago Press. THURSTONE L.L. (1938), Primary Mental Abilities. Chicago, Chicago University Press. THURSTONE L.L. & THURSTONE T.G. (1941), Factorial studies of intelligence, Psychometric Monographs, n 2. TORT M. (1974), Le Quotient Intellectuel. La Dcouverte, Paris, Maspero. ULLMO J. (1969), La pense scientifique moderne. Paris, Flammarion.
VAN DE VIJVER F. & POORTINGA Y. (1997), Towards an Integrated Analysis of Bias in CrossCultural Assessment. European Journal of Psychological Assessment, 13, 29-37. VERNON P.E. (1950), Structure of human abilities. London, Methuen. VERNON P.E. (1952), La structure des aptitudes humaines, Paris, PUF. VIGNEAU F., DOUGLAS A. B. & STOKES T. L. (2001), La multidimensionnalit dun test de facteur g ? Vers une approche exprimentale du test des Matrices de Raven, In A. Flieller, C. Bocran, J-L. Kop, E. Thibaut, A-M. Toniolo et J. Tournois (Eds.), Questions de psychologie diffrentielle. Rennes, PUR. VOM HOFE A. & LEVY-LEBOYER C. (1993), Evaluation of the use of personality tests in personel selection in france. Revue Europenne de Psychologie Applique, 43 (3), 221227. VRIGNAUD P. (1994), Mthodologie de lvaluation. In M. Huteau (Ed.) Actes du Colloque international "Les techniques psychologiques dvaluation des personnes" (pp. 62-67). Issy-les-Moulineaux, EAP. VRIGNAUD P. (1996), Les tests au XXIe sicle. Que peut-on attendre des volutions mthodologiques et technologiques dans le domaine de lvaluation psychologique des personnes ? Pratiques Psychologiques, 4, 5-27.
492
VRIGNAUD P. (1996), Les tests au XXIme sicle. Que peut-on attendre des volutions mthodologiques et technologiques dans le domaine de lvaluation psychologique des personnes ? Pratiques Psychologiques, 4, 5-27. VRIGNAUD P. (2000), Psychological Assessment, An Overview of FrenchLanguage Theory and Methods. In M. R. Rozenzweig & K. Pawlik (Eds). The International Handbook of Psychology. (pp. 387-392). London, Sage. VRIGNAUD P. (2001), valuation sans frontires : comparaisons interculturelles et valuations dans le domaine de la cognition, In M. Huteau, Les figures de lintelligence. Paris, EAP. VRIGNAUD P. (2002a), Les biais de mesure, savoir les identifier pour y remdier. Bulletin de Psychologie, 55(6), 625-634. VRIGNAUD P. (2002b), Psychomtrie et validation de la mesure. In A. Vallet, G.Bonnet, J.-C. Emin, J. Levasseur, T. Rocher, A. Blum, F. Gurin-Pace, P. Vrignaud, X. dHaultfoeuille, F. Murat,D. Verger, P. Zamora (Eds), Enqute mthodologique Information et Vie Quotidienne . Tome 1 : Bilan du test 1. Collection Mthodologie Statistique de lINSEE, 0202. pp 35-49. Paris, Institut National de la Statistique et des Etudes Economiques.
VRIGNAUD P. & BERNAUD J-L., Eds (2005), Lvaluation des intrts professionnels. Paris, Mardaga. VRIGNAUD P. & CHARTIER P. (2003), Apport de lanalyse des squences ltude des processus cognitifs, Psychologie et Psychomtrie, 24(4), 77-114. VRIGNAUD P. & LOARER, E. (2008), Tests et recrutement. In S. Ionescu et A. Blanchet (Eds.) Nouveau cours de psychologie, volume Psychologie sociale et ressources humaines coordonn par M. Bromberg et A. Trognon. Paris, PUF. VRIGNAUD P. (2003), Objectivit et authenticit dans lvaluation. Avantages et inconvnients des Questions Choix Multiples et des Questions Rponses Complexes pour lvaluation des comptences verbales. Psychologie et Psychomtrie, 24, 2/3, 147-188. VYGOTSKI L.S. (1934/1985), Pense et langage. Paris, Editions Sociales. VYGOTSKI L.S. (1985), Le problme de lenseignement et du dveloppement mental lge scolaire. In B. Schneuwly & J.P. Bronckart (Eds.), Vygotski aujourdhui. Neuchatel Paris, Delachaux et Niestl. WAGNER R.K. & STERNBERG R.J. (1984), Alternative conceptions of intelligence and their implications for education, Review of educational Research, 54(2), 179-223.
Bibliographie
493
WECHSLER D. (1939), The measurement of adult intelligence. Baltimore, Williams & Wilkins. WECHSLER D. (1956), La mesure de lintelligence de ladulte. Paris, PUF. WESCHLER D. (1958), The measurement and appraisal of adult intelligence (4th ed.). Baltimore, MD, The Williams & Wilkins Company. WECHSLER D. (1996), Manuel du WISC-III. Paris, ECPA. WECHSLER D. (2000), Manuel de la WAIS-III. Paris, ECPA. WECHSLER D. (2005a), WISC-IV. Manuel dadministration et de cotation. Paris, ECPA. WECHSLER D. (2005b), WISCIV. Manuel dinterprtation. Paris, ECPA.
WERTSCH J.V. (1984), The zone of proximal development, some conceptual issues. In B. Rogoff & J.V. Wertsch, (Eds.), Chidrens learning in the zone of proximal development (pp. 7-18). San Francisco, Jossey-Bass. WERTSCH J.V. & TULVISTE P. (1992), L.S. Vygotsky and contemporary developmental psychology. Developmental Psychology, 28, 548557. ZAZZO R., GILLY M. & VERBARAD M. (1966), Nouvelle chelle mtrique de lintelligence. Paris, Colin. ZURFLUH J. (1976), Les tests mentaux. Paris, Delarge.
LES OUTILS DU PSYCHOLOGUE

Philippe Chartier Even Loarer
VALUER LINTELLIGENCE LOGIQUE

Choix des preuves Passation Interprtation Restitution
Conu comme un support la pratique, cet ouvrage rappelle les rgles et les prcautions prendre pour parvenir une mesure valide de lintelligence. Il propose une synthse des diffrentes approches de lintelligence logique et dcrit, avec de nombreux exemples, les mthodes utilises pour la mesurer. Il prsente galement des approches plus rcentes de lvaluation : lanalyse des stratgies de rsolution et la mesure dun potentiel dapprentissage. Chacun des grands types dpreuves fait lobjet : dune description de son cadre thorique et des conditions de sa validit ; dune analyse dtaille de sa construction ; dindications pour sa mise en uvre, son interprtation et sa restitution. Cet ouvrage est principalement destin aux psychologues praticiens, ainsi quaux tudiants en psychologie soucieux de se former la pratique de lvaluation des capacits intellectuelles dans le respect des rgles de dontologie et de validit scientifique. chelles dintelligence. Les chelles de Wechsler : WISC-III, WISC-IV, WAIS-III. Tests de facteur g Matrices de Raven, NNAT, D48, D70 et D2000, R85/R2000. Batteries factorielles NV7, NV5-R, DAT 5. preuves de Potentiel dapprentissage : le TEDE 6. Analyse des stratgies : le logiciel SAMUEL.
PHILIPPE CHARTIER est matre de confrences en psychologie diffrentielle lINETOP (CNAM, Paris).
EVEN LOARER est professeur de psychologie du travail lUniversit Paris Ouest-Nanterre La Dfense.
ISBN 978-2-10-053535-4
www.dunod.com

(DUNOD) Evaluer L'Intelligence Logique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

(DUNOD) Evaluer L'Intelligence Logique

Transféré par

Droits d'auteur :

Formats disponibles

Philippe Chartier Even Loarer

valuer lintelligence logique

Table des matires

Dfinir lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mesurer lintelligence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

valuer lintelligence logique

Une ou plusieurs intelligences ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

CHAPITRE 2 DFINITION ET PROPRITS DES TESTS . . . . . . . .

Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Diffrents types de validit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Lindice de difficult . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lindice de discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Lchelle Mtrique dIntelligence de Binet & Simon . . . . . . . . . . . . . . . . . . . Les chelles de Wechsler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

valuer lintelligence logique

CHAPITRE 4 LES TESTS DE FACTEUR G (ET DINTELLIGENCE FLUIDE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Les tests D48, D70 et D2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Dunod La photocopie non autorise est un dlit

CHAPITRE 5 LES BATTERIES FACTORIELLES . . . . . . . . . . . . . . . . .

valuer lintelligence logique

Table des matires

CHAPITRE 7 LVALUATION DYNAMIQUE . . . . . . . . . . . . . . . . . . .

Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lvaluation dynamique : les prcurseurs . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Les difficults pratiques et mthodologiques de lvaluation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

valuer lintelligence logique

348 349 352 354

CHAPITRE 8 UTILISATION DES TESTS DINTELLIGENCE . . . . .

Dans le systme ducatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dans le recrutement et les ressources humaines . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

Le test R2000 (R85) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

valuer lintelligence logique

Les tests de Raven : la version APM . . . . . . . . . . . . . . . . . . . . . . . .

Prsentation du test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Passation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Table des matires

452 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460 461 469

ES tests dintelligence datent du dbut du XXe . Depuis cette poque

valuer lintelligence logique

valuer lintelligence logique

Aspects historiques, thoriques et mthodologiques

Les conceptions thoriques de lintelligence et de sa mesure

Aspects historiques, thoriques et mthodologiques

Dfinir et mesurer lintelligence

Dunod La photocopie non autorise est un dlit

Les conceptions thoriques de lintelligence et de sa mesure

Aspects historiques, thoriques et mthodologiques

Dunod La photocopie non autorise est un dlit

Les conceptions thoriques de lintelligence et de sa mesure

Les premiers tests mentaux

Aspects historiques, thoriques et mthodologiques

De la mesure des processus lmentaires celle des fonctions suprieures

Les conceptions thoriques de lintelligence et de sa mesure

Aspects historiques, thoriques et mthodologiques

Lapproche factorielle de lintelligence

Dunod La photocopie non autorise est un dlit

Les conceptions thoriques de lintelligence et de sa mesure

Aspects historiques, thoriques et mthodologiques

Dunod La photocopie non autorise est un dlit

Les conceptions thoriques de lintelligence et de sa mesure

Aspects historiques, thoriques et mthodologiques

Dunod La photocopie non autorise est un dlit

Les conceptions thoriques de lintelligence et de sa mesure

Figure 1.3 Reprsentation schmatique du modle hirarchique de Burt et Vernon.

Aspects historiques, thoriques et mthodologiques

Principaux repres actuels de la psychomtrie de lintelligence

La structure factorielle de lintelligence : modles de synthse