Les Tests D'intelligence-2006

Michel Huteau
Jacques Lautrey
Les tests
d’intelligence
NOUVELLE ÉDITION
DES MÊMES AUTEURS
Michel HUTEAU et Jacques LAUTREY
Peut-on éduquer l’intelligence ? L’évaluation d’une méthode d’éducation cognitive (en colla-
boration avec Even Loarer et Daniel Chartier), Lang, Berne, 1995.
Évaluer l’intelligence. Psychométrie cognitive, PUF, Paris, 2003.
Michel HUTEAU
Psychologie différentielle. Cours et exercices, Dunod, Paris, 2006.
Écriture et personnalité. Approche critique de la graphologie, Dunod, Paris, 2004.
Psychologie de l’orientation (en collaboration avec Jean Guichard), Dunod, Paris, 2006.
L’Orientation scolaire et professionnelle (en collaboration avec Jean Guichard), Dunod,
Paris, 2005.
Psychologie, psychiatrie et société sous la Troisième République. La biocratie d’Édouard
Toulouse, L’Harmattan, Paris, 2002.
Jacques LAUTREY
L’Intelligence (en collaboration avec Jean-François Richard), Hermès/Lavoisier, Paris, 2005.
Models of Intelligence : International Perspectives (en collaboration avec Todd Lubart et Robert
Sternberg), American Psychological Association, Washington, 2003.
Invariants et variabilités dans les sciences cognitives (en collaboration avec Bernard Mazoyer et
Paul van Geert), Presses de la Maison des sciences de l’homme, Paris, 2002.
Classe sociale, milieu familial, intelligence, PUF, Paris, 1980.
S i vous désirez être tenu régulièrement informé des parutions de la collection

« Repères », il vous suffit de vous abonner gratuitement à notre lettre d’informa-
tion mensuelle par courriel, à partir de notre site http://www.collectionre-
peres.com, où vous retrouverez l’ensemble de notre catalogue.
ISBN papier : 978-2-7071-4999-2

ISBN numérique : 978-2-7071-6293-9
Comme pour un livre papier, cette œuvre est protégée par le droit d’auteur
et ses « copies ou reproductions [sont] strictement réservées à l’usage privé
du copiste et non destinées à une utilisation collective », conformément à
l’article L. 122-5 du Code de la propriété intellectuelle. Sous réserve des excep-
tions prévues par cet article, toute représentation ou reproduction intégrale
ou partielle au profit de tiers, à titre gratuit ou onéreux, de tout ou partie de
cette œuvre, faite sans le consentement de l’auteur ou de ses ayants droit ou
ayants cause est illicite.
© Éditions La Découverte & Syros, Paris, 1997.

© Éditions La Découverte, Paris, 2006.
Introduction
Les tests inquiètent et fascinent. Périodiquement, les médias les

dénoncent. Ils seraient stupides et arbitraires, technocratiques et
dangereux. Mais, en même temps, ils ont beaucoup de succès
auprès du grand public. Les magazines en proposent, plus ou
moins sérieusement ; de nombreux ouvrages prétendent dévoiler
leurs secrets ; on peut se tester sur plusieurs sites Internet… Il y
a beaucoup de confusion dans ces procès et dans ces engoue-
ments. Ne serait-ce que parce que, les tests étant très nombreux
et très divers, il est difficile de parler des tests en général. Cet
ouvrage vise à apporter quelques informations et éclaircisse-
ments sur ce que sont réellement les tests. Il est centré sur une
catégorie de tests particulière, ceux qui sont destinés à évaluer
l’intelligence, qui sont aussi ceux qui ont provoqué les débats les
plus vifs.
Pour mesurer l’intelligence il faut, bien sûr, avoir d’abord une
idée de ce qu’elle est. Nous verrons que l’intelligence, ou, en
d’autres termes, l’ensemble des capacités permettant de résoudre
des problèmes, peut être conçue de plusieurs manières et a des
facettes diverses que les tests ne font qu’objectiver. Les tests
valent ce que valent les idées qui ont présidé à leur construction.
Les tests ne révèlent pas des propriétés mystérieuses et cachées
des individus. Ils permettent simplement de décrire des compor-
tements sous l’angle de leur efficience. Ils ne sont rien d’autre
que des techniques d’observation. Ces techniques sont en
général soigneusement élaborées et rigoureusement codifiées
afin de réduire au minimum les effets de la subjectivité de
l’observateur et de justifier les comparaisons entre les individus.
Quelques repères historiques sur les premières tentatives de
« mesure » de l’intelligence et leur contexte sont présentés dans
I / Quelques repères historiques
sur la naissance des tests d’intelligence
L’idée de « mesurer » l’intelligence était dans l’air à la fin du

XIX e siècle, à la naissance de la psychologie scientifique. Le
premier laboratoire de psychologie expérimentale est fondé à
Leipzig en 1879 par W. Wundt. Dans ce laboratoire, les
recherches portent surtout sur les processus sensoriels élémen-
taires. On cherche par exemple à déterminer comment varie la
sensation en fonction de l’intensité d’une stimulation, ou bien à
évaluer la plus petite différence d’intensité de la stimulation qui
puisse être détectée par les sujets. Ces expériences conduisaient
à faire des mesures assez précises de différentes caractéristiques
des réponses des sujets, seuils de détection, temps de réaction et,
à partir de ces caractéristiques, on cherchait à inférer la nature
des processus en jeu dans la réponse à la stimulation.
L’un des étudiants de Wundt, James McKeen Cattell
(1860-1944), fut frappé par les variations qu’il observait entre les
sujets soumis à ces expériences. Ce n’était certes pas l’objet des
études menées dans le laboratoire de Wundt, où l’on cherchait à
établir les lois générales des processus sensoriels et où les diffé-
rences entre les individus étaient de ce fait traitées comme des
formes d’« erreurs ». Cattell observait toutefois que ces diffé-
rences entre les individus étaient assez stables. Une fois rentré
aux États-Unis, il se servit de petites situations expérimentales
inspirées de ces tâches de laboratoire pour étudier les différences
interindividuelles et il fut le premier à utiliser le terme mental
test, en 1890, pour les désigner.
À peu près au même moment, en Angleterre, Francis Galton
(1822-1911) utilise lui aussi des situations de ce genre pour
mesurer l’acuité sensorielle, les seuils de discrimination, les
temps de réaction. Son intérêt pour les différences individuelles
6 LES TESTS D’INTELLIGENCE
est plus ancien. Il est en effet le cousin de Darwin et, depuis la

parution de L’Origine des espèces (1859), il cherche à montrer que
la théorie de son cousin peut aussi s’appliquer à l’évolution de
l’intelligence dans l’espèce humaine. C’est la raison pour
laquelle il a profité de l’Exposition internationale de la santé à
Londres en 1884 pour fonder un « laboratoire anthropomé-
trique » où les visiteurs peuvent venir se faire mesurer aussi bien
sur des variables anthropométriques (mesures du corps humain
et de ses diverses parties) que dans les petites épreuves que
Cattell qualifiera un peu plus tard de mental tests. Galton mesure
les parents et les enfants avec l’objectif de montrer que les diffé-
rences individuelles sont héritées d’une génération à l’autre, ce
qui le conduira d’ailleurs à inventer le principe du coefficient de
corrélation pour quantifier la relation liant les mesures effectuées
sur les parents à celles effectuées sur les enfants.
Les premières tentatives de « mesure » et leur contexte
Les premières tentatives de mesure des différences indivi-

duelles relatives à des caractéristiques « mentales » datent donc
de la fin du XIXe siècle et leurs motivations intellectuelles peuvent
être situées, d’une part, dans la naissance d’une psychologie
scientifique, qui a montré la possibilité de mesurer les caracté-
ristiques de processus mentaux très élémentaires, et, d’autre part,
dans l’influence de la théorie de Darwin, qui a mis l’accent sur
le rôle joué par les variations interindividuelles dans l’évolu-
tion des espèces. Un autre facteur déterminant de cet « air du
temps » est à situer du côté des bouleversements économiques
et socioculturels qu’a entraînés l’industrialisation. La nécessité
de généraliser l’instruction, la formation, de recruter massive-
ment dans des fonctions professionnelles des populations qui
n’y étaient pas préparées, a créé des besoins nouveaux en matière
d’évaluation des personnes. Un des besoins exprimés régulière-
ment à cette époque était, par exemple, la nécessité de distin-
guer, parmi les élèves qui ne parvenaient pas à suivre l’école
élémentaire — et étaient pourtant tenus de la fréquenter
puisqu’elle était devenue obligatoire —, ceux qui avaient les
moyens intellectuels de bénéficier de cet enseignement mais
échouaient pour des raisons circonstancielles, de ceux qui
étaient déficients mentaux. L’idée sous-jacente était qu’il fallait
donner aux enfants déficients mentaux un enseignement adapté
QUELQUES REPÈRES HISTORIQUES SUR LA NAISSANCE DES TESTS D’INTELLIGENCE 7
à leurs possibilités, mais cela supposait que l’on puisse faire une
évaluation fiable et objective des capacités intellectuelles des
enfants en difficulté scolaire.
Face à cette demande sociale, les mental tests du type de ceux
que Cattell avait adaptés à partir des expériences de laboratoire
ont, dans un premier temps, paru être de bons instruments pour
évaluer les capacités intellectuelles. Ces épreuves portaient sur
des processus très élémentaires : on évaluait, par exemple, la plus
petite différence de poids que le sujet pouvait détecter lorsqu’on
ajoutait ou retranchait quelques grammes à un poids de
100 grammes, le temps de réaction à un stimulus auditif, le
temps nécessaire pour nommer la couleur présentée, etc. Pour
comprendre comment on a pu penser à l’époque évaluer l’intel-
ligence avec de telles épreuves, il faut se replacer dans le contexte
des théories alors en vigueur sur les processus mentaux. La philo-
sophie dominante était l’associationnisme. On pensait que les
images mentales, les évocations, étaient formées de l’associa-
tion de sensations élémentaires et que les idées étaient formées
par l’association et l’enchaînement de ces images mentales. Bref,
les sensations élémentaires étaient supposées constituer les
matériaux de base à partir desquels étaient formés les processus
mentaux plus complexes. De là à supposer que la qualité des
processus complexes était largement déterminée par la qualité
des sensations élémentaires, il n’y avait qu’un pas. Cattell a donc
appliqué ses mental tests à tous les étudiants qui entraient à
l’université de Colombia, avec l’objectif de s’appuyer sur leurs
résultats pour éclairer les décisions d’orientation et pour adapter
les programmes. Ses tentatives répétées se sont soldées par un
échec cuisant. Il n’y avait aucune relation entre l’efficience dans
ces mental tests et la réussite dans les études. D’autres tenta-
tives comparables menées par d’autres auteurs vers la même
époque, avec des étudiants mais aussi avec des écoliers, ont
abouti au même résultat. Les méthodes d’évaluation du fonc-
tionnement intellectuel tirées de la psychologie scientifique
naissante se révélaient incapables de répondre à la demande
sociale de l’époque en ce domaine.
La solution de Binet : l’échelle métrique

de développement de l’intelligence
C’est un psychologue français, Alfred Binet (1857-1911), qui

trouvera la solution du problème. Binet était un esprit curieux et,
parmi ses multiples centres d’intérêt, il y avait la mesure de l’intel-
ligence. Une des pistes qu’il explorait était la recherche d’une rela-
tion entre les mesures du crâne, considérées comme des mesures
indirectes de la taille du cerveau, et l’intelligence. Le crâne avait
l’avantage d’être facile à mesurer, mais les problèmes commen-
çaient évidemment avec la mesure de l’intelligence. L’insuccès de
ses premiers essais lui avait donné l’idée de tourner le problème en
comparant des enfants normaux et des enfants retardés. Il avait
donc demandé à Théodore Simon, qui était à ce moment-là, en
1899, interne dans une institution d’enfants retardés de Perray-
Vaucluse, d’étendre les mesures du crâne à des enfants en prin-
cipe déficients mentaux. Mais, là encore, la recherche a buté sur
l’absence de moyens d’évaluation objectifs et fiables du degré de
retard mental des sujets examinés. Binet et Simon ont donc
commencé à soumettre les enfants à une interrogation systéma-
tique visant à évaluer leurs capacités intellectuelles.
Binet connaissait l’existence des mental tests mis au point par
Cattell, mais il avait exprimé depuis plusieurs années déjà son
désaccord avec cette façon d’aborder le problème. Il pensait que
les différences individuelles dans les processus sensoriels élémen-
taires avaient peu d’effet sur les processus intellectuels
complexes et que les différences de capacité intellectuelle
devaient être cherchées du côté des capacité de mémoire,
d’imagerie mentale, de raisonnement, de jugement. Cette
conviction, qui a joué un rôle déterminant, allait à l’encontre
des thèses associationnistes. Elle le conduisait à délaisser les
caractéristiques individuelles que l’on savait « mesurer » pour se
tourner vers des caractéristiques plus complexes, mais aussi plus
problématiques puisqu’on ne savait pas les « mesurer ». Au lieu
de comparer les enfants retardés et les enfants normaux du point
de vue des seuils de discrimination sensorielle, Binet et Simon
leur soumettent des petits problèmes de mémoire, de jugement
et ils retiennent les items qui départagent le plus nettement les
sujets des deux groupes (on appelle « items » les différentes ques-
tions ou les différents petits problèmes, en général de difficulté
graduée, qui composent un test et auxquels le sujet peut réussir
ou échouer).
Le rôle de déclencheur sera joué par la demande sociale. En

1904, une commission ministérielle demande à Binet d’étudier
le problème du diagnostic de la débilité mentale. Binet et Simon
essaient alors dans les écoles les épreuves qu’ils ont commencé
à mettre au point. Ils s’aperçoivent que certains des items qui
discriminaient bien les enfants retardés des enfants normaux ont
aussi un bon pouvoir de discrimination parmi les enfants
normaux lorsqu’on les fait passer à des enfants plus jeunes. En
somme, certains de ces items semblent caractéristiques d’un âge
donné lorsque le développement intellectuel se fait normale-
ment. De ce fait, l’ampleur de l’écart entre cet âge et l’âge auquel
un enfant les réussit effectivement pouvait renseigner sur le
degré d’avance ou de retard dans le développement intellectuel.
C’est l’origine de la notion d’âge mental. Tout l’effort de Binet
et de Simon, à partir de ce moment-là, a été de trouver de petites
épreuves de mémoire, de jugement, de raisonnement, dont la
réussite apparaisse comme représentative des tâches intellec-
tuelles que peut maîtriser un enfant d’un âge donné. Pour être
retenu comme représentatif d’un âge mental de 5 ans, par
exemple, un item devait donner lieu à un échec chez la plupart
des enfants de 4 ans, être réussi par presque tous ceux de 6 ans,
et avoir un taux de réussite de l’ordre de 50 % parmi les enfants
de 5 ans, lorsqu’il est en passe d’être maîtrisé. Les items retenus
ne devaient pas non plus faire appel à des connaissances
scolaires. Il ne s’agissait pas d’évaluer le degré d’instruction, mais
la qualité du fonctionnement intellectuel dans des situations
courantes.
À titre d’exemple, une des situations d’évaluation de la
mémoire retenue par Binet et Simon (on parlerait aujourd’hui
d’épreuve évaluant l’empan de la mémoire à court terme) consis-
tait à demander à l’enfant de répéter une liste de chiffres aussitôt
qu’énoncée par l’expérimentateur. Être capable de répéter
2 chiffres correspondait à un âge mental de 2 ans, 3 chiffres à
3 ans, 5 chiffres à 8 ans, et 7 chiffres à 15 ans. Une autre épreuve
consistait à montrer des gravures à l’enfant en lui demandant
ce qu’elles représentaient (cf. fig. 1 une de ces trois gravures).
Énumérer (par exemple, « un monsieur, une dame ») correspon-
dait à un âge mental de 3 ans, décrire (par exemple, « un
monsieur et puis une dame qui dorment sur un banc ») à un âge
mental de 7 ans, et interpréter (par exemple, « des malheureux »)
à un âge mental de 12 ans.
Figure 1. L’une des trois gravures qui étaient montrées aux enfants
dans l’échelle de Binet-Simon
Source : d’après le Manuel de l’échelle métrique, de Binet-Simon,

reproduit avec l’autorisation des Éditions Armand Colin.
Dès 1905, Binet et Simon proposaient une première version de

leur « échelle métrique » de l’intelligence. Une seconde version,
plus aboutie, est parue en 1908 [Binet et Simon, 1908]*. L’échelle
comportait une cinquantaine d’items, à raison de quatre ou cinq
pour chaque âge mental, et cela pour des âges allant de 3 ans à
13 ans. L’âge mental n’était pas déterminé à partir de tel ou tel
item particulier, mais à partir de l’ensemble d’items réussis : si
l’échelle comportait 4 items caractéristiques de l’âge mental de
4 ans, la réussite de chacun de ces items créditait de 3 mois et
l’âge mental était obtenu en additionnant ainsi les crédits des
items réussis. L’avance ou le retard du développement intellec-
tuel était évalué en comparant l’âge mental ainsi obtenu et l’âge
chronologique de l’enfant. C’est seulement après la mort de
Binet, en 1912, qu’un psychologue allemand, W. Stern, eut l’idée
* Les références entre crochets renvoient à la bibliographie en fin d’ouvrage.

d’exprimer la vitesse du développement par le rapport entre l’âge

mental et l’âge chronologique (multiplié par 100 pour éviter les
décimales). Il appela cet indice le quotient intellectuel (QI). Le
QI est supérieur à 100 pour les enfants en avance et inférieur à
100 pour les enfants en retard. Il s’éloigne d’autant plus de 100,
dans un sens ou dans l’autre, que les enfants sont plus ou moins
en avance ou en retard. Un enfant âgé de 10 ans qui manifeste
les mêmes acquisitions que l’enfant moyen de 12 ans a un
âge mental de 12 ans et se voit donc attribuer un QI de
(12/10) × 100 = 120.
L’échelle de Binet-Simon a eu un succès immédiat. Elle
permettait effectivement de diagnostiquer le retard mental de
façon plus précise et plus objective qu’on ne savait le faire aupa-
ravant. Elle s’est aussi montrée capable de fonder des pronostics
sur la réussite scolaire. Elle a été traduite et adaptée aux
États-Unis dès 1909. La plus connue de ces adaptations est celle
qui a été faite par Terman à l’université de Stanford en 1916.
Depuis, le « Stanford-Binet » a été révisé de nombreuses fois et
est encore utilisé aux États-Unis. En France, en revanche, c’est
seulement en 1966 que l’échelle métrique de Binet-Simon a été
révisée sous la direction de René Zazzo pour devenir la « nouvelle
échelle métrique de l’intelligence ».
Après coup, les idées nouvelles paraissent souvent simples. La
première idée nouvelle qui a permis à Binet de faire sortir le
problème de l’évaluation de l’intelligence de l’impasse où il se
trouvait à la fin du XIXe siècle est d’avoir compris que l’évalua-
tion devait porter sur les processus mentaux complexes. Cette
première idée ne suffisait cependant pas puisqu’on ne savait, à
cette époque, évaluer que l’efficience de processus sensoriels
élémentaires. La seconde idée nouvelle de Binet est d’avoir
compris que la possibilité d’ordonner des items en fonction de
l’âge auquel ils sont réussis constituait un premier niveau de
« mesure » de leur complexité intellectuelle. De cette possibilité
d’ordonner les items découlait la possibilité d’ordonner aussi les
sujets, y compris des sujets de même âge chronologique, en fonc-
tion de leur niveau de réussite sur cette échelle de complexité
intellectuelle
Souvent, dans la recherche, il ne suffit pas d’avoir des idées
nouvelles, mais il faut aussi savoir abandonner les idées
anciennes qui ne « marchent » pas. On peut remarquer que, dès
que Binet a été sur la piste de l’échelle métrique de l’intelli-
gence, il a abandonné celle de la mesure du crâne qui n’avait
rien donné d’intéressant et qui n’a d’ailleurs jamais rien donné

d’intéressant par la suite.
Bizarrement, parmi tous les pays où la psychologie connais-
sait un développement significatif, c’est en France que l’échelle
métrique de Binet et Simon a été le plus mal reçue. Les médecins
préoccupés de déficience mentale, dont Binet avait sévèrement
critiqué les méthodes de diagnostic, ne voyaient pas l’intérêt
d’intégrer un test à leur pratique clinique habituelle. Les psycho-
logues expérimentalistes, essentiellement regroupés dans le labo-
ratoire qu’Édouard Toulouse (1865-1947) avait créé en 1897 à
l’asile de Villejuif, restaient attachés au paradigme association-
niste et considéraient que Binet avait abandonné la démarche
scientifique. En 1904, dans un ouvrage intitulé Technique de
psychologie expérimentale, ils avaient proposé une série de tests
dans laquelle les épreuves destinées à la mesure des processus
psychologiques supérieurs étaient peu nombreuses relative-
ment à celles concernant les sensations [Toulouse, Vaschide et
Piéron, 1904]. Leur opposition au Binet-Simon n’était pas fondée
seulement sur le choix des situations d’observation mais ils
s’élevaient aussi contre la conception unidimensionnelle de
l’intelligence de Binet. En 1929, Henri Piéron (1880-1964),
devenu le leader incontesté de la psychologie expérimentale
française (il le restera jusqu’aux années 1950), développe cette
dernière critique. Il considère que le Binet-Simon est un bon test
de développement mais un mauvais test d’intelligence. Pour
Piéron, l’intelligence est une constellation d’aptitudes et
chacune doit être évaluée indépendamment des autres. Il
construit un test destiné à être utilisé par les conseillers d’orien-
tation professionnelle qui permet de caractériser les sujets par
un profil en vingt et un points. Cette conception multidimen-
sionnelle de l’intelligence, posée a priori, sera confortée par le
développement des travaux utilisant les méthodes d’analyse
factorielle, ceux de Thurstone notamment.
La solution de Spearman : l’analyse factorielle
Pour comparer les sujets, Binet s’est appuyé sur l’approche

développementale et la notion d’âge mental. Une autre solu-
tion, découverte à peu près au même moment par Spearman, a
consisté à s’appuyer sur une analyse mathématique, l’analyse
factorielle, pour définir les dimensions intellectuelles sur

lesquelles les individus peuvent être comparés.
Les principes généraux de l’analyse factorielle
Avant de donner quelques repères historiques sur l’origine de

cette autre approche de la « mesure » de l’intelligence,
commençons par introduire le principe de l’analyse factorielle
à l’aide d’une analogie. Les qualités athlétiques peuvent être
évaluées dans toutes sortes d’épreuves sportives, par exemple le
lancer du disque, le saut en hauteur, le lancer du poids, le saut en
longueur, le lancer du javelot, le triple saut, pour n’en citer que
quelques-unes. On peut supposer que certaines de ces épreuves,
quoique différentes, font intervenir un facteur commun de
performance. Les trois épreuves de lancer ont probablement en
commun de faire surtout appel à la force et à la détente des bras,
tandis que les trois épreuves de saut ont probablement en
commun de faire appel à la force et à la détente des jambes. La
force et la détente des jambes interviennent probablement aussi
dans le lancer, mais avec une pondération moins importante que
dans le saut.
On peut ainsi se représenter la performance dans le lancer
comme la résultante d’un ensemble de facteurs, dont certains
ont une pondération importante (détente des bras) et d’autres
une pondération plus faible (détente des jambes). Lorsque des
épreuves ont en commun de mettre en jeu avec une pondération
forte un facteur d’efficience donné, elles tendent à être réussies
ensemble : si la détente des jambes a un poids important dans
le saut en hauteur et dans le saut en longueur, un sujet qui
réussit bien dans l’une de ces deux épreuves a sans doute une
bonne détente des jambes et réussira donc probablement bien
aussi dans l’autre. En revanche, on ne s’attend pas à une corré-
lation aussi forte entre les performances en saut en hauteur et
en lancer du javelot dans la mesure où chacune fait appel à un
facteur de réussite qui lui est spécifique : détente des jambes pour
la première et détente des bras pour la seconde. Toutefois, il est
possible qu’il y ait malgré tout une dépendance entre ces deux
facteurs d’efficience, qui soit à l’origine d’une corrélation plus
modérée entre épreuves de saut et épreuves de lancer. L’état
général de la musculature, la motivation pour les activités spor-
tives, l’entraînement peuvent en effet concourir à un facteur
général de performance dans toutes ces activités, qu’il s’agisse de

course, de saut ou de lancer.
Les méthodes d’analyse factorielle exploratoire sont utiles
lorsque, contrairement à la façon dont on vient de procéder à
propos des épreuves d’athlétisme 1, on n’a pas d’idée a priori sur
les facteurs en jeu dans la réussite à un ensemble d’épreuves.
Dans ce cas, la démarche va exactement en sens inverse de celle
que nous venons de suivre : elle part des relations empiriques
entre les épreuves pour inférer l’existence d’éventuels facteurs
communs de variation dans les performances. La méthode
d’analyse factorielle consiste à calculer d’abord les corrélations
entre toutes les épreuves prises deux à deux, puis à chercher s’il
existe des groupes d’épreuves qui corrèlent entre elles plus
qu’avec les autres. On suppose alors qu’il y a un facteur de varia-
tion commun à ce groupe d’épreuves, mais le mot facteur prend
ici un sens différent de celui que nous lui avons donné
jusqu’alors. Il s’agit d’un facteur commun au sens mathéma-
tique du terme (« mettre une expression en facteur ») et l’analyse
factorielle est la méthode mathématique qui permet d’extraire
ces facteurs communs de variation. Les facteurs sont donc ici
des entités mathématiques, abstraites, théoriques. Dans la repré-
sentation géométrique des résultats de l’analyse factorielle d’une
table de corrélations, ces facteurs communs de variation sont
représentés par des axes par rapport auxquels les différentes
épreuves peuvent être situées par leurs coordonnées. Plus une
épreuve est près d’un axe, plus elle a contribué fortement à la
création de ce facteur, et plus celui-ci a un poids important dans
les scores obtenus à cette épreuve. On dit que cette épreuve est
fortement « saturée » par ce facteur. La saturation d’une épreuve
par un facteur est évaluée par sa corrélation avec ce facteur, elle
varie donc de – 1 à + 1 et s’interprète comme le poids du facteur
dans la variation des scores à cette variable. On peut essayer
d’interpréter un facteur commun à plusieurs épreuves en cher-
chant en quoi ces épreuves se ressemblent et en quoi elles diffè-
rent des épreuves saturées par un autre facteur.
Revenons à nos six épreuves d’athlétisme. Admettons cette
fois-ci que, n’ayant aucune hypothèse au départ sur les facteurs
de variation de la performance dans ces épreuves, nous ayons
1. Précisons que nous ne sommes en rien spécialistes de ce domaine et que cette

analyse a priori des facteurs en jeu dans les épreuves d’athlétisme est peut-être
fausse. Le seul intérêt de cet exemple est dans ses vertus pédagogiques supposées.
fait une analyse factorielle de leurs intercorrélations. Si nous

trouvions que les trois épreuves de saut sont fortement saturées
par un premier facteur, appelons-le F1, et les trois épreuves de
lancer fortement saturées par un second facteur, appelons-le F2,
alors nous pourrions interpréter F1 et F2 — qui ne sont jusque-là
que des sources de variation latentes, théoriques — en fonc-
tion des hypothèses que ce regroupement des épreuves nous
suggère : peut-être la détente des jambes pour F1 et la détente des
bras pour F1.
C’est en somme dans cette situation que se trouvaient les
premiers psychologues qui ont fait l’analyse factorielle d’un en-
semble de tests. Ignorant la nature des différents facteurs suscep-
tibles d’expliquer les variations dans les performances aux tests
d’intelligence, ils ont pris pour point de départ les corrélations
entre les tests et en ont fait une analyse factorielle. Lorsqu’un ou
des facteurs communs à plusieurs tests ont été trouvés, l’examen
du contenu des différents tests saturés par un même facteur en a
suscité une interprétation (et parfois plusieurs).
Spearman et le facteur général d’intelligence
La première méthode d’analyse factorielle a été inventée par

Charles Spearman (1863-1945), un psychologue anglais, précisé-
ment pour analyser la table des corrélations entre les notes
obtenues par un échantillon de sujets dans diverses épreuves,
notes scolaires, petits tests, estimations de l’intelligence par les
enseignants, etc. Avec sa méthode de calcul, il montrait que l’on
pouvait partager la variance dans ces notes en deux parties : un
facteur de variation général, commun à toutes ces notes, et un
facteur de variation spécifique à chacune d’entre elles. Dans un
article publié en 1904, et intitulé « General intelligence, objecti-
vely determined and measured », il interprétait ce facteur
commun à toutes les tâches de sa batterie d’épreuves comme un
facteur général d’intelligence, le fameux facteur g, et présentait
sa méthode comme le moyen de le mesurer.
On remarquera d’abord la quasi-coïncidence de cette date avec
celle de la publication de la première version de l’échelle
métrique de Binet-Simon (et la coïncidence avec la date de publi-
cation des tests de Toulouse, Vaschide et Piéron). La mesure de
l’intelligence était décidément dans l’air du temps. On remar-
quera ensuite que cette première forme d’analyse factorielle
conduisait aussi à une conception globale de l’intelligence.
Spearman n’a pas proposé de théorie très élaborée de ce que

représentait le facteur g. Il a d’abord considéré qu’il correspon-
dait à l’« énergie mentale », sans que cette notion ait dépassé le
statut de la métaphore. Il a, un peu plus tard [Spearman, 1927],
suggéré que les tâches les plus saturées en facteur g étaient les
tâches d’« éduction de relations » (nous dirions aujourd’hui infé-
rence) et d’« éduction de corrélats » (nous dirions aujourd’hui
application). L’éduction de relations consiste, étant donné
n éléments, à trouver la relation qui les lie ; par exemple, étant
donné les éléments « bière » et « vin », trouver que la relation
qui les lie est d’être des boissons alcoolisées. L’éduction de
corrélats consiste, étant donné un élément et une relation, par
exemple bière et boisson alcoolisée, à trouver un autre élément
lié au premier par cette relation. Cette conception de ce qu’il y
a de commun aux activité intellectuelles n’était pas non plus très
élaborée, mais elle était sans doute plus opérationnelle. C’est en
effet en s’en inspirant que Raven a mis au point l’épreuve des
matrices progressives qui sera présentée au chapitre suivant. Or
il se trouve que, dans les analyses factorielles, le test des matrices
progressives est effectivement l’un de ceux qui sont le plus forte-
ment saturés par le facteur g (facteur commun à l’ensemble des
tests).
Thurstone et les « aptitudes primaires »
Ce modèle unidimensionnel a été mis en question vers la fin

des années trente par Louis Thurstone (1887-1955), un psycho-
logue américain. Analysant les intercorrélations d’un large
ensemble de tests avec la méthode d’analyse factorielle qu’il
avait mise au point, il ne trouvait pas de facteur général, mais
plusieurs facteurs qui correspondaient, selon lui, à des apti-
tudes indépendantes qu’il appelait les « aptitudes primaires ». Le
nombre de ces aptitudes primaires variait un peu selon la
composition des tests entrant dans la batterie, mais les mieux
établies étaient les sept suivantes : compréhension verbale (V),
fluidité verbale (W), aptitude numérique (N), inférence (I), apti-
tude spatiale (S), vitesse perceptive (P) et mémoire (M) [Thurs-
tone, 1941]. Nous verrons plus loin quelques-uns des tests ayant
les saturations les plus fortes dans ces différents facteurs.
À partir de là s’est engagée une polémique entre Spearman
et Thurstone sur la structure de l’intelligence : est-elle unidimen-
sionnelle, comme le suggérait le facteur général trouvé par
Spearman, ou multidimensionnelle, comme le suggéraient les

multiples facteurs trouvés par Thurstone ?
Comme l’a montré la suite, les différences de résultat tenaient,
pour une part, au fait que ces deux auteurs utilisaient des tech-
niques d’analyse factorielle différentes et, pour une part, au fait
que ces analyses étaient faites sur des échantillons de tâches et
de sujets assez différents. Il a été montré que ces deux méthodes
étaient partielles et pouvaient être intégrées dans un modèle
factoriel hiérarchique plus général.
Cattell, Horn, Carroll et la structure factorielle hiérarchique

de l’intelligence
Lorsque l’analyse factorielle d’une batterie de tests d’intelli-

gence est faite avec une méthode proche de celle de Thurstone,
on retrouve bien, comme lui, des facteurs primaires, c’est-
à-dire des facteurs relativement étroits, communs à de petits
groupes de tests seulement. Toutefois, ces facteurs sont corrélés
entre eux, si bien que l’on peut faire une analyse factorielle des
corrélations entre ces facteurs primaires et obtenir ainsi des
facteurs de « second ordre », plus larges, qui rendent compte de
la variance commune à des groupes de facteurs primaires. En
appliquant cette méthode d’analyse factorielle hiérarchique,
Raymond B. Cattell (1905-1998) a d’abord trouvé deux facteurs
de second ordre qu’il a appelés le facteur général d’intelligence
fluide (Gf) et le facteur général d’intelligence cristallisée (Gc)
[Cattell, 1963, 1971]. Par la suite, Horn, un disciple de Cattell,
a contribué à enrichir ce modèle hiérarchique en y ajoutant de
nombreux facteurs primaires et de nouveaux facteurs de second
ordre [Horn, 1994]. Cette structure a été confirmée et de
nouveau enrichie par John B. Carroll (1916-2003). En réanaly-
sant la quasi-totalité des données de départ des analyses facto-
rielles d’intelligence publiées jusque-là, soit environ 460 études,
Carroll [1993] a montré qu’elles étaient toutes compatibles avec
un modèle factoriel hiérarchique à trois étages. Dans la première
strate de ce modèle, il a trouvé une quarantaine de facteurs
étroits diversement corrélés entre eux. En effectuant une analyse
de second ordre des corrélations entre ces facteurs étroits, il a
trouvé, dans une deuxième strate, huit facteurs larges rendant
compte des corrélations entre les facteurs de premier ordre. Ces
huit facteurs larges correspondent, pour l’essentiel, aux facteurs
de second ordre qui avaient déjà été trouvés par Cattell et Horn
et dont l’interprétation est donnée dans l’encadré ci-contre.

Enfin, en effectuant une analyse factorielle des corrélations entre
ces huit facteurs de second ordre, Carroll a trouvé, dans la troi-
sième strate de ce modèle hiérarchique, un unique facteur
général d’intelligence rendant compte des corrélations entre les
facteurs de second ordre.
Autrement dit, Spearman et Thurstone avaient tous deux
raison et tous deux tort : l’analyse factorielle des corrélations
entre les tests d’intelligence permet bien d’extraire un facteur
général de variation des performances, comme le pensait
Spearman ; elle permet aussi d’extraire des facteurs spécifiques
à des domaines comme le pensait Thurstone ; mais tous deux
avaient tort lorsqu’ils pensaient que ces deux structures étaient
incompatibles, elles peuvent être intégrées dans un modèle
factoriel hiérarchique. Dans le cadre du modèle hiérarchique à
trois strates proposé par Carroll [1993], la variance observée dans
les scores à un test d’intelligence peut être fractionnée en quatre
parties distinctes : une partie qui est spécifique à ce test et ne
présente donc pas grand intérêt pour notre propos ; une partie
qui est commune à ce test et à un petit groupe d’autres tests
couvrant le même champ étroit, par exemple le petit groupe des
tests de rotation mentale (strate I) ; une partie commune à ce
test et à un ensemble plus large de tests qui couvrent le même
domaine de l’intelligence, par exemple tous les tests de représen-
tation visuo-spatiale (strate II) ; enfin, une partie commune à
tous les tests d’intelligence (strate III).
Ces quelques repères historiques donnent une idée des solu-
tions qui ont été proposées pour évaluer l’intelligence. Elles
consistent à trouver des méthodes permettant de comparer les
individus dans des ensembles de tâches dont on peut consi-
dérer qu’elles mettent en jeu les divers aspects de l’intelligence.
Toute tâche intellectuelle n’est cependant pas pour autant un
test d’intelligence. Il reste maintenant à voir de façon plus
précise ce qui distingue un test d’une autre situation
d’évaluation.
Représentation auditive (Ga) : sature

Les huit facteurs larges les tests faisant appel à la capacité à
de la strate II du modèle analyser, manipuler, comprendre et
de Carroll synthétiser des éléments sonores,
des groupes de sons ou des patterns
Intelligence fluide (Gf) : sature les tests sonores.
qui font appel au raisonnement et, Récupération en mémoire à long
plus généralement, à des opérations terme (Gr) : capacité à stocker l’infor-
mentales contrôlées en vue de la mation nouvelle en mémoire à long
résolution de problèmes nouveaux terme et à la retrouver plus tard de
ne faisant que très peu appel aux façon flexible. Ce facteur sature
connaissances. notamment les tests de fluidité
Intelligence cristallisée (Gc) : sature verbale et de créativité.
les tests faisant appel à la connais- Rapidité cognitive (Gs) : capacité à
sance du langage, de l’information et effectuer de façon automatique et
des concepts spécifiques à une culture rapide des tâches relativement faciles
et/ou à l’application de cette ou sur-apprises.
connaissance. Vitesse de traitement (Gt) : capa-
Mémoire et apprentissage (Gm) : cité à réagir ou à décider rapidement
correspond à l’efficience de la en réponse à des stimuli simples,
mémoire à court terme. comme c’est le cas dans les tâches
Représentation visuo-spatiale (Gv) : évaluant le temps de réaction ou le
sature les tests faisant appel à la capa- temps d’inspection.
cité à générer, retenir, retrouver et
transformer des images visuelles.
II / Qu’est-ce qu’un test ?
Un test est un dispositif d’observation des individus qui

présente quatre propriétés :
— il est standardisé ;
— il permet de situer la conduite de chaque sujet dans un
groupe de référence ;
— le degré de précision des mesures qu’il permet est évalué
(fidélité) ;
— la signification théorique ou pratique de ces mesures est
précisée (validité).
Pour examiner ces propriétés nous prendrons comme exemple
un test de raisonnement inductif, le test des matrices progres-
sives — niveau supérieur (Advanced progressive matrices, APM) —
mis au point par le psychologue anglais Raven [1965, 1981 ;
Raven 1 , Court et Raven, 1988]. Nous commencerons par
présenter cette épreuve.
Un test de raisonnement inductif
Le test de Raven est destiné à des adolescents ou à des adultes

ayant un bon niveau d’efficience intellectuelle. Construit en
1. Construites sur le même principe, il existe deux autres épreuves de matrices

progressives : le test des matrices progressives couleur (ou Children progressive
matrices, ou encore Progressive matrices 1947) destiné aux enfants de 4 à 11 ans et
le test des matrices progressives standard (Standards progressive matrices ou Progres-
sive matrices 1938) utilisable à partir de 7-8 ans. Longtemps édités par les Établis-
sements d’applications psychotechniques, ces tests sont actuellement
commercialisés par les Éditions du centre de psychologie appliquée.
QU’EST-CE QU’UN TEST ? 21
1943 pour être utilisé au cours de la procédure de sélection des

officiers de l’armée britannique, il a été révisé une première fois
en 1947, en vue d’un usage plus diversifié, notamment dans le
domaine de l’orientation et du recrutement, puis une seconde
fois en 1962. Ce test est constitué de petits problèmes présentés
dans des cahiers et le sujet doit choisir la solution qu’il retient
parmi plusieurs qui lui sont proposées. Il est représentatif de la
catégorie des tests dits « papier-crayon », car il ne demande pas
d’autre matériel que le cahier d’items et un crayon, ou tests « de
groupe » car ces caractéristiques permettent une application
collective.
Le test est constitué de deux séries de problèmes (ou items).
La première série comporte 12 items pour la plupart assez faciles.
Elle est destinée uniquement à l’entraînement du sujet et lui
permet de se familiariser avec la tâche et de mettre au point une
méthode générale de travail. La seconde série, dans la version de
1962, comporte 36 items dont beaucoup sont assez difficiles (la
version de 1947 comportait 12 items supplémentaires). Le score
d’efficience du sujet est en général calculé en accordant un point
par item réussi.
Une consigne très précise indique à la personne qui passe le
test ce qu’elle doit faire et ce que l’on attend d’elle. Le test est
présenté comme un test d’observation ou de raisonnement. On
montre d’abord au sujet l’item nº 1 de la première série
(cf. figure 2) et on lui explique que chacune des petites figures du
bas de la page peut remplir l’espace vide de la grande figure,
mais que seule l’une d’entre elles représente bien la partie
découpée. Le sujet doit découvrir cette figure qui permet de
compléter le dessin et reporter son numéro sur une feuille de
réponse distincte du cahier d’items. Après avoir vérifié que
chacun a trouvé la bonne réponse et l’a inscrite correctement,
on demande aux sujets de résoudre l’item nº 2 (la lecture de la
grande figure se fait dans le sens gauche-droite et de haut en
bas). Au bout d’une vingtaine de secondes, on contrôle de
nouveau la production. Les sujets disposent d’environ cinq
minutes pour résoudre les problèmes suivants. On leur a indiqué
que les problèmes deviennent vite difficiles, qu’il faut toujours
utiliser la même méthode pour les résoudre, qu’il s’agit d’une
série d’apprentissages et que l’essentiel n’est pas de résoudre tous
les problèmes mais d’apprendre la méthode à mettre en œuvre,
méthode que la consigne ne définit pas. Elle consiste en fait à
Figure 2. Item nº 1 de la première série des matrices progressives

(reproduit avec l’autorisation des Établissements d’applications psychotechniques)
1 2 3 4
5 6 7 8
chercher des régularités ou des règles de transformation en ligne

et en colonne. L’item nº 10 est reproduit à la figure 3.
On passe ensuite à la seconde série d’items. La consigne
indique qu’il s’agit du test proprement dit, que les problèmes à
résoudre sont semblables à ceux de la première série, que leur
difficulté progresse plus lentement et qu’il est préférable de
résoudre les problèmes dans l’ordre de leur présentation. Lorsque
l’épreuve est appliquée en temps limité, les sujets disposent de
quarante minutes (cf. figure 4, l’item nº 19 de la version de 1962
qui est un item de difficulté moyenne). Le score du sujet au test
Figure 3. Item nº 10 de la première série des matrices progressives

(ibid.)
1 2 3 4
5 6 7 8
(score brut ou score d’échelle) est le nombre de problèmes

résolus.
Les propriétés formelles des tests
La standardisation
Les tests sont des procédures d’observation standardisée. La

standardisation porte sur la situation d’observation, sur les
consignes et sur la cotation. Dans le test de Raven, les problèmes
Figure 4. Item nº 19 de la seconde série des matrices progressives

(ibid.)
1 2 3 4
5 6 7 8
posés sont strictement identiques pour tous les sujets puisqu’ils

figurent sur des cahiers imprimés. Lorsque le test nécessite la
manipulation d’un matériel, celui-ci est toujours décrit avec une
très grande précision. Nous avons donné seulement un résumé
des consignes du test de Raven. Dans le manuel du test, elles
sont l’objet d’une rédaction détaillée et il est fortement recom-
mandé à celui qui applique le test de ne pas s’en écarter. Enfin,
la manière de calculer le score brut de chaque sujet est toujours
parfaitement explicitée. Dans les tests de groupe, c’est-à-dire les
tests conçus pour pouvoir être administrés collectivement
(comme le test de Raven), elle est d’une très grande simplicité
puisqu’il suffit généralement d’ajouter des bonnes réponses.

Dans d’autres formes de tests, la correction est plus complexe
mais on dispose toujours d’indications très précises. Prenons, par
exemple, des tests de vocabulaire où le sujet doit produire la défi-
nition d’un mot. On trouve dans le manuel du test la descrip-
tion, accompagnée d’exemples, de plusieurs niveaux de
définitions susceptibles d’être produites par les sujets, avec indi-
cation du nombre de points à attribuer dans chaque cas.
Cette standardisation a une fonction unique : rendre l’évalua-
tion objective, c’est-à-dire éviter que le constat des différences
entre les individus soit influencé par la subjectivité de l’observa-
teur, ou, en d’autres termes, permettre qu’il y ait un accord sur
l’évaluation des performances entre des observateurs différents.
On sait très bien qu’il n’en va pas ainsi dans les procédures
d’observation libre où la situation dans laquelle on place le sujet,
les indications qui lui sont données et le mode d’évaluation de
ses réponses sont mal définies. Les différences que l’on relève
alors entre sujets proviennent tout autant de la variabilité de ces
paramètres, d’un observateur à l’autre, que du comportement
effectif des sujets. La procédure d’observation standardisée se
distingue aussi nettement de la notation des productions
scolaires. Dans ce cas, le même devoir étant donné à tout le
monde dans les mêmes conditions, on peut considérer que la
situation et les consignes sont standardisées. Mais la correction
ne l’est généralement pas (un effort est cependant accompli dans
ce sens avec l’établissement d’un barème). Les différences entre
élèves sont alors ambiguës. Les travaux de docimologie ont régu-
lièrement montré depuis plus de soixante ans (cf. de Land-
sheere [1992]) que ces différences étaient attribuables, pour une
part que l’on sous-estime toujours, aux différences de sévérité
des correcteurs, à l’usage variable qu’ils font de l’échelle de nota-
tion (certains, par exemple, notent entre 5 et 15, d’autres entre 8
et 12), ou encore au fait qu’ils ne sont pas unanimes pour définir
l’importance des objectifs éducatifs et les hiérarchiser.
Si la standardisation permet une évaluation objective, il faut
cependant noter qu’elle conduit souvent à un certain rétrécisse-
ment du champ d’observation, qu’elle est surtout facile à mettre
en œuvre pour l’évaluation des performances et qu’elle n’est
jamais un indice de pertinence ou de validité. La standardisa-
tion de la situation et des consignes ne réduit pas nécessaire-
ment le répertoire comportemental des sujets. Si la situation est
faiblement structurée et la conduite peu finalisée, les sujets sont
incités à fournir des réponses variées. Il en va ainsi, par exemple,

dans les tests dits de créativité où l’on demande d’imaginer tous
les usages possibles d’un objet comme une brique ou une boîte.
Mais, très souvent, la standardisation est telle que le sujet ne
peut manifester qu’un nombre limité de comportements, ceux
précisément que la cotation prend en compte. Revenons au test
de Raven. La situation a été définie de telle sorte que l’observa-
tion porte essentiellement sur le choix de l’une des huit figures
proposées. En fait, d’autres observations sont possibles : parmi
les non-réussites, on peut distinguer les erreurs et les omissions,
on peut se demander comment se répartissent ces non-réussites
en fonction du degré de difficulté des items, s’interroger sur la
nature des erreurs, etc. Mais il n’en reste pas moins que la situa-
tion d’observation est peu propice à l’apparition de comporte-
ments variés.
En principe, tout phénomène psychologique qui se mani-
feste par un comportement peut être l’objet d’une observation
standardisée. Cette observation peut être provoquée et prendre
des formes complexes. C’est ainsi que l’on a mis au point des
procédures de questionnement standardisées permettant de faire
apparaître, éventuellement, certaines conduites qui témoignent
de l’existence de structures mentales ou de modalités de traite-
ment de l’information particulières. On trouve des exemples de
telles procédures dans certains tests construits à partir de la
théorie de Piaget (cf. chapitre III). Mais il est toujours plus diffi-
cile d’observer objectivement des processus de pensée qui se
caractérisent par leur aspect qualitatif et leur dimension tempo-
relle qu’une simple efficience. Aussi, dans la plupart des tests
actuellement en usage, se limite-t-on à évaluer la qualité de la
performance du sujet en comptant un nombre de bonnes
réponses ou en mesurant la durée nécessaire à l’exécution d’une
tâche.
L’objectivité permise par la standardisation est une qualité
nécessaire des observations. En son absence on ne sait plus trop
ce qui, dans la conduite d’un sujet, est attribuable au sujet lui-
même et ce qui est attribuable à celui qui l’observe, et, par voie
de conséquence, les observations recueillies sont peu utilisables
à des fins de recherche ou à des fins pratiques. Mais l’objectivité
n’est pas une qualité suffisante. On doit s’assurer que l’observa-
tion porte bien sur des aspects pertinents de la conduite. On doit
s’assurer également que l’accord entre les observateurs n’est pas
le résultat d’une erreur d’observation systématique qui leur serait
commune, auquel cas il ne pourrait conduire qu’à des conclu-

sions ambiguës, voire même erronées.
Niveau de difficulté des items et unidimensionnalité de l’échelle
Le test doit permettre de différencier les individus, soit en les

répartissant dans diverses classes non ordonnées, soit, ce qui est
le cas le plus fréquent, en les situant les uns par rapport aux
autres sur un continuum (une dimension). Nous nous placerons
dans le cas où l’on se propose de les situer sur un continuum.
Afin de différencier finement les individus, il est souhaitable de
disposer d’items de niveaux de difficulté gradués. L’item est
d’autant plus difficile, pour les sujets d’un groupe, que sa
fréquence de réussite dans ce groupe est faible. Les items trop
faciles (réussis par presque tous) ou trop difficiles (presque tous
échouent) ne contribuent pas à la différenciation des individus.
Voici quelques données sur le niveau de difficulté des items du
test de Raven. Elles ont été recueillies sur un échantillon de plus
d’un millier d’adolescents allemands de 15 ans scolarisés. Pour la
série I, le pourcentage de réussite aux items varie de 93 % (item
nº 1) à 42 % (item nº 11). L’item nº 10 (figure 3) a été réussi par
82 % des sujets. Pour la série II, ces pourcentages varient de 85 %
(item nº 1) à 4 % (item nº 36). L’item nº 19 (figure 4) a été réussi
par 60 % des sujets. Pour chaque série, l’ordre de présentation
des items est très proche de leur ordre de difficulté.
Le score brut des sujets au test doit permettre de les situer sur
une dimension. Dans le cas du test des matrices progressives,
cette dimension peut être appelée « plus ou moins grande effi-
cience dans le raisonnement inductif » ou « capacité à raisonner
inductivement ». L’existence de cette dimension doit être
établie. Il n’y aurait aucun sens à ajouter les réussites aux items
si chaque item n’évaluait pas, à des degrés divers, la capacité à
raisonner inductivement. L’existence d’une dimension est
fondée à la fois sur des considérations théoriques et sur des
critères formels. D’un point de vue théorique, nous reviendrons
sur ce point, il est possible de considérer que tous les items du
test de Raven sont susceptibles de mettre en jeu le raisonnement
inductif ou, plus exactement, une certaine forme de raisonne-
ment inductif. D’un point de vue formel, on doit s’assurer que la
réussite à un item est bien associée au score global auquel elle
doit contribuer. S’il en va ainsi pour tous les items, on admettra
que l’échelle est unidimensionnelle. Plusieurs méthodes peuvent
être utilisées pour vérifier cette unidimensionnalité. Nous en

évoquerons deux : le calcul de coefficients de corrélation item-
test et l’établissement de courbes caractéristiques des items, et
nous les présenterons en reprenant l’exemple du test de Raven.
La corrélation item-test. — Lorsque le test a été appliqué, chaque

sujet est caractérisé par un score pour chaque item (1 ou 0) et
par un score total (12 points au maximum pour la série I et 36
pour la série II). Si un item mobilise la même capacité que
l’ensemble des items, le score à l’item devra être en corrélation
avec le score au test. En d’autres termes, la réussite à l’item doit
être plus fréquente pour ceux qui ont des scores élevés au test. Le
diagramme de corrélation pour un item de la série I est repré-
senté sur le tableau I.
Tableau I. Diagramme de corrélation entre le score à un item (y)

et le score au test (x) des matrices progressives (série I)
Score au test (x)
0 1 2 3 4 5 6 7 8 9 10 11 12 n
Score à 1 2 3 5 12 16 12 5 3 2 60
l’item (y) 0 1 4 9 12 9 4 1 40
Le score de l’item est 1 ou 0. Le score au test varie de 0 à 12.

Sur 100 sujets qui ont passé le test, 60 ont réussi l’item et 40 ont échoué (colonne n).
Sur les 60 qui ont réussi l’item, 2 ont obtenu le score 4 au test, 3 ont obtenu le score 5,
etc.
Sur les 40 qui ont échoué à l’item, 1 a obtenu le score 2 au test, 4 ont obtenu le score 3,
etc.
Le coefficient de corrélation entre l’item et le test (ici il s’agit d’un coefficient de corré-
lation bisériale) est 0,85. Il traduit le fait que la plupart des sujets qui ont réussi l’item
ont un score élevé (50 sur 60 ont plus de 6) alors que la plupart de ceux qui ont échoué
à l’item ont un score faible au test (26 sur 40 ont moins de 6).
Voici, pour le test de Raven, les corrélations item-test calculées

sur l’échantillon d’adolescents allemands. Pour la série I, les
coefficients de corrélation item-test varient de 0,41 à 0,60 2. Pour
2. La corrélation est le degré de dépendance entre deux variables. Les coefficients de

corrélation varient de + 1 à – 1. Un coefficient égal à + 1 exprime une relation
directe parfaite entre les deux variables. Dans cet exemple, il indiquerait par
exemple que tous les sujets qui ont réussi l’item sont aussi ceux qui ont le meilleur
score à l’épreuve. Un coefficient égal à – 1 exprime une relation inverse (les sujets
la série II, ils varient de 0,11 à 0,61. On peut constater que tous
les coefficients de corrélation item-test sont positifs et que ceux
qui sont faibles sont peu nombreux (sur les 36 coefficients de la
série II, 7 sont inférieurs à 0,30). Pour l’item nº 10 de la série I
(figure 3), la corrélation item-test est 0,51 (calculée sur le score
de la série I) et pour l’item nº 19 de la série II (figure 4) elle est
0,43 (calculée sur le score de la série II).
Les courbes caractéristiques des items. — Elles fournissent en

même temps des informations sur le degré de difficulté des items
et sur leur relation au score d’échelle. Pour construire ces
courbes, on porte le score d’échelle en abscisse et, en ordonnée,
pour chaque valeur du score d’échelle, le pourcentage de sujets
qui ont réussi l’item. On peut voir sur la figure 5 les courbes
correspondant aux 12 items de la série I. L’item nº 10, par
exemple (représenté par la courbe numéro 10), a été réussi par
environ 30 % des sujets qui ont eu un score de 6 au test et par
environ 75 % de ceux qui ont eu un score de 8. Les courbes les
plus satisfaisantes sont celles où l’on peut observer une progres-
sion régulière lorsque l’on passe des scores d’échelle faibles à des
scores d’échelle élevés. Elles montrent que l’item contribue à la
différenciation des sujets et que la capacité évaluée par l’item est
voisine de celle évaluée par le test. Au moment de la construc-
tion du test et de sa révision de 1962, les items ont été sélec-
tionnés après examen des courbes caractéristiques.
Il y a d’autres moyens pour apprécier l’unidimensionnalité de
l’échelle : vérifier que toutes les intercorrélations entre items
sont fortes, vérifier que la réussite à un item d’un certain niveau
de difficulté implique la réussite aux items de niveau de diffi-
culté inférieur.
Les étalonnages
Le score brut au test donne une indication sur la performance

du sujet, mais ne permet pas de comparer cette performance à
celle des sujets d’un groupe de référence. À cette fin, les scores
qui ont réussi à l’item sont ceux qui ont les scores les plus bas à l’épreuve). Un
coefficient nul traduit l’absence de relation entre les deux variables. Des coeffi-
cients comme ceux indiqués ci-dessus, de 0,40 à 0,60, correspondent à une relation
directe de force modérée.
Figure 5. Courbes caractéristiques des 12 items de la série I

des matrices progressives
100 1
2
4
3
75
% de réussite
pour chaque
item
50
5
6
7
25 10
12
8
9
11
0
5 6 7 8 9 10 11 12
score total
bruts sont transformés en scores étalonnés. Les étalonnages sont

des systèmes de catégories ordonnées dans lesquelles il est
possible de ventiler tous les sujets d’un groupe de référence.
On distingue deux grandes catégories d’étalonnages selon que
les catégories ordonnées sont de même effectif (quantilages) ou
correspondent à la partition, selon certaines règles, d’une distri-
bution de Laplace-Gauss (échelles normalisées).
Les quantilages
Dans les quantilages, le quantile est la limite entre 2 caté-

gories. Ces limites sont des quartiles dans les étalonnages à
4 catégories, des déciles dans les étalonnages à 10 catégories et
des centiles ou percentiles dans les étalonnages à 100 catégories.
Le vocabulaire n’étant pas fixé, on appelle aussi fréquemment
« quantile » les catégories elles-mêmes. Dire que le sujet est dans
le 3e décile signifie alors qu’il se situe dans un groupe compor-
tant 10 % des sujets et situé de telle sorte que 20 % ont des
scores supérieurs à ce groupe et 70 % des scores inférieurs. La
construction de ces étalonnages est très simple : il suffit de

regrouper les notes brutes de telle sorte que l’on obtienne des
catégories de même effectif. On peut aussi établir un centilage en
calculant directement le pourcentage de sujets qui ont obtenu
une note brute donnée ou des notes inférieures. On trouvera au
tableau II un exemple d’étalonnage en centiles de la série II du
test de Raven appliqué en temps libre à des étudiants de l’univer-
sité de Californie.
Tableau II. Étalonnage en centiles de la série II (1962)

des matrices progressives (niveau supérieur)
appliquée en temps libre à des étudiants
de l’université de Californie à Berkeley (publié en 1985)
Score brut Percentile Score brut Percentile
13 1 26 43
15 3 27 52
17 4 28 57
18 6 29 65
19 7 30 74
20 11 31 81
21 14 32 86
22 18 33 89
23 24 34 93
24 29 35 98
25 37 36 100
1 % des étudiants ont un score brut égal ou inférieur à 13.

3 % des étudiants ont un score brut égal ou inférieur à 15.
Etc.
Cet étalonnage permet de situer un sujet quelconque par rapport aux étudiants améri-
cains de l’université de Berkeley.
Supposons qu’un sujet ait obtenu un score brut de 25. 8 % des étudiants américains
ont obtenu ce score (37-29), 29 % ont eu des scores inférieurs et 63 % (100-37) des
scores supérieurs. Ce sujet se situe donc à peu près aux deux tiers de la distribution des
étudiants américains.
Les échelles normalisées
Les effectifs des catégories d’une échelle normalisée sont

définis à partir des propriétés de la distribution théorique de
Laplace-Gauss, dite aussi distribution « normale ». La courbe
représentant cette distribution est une courbe en cloche symé-
trique (figure 6). Elle indique comment se répartissent des
effectifs (portés en ordonnée) en fonction des valeurs d’une
variable (portées en abscisse). Connaissant la moyenne et l’écart

type 3 d’une distribution gaussienne, on peut calculer la fraction
de la population qui se situe en deçà ou au-delà d’une valeur de
la variable, ou entre deux valeurs de la variable (le résultat de
ces calculs est lu dans des tables). Si on exprime la valeur de la
variable en unité d’écart type à partir de la moyenne, on sait que
6,7 % de la population se situent au-delà de 1,5 écart type, que
24,2 % de la population se situent entre 0,5 et 1,5 écart type, etc.
(figure 6).
Figure 6. La distribution théorique de Laplace-Gauss
38,2 %
24,2 % 24,2 %
6,7 % 6,7 %
– 3/ – 1/ 1/ 3/ X
2 2 2 2
On peut représenter la distribution des notes brutes observée

à un test par une courbe obtenue en figurant les effectifs en
ordonnée et les notes brutes en abscisse. Il n’y a aucune nécessité
pour qu’une telle courbe soit identique à la courbe théorique de
Laplace-Gauss. Mais on peut, c’est le principe de la construc-
tion des échelles normalisées, ou de la « normalisation »,
regrouper les scores bruts afin de constituer de nouvelles classes
dont la distribution sera proche de la distribution de Laplace-
Gauss. Pour construire une échelle normalisée en 5 classes, on
constituera une première classe avec 6,7 % des sujets les plus
efficients, puis une seconde classe avec 24,2 % des sujets
suivants, etc. Si on représente graphiquement la distribution de
ces classes, en attribuant à chacune d’elles un même intervalle
sur l’axe des abscisses, on obtient un histogramme qui est proche
de la courbe de Laplace-Gauss (figure 7).
3. L’écart type évalue la dispersion des scores autour de la moyenne de la distribution.

Il correspond à l’écart moyen des scores des sujets à la moyenne. Il est calculé en
prenant la racine carrée de la variance V = S (x – mx)2/n où les x sont les scores des
sujets, mx la moyenne des scores x et n l’effectif de l’échantillon sur lequel la
variance est calculée.
Figure 7. Histogramme correspondant à la distribution

de Laplace-Gauss
# 38,2 %
# 24,2 % # 24,2 %
# 6,7 % # 6,7 %
5 4 3 2
On trouvera au tableau III un exemple d’étalonnage en 5 caté-

gories normalisées de la série II (version de 1947) du test de
Raven appliquée en quarante minutes à une population fran-
çaise de niveau ingénieur.
Tableau III. Étalonnage en 5 catégories normalisées

de la série II (1947) des matrices progressives (niveau supérieur)
appliquée en 40 min à 200 adultes de 25 à 40 ans,
ingénieurs, possédant au moins une licence ès sciences
ou le diplôme d’une grande école scientifique
et résidant la région parisienne
(cet étalonnage porte sur la version de l’épreuve qui comportait 48 items)
Classes normalisées Scores bruts
5 41 et plus
4 36 à 40
3 32 à 35
2 27 à 31
1 26 et moins
Environ 6,7 % des sujets ont un score au moins égal à 41.

Environ 24,2 % des sujets ont un score au moins égal à 36 et inférieur à 41.
Environ 6,7 % des sujets ont un score au moins égal à 26.
Un sujet quelconque qui a 39 pour score brut peut être situé dans un groupe d’ingé-
nieurs qui comprend environ 24,2 % de la population, 6,7 % ont des scores supérieurs
à ce groupe et 69,1 % des scores inférieurs.
Le choix d’un type d’étalonnage est guidé par des raisons de

commodité. Si l’on souhaite différencier finement les sujets, on
choisira un étalonnage comportant de nombreuses catégories.
On considère généralement qu’il est plus facile de distinguer les
sujets aux extrémités d’une distribution que vers son centre où

beaucoup sont proches de la moyenne. Cela conduit à préférer
aux quantilages les échelles normalisées dans lesquelles les
effectifs sont plus nombreux dans les classes centrales que dans
les classes extrêmes. À des fins pratiques, il est toujours utile de
disposer d’étalonnages relatifs à plusieurs groupes de référence.
Les notes étalonnées permettent aussi des comparaisons intra-
individuelles. Si un sujet est mieux classé dans une épreuve
verbale que dans une épreuve de raisonnement, on pourra dire
que sa capacité verbale est supérieure à sa capacité à raisonner.
Les comparaisons intra-individuelles sont facilitées par l’établis-
sement de profils. Un exemple de profil est présenté figure 8.
Figure 8. Profil psychologique d’un sujet établi à partir

des scores étalonnés (échelles normalisées en 5 classes) à trois tests
1 2 3 4 5
test verbal .......................................................................................................
test numérique ................................................................................................
test spatial .......................................................................................................
Le quotient intellectuel
Il existe deux définitions du « quotient intellectuel » (QI).

Cette expression peut désigner un indice de vitesse du dévelop-
pement intellectuel (QI-Stern) ou une mesure de l’efficience rela-
tivement à la moyenne d’un groupe, c’est-à-dire une forme
d’étalonnage (QI-Wechsler). La première définition est la plus
ancienne. C’est celle qui a été donnée dans le premier chapitre
lors de la présentation de l’échelle d’intelligence mise au point
par Binet. La seconde définition est très nettement la plus
utilisée aujourd’hui.
Très commode, le QI-Stern, c’est-à-dire le QI défini par le
rapport de l’âge mental sur l’âge chronologique, eut beaucoup de
succès, mais on prit assez vite conscience de deux de ses limites.
Une première limite provient de ce que l’indice est inadapté à la
description des différences entre les adultes. Certes, le dévelop-

pement ne s’arrête pas après l’adolescence, mais, à partir de
l’adolescence, il change de rythme et, radicalement, de nature.
S’il paraît assez naturel d’attribuer à un enfant de 10 ans un âge
mental de 12 ans il serait plutôt étrange d’attribuer à un adulte
de 45 ans un âge mental de 52 ans. La notion d’âge mental et,
par conséquent, celle de QI n’est pertinente que pour la période
rapide du développement qui couvre l’enfance et le début de
l’adolescence. On a bien essayé de caractériser les adultes par un
QI de type Stern (en choisissant arbitrairement un même âge
chronologique pour tous les adultes et en faisant correspondre,
tout aussi arbitrairement, des âges mentaux aux performances),
mais ces tentatives sont demeurées peu convaincantes et ont été
abandonnées. La seconde limite du QI-Stern est d’une autre
nature. La moyenne des QI est la même à chaque âge (et égale
à 100) par définition, mais il n’en va pas de même de leur disper-
sion. À certains âges, celle-ci est resserrée, à d’autres elle est plus
étalée, sans que cela ait une signification particulière en termes
de développement. Ce phénomène s’explique par le fait qu’à
chaque âge les items sont inégalement représentatifs de cet âge.
Un item est bien représentatif d’un âge lorsqu’il s’écoule peu de
temps entre le moment où il est réussi par quelques-uns et celui
où il est réussi par presque tous. Il s’ensuit une certaine ambi-
guïté dans la signification du QI lorsque l’on compare des sujets
d’âges différents : selon l’âge, la proportion des sujets dépas-
sant un QI donné varie. Ces deux limites ont conduit plusieurs
auteurs, dont Wechsler vers la fin des années trente, à définir le
QI d’une tout autre manière.
Le QI de type Wechsler a la propriété essentielle de ne pas
être un « quotient ». Il aurait, certes, été préférable de trouver un
autre nom à cet indice, mais celui de QI a été conservé pour de
mauvaises raisons, tenant à la popularité du sigle. Le QI-Wech-
sler est uniquement un indice d’efficience qui permet de situer
le sujet au sein de son groupe d’âge, sans aucune référence au
développement. Pour établir de tels QI, on opère une transfor-
mation des scores bruts afin d’obtenir une nouvelle distribution
des scores, que l’on appellera des QI, ayant la forme de la distri-
bution de Laplace-Gauss (normalisation), une moyenne égale à
100 et un écart type égal à 15. Cette transformation des notes
brutes est légitime puisqu’elle ne modifie pas l’ordre des sujets.
Les valeurs 100 et 15 sont conventionnelles et on peut en choisir
d’autres (mais alors on ne parle plus de QI) 4. Connaissant la

note en QI d’un sujet, on sait alors comment il se situe dans le
groupe de référence. Dire qu’un sujet a un QI de 100, c’est dire
qu’il a autant de sujets devant lui que derrière lui, et ce n’est
dire que cela. Dire qu’un sujet a un QI de 115, c’est dire qu’il a
environ 16 % des sujets de son groupe d’âge devant lui (16 % est
la fraction de la population qui dépasse la valeur « moyenne +
un écart type » lorsque la distribution est gaussienne). Avec ce
type de QI, il est évidemment tout à fait possible de caractériser
des adultes. Par ailleurs, la dispersion des QI individuels est, par
construction, la même à tous les âges. Mais ce QI n’est qu’une
forme d’étalonnage parmi d’autres et il est donc possible, cela
se fait d’ailleurs couramment, d’exprimer en QI les résultats à
n’importe quel test. On trouvera dans le tableau IV une table des
correspondances entre les QI et les percentiles.
Tableau IV. Table de correspondance entre QI et centiles
QI Centiles
130 2
125 5
120 9
115 16
110 25
105 37
100 50
95 63
90 75
85 84
80 91
75 95
70 98
2 % de la population ont un score supérieur au sujet qui a un QI de 130.
4. Ces valeurs sont conventionnelles, mais pas choisies tout à fait au hasard : 100 est
par définition le QI moyen d’un groupe d’âge lorsque le QI est défini par le
quotient de l’âge mental et de l’âge chronologique, et 15 est approximativement la
valeur observée pour les écarts types des échelles de QI type Stern (avec les fluc-
tuations dont il a été question plus haut). En choisissant ces valeurs plutôt que
d’autres, on assure donc une certaine correspondance entre le QI trouvé avec une
échelle de type Wechsler et le QI trouvé avec une échelle de type Stern. C’est sur
cette base fragile que l’on s’appuie pour appeler QI le score standard total obtenu
avec une échelle de type Wechsler.
Nous évoquerons au chapitre IV les débats et polémiques à

propos du « QI ». En fait, ces débats portent sur le contenu de
certains tests et sur la signification de leurs résultats, non sur le
mode d’étalonnage choisi pour les décrire.
Les erreurs de mesure
Les erreurs de mesure peuvent provenir du moment auquel

on procède à la mesure ou du dispositif même choisi pour la
réaliser.
La stabilité ou constance
Lorsqu’on applique un test à un groupe, il y a toujours

quelques sujets qui ne sont pas très en forme (ils peuvent être
malades, avoir des préoccupations qui les gênent pour fixer leur
attention, etc.) tandis que d’autres sont bien mobilisés par la
tâche. Si on avait appliqué le test à d’autres moments, ce sont
d’autres sujets qui n’auraient pas été très en forme ou qui
auraient été bien mobilisés. Le score d’un sujet peut ainsi varier,
de manière imprévisible dans la mesure où les causes de cette
variation ne sont pas analysées, en fonction du moment de
l’observation. La mesure est donc entachée d’une erreur aléatoire
tenant à ce facteur temporel. On dit qu’elle n’est pas parfaite-
ment fidèle, ou, plus précisément, qu’elle manque de stabilité
ou de constance. Il serait, certes, souhaitable de disposer de
mesures « sans erreur ». Pour cela, on pourrait envisager d’appli-
quer l’épreuve un grand nombre de fois aux mêmes sujets et de
faire la moyenne des scores obtenus à chaque fois. Les « erreurs »
qui avantagent le sujet seraient ainsi compensées par celles qui
le désavantagent. Mais une telle procédure n’est pas praticable.
Non seulement elle serait trop coûteuse en temps, mais au cours
des premières répétitions les sujets apprendraient, plus ou moins
rapidement, à résoudre les problèmes du test et, pour beaucoup
d’entre eux, ces problèmes cesseraient vite d’être intéressants. Or
les phénomènes d’apprentissage et de démotivation ne peuvent
être considérés comme des erreurs de mesure. Le test est donc
appliqué une seule fois. Mais son utilisateur dispose d’informa-
tions sur sa stabilité qui lui permettent d’accorder une confiance
plus ou moins grande à la mesure réalisée.
Pour évaluer la stabilité d’un test, on l’applique à deux reprises

(apprentissage et démotivation se manifestent alors faiblement)
à un même groupe de sujets et l’on calcule un coefficient de
corrélation entre les deux séries de scores. Ce coefficient est un
coefficient de constance ou de stabilité. S’il est élevé, c’est-à-dire
si les individus se classent à peu près de la même manière à la
première et à la seconde passation, on considérera que la mesure
est stable, faiblement entachée d’erreurs attribuables au moment
de l’observation. Dans le cas contraire, si le coefficient de corré-
lation est faible, la mesure est peu stable et elle ne nous permet
pas de caractériser le sujet de façon fiable. Le tableau de corréla-
tion du tableau V correspond à un coefficient de fidélité de 0,61.
Tableau V. Tableau de corrélation entre la première

et la seconde passation d’un test
120-124 1
115-119 1 1 1
110-114 1 2 1
105-109 1 4 4 6 2
Seconde
passation 100-104 7 5 7 2 1
95-99 1 4 2 9 4 2
90-94 1 1 2 5 1
85-89 1 3 1 1
80-84 2
60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99
Première passation
85 sujets ont passé un test à deux reprises. Sur les 3 sujets qui ont obtenu un score
compris entre 60 et 64 à la première passation, un a obtenu un score compris entre 85
et 89 à la seconde, un autre un score compris entre 90 et 94 et le troisième un score
compris entre 95 et 99.
Ceux qui ont obtenu un score élevé à la première passation ont tendance à obtenir
aussi un score élevé à la seconde. La corrélation est positive et modérée (0,61). On note
un effet d’apprentissage : le score moyen à la seconde passation est plus élevé qu’à la
première.
Les coefficients de stabilité des tests d’intelligence, calculés à

des intervalles de plusieurs semaines ou de plusieurs mois, sont
toujours élevés. Appliqué à des adolescents ou à des adultes, le
test de Raven a une stabilité de l’ordre de 0,90. Un tel coeffi-
cient indique que les sujets se classent pratiquement de manière
identique à chacune des passations et donc que l’erreur attri-

buable au moment de l’application est négligeable.
L’équivalence et l’homogénéité
Les erreurs de mesure peuvent aussi trouver leur origine dans

le choix des situations proposées aux sujets. Ce choix porte
d’abord sur une catégorie de situations, puis sur des situations
plus spécifiques. Pour évaluer la capacité à raisonner inductive-
ment, Raven a d’abord choisi des problèmes de matrices à
compléter et il a ensuite donné une forme particulière à ces
problèmes. Ces types de choix n’ont pas le même statut. Le
choix d’une catégorie de situations est en rapport avec le degré
de généralité de la dimension au long de laquelle on ordonne
les sujets. Existe-t-il une dimension générale du raisonnement
inductif, c’est-à-dire une capacité qui serait à l’œuvre non seule-
ment dans les tests de matrices, mais aussi, par exemple, dans la
recherche des lois de transformation dans des séries de lettres
ou de chiffres, voire sur des contenus ayant une signification ?
Ou, au contraire, faut-il distinguer plusieurs dimensions, par
exemple, l’une qui concernerait la capacité à raisonner inducti-
vement sur des problèmes de matrices, et une autre qui concer-
nerait la capacité à raisonner inductivement sur des séries de
chiffres ? Nous reprendrons ces questions à propos de la vali-
dité théorique. Une catégorie de situations étant choisie, il reste
à donner un contenu à chacun des problèmes. La liste des
contenus possibles est quasi infinie et il y a toujours beaucoup
d’arbitraire à choisir certains contenus plutôt que d’autres.
D’autres problèmes de matrices que ceux retenus par Raven
auraient apparemment tout aussi bien fait l’affaire, mais on n’en
est pas très sûr. On doit donc se demander dans quelle mesure le
score d’un sujet n’est pas affecté par le caractère spécifique des
situations problèmes qui lui sont proposées.
Pour évaluer le poids des ces erreurs tenant à la situation, on
peut construire des formes parallèles d’un même test, c’est-à-dire
plusieurs tests destinés à évaluer la même capacité et faisant
appel au même type de situations, mais réalisées différemment
dans chaque test. Si on souhaite, par exemple, évaluer l’étendue
du vocabulaire en situation de production de définitions, on
peut constituer plusieurs listes de mots à définir, semblables à
divers points de vue (la fréquence d’usage des mots dans la
langue, leur caractère plus ou moins abstrait, etc.), mais
néanmoins différentes. Le coefficient de corrélation entre deux

formes parallèles, ou coefficient d’équivalence, nous indiquera
dans quelle mesure les observations sont fidèles relativement au
choix des situations. Un coefficient élevé signifie que les sujets
se classent de la même manière dans chaque épreuve, et donc
que les erreurs tenant au choix de la situation sont négli-
geables. Un coefficient faible indiquera que le classement des
sujets varie avec le contenu des situations. Comme cette varia-
tion est imprévue et non expliquée, la signification des deux
épreuves utilisées est alors ambiguë.
Lorsqu’on est en présence d’un test constitué d’une série
d’items suffisamment longue, les formes parallèles peuvent être
construites en constituant un test avec les items pairs et un autre
test avec les items impairs. Le coefficient de corrélation entre
ces deux moitiés de tests, appelé coefficient d’homogénéité, a la
même signification que le coefficient d’équivalence. On peut
noter que ce coefficient d’homogénéité caractérise seulement
une moitié de test et qu’il sous-estime la fidélité du test entier ;
et aussi que le coefficient d’homogénéité ne prend en compte
que les erreurs dues à la situation alors que le coefficient d’équi-
valence prend aussi en compte des erreurs dues au moment de
l’observation puisqu’il n’est pas possible de passer deux tests à la
fois.
Les coefficients d’équivalence et d’homogénéité des tests
d’intelligence sont généralement élevés. Par exemple, calculés
sur des groupes d’étudiants de divers pays, les coefficients
d’homogénéité de la série II du test de Raven s’échelonnent de
0,71 à 0,83.
Les erreurs de mesure peuvent aussi trouver leur origine dans
la subjectivité des observateurs. Nous avons vu, au début de ce
chapitre, que la fonction de la standardisation était précisé-
ment de réduire les effets de cette subjectivité. Aussi le poids des
sources d’erreur relatives à l’observateur est-il très faible dans les
tests.
La validité
Quel est l’intérêt pratique d’un test et quelle est la significa-

tion des mesures qu’il permet de réaliser ? En se posant ces ques-
tions on s’interroge sur la validité empirique et sur la validité
théorique de l’épreuve.
La validité empirique
À des fins pratiques, les tests sont utilisés comme des outils
de diagnostic ou de pronostic et ils sont valides s’ils contribuent
effectivement à des diagnostics qui se révéleront exacts ou à de
bons pronostics.
En tant qu’outils de diagnostic, ils peuvent permettre, par
exemple, une meilleure compréhension de l’origine de certaines
difficultés scolaires ou de certains troubles du comportement, et
donc des remédiations mieux adaptées. On dira, par exemple,
qu’un test de structuration spatiale est valide si, étant en corré-
lation avec des difficultés d’apprentissage en lecture, il permet de
préciser l’origine de difficultés particulières, ou encore qu’un test
de mémoire est valide s’il permet de distinguer des patients souf-
frant de troubles de la mémoire d’origine différente. Cette vali-
dité diagnostique se manifeste au cours de la pratique clinique et
n’est pas formalisée. Elle entretient des liens étroits avec la vali-
dité théorique. En effet, une observation réalisée au moyen de
tests a d’autant plus de chances d’être utile pour un diagnostic
qu’elle prend place dans un modèle éprouvé du fonctionnement
psychologique du sujet.
En tant qu’outils de pronostic, les tests fournissent des infor-
mations qui peuvent être utiles pour mettre en place des actions
de prévention, concevoir des formations adaptées à ceux à qui
elles sont destinées, fonder des conseils d’orientation ou des
décisions de recrutement. La validité pronostique est bien forma-
lisée et peut être exprimée sous forme de coefficients.
Pour juger de la valeur prédictive d’un test, une étude préa-
lable est nécessaire. Le test est appliqué à un groupe de sujets et,
quelques mois ou quelques années plus tard, on observe la posi-
tion des sujets sur la variable que l’on envisage par la suite de
pronostiquer (on appelle cette variable un critère ; il peut s’agir,
par exemple, de la réussite dans une formation ou de l’adapta-
tion à une profession). On dispose alors pour les même sujets de
deux séries d’observations dont on mesure le degré d’association
en calculant un coefficient de corrélation qui est le coefficient
de validité pronostique du test pour le critère considéré (et pour
les sujets examinés). Un coefficient élevé indique qu’un bon
pronostic était possible. On pourra alors utiliser cette informa-
tion pour faire de véritables pronostics. On prédira des notes
élevées sur le critère pour ceux qui ont obtenu des notes élevées
au test (prédicteur). En procédant ainsi, on admet que les
facteurs qui ont expliqué la réussite au critère dans le passé

l’expliqueront aussi dans le futur, ce qui suppose une assez
bonne stabilité de l’environnement des sujets et, si celle-ci n’est
pas assurée, une révision fréquente des validités. Si le coefficient
de corrélation entre le test et le critère est faible, on ne pourra
faire que des pronostics médiocres et il sera alors raisonnable de
s’abstenir de tout pronostic concernant les individus.
L’examen du diagramme de corrélation permet de préciser les
valeurs du critère pronostiquées et l’importance de l’erreur de
pronostic. Pour une valeur donnée du prédicteur on pronostique
la moyenne des notes obtenues au critère pour les sujets ayant
obtenu cette note au prédicteur. L’écart moyen entre cette note
moyenne et les notes effectivement observées est une mesure de
la précision du pronostic (cf. tableau VI).
Citons à titre d’exemple les travaux où l’on se propose de
pronostiquer la réussite scolaire d’adolescents à partir des
matrices progressives de Raven (niveau supérieur). Les coeffi-
cients de validité pronostique sont de l’ordre de 0,40 pour la
connaissance de la langue et de l’ordre de 0,60 pour la réussite
dans les disciplines scientifiques.
Il arrive fréquemment que l’on procède au même moment à
la mesure du prédicteur et à celle du critère. On parle alors de
validité concurrente. L’intérêt principal de la validité concurrente
est d’indiquer dans quelle mesure il est possible de remplacer
une procédure d’observation coûteuse par une procédure qui
l’est moins, généralement un test. Si, par exemple, il y a une
forte corrélation entre le niveau de lecture évalué par des ensei-
gnants expérimentés de cours préparatoire (critère) et les scores à
un test de lecture (prédicteur), on pourra remplacer le jugement
des enseignants par l’application du test. Si l’on a de bonnes
raisons de penser que les différences entre individus observées
sur le prédicteur sont antérieures à celles observées sur le critère
on peut considérer que la validité concurrente apporte des infor-
mations équivalentes à celles de la validité pronostique. On trou-
vera un exemple de validité concurrente au tableau VII (dans cet
exemple, la validité empirique n’est pas exprimée par un coeffi-
cient de corrélation, les données indiquent cependant qu’il y a
une corrélation entre les scores au test et le cursus universitaire
fréquenté).
Tableau VI. Tableau de corrélation entre un test et un critère
11 1
10 1 2
9 1 1 3 7 2
8 4 5 2
Scores 7 1 3 3 2 4 4
au
critère 6 1 6 1 5 2
5 1 2 1 9 5 4
4 2 1 2 2 2 2 1
3 1 2 2 2 1
2 3 1 2 1 2
1 1
0-2 3-5 6-8 9-11 12-14 15-17 18-20 21-23
Scores au test
113 sujets sont caractérisés par leur score à un test et leur score sur un critère, par
exemple la note à un examen. (Sur les 6 sujets qui ont eu un score compris entre 0 et
2 au test, 3 ont eu un score de 2 au critère, 1 un score de 3 et 2 un score de 4.)
La corrélation entre le test et le critère est 0,65.
Quelle note prédire au critère, par exemple, pour les 25 sujets qui ont un score compris
entre 12 et 14 au test ? On pourrait prédire la note obtenue le plus fréquemment au
cours de l’étude préalable, ici la note 5 obtenue par 9 sujets. On montre que, dans le
cas général, avec des distributions des notes au critère, pour une note donnée au prédic-
teur, unimodales et symétriques, la prédiction de la moyenne de ces distributions est
celle qui minimise les erreurs de pronostics. Dans l’exemple choisi, c’est aussi la note 5.
Pour mesurer l’importance de l’erreur de pronostic, on peut calculer l’écart moyen entre
la note pronostiquée et les notes obtenues au cours de l’étude préalable. Dans l’exemple
choisi l’écart moyen est 1,1 point.
Tableau VII. Scores moyens à la série II (1962) du test de Raven

de 745 étudiants australiens entrant dans les différentes facultés
de l’université
Arts et lettres 21,9

Sciences 25,1
Études d’ingénieur 25,6
Droit 20,8
Médecine 24,1
Études dentaires 22,1
Agriculture 24,1
Économie, commerce 22,3
La validité théorique
Un test a une validité théorique d’autant plus satisfaisante que

l’on sait ce qu’il mesure, c’est-à-dire que les observations
réalisées avec ce test peuvent être interprétées au moyen d’un
ensemble de propositions cohérentes non démenties par des
faits expérimentaux ou d’observation. La validité théorique des
tests d’intelligence peut être définie dans une perspective struc-
turale et dans une perspective fonctionnelle. Dans la première
perspective, on se demandera comment se situe le test par
rapport aux théories de l’organisation des capacités cognitives,
c’est-à-dire par rapport aux grandes dimensions de l’efficience
cognitive permettant de différencier les individus. Dans la
seconde perspective, on se demandera comment se situe le test
par rapport aux paramètres des modèles du fonctionnement
cognitif, ou, en d’autres termes, on s’interrogera sur les parentés
entre les opérations mentales sollicitées par les items du test et
celles décrites dans les modèles de fonctionnement du sujet.
Illustrons ces notions en reprenant l’épreuve des matrices
progressives.
Nous avons déjà fait allusion dans le premier chapitre à la
théorie de l’organisation des différences individuelles dans le
domaine verbo-conceptuel due à Horn et Cattell [1966, cf.
Huteau, 1990]. Cette théorie définit cinq grandes capacités ou
« facteurs » : l’intelligence cristallisée, qui caractérise les sujets
par les connaissances dont ils disposent et par leur organisation
(elle se manifeste notamment par la compréhension verbale) ;
l’intelligence fluide, qui est une capacité à mettre en œuvre les
mécanismes de base du raisonnement dans des situations où les
connaissances nécessaires sont peu importantes ; la visualisa-
tion, qui est la capacité à se représenter et à transformer menta-
lement des objets ; la « créativité » ou capacité à produire des
associations de mots ou d’idées originales ; et, enfin, une capa-
cité à réagir rapidement (vitesse de réaction). Ces différentes
capacités ne sont pas complètement indépendantes puisque, à
partir de leurs intercorrélations, il est posssible de définir une
capacité cognitive générale (ou un « facteur général ») qui est
proche de l’intelligence fluide. Lorsque Raven a mis au point son
test, il souhaitait, tout à fait explicitement, construire une
épreuve de capacité générale et, à la suite de Spearman, il pensait
que le meilleur moyen d’atteindre cet objectif était de choisir des
situations permettant de distinguer les individus selon leur plus
ou moins grande habileté à découvrir et à appliquer des rela-

tions (c’est-à-dire, en utilisant un vocabulaire postérieur à la
construction du test, selon leur intelligence fluide). On doit
donc se demander si les matrices progressives sont bien un test
de capacité générale et d’intelligence fluide. Étant donné que les
sujets se classent pratiquement de la même manière au test de
Raven et à l’ensemble des tests fortement saturés par le facteur
général dans les analyses factorielles de tests d’intelligence, on
peut répondre affirmativement à cette question.
Pour juger de la validité théorique du test de Raven dans une
perspective fonctionnelle, on doit se référer aux théories du
raisonnement inductif. Considérons la théorie proposée par
Sternberg [1977, 1982 ; cf. Huteau, 1985, 1995 ; Lautrey, 1995].
Cette théorie caractérise le raisonnement inductif par une
séquence d’opérations intellectuelles ou de composantes
élémentaires qui sont articulées au sein de stratégies contrôlées
par des composantes de niveau hiérarchique plus élevé ou
« métacomposantes ». Les composantes élémentaires sont la
construction d’une représentation analytique des éléments de la
situation (encodage), l’établissement de relations entre éléments
(inférence), le transfert de ces relations (homologie) et leur utili-
sation pour engendrer de nouveaux éléments (application).
Dans l’item des matrices progressives qui est donné dans la
figure 4 (p. 24), par exemple, la composante d’encodage est l’opéra-
tion par laquelle les différents attributs des figures vont être iden-
tifiés et stockés en mémoire (grand carré, petit carré, croix, rond,
etc.). La composante d’inférence est l’opération par laquelle la règle
de transformation des figures de chaque ligne complète va être
découverte en comparant les attributs des différentes figures : dans
la première ligne, cette opération de comparaison conduit à remar-
quer que la troisième figure est obtenue en additionnant la croix de
la deuxième dans le petit carré de la première ; dans la deuxième
ligne, l’inférence conduit à remarquer que la troisième figure est
obtenue en ajoutant le rond de la deuxième à la croix de la
première. La composante d’homologie est celle qui est mise en jeu
pour comparer la transformation de la première ligne et celle de la
deuxième ; elle conduit à abstraire les caractéristiques communes
aux deux règles, à savoir que les deux premières figures s’ajou-
tent pour engendrer la troisième (mais encore faut-il remarquer
que seule une partie de la croix apparaît). L’application est l’opéra-
tion par laquelle la règle qui a été abstraite par les composantes
d’inférence et d’homologie est appliquée à la troisième ligne pour
découvrir la figure manquante. Ici, l’addition des deux premières

figures conduit à anticiper la figure manquante en ajoutant la croix
avec petit rond de la deuxième figure dans le petit carré de la
première (sans que la croix apparaisse dans le grand carré). La
dernière opération, le choix de la réponse, consiste à rechercher,
parmi les différentes figures proposées en dessous de l’item, celle
qui correspond à la réponse anticipée. Les métacomposantes sont
les opérations par lesquelles ces différentes composantes élémen-
taires sont ordonnancées et contrôlées. L’une de ces métacompo-
santes, par exemple, a pour fonction de modifier l’allocation des
ressources cognitives (attention, temps) aux différentes compo-
santes élémentaires en fonction des obstacles rencontrés. Une stra-
tégie, par exemple, peut être de passer à l’inférence dès que l’on
a trouvé une différence entre les figures de la première ligne, une
autre pourra être de consacrer plus de temps et d’attention à un
encodage exhaustif des figures avant de passer à l’inférence. La
mise en œuvre efficace de ces composantes et métacomposantes
suppose, dès le début du raisonnement et tout au long de son
déroulement, une stratégie analytique permettant de bien dissocier
les différents éléments à encoder. Elle demande aussi qu’une atten-
tion particulière soit accordée à l’élaboration d’une représenta-
tion adéquate de la situation puisque c’est sur cette représentation
que vont opérer inférence, homologie et application. Enfin, elle
suppose des capacités de mémoire suffisantes pour que les règles
découvertes puissent être utilisées.
Cette description du raisonnement inductif s’applique assez
bien aux items du test de Raven lorsque ceux-ci deviennent assez
difficiles et ne peuvent plus être résolus intuitivement. On peut
s’assurer de cette adéquation en observant, dans des conditions
spécialement aménagées, les processus mis en œuvre par les
sujets. On voit qu’il y a deux éléments dans la validité théorique
d’un test : la qualité de son rattachement ou de son intégration
à une théorie et la validité de cette théorie.
Plutôt que de vérifier si une théorie valide rend compte des
procédures de résolution mobilisées pour répondre aux items
d’un test, on peut suivre une démarche en quelque sorte
inverse : analyser les procédures de résolution des items d’un
test, puis montrer que celles-ci sont assez générales. Cette
démarche a été appliquée aux matrices progressives de Raven par
Carpenter, Just et Shell [1990] et elle a fourni des résultats tout
à fait compatibles avec le modèle qui vient d’être évoqué. Ces
deux auteurs, selon une méthodologie classique en psychologie
cognitive, mettent en évidence les procédures de résolution des

items à partir des commentaires faits par les sujets au cours
même de la résolution (protocoles verbaux), des enregistrements
des mouvements oculaires et de la fréquence et de la nature des
erreurs. Les données recueillies ainsi montrent que tous les sujets
décomposent chaque problème en une série de sous-problèmes
qui sont résolus successivement. Lorsque l’item nécessite l’appli-
cation de plusieurs règles, celles-ci sont bien dissociées et décou-
vertes également successivement. Les règles sont découvertes à
partir de nombreuses comparaisons entre les éléments de la
matrice. La réussite à un item suppose donc la réussite à toute
une série de petits problèmes plus élémentaires et l’intégration
progressive des solutions. Carpenter et al. montrent que les diffé-
rences entre sujets très efficients et sujets moyennement effi-
cients proviennent de différences dans la capacité à définir des
sous-buts, à conserver en mémoire de travail et à intégrer les
acquisitions réalisées tout au long de la séquence de résolution.
À partir des principes de résolution mis en évidence par ces
analyses, les auteurs ont élaboré un programme informatique
qui simule de façon satisfaisante les conduites observées chez
les sujets réels. Par exemple, l’ordre de complexité des items, tel
qu’il est défini par la simulation, coïncide avec l’ordre de diffi-
culté défini par les fréquences de réussite des sujets réels. Ils
montrent également que cette analyse des processus de résolu-
tion s’applique à toute une classe de tests de raisonnement.
En résumé, un test est donc une situation d’évaluation codifiée.
Tout d’abord, cette situation est standardisée en vue d’améliorer
l’objectivité de l’observation effectuée. Les conduites des sujets
évalués ne pourront en effet être valablement comparées que si
ceux-ci ont été observés dans une situation aussi semblable que
possible et si la cotation de leurs conduites est la même quel que
soit l’observateur. Cette situation d’évaluation est aussi étalonnée,
de façon à permettre de situer le sujet observé au sein de la popu-
lation de référence à laquelle il appartient. La fiabilité de l’évalua-
tion effectuée peut être évaluée par les différents coefficients de
fidélité. Enfin, des études de validité ont été conduites pour vérifier
que l’on évalue bien ce que le test prétend évaluer.
Ces propriétés des tests ont été présentées à propos des tests
d’intelligence, mais elles caractérisent aussi les tests de personna-
lité (qu’il s’agisse d’autodescription ou d’observation du compor-
tement), les tests de connaissances scolaires et les tests d’aptitudes
professionnelles.
III / Les grandes catégories
de tests d’intelligence
Il existe plusieurs centaines de tests d’intelligence et il serait fort

fastidieux d’en faire le catalogue. Nous introduirons donc
quelques critères à partir desquels ils peuvent être distingués. Un
test représentatif de chacune des principales catégories sera
ensuite présenté de façon suffisamment détaillée pour que l’on
puisse comprendre en quoi il consiste, comment il a été
construit et ce qu’il vise à évaluer.
Distinctions entre les différents types de tests

d’intelligence
À partir de leurs conditions de passation, on peut distinguer

des tests qui peuvent être appliqués collectivement et des tests
à passation individuelle. Dans les tests de groupe, dont les
matrices progressives de Raven nous ont donné un exemple, les
problèmes sont présentés sous une forme écrite et le sujet doit
le plus souvent choisir une réponse parmi plusieurs proposées.
L’application est simple et les possibilités d’observation de la
conduite limitées. Dans les tests individuels, l’application est
plus complexe. Le psychologue doit souvent donner des
consignes tout au long du test, veiller à ce qu’elles soient bien
comprises, mesurer des temps, relever des réussites ou des échecs
partiels, etc. Les tests individuels sont aussi des situations plus
riches que les tests de groupe quant aux possibilités d’observa-
tion, et le psychologue peut prélever des informations non prises
en compte dans la cotation du test.
Du point de vue du contenu des épreuves, on distingue classi-
quement les tests verbaux, qui font appel à la compréhension du
LES GRANDES CATÉGORIES DE TESTS D’INTELLIGENCE 49
langage, et les tests non verbaux, dans lesquels le rôle du langage

est minimisé aussi bien dans la consigne que dans la production
de la réponse. Un test comme les matrices progressives de Raven
est un test non verbal (ce qui ne signifie pas que la réussite à ce
test soit indépendante des capacités verbales). Parmi les tests non
verbaux, les tests dits « de performance » sont ceux dans lesquels
le sujet doit manipuler un matériel concret.
On peut aussi distinguer les tests selon que l’intelligence
évaluée est conçue comme une capacité globale, c’est le cas du
Binet-Simon, ou comme un ensemble de capacités qui doivent
être considérées séparément, c’est le cas des tests factoriels. Dans
le premier cas, le test est constitué de telle sorte que la capacité
globale, telle qu’elle est définie dans la théorie à laquelle on se
réfère, se manifeste dans toutes les situations retenues pour
l’évaluer. Mais ces situations ne présentent pas d’intérêt en elles-
mêmes, elles ne sont que des prétextes à la manifestation de la
capacité globale. Celle-ci sera estimée en sommant les perfor-
mances dans les diverses situations. On obtiendra ainsi un score
global qui peut prendre la forme simple d’une note étalonnée,
ou la forme plus complexe d’un QI, ou encore la forme d’un
stade de développement. Dans le second cas, lorsque la perspec-
tive est analytique, on définit des classes de situations, toujours
en référence à une théorie, dans lesquelles chaque capacité se
manifeste. Les performances ne sont sommées qu’à l’intérieur de
chaque classe. Les résultats se présentent alors sous la forme d’un
profil d’aptitudes.
En fait, l’opposition entre des conceptions globales et des
conceptions analytiques est moins marquée qu’il n’y paraît, du
moins tant que l’on reste dans le champ de l’intelligence
verbo-conceptuelle. Dans le cadre d’une évaluation qui se veut
globale, on peut toujours procéder à des évaluations plus analy-
tiques (nous le verrons avec les échelles de Wechsler). Dans le
cadre d’une évaluation analytique, on peut toujours, étant
donné qu’il existe généralement des corrélations positives entre
les capacités distinguées, calculer un score distinguant les indi-
vidus sur ce qu’il y a de commun à toutes ces capacités (nous le
verrons avec les tests factoriels).
Les échelles d’intelligence : l’exemple de la WAIS
Les « échelles » entrent dans la catégorie des tests à passation

individuelle reposant sur une conception globale de l’intelli-
gence. Cette conception sera illustrée en prenant l’exemple de
l’adaptation française de la Wechsler Adult Intelligence Scale
(WAIS) qui, comme son nom l’indique, est une échelle d’intelli-
gence conçue pour l’examen d’adultes.
Les principes généraux de construction
La WAIS a été mise au point, dans sa première version, par

David Wechsler, en 1939. Wechsler était psychologue dans un
hôpital psychiatrique de New York et avait parfois à évaluer les
capacités intellectuelles de ses patients adultes. Le Stanford-
Binet, le test individuel d’intelligence alors le plus utilisé aux
États-Unis, lui paraissait mal adapté à l’examen de patients
adultes pour plusieurs raisons.
Tout d’abord, les items avaient été conçus pour être familiers
à des enfants et certains de ces items provoquaient de ce fait un
malaise lorsqu’ils étaient soumis à des adultes. Ensuite, Wech-
sler trouvait que le Stanford-Binet évaluait les capacités intellec-
tuelles essentiellement à travers les verbalisations des sujets, le
langage. Il lui paraissait souhaitable d’équilibrer les items faisant
appel au langage par des items dits de « performance », c’est-
à-dire dans lesquels la capacité à résoudre des problèmes peut
être évaluée à travers la manipulation d’un matériel concret,
sans que le sujet ait à faire appel au langage pour donner sa
réponse. Enfin, exprimer le résultat sous la forme d’un quotient
entre l’âge mental et l’âge chronologique n’avait aucun sens
chez les adultes.
La mise au point de la WAIS, première échelle d’intelligence
adaptée à l’examen d’adultes, visait donc à résoudre ces
problèmes. La conception de l’intelligence qui a inspiré Wech-
sler était très proche de celle de Binet. Elle ne reposait pas sur
une véritable théorie de l’intelligence, mais plutôt sur une
approche très pragmatique. Il pensait, comme Binet, que
l’évaluation devait porter sur des processus complexes, comme
la mémoire, l’attention, le raisonnement, intégrant un grand
nombre d’aptitudes plus élémentaires. Il considérait aussi l’intel-
ligence comme une capacité d’adaptation assez globale, résidant
plus dans la façon dont les différentes fonctions cognitives sont
orchestrées que dans l’efficience de telle ou telle fonction

élémentaire. Il était donc partisan, comme Binet, d’échantil-
lonner des situations variées pour composer son échelle, avec
l’idée que l’intelligence était évaluée par la résultante globale de
l’efficience dans cet ensemble de sous-tests, plutôt que par telle
ou telle réussite ponctuelle.
Pour rendre l’échelle plus adaptée à des adultes, Wechsler a
veillé à ce que le contenu des items soit plus proche des situa-
tions dans lesquelles ils sont impliqués. Pour diminuer le poids
du langage, il a composé l’échelle avec deux sous-échelles d’égale
importance, l’une verbale et l’autre de performance, de telle
sorte que l’on puisse caculer un QI verbal et un QI de perfor-
mance. Cette disposition relativise la conception globale de
l’intelligence qui inspirait Wechsler, puisqu’elle revient à
admettre que l’on puisse trouver un QI assez différent selon
qu’on l’évalue dans des situations verbales ou dans des situa-
tions non verbales. C’est d’ailleurs une des richesses de cette
échelle que de permettre la mise en évidence de discordances
de ce genre. La dernière révision de l’échelle, la WAIS III, va
encore plus loin dans la décomposition analytique en permet-
tant de calculer quatre indices correspondant à quatre dimen-
sions distinctes de l’intelligence : compréhension verbale,
organisation perceptive, mémoire de travail et vitesse de traite-
ment. Nous y reviendrons un peu plus loin.
Le problème tenant à l’inadéquation de la notion d’âge
mental chez les adultes était lui aussi délicat à résoudre. Dans
les échelles d’intelligence, les performances augmentent en effet
avec l’âge jusque vers 16 ou 20 ans, selon les échelles ou les
épreuves, mais n’évoluent plus ensuite, sauf avec la vieillesse où
on observe un déclin dans certains des items. Les adultes conti-
nuent certes, tout au long de leur vie, à acquérir de l’expé-
rience et à accumuler des connaissances, notamment dans leur
domaine professionnel. Mais, comme nous l’avons souligné à
propos du Binet-Simon, les tests d’intelligence font le moins
possible appel aux connaissances scolaires ou professionnelles.
Leur objectif n’est pas d’évaluer le niveau d’instruction ou le
degré d’expertise, mais la capacité à résoudre des problèmes, à
apprendre, à s’adapter à des situations nouvelles. Cette capa-
cité croît en fonction de l’âge jusque vers la fin de l’adoles-
cence, mais plus ensuite. Cela n’empêche pas que, une fois
atteint l’âge adulte, d’importantes différences individuelles
subsistent entre les individus quant au niveau atteint dans ces

échelles d’intelligence.
La notion d’âge mental est donc inutilisable avec les adultes.
Nous avons vu au chapitre II, à propos des étalonnages, que
Wechsler a résolu ce problème en caractérisant les sujets par leur
position dans la distribution des scores de leur groupe d’âge. En
transformant les scores de chaque groupe d’âge de telle sorte
qu’ils aient une moyenne de 100 et un écart type de 15, il leur a
par ailleurs donné une distribution comparable à celle d’un QI.
Dans la mesure où il n’est plus le quotient de l’âge mental sur
l’âge chronologique, le QI calculé dans la WAIS n’est donc plus
un indice de vitesse du développement, mais un indicateur du
rang qu’occupe le score obtenu parmi ceux de la population de
référence.
Présentation de l’échelle
L’échelle mise au point par Wechsler a été adaptée et révisée

plusieurs fois aux États-Unis. Elle a aussi été traduite et adaptée à
la population française. La version présentée ci-dessous est la
version révisée (WAIS III), dans son adaptation française [Wech-
sler, 2000]. La WAIS III est composée de quatorze sous-tests, sept
pour la partie verbale et sept pour l’échelle de performance. On
trouvera ci-dessous une brève description de chacun de ces
quatorze sous-tests avec un exemple d’item proche de ceux qu’ils
comportent 1.
L’échelle verbale
— Vocabulaire : 33 mots de difficulté croissante sont présentés
à la fois oralement et par écrit en demandant ce qu’ils veulent
dire, exemple : « incinérer ».
— Similitudes : 19 questions demandant en quoi deux choses
se ressemblent, exemple : « pomme-prune ? » Cette épreuve
1. La publication d’items de tests pose un problème particulier. Dès lors que les items
d’un test sont divulgués, certains des sujets qui passent ce test peuvent en avoir eu
connaissance et ne sont donc plus exactement dans les mêmes conditions que les
autres sujets, ce qui déroge à un des principes de construction des tests. Pour
contourner cette difficulté, nous utiliserons les exemples qui sont donnés aux
sujets à titre de démonstration avant le test lui-même ou, lorsque de tels exemples
n’existent pas, un item fictif, analogue dans son principe aux items du test.
évalue la capacité à former des concepts abstraits à partir de

l’analyse des ressemblances et des différences entre deux objets.
— Arithmétique : 20 petits problèmes d’arithmétique sont
posés oralement et doivent être résolus sans utiliser de papier
ni de crayon, exemple : « Si vous avez 16 euros et que vous
dépensez 4,50 euros, combien vous restera-t-il ? »
— Mémoire immédiate des chiffres : comme dans le Binet-
Simon, le sujet doit répéter exactement les séries de chiffres
énoncées par l’examinateur. Ces séries vont de trois à neuf
chiffres à répéter dans le même ordre et il y a aussi des séries de
trois à huit chiffres à répéter dans l’ordre inverse.
— Information : 28 questions d’information générale, très
variées, que les adultes ont eu en principe l’opportunité
d’acquérir dans notre culture ; exemple : « Où se trouve le
Mexique ? »
— Compréhension : l’épreuve comporte 18 questions dans
lesquelles on demande au sujet d’expliquer des observations de
la vie quotidienne, des proverbes, exemple : « Que signifie le
proverbe : il n’y a pas de fumée sans feu ? »
— Séquence lettres-chiffres : Dans ce sous-test, on lit au sujet
une séquence de chiffres et de lettres dans le désordre (par
exemple, T, 7, L, 3). Il doit rappeler les chiffres en premier par
ordre croissant, puis les lettres par ordre alphabétique. L’épreuve
comporte 7 items dont le nombre d’éléments à réordonner va
croissant (de 2 à 8), avec 3 essais à chaque item.
L’échelle de performance
— Complètement d’images : 25 images que le sujet doit
examiner attentivement pour trouver la partie manquante.
— Code : on présente une feuille faite de lignes comportant
une succession de chiffres et, sous chaque chiffre, une case vide
dans laquelle il faut mettre le signe qui lui correspond dans la clé
du code figurant en haut de la page (le code peut par exemple
indiquer en dessous du 1 le signe ^, en dessous du 2, le signe +,
etc.). Le sujet a deux minutes pour compléter le plus de cases
possibles en mettant sous chaque chiffre le signe approprié.
— Cubes : 9 figures géométriques faites de parties rouges et
blanches sont présentées l’une après l’autre. La tâche du sujet est
de reconstituer chacune des figures présentées à l’aide de 9 cubes
coloriés en rouge sur deux faces, en blanc sur deux faces, et en
blanc/rouge sur deux faces.
— Matrices : 26 items de difficulté croissante dans lesquels le

sujet doit examiner une matrice à laquelle il manque une partie
et doit identifier laquelle des cinq réponses possibles présentées
en dessous complète la matrice. Il s’agit d’une épreuve de raison-
nement non verbal conçue sur le même principe que le test des
matrices de Raven dont plusieurs exemples d’items ont été
donnés dans les figures 2, 3 et 4 du chapitre II.
— Arrangement d’images : 11 items de difficulté croissante,
dont chacun consiste à présenter au sujet une série d’images en
désordre. Sa tâche est de les réordonner de telle sorte qu’elles
racontent une histoire. La figure 9 présente un item simple de
démonstration.
— Symboles : le sujet observe 2 groupes de symboles (un de
2 symboles et un de 5 symboles). Il doit décider, en cochant la
case appropriée, si oui ou non il retrouve un des deux symboles
isolés dans le groupe de cinq. Il doit répondre au maximum
d’items en deux minutes.
— Assemblage d’objets : des morceaux de carton découpé sont
présentés en désordre et le sujet doit les assembler de telle sorte
qu’ils forment l’image d’un objet familier. L’épreuve comporte
5 items de ce genre.
Dans tous les sous-tests de l’échelle de performance qui vien-
nent d’être présentés sauf celui des matrices, le score tient
compte à la fois de la vitesse de résolution de l’item et de l’exac-
titude de la réponse.
Les qualités métrologiques de la WAIS III
L’adaptation de l’échelle à la population française n’a pas

seulement consisté à traduire le manuel de passation, mais aussi
à trouver, dans les sous-tests les plus dépendants de la culture,
des items équivalents. Certaines des questions du sous-test
d’information de la version américaine, par exemple, sont
inadaptées à la culture française et ont dû être remplacées. Par
ailleurs, l’échelle a dû être étalonnée pour la population fran-
çaise. L’étalonnage de la version française de la WAIS III a été
fait sur un échantillon de 1 104 sujets adultes représentatifs de
la population française, répartis dans 12 groupes d’âge (environ
50 hommes et 50 femmes par groupe d’âge) couvrant la période
de 16 à 89 ans. C’est cet étalonnage qui fournit le groupe de réfé-
rence au sein duquel la performance du sujet examiné peut être
située.
Figure 9. Item de démonstration de l’épreuve d’arrangement d’images de la WAIS-R
(d’après le matériel de la WAIS, reproduit avec l’autorisation
des Éditions du Centre de psychologie appliquée, ECPA)
LES
GRANDES CATÉGORIES DE TESTS D’INTELLIGENCE
55
Fidélité. — Plusieurs sortes de coefficients de fidélité ont été

calculés. Des coefficients d’homogénéité ont été obtenus en calcu-
lant les corrélations entre deux moitiés de test constituées à
partir des items pairs et impairs (cf. chapitre II, p. 39). Ces coef-
ficients d’homogénéité ont été calculés pour chacun des sous-
tests, pour chacun des groupes d’âge, et pour l’ensemble de
l’échelle. Ils sont dans l’ensemble assez élevés et montrent une
bonne homogénéité de l’échelle. À titre indicatif, le coefficient
d’homogénéité du QI total est de 0,97. Cela signifie que,
lorsqu’on forme une moitié de l’échelle avec les items pairs et
une autre moitié avec les items impairs, les sujets de l’échan-
tillon sont pratiquement classés de la même manière avec les
deux moitiés de test ainsi constituées et obtiennent à peu de
chose près le même QI (une correspondance parfaite donnerait
un coefficient de 1).
Des coefficients de stabilité ont aussi été calculés en faisant
passer deux fois le test à un échantillon de 103 sujets distribués
dans deux groupes d’âge, 20-29 ans (N = 56) et 45-54 ans
(N = 47), avec un intervalle de quelques semaines entre les deux
passations. Le coefficient de stabilité est de l’ordre de 0,90 dans
les deux groupes, un peu moins élevé donc que le coefficient
d’homogénéité. On observe aussi un QI moyen un peu plus élevé
à la seconde passation qu’à la première (respectivement 107 et
99 dans le groupe de 20-29 ans), ce qui traduit un effet d’appren-
tissage d’une passation à l’autre. Les 8 points d’écart correspon-
dent à peu près à un demi-écart type, ce qui n’est donc pas
négligeable. Cette différence de moyenne n’est cependant en
rien contradictoire avec la bonne stabilité du test (le fait que la
corrélation reste de 0,90 alors qu’il y a une augmentation
moyenne de 7 points signifie que l’effet d’apprentissage est assez
général et qu’il n’a guère modifié le classement des sujets).
Le coefficient de fidélité permet d’estimer l’erreur type, c’est-
à-dire la marge d’erreur qui peut affecter la mesure à un seuil de
risque donné. Avec la WAIS III, au seuil de risque habituel de 0,05,
l’erreur type est de l’ordre de 5 points de part et d’autre du QI
obtenu. Concrètement, cela signifie que, si un sujet obtient, par
exemple, un QI de 110, son QI « vrai » a 95 % de chances de se
trouver quelque part entre 105 et 115 (imaginons que l’on puisse
appliquer un très grand nombre de fois le test à ce sujet : dans
95 % des cas, on observerait un QI compris entre 105 et 115).
Toutes les données sur la fidélité recueillies à l’occasion de la
dernière adaptation de la version française sont très proches de
celles qui ont été obtenues aux États-Unis avec la version améri-
caine de l’épreuve.
La validité. — La dernière adaptation française étant récente, on

ne dispose pas encore de données relatives à sa validité. Les indi-
cations sur la validité de la WAIS III rapportées ici ont pour la
plupart été établies pour la version américaine.
Une des façons de valider un nouveau test d’intelligence est de
vérifier que les mesures obtenues avec ce test corrèlent bien avec
celles que l’on obtient en faisant passer aux mêmes sujets un test
d’intelligence déjà établi. En faisant passer à un échantillon de
55 personnes la WAIS III et la WAIS-R qui est la version précé-
dente de ce test, on a obtenu une corrélation de 0,93 entre le QI
total à la WAIS III et le QI total à la WAIS-R. Avec un échan-
tillon d’adolescents ayant passé à la fois la WAIS III et la WISC III
(l’échelle pour enfants de 6 à 16 ans), la corrélation pour le QI
total était de 0,91. On peut donc considérer que la WAIS III
mesure à peu près la même chose que les autres échelles de
Wechsler, mais on voit bien ce que cette forme de validation a
de circulaire.
Une autre forme de validation empirique (cf. chapitre II )
consiste à définir un critère d’intelligence et à vérifier qu’il existe
bien une corrélation entre le score obtenu dans le test et ce
critère. C’est ainsi que l’on a trouvé, avec des versions précé-
dentes de la WAIS, des corrélations de l’ordre de 0,40 à 0,50
entre le QI total et la réussite dans les études, chez des élèves
de lycée, d’université ou d’écoles d’ingénieurs. Mais on peut
toujours se demander si la réussite scolaire est un bon critère
d’intelligence. En toute rigueur, on peut seulement conclure que
la WAIS évalue des aspects de l’intelligence qui sont utiles pour
réussir dans les études. Dans les recherches sur le retard mental,
le QI obtenu à la WAIS s’est révélé un bon prédicteur de la rapi-
dité avec laquelle les sujets pourraient sortir de l’institution et de
leur adaptation ultérieure au travail.
La validation théorique consiste à vérifier si les résultats du test
correspondent aux prédictions qui pouvaient être faites à partir
de la théorie qui a inspiré sa construction. Nous avons vu plus
haut que Wechsler n’avait pas une véritable théorie de l’intelli-
gence lorsqu’il a mis cette échelle au point, ce qui limite d’autant
les possibilités de validation théorique. Il considérait néan-
moins que les différents sous-tests mettaient en évidence une
même capacité globale. Si cette idée est exacte, on doit trouver
de bonnes corrélations entre les échelles et l’analyse factorielle

de ces corrélations doit permettre d’extraire un facteur général
de réussite. Les analyses factorielles de la WAIS III ont bien
montré l’existence des corrélations attendues entre tous les tests,
ce qui est compatible avec l’existence d’un facteur général de
réussite. Par ailleurs, lors de la dernière révision de la WAIS, de
nouveaux sous-tests ont été inclus, de façon à ce que l’échelle
évalue les performances sur quatre dimensions distinctes de
l’intelligence et non plus seulement sur les deux aspects (verbal
et performance) initialement distingués par Wechsler. Ces
quatre dimensions sont celles auxquelles il a déjà été fait allu-
sion plus haut : compréhension verbale, organisation perceptive,
mémoire de travail et vitesse de traitement.
La validation théorique a été établie en faisant l’analyse facto-
rielle des corrélations entre tous les sous-tests de l’échelle. Cette
analyse a effectivement permis d’extraire quatre facteurs corrélés
entre eux. Le premier sature plus fortement les sous-tests de
vocabulaire, similitudes, information et compréhension (ce qui
traduit le fait que ces quatre épreuves corrèlent plus fortement
entre elles qu’elles ne corrèlent avec les autres). Compte tenu
du rôle du langage et de la mémoire sémantique dans ces quatre
épreuves, ce premier facteur est interprété comme un facteur de
compréhension verbale (CV).
Le deuxième facteur sature plus fortement les épreuves de
complètement d’images, de cubes, de matrices et d’arrange-
ment d’images. Il est commun aux épreuves dans lesquelles le
raisonnement est sollicité sur des données imagées, spatiales, et
est interprété comme un facteur d’organisation perceptive (OP).
Le troisième facteur sature plus fortement les épreuves d’arith-
métique, mémoire des chiffres et séquence lettres-chiffres, qui
ont en commun de faire fortement appel à la mémoire de travail.
Cette forme de mémoire est celle qui est sollicitée lorsqu’il est
nécessaire de gérer simultanément le traitement de l’informa-
tion et le stockage temporaire d’informations nécessaires à ce
traitement. Dans le sous-test séquence lettres-chiffres par
exemple, la mémoire de travail est fortement sollicitée parce
qu’il faut maintenir temporairement stockés les chiffres et
lettres, entendus dans le désordre, pendant toute l’activité de
traitement qui consiste à réordonner ces informations pour les
rappeler dans l’ordre en commençant par les chiffres. La diffi-
culté vient de ce que le stockage et le traitement de l’information
font tous deux appel à des ressources attentionnelles qui sont
limitées et doivent donc être partagées entre ces deux activités

en compétition. L’évaluation de cette dimension de l’activité
intellectuelle a été renforcée dans la dernière révision de la WAIS
— et d’ailleurs dans toutes les échelles d’intelligence — car il a
été montré dans la période récente que la capacité de la mémoire
de travail est un excellent indicateur de la capacité de contrôle
du système cognitif, capacité qui joue un rôle central dans la
réussite de nombreuses tâches intellectuelles, notamment dans
celles de raisonnement. Ce facteur est donc interprété comme un
facteur de mémoire de travail (MT).
Enfin, le quatrième facteur sature l’épreuve de code et celle
de symboles, deux épreuves dans lesquelles la tâche est simple
et répétitive, mais où la difficulté est d’aller vite sans se laisser
distraire, ce qui requiert à la fois une attention soutenue et la
capacité d’automatiser le traitement. La dimension évaluée dans
ce cas est la vitesse de traitement (VT).
La distinction entre ces quatre dimensions de l’intelligence
permet d’effectuer une évaluation plus analytique que l’évalua-
tion par un QI global en calculant un indice de performance
dans chacune de ces dimensions.
L’interprétation des résultats
Le manuel de la WAIS III fournit des indications précises pour

noter chaque item de chaque sous-test. En additionnant ces
notes, on obtient un score brut pour chaque sous-test.
Le tableau VIII récapitule les scores d’un sujet fictif de 30 ans
aux différents sous-tests de l’échelle.
Les notes brutes obtenues aux différents sous-tests figurent
dans la colonne de gauche. Une table de conversion donnée en
annexe du manuel permet de transformer ces notes brutes en
notes standard. Celles-ci figurent dans la colonne qui est à
l’extrême droite du tableau. À la note brute de 22 dans l’épreuve
de complètement d’images, par exemple, correspond un score
standard de 11. Ces scores standard sont ventilés, dans les
colonnes qui sont au centre du tableau, entre les différents QI
(QIV ou QIP) et les différents indices factoriels (ICV, IOP, IMT
et IVT) dans le calcul desquels ils entrent. Les scores standard
vont, pour chaque sous-test, de 1 à 19. Ils correspondent à une
partition en 19 catégories de la distribution normalisée des notes
brutes observées dans l’échantillon d’adultes qui a servi à
l’étalonnage du test (sur la notion de distribution normalisée,
Tableau VIII. Exemple de notes obtenues par un sujet fictif

de 30 ans dans les différents sous-tests de la WAIS III,
transcrites sur le tableau de conversion de notes
de la feuille de résultats
Subtests Notes Notes standard-Groupes d’âge du sujet Groupe

brutes 20-
Verbal Perfor. ICV IOP IMT IVT 34 ans
Complètement
d’images 22 11 11 11
Vocabulaire 56 15 15 16
Code 54 7 7 5
Similitudes 28 15 15 15
Cubes 41 10 10 8
Arithmétique 11 8 8 8
Matrices 20 11 11 9
Mémoire des
chiffres 12 7 7 6
Information 20 10 10 11
Arr. d’images 16 11 10
Compréhension 25 11 12
Symboles 16 (4) 4 2
Séquence L-C 5 (5) 5 4
Ass. d’objets 29 (9) 8
Somme des
notes standard 66 50 40 32 20 11
Verbal Perfor. ICV IOP IMT IVT
Score à l’échelle totale
(Verbal + Performance) 116
Source : extrait de la figure 3.8 de Wechsler [2000, p. 87].
cf. chapitre II, p. 31). Pour chaque sous-test, la moyenne des

notes standard est de 10 et l’écart-type est de 3.
L’étape suivante consiste à additionner les notes standard qui
relèvent de chacun des indicateurs avec lesquels la performance
peut être évaluée, QI ou indices factoriels. Cette somme figure au
bas de chaque colonne du tableau VIII. Ainsi, pour le QI verbal,
la somme des notes standard est de 66. Elle est de 50 pour le QI
de performance et elle est de 66 + 50 = 116 pour le QI total
(les épreuves dont les notes standard sont entre parenthèses
n’entrent pas dans le calcul du QI, mais seulement dans celui des
indices factoriels).
Ces sommes de notes standard sont ensuite transformées en

notes de moyenne 100 et d’écart-type 15 de sorte qu’elles soient
toutes comparables. Une seconde table de conversion fournie en
annexe du manuel donne les valeurs des QI ou des indices facto-
riels correspondants à ces sommes de notes standard.
Tableau IX. Tableau de conversion des notes standard en QI

ou indices factoriels ou en percentiles,
avec indication de l’intervalle de confiance
QI/Indices QIV QIP QIT ICV IOP IMT IVT
Somme des notes standard 66 50 116 40 32 20 11

QI/Indices 105 99 103 118 103 80 75
Percentiles 63 47 58 88 58 9 5
Intervalle de confiance 95 % 99 91 98 111 95 74 69
110 107 108 123 111 88 88
Source : extrait des figures 3.9 et 3.10 de Wechsler [2000, p. 88 et 89].
Le résultat de cette conversion pour notre sujet fictif est donné

dans le tableau IX. Ainsi, la somme de notes standard des sous-
tests qui entrent dans le calcul du QIV, qui est de 66, correspond
à un QIV de 105. Sur cette nouvelle échelle de mesure, qui a
pour moyenne 100 et pour écart-type 15, ce sujet a un QI verbal
de 105. Étant donné les propriétés de la distribution normale,
ceci signifie que 63 % des sujets de son groupe d’âge dans
l’échantillon d’étalonnage ont un score inférieur au sien (et
donc 37 % ont un score supérieur au sien) dans cette partie de
l’échelle. C’est ce qu’indique la ligne du tableau intitulée
« Percentiles ». La dernière ligne de ce tableau donne l’intervalle
de confiance de chacune des valeurs obtenues, compte tenu de
l’erreur-type (qui est fonction de la fidélité de la mesure). Ainsi,
compte tenu de la marge d’incertitude, la valeur de 105 qui a
été obtenue pour le QI verbal n’est que la plus probable. Il est
plus juste de dire qu’il y a 95 % de chances pour que le QI se
situe quelque part entre 99 et 110, c’est ce qui est indiqué dans
la dernière ligne du tableau.
Il est dit plus haut que 63 % des sujets de son groupe d’âge, et
non pas 63 % des adultes, ont eu un score inférieur au sien dans
la sous-échelle verbale. La conversion des scores bruts en scores
standard se fait en effet en tenant compte du groupe d’âge du
sujet. Ceci est important car chez l’adulte, l’efficience dans les
différents sous-tests tend à diminuer avec l’âge (inégalement

selon les sous-tests). Pour fixer les idées, la note brute de 54 que
ce sujet a obtenue dans le sous-test « code », correspond à un
score standard de 7 dans son groupe d’âge (le groupe des
30-34 ans), mais correspond à un score standard de 12 dans le
groupe des 75-79 ans. La première interprétation des résultats de
l’épreuve consiste donc, pour chacun des indicateurs, à situer
le rang auquel l’efficience intellectuelle du sujet le classe par
rapport à celle des sujets de son groupe d’âge.
Le QI total peut donner une tendance globale, mais celle-ci
peut être trompeuse et il faut aller plus loin en cherchant si
celui-ci ne masque pas une hétérogénéité entre les différents
aspects de l’intelligence. Une analyse classique consiste à
comparer le QI verbal et le QI performance pour voir si l’effi-
cience intellectuelle est équivalente dans ces deux domaines,
mais ces indicateurs, eux-mêmes très globaux et aux fonde-
ments mal assurés, tendent à être abandonnés maintenant au
profit d’indicateurs plus analytiques et mieux fondés comme les
indices factoriels. Un autre exemple classique est la comparaison
entre les subtests qui résistent différemment à la dégradation due
à l’âge. Wechsler avait en effet remarqué que certains sous-tests
de l’échelle « tiennent bien » avec l’âge (information et vocabu-
laire pour l’échelle verbale, assemblage d’objets et complètement
d’images pour l’échelle de performance), tandis que d’autres « ne
tiennent pas » (mémoire des chiffres et similitudes pour l’échelle
verbale, code et cubes pour l’échelle de performance). Le manuel
indique comment calculer un indice de dégradation fondé sur la
différence d’efficience entre ces deux groupes de sous-tests.
Avec ce type d’analyse, le psychologue entre dans une
démarche plus clinique d’interprétation des résultats. Pour être
fondée, cette démarche doit s’appuyer sur deux sortes de
garanties : l’hétérogénéité analysée doit être significative du
point de vue statistique et signifiante du point de vue théorique.
Ces deux points seront illustrés avec l’exemple de la différence
entre QI verbal et QI performance.
Dans le protocole qui nous a servi d’exemple, le QI verbal est
de 105 et le QI performance de 99. L’écart de 6 points entre ces
deux QI est-il suffisamment important pour pouvoir être attibué
à autre chose qu’aux fluctuations dues aux erreurs de mesure
sur les deux QI ? Pour le savoir, il faut se reporter aux tables
statistiques établies lors de l’étalonnage du test et fournies par le
manuel. Le tableau X donne cette information en comparant les
Tableau X. Tableau de comparaison des QI ou des indices factoriels

deux à deux pour déterminer les forces et les faiblesses
(ce tableau récapitule pour chaque comparaison le seuil de signification
et la fréquence avec laquelle cette différence a été trouvée
dans l’échantillon d’étalonnage)
Comparaison Note 1 Note 2 Diffé- Signifi- Fréquence

rence cativité dans
statistique l’échan-
P = 0,05 tillon
QI Verbal- QIV QIP
QI Performance 105 99 6 8,93 64 %
Compréhension
verbale- ICV IOP
Organisation
perceptive 118 103 15 9,42 29 %
Compréhension
Niveau des QI/Indices
verbale- ICV IMT

Mémoire du travail 118 80 38 9,75 0,7 %
Organisation
perceptive- IOP IVT
Vitesse de traitement 103 75 28 12,61 6,3 %
Compréhension
verbale- ICV IVT
Vitesse de traitement 118 75 43 12,30 2%
Organisation
perceptive- IOP IMT
Mémoire de travail 103 80 23 10,13 12 %
Mémoire de travail- IMT IVT
Vitesse de traitement 80 75 5 12,86 77,3 %
différents indicateurs (QI ou indices factoriels) deux à deux. On

peut y voir que, pour être significative au seuil de risque de 5 %,
cette différence doit être supérieure à 8,93 points. La différence
étant ici de 6 points, il n’y aurait donc pas de sens à lui cher-
cher une interprétation psychologique, elle reste en effet dans la
marge des fluctuations aléatoires. La dernière colonne du tableau
indique que 64 % de l’échantillon présente des différences entre
QIV et QIP égales ou supérieures à 6 points. Une différence de
cette ampleur est donc banale. En examinant les différences entre
les indices factoriels, qui sont des évaluations plus pures de diffé-
rentes dimensions de l’intelligence, on peut voir que certaines
différences sont significatives et que le pourcentage de sujets
présentant des différences de cette ampleur est peu élevé. Ceci fait
apparaître une hétérogénéité importante de l’efficience intellec-

tuelle de ce sujet, qui a une bonne compréhension verbale, une
organisation perceptive moyenne, mais un déficit marqué de la
mémoire de travail et de la vitesse de traitement.
La constatation de différences significatives n’est qu’un point
de départ, il faut ensuite les interpréter. C’est là que commence le
véritable travail du psychologue. Dans les cas où une différence,
par exemple la différence entre QI verbal et QI performance, se
révèle suffisamment importante pour être significative, il reste à
en trouver l’explication et la difficulté vient de ce qu’elle peut en
avoir plusieurs. Un QI verbal nettement inférieur au QI perfor-
mance peut être la conséquence à long terme de troubles de
l’acquisition du langage, mais il pourrait être l’indice d’une lésion
récente de l’hémisphère gauche (qui est le siège principal du trai-
tement du langage). Toutefois, on sait aussi qu’une infériorité rela-
tive du QI verbal sur la performance est plus fréquente chez les
enfants issus de milieux socioculturels défavorisés et qu’elle est
aussi plus fréquente chez ceux dont l’occupation professionnelle
fait peu appel à la communication verbale, etc. La signification
d’un tel résultat ne peut donc être interprétée qu’en le mettant en
rapport avec d’autres éléments d’information tirés de l’histoire du
sujet ou de tests plus spécifiques destinés à confirmer ou infirmer
l’une ou l’autre de ces interprétations. La démarche de diagnostic
qui est décrite ici est très proche de celle du médecin qui cherche
à interpréter un symptôme. La garantie du diagnostic repose sur
la cohérence que l’interprétation est susceptible de donner à un
ensemble de résultats. C’est ce que nous avons appelé plus haut sa
signification théorique.
Ces aspects plus poussés de l’interprétation des résultats font
largement appel à l’expérience clinique et à la compétence
professionnelle du psychologue. Ils font clairement ressortir
qu’un résultat considéré isolément, un QI, un écart entre deux
sous-tests, n’a en lui-même aucune signification. Il doit être
interprété en fonction d’un ensemble d’autres éléments d’infor-
mation, en faisant appel aux compétences et connaissances qui
s’acquièrent au cours de la formation au métier de psychologue
et de sa pratique.
Le succès rencontré par la WAIS a conduit à mettre au point
en 1950 une version pour enfants, la Wechsler Intelligence Scale
for Children (WISC), adaptée à la période d’âge de 6 à 16 ans,
et, plus récemment, une version adaptée à la période 4 à 6 ans
et demi, la Wechsler Preschool and Primary Scale of Intelligence
(WPPSI). La WISC et la WPPSI sont construites exactement sur

le même principe que la WAIS et ont aussi été adaptées pour la
population française.
Les tests factoriels d’intelligence
Binet et Wechsler se représentaient l’intelligence comme une

capacité globale et leurs échelles avaient comme objectif prin-
cipal de fournir une évaluation résumant cette capacité en un
indice unique, âge mental ou QI. Cependant, l’utilisation de ces
échelles a conduit les praticiens à remarquer que les réussites
dans les différents sous-tests pouvaient être hétérogènes et à
interpréter les profils de réussite dans les différents aspects de
l’intelligence évalués par ces échelles. Cette pratique admet de
fait la multidimensionnalité de l’intelligence, qui se manifeste
y compris dans des échelles plutôt conçues à l’origine pour une
évaluation globale.
Les tests dits « factoriels », au contraire, ont pour la plupart été
conçus pour mettre en évidence le caractère multidimensionnel
de l’intelligence. Ils sont dits « factoriels », car la méthode
mathématique sur laquelle leur élaboration s’est appuyée de
façon privilégiée est l’analyse factorielle, dont les principes géné-
raux ont été présentés au chapitre I.
Un exemple de batterie de tests factoriels d’intelligence :

les PMA de Thurstone
Pour identifier les facteurs communs à certaines des tâches

intellectuelles, facteurs correspondant selon lui aux aptitudes
mentales primaires (Primary mental abilites, ou PMA), Thurstone
a mis au point une batterie d’une soixantaine de tests diffé-
rents. Comme la construction des échelles d’intelligence, la mise
au point de cette batterie de tests était assez empirique. La variété
des tests introduits dans la batterie, et donc le nombre et la
nature des facteurs de l’intelligence qui pourront être extraits
dépendent bien entendu des idées que le chercheur se fait de
l’intelligence. En l’absence de théorie forte, il n’y a pas de solu-
tion satisfaisante au problème du choix des situations à intro-
duire dans la batterie. Les soixante tests imaginés par Thurstone
échantillonnent donc une partie de l’univers des tâches intellec-
tuelles, mais une partie seulement.
Thurstone a d’abord fait passer cette batterie de tests à un

grand nombre d’étudiants des colleges américains, puis, après
quelques modifications, l’a fait passer un peu plus tard à plus
d’un millier de lycéens. L’analyse factorielle exige qu’un assez
grand nombre de tests soient passés par un assez grand nombre
de sujets, ce qui explique que la plupart des tests factoriels aient
été conçus comme des épreuves courtes, de moins d’une dizaine
de minutes, qui sont données sous la forme « papier-crayon » et
sont faites pour être passées de façon collective.
Les analyses factorielles effectuées sur ces soixante tests ont
permis d’extraire sept facteurs primaires assez stables et bien
identifiés (compréhension verbale (V), fluidité verbale (W), apti-
tude numérique (N), inférence (I), aptitude spatiale (S), vitesse
perceptive (P), et mémoire (M)). Les tests ayant les plus fortes
saturations dans chacun de ces facteurs ont ensuite été conservés
pour constituer des batteries plus réduites, comprenant un test
par facteur. La batterie factorielle PMA qui a été traduite et
adaptée en France est tirée de cette étude. Elle comporte cinq
tests de type papier-crayon, à passation collective, correspondant
à cinq des aptitudes primaires distinguées par Thurstone.
Présentation des tests composant la batterie factorielle PMA
Les cinq tests composant la batterie intermédiaire, dont le

niveau de difficulté est adapté à la tranche d’âge 11-17 ans, sont
présentés ci-dessous. Chacun est désigné par le facteur dont il est
représentatif.
Facteur V : verbal. — Ce test évalue la maîtrise et la finesse de

discrimination des significations verbales. Il comporte cinquante
items de difficulté croissante dans lesquels on donne un mot
cible et, à sa droite, cinq mots parmi lesquels il faut cocher celui
qui veut dire la même chose que le mot cible. Exemple :
Reluire a) grésiller b) ciseler c) briller d) dépeindre e) rouiller.
Le temps est limité à 4 minutes et le score est le nombre de
bonnes réponses données dans cette durée.
Facteur S : spatial. — Ce test évalue l’efficience des opérations

spatiales. Il est constitué de vingt items de difficulté croissante
comportant un dessin cible à gauche. Six dessins sont proposés
à droite, parmi lesquels il faut cocher ceux qui sont comme celui
de gauche à une rotation près (les autres sont à l’envers).
Figure 11. Item de démonstration du test de facteur spatial

de la batterie PMA
(ibid.)
A B C D E F
Il faut ici cocher les figures A et E.
Le temps est limité à 5 minutes et le score est le nombre de

réponses correctes cochées.
Facteur R : raisonnement. — Trente items de difficulté crois-

sante, dans lesquels le sujet doit inférer la suite d’une série de
lettres dont on lui donne le début. Ce test évalue l’efficience des
processus d’inférence.
Exemple : abcd abce abcf abc ?
Facteur N : numérique. — L’aptitude évaluée est l’aisance dans le

maniement des nombres. Le test comporte soixante-dix addi-
tions de quatre nombres à deux chiffres, sous lesquelles un total
est indiqué. La tâche consiste à indiquer aussi rapidement que
possible pour chacune si le total est juste ou faux. Le score est le
nombre de réponses correctes données en six minutes.
Facteur W : fluidité verbale. — C’est ici l’aptitude à trouver rapi-

dement des mots qui est évaluée. La tâche est de fournir le
maximum de mots commençant par une lettre donnée en un
temps limité. Par exemple écrire en cinq minutes tous les mots
commençant par un p qui viennent à l’esprit. Le score est le
nombre de mots différents trouvés.
Les qualités métrologiques de la batterie PMA
Étalonnage. — Le manuel de l’adaptation française de la batterie

PMA [Thurstone, 1964] fournit un étalonnage établi d’après les
résultats obtenus par un échantillon de 1 200 enfants de 11 à
17 ans, représentatif de cette tranche d’âge dans la population

française. Des étalonnages en 11 catégories normalisées sont
fournis pour chaque âge, pour chacun des 5 tests de la batterie et
pour le score total. Un tableau donne les pourcentages de sujets
correspondant à chacune de ces 11 catégories normalisées, ce
qui permet, connaissant la catégorie dans laquelle un sujet est
classé par sa note au test, de situer celle-ci par rapport aux notes
obtenues par les sujets de son âge dans l’échantillon de réfé-
rence. Par exemple, si un sujet de 12 ans a 7 réponses correctes
à l’épreuve verbale, il se situe dans la catégorie 4 (les 11 caté-
gories vont de zéro à dix, zéro étant la catégorie des notes les plus
faibles). Ce tableau indique que la catégorie 4 comprend 14,6 %
des sujets de 12 ans, que 27,4 % ont eu une note inférieure et
58 % une note supérieure.
Fidélité. — Dans une étude effectuée sur 500 élèves du niveau

scolaire de troisième, les coefficients d’homogénéité obtenus en
calculant la corrélation entre les items pairs et impairs de chaque
test ont été les suivants : V : 0,92 ; S : 0,96 ; R : 0,93 ; N : 0,89.
Dans une autre étude où la batterie PMA a été passée deux fois
par les mêmes sujets à huit mois d’intervalle, le coefficient de
stabilité calculé entre les scores totaux obtenus aux deux passa-
tions a été de 0,83. On peut donc considérer que cette batterie
factorielle a une bonne fidélité.
Validité. — La validité empirique de la batterie PMA a été établie

avec plusieurs critères. En utilisant un score composite inté-
grant les différents tests de la batterie, une corrélation de l’ordre
de 0,70 a été assez régulièrement trouvée avec d’autres épreuves
d’intelligence. On a aussi trouvé des corrélations substantielles
entre chaque test d’aptitude de la batterie, pris isolément, et son
homologue dans d’autres batteries factorielles. Par exemple,
dans une étude où 560 sujets de 12 ans ont passé les PMA et
une autre batterie factorielle (la GATB), les corrélations ont été
de 0,77 entre les deux tests verbaux, 0,51 entre les deux tests
spatiaux, 0,68 entre les deux tests de raisonnement, et 0,65 entre
les deux tests numériques (il n’y a pas de test de fluidité verbale
dans la GATB).
Un autre des critères de validation empirique utilisés a été la
réussite scolaire. Une des études, par exemple, a consisté à
calculer les corrélations entre les notes d’un échantillon de
600 lycéens dans les tests de la batterie PMA et les notes qu’ils
ont obtenues, trois ans plus tard, dans une batterie de tests de
connaissances scolaires, les Iowa tests of educationnal develop-
ment. Les corrélations de chaque test avec chaque matière sont
données dans le manuel des PMA. Nous n’indiquons ici que la
corrélation de chaque test avec le score total de la batterie de
connaissances scolaires trois ans plus tard : 0,68 avec le test de
facteur verbal, 0,23 avec le test de facteur spatial, 0,54 avec le test
de facteur de raisonnement, 0,38 avec le test de facteur numé-
rique et 0,33 avec le test de facteur fluidité verbale. Comme on le
voit, ce sont les tests de facteur verbal et de facteur de raisonne-
ment qui sont les meilleurs prédicteurs de la réussite scolaire
trois ans plus tard. Cela a conduit parfois à utiliser, pour pronos-
tiquer la réussite scolaire, un score composite combinant ces
deux tests selon la formule 2V + R. Ce score composite corrèle
aux environs de 0,70 avec le score global dans des tests de
connaissances scolaires. Les corrélations avec les notes scolaires
données par les professeurs sont un peu moins fortes, de l’ordre
de 0,50. Cela s’explique par le fait que les notes données par les
enseignants sont moins fidèles (comportent plus de sources de
variation incontrôlées) que les notes aux tests de connais-
sances. Comme on l’aura remarqué, bien que cette batterie ait
été conçue pour évaluer des aptitudes différentes, il est fréquent
que l’on utilise un score total qui est un indice global d’intelli-
gence assez comparable au QI. La raison en est qu’il existe des
corrélations entre ces cinq tests et que — comme cela a déjà été
indiqué à propos de l’analyse factorielle — on peut aussi extraire
un facteur général d’intelligence saturant ces cinq épreuves à des
degrés variables (cf. chapitre I).
Dans le cas de tests factoriels, la validité théorique peut être
évaluée en vérifiant que la structure obtenue lorsque l’on inclut
ces tests dans une analyse factorielle est bien celle qui était
attendue. En d’autres termes, les tests que l’on considère comme
relevant d’un même facteur doivent être plus fortement saturés
par ce facteur que par les autres et les tests que l’on considère
comme relevant de facteurs différents doivent être saturés par
des facteurs différents. On peut vérifier qu’il en est bien ainsi
pour ces cinq tests dans les analyses factorielles qui ont été faites
par Thurstone lorsqu’il a construit cette batterie [Thurstone et
Thurstone, 1941]. Cette démarche devient réellement hypothé-
tico-déductive lorsque le psychologue crée un nouveau test
conçu pour être un indicateur d’un des facteurs. La validation
théorique consiste alors à vérifier que, lorsque ce test est
introduit avec d’autres dans une analyse factorielle, il est bien

saturé par le facteur attendu. À titre d’exemple, l’épreuve de
signification verbale de la batterie PMA, qui consiste à trouver
un synonyme, est fortement saturée par le facteur verbal (0,68)
et pas du tout par le facteur de fluidité verbale (0,01). Thurstone
a conçu une nouvelle épreuve de fluidité verbale dans laquelle
on demande au sujet de trouver trois synonymes pour chaque
mot proposé. Il faisait l’hypothèse que, malgré la ressemblance
de cette épreuve avec celle de signification verbale (trouver un
synonyme), elle mettait en jeu la fluidité verbale car elle exige
que le sujet fournisse plusieurs mots d’une catégorie donnée.
Dans l’analyse factorielle où cette nouvelle épreuve a été intro-
duite, elle avait effectivement une saturation de 0,51 avec le
facteur w (fluidité verbale) et une saturation nulle avec le facteur
verbal 2, ce qui validait les hypothèses de Thurstone sur la nature
de ce nouveau test.
L’interprétation des résultats
L’interprétation des résultats s’appuie sur les étalonnages qui

permettent de situer la note du sujet dans chacun des tests par
rapport à celles observées dans la population de référence.
L’intérêt des batteries factorielles est de permettre d’établir un
profil d’aptitudes. Les différentes aptitudes évaluées par les tests
factoriels sont portées en ordonnée et les 11 catégories norma-
lisées en abscisse (cf. figure 8, p. 34). Le profil d’aptitudes est
donné par la courbe reliant les notes standards (catégories) d’un
sujet dans les différents tests. Ce profil permet de voir d’un coup
d’œil si les différentes aptitudes sont homogènes ou non, sinon,
où sont les points forts et les points faibles, quelle est l’« alti-
tude » de la courbe, etc. Nous avons vu à propos de la WAIS que
l’analyse des profils de réussite peut également être faite avec les
échelles d’intelligence.
2. Précisons, pour les lecteurs ayant quelques notions d’analyse factorielle, qu’il s’agit
d’une analyse en facteurs obliques, dans laquelle il existe des corrélations entre les
facteurs (cette technique a pour effet de contraster les saturations dans les deux
facteurs).
Le niveau monte
Certains items doivent être révisés périodiquement. Il en va par exemple ainsi des
items du sous-test d’information des échelles de Wechsler, dont le contenu est
par définition dépendant de l’époque. Mais les tests d’intelligence doivent aussi
être réétalonnés périodiquement, car le niveau moyen de performance tend à
augmenter avec les générations. Les raisons de ce phénomène sont complexes à
analyser et font l’objet de discussions. Elles peuvent tenir à des biais (par exemple,
des changements dans les attitudes devant le compromis entre la vitesse et la
précision de la réponse), à des effets de familiarisation avec les situations (dues
par exemple à la diffusion de jeux analogues à certaines situations de test), ou
encore à de réelles augmentations des capacités intellectuelles avec l’évolution
de la société (effets de l’augmentation de la scolarisation, de la multiplication
des sources d’information, des occasions de stimulation intellectuelle, etc.). On
pourra trouver ailleurs des exemples de recherches montrant cette élévation du
niveau de performance dans les tests d’intelligence avec les générations et des
interprétations contradictoires de ce phénomène (par exemple, Baudelot et Esta-
blet [1989] ; Flieller [1989] ; Flynn [1987]).
Les tests inspirés par des théories plus récentes
Dans leur principe, les tests présentés dans les paragraphes

précédents ont été conçus il y a maintenant plus d’un demi-
siècle. Ils ont été depuis l’objet de plusieurs révisions ayant pour
objectif de réactualiser leur contenu et de les réétalonner, mais
les conceptions de l’intelligence qui ont inspiré leur construc-
tion sont anciennes. Les idées sur l’intelligence ont évolué
depuis. De nouvelles théories sont apparues et on pourrait
penser qu’elles ont bouleversé la conception des tests. Il n’en
est rien. Pour peu qu’ils aient été révisés et réétalonnés (voir
encadré), les tests anciens ont bien résisté au temps. Ils sont
encore les plus utilisés par les praticiens et ils continuent
de rendre les mêmes services dans le diagnostic des dysfonc-
tionnements cognitifs et le pronostic de réussite dans les
apprentissages.
Une des raisons de cette bonne résistance au temps des tests
anciens tient sans doute à l’approche très pragmatique qu’ont
adoptée leurs auteurs. En procédant comme ils l’ont fait, Binet,
Wechsler ou Thurstone ont retenu des situations d’évaluation
qui se sont révélées de bons indicateurs du fonctionnement
cognitif, en dépit du fait qu’ils n’avaient pas une connaissance
précise des mécanismes sous-jacents. Les théories apparues
ultérieurement ont parfois permis de mieux comprendre pour-

quoi tel ou tel item est un bon indicateur de tel ou tel aspect
de l’intelligence, mais elles n’ont que rarement conduit à
construire des tests radicalement différents de ceux que nous
venons de présenter.
Il y a néanmoins quelques exceptions notables à cela. Nous
présentons ci-après deux exemples de tests d’intelligence
élaborés à partir de conceptions théoriques plus récentes, les
tests piagétiens et la K-ABC.
Les tests « piagétiens »
La théorie de Piaget est sans doute celle qui a le plus profon-

dément renouvelé les idées sur le développement de l’intelli-
gence (voir Piaget [1970] pour une présentation sommaire).
Cette théorie vise à rendre compte aussi bien de la genèse de la
connaissance scientifique dans l’histoire de l’humanité (épisté-
mologie génétique) que de la genèse de la pensée logique chez
l’enfant (psychologie génétique). La théorie de Piaget est structu-
raliste et constructiviste. Structuraliste dans la mesure où Piaget
pensait que l’homme ne peut comprendre le monde qu’en l’assi-
milant à ses structures cognitives. Constructiviste dans la mesure
où il pensait que ces structures cognitives, ces instruments
mentaux de la connaissance, ne sont ni innées ni tirées directe-
ment de l’environnement, mais se construisent par la coordina-
tion des actions. En somme, en agissant sur le monde pour le
transformer, le sujet construit, par la coordination de ses actions,
des systèmes de transformation. Systèmes d’actions matérielle-
ment effectuées d’abord, dans la période sensori-motrice, puis
systèmes d’actions intériorisées dès que le jeune enfant devient
capable de représentation. Ces systèmes d’actions intériorisées
deviennent alors des systèmes mentaux de transformation des
informations, des « opérations » de pensée. Une bonne partie de
l’œuvre de Piaget a consisté à identifier les structures « opéra-
toires » successivement construites par l’enfant en développe-
ment. La construction de chacune de ces structures marque un
stade de développement et ces différents stades sont parcourus
dans un ordre invariant. Les grands stades de développement
de la pensée logique que Piaget a identifiés chez l’enfant sont
le stade sensori-moteur (de 0 à 18 mois ou deux ans environ),
le stade préopératoire (de 2 ans à 7 ou 8 ans environ), le stade
opératoire concret (de 8 à 10 ou 11 ans environ), et le stade
formel (à partir de 11-12 ans). Ces grands stades sont divisés en

sous-stades et à chacun de ces stades et sous-stades correspond
une structure cognitive qui lui est propre et caractérise à ce
moment-là le raisonnement de l’enfant.
Piaget ne s’intéressait pas aux tests ni aux différences indivi-
duelles. Son objectif était avant tout de décrire les structures de
la cognition et les lois générales de leur construction. Pour ce
faire, il a imaginé une multitude de situations, souvent très ingé-
nieuses, destinées à mettre en évidence les stades du développe-
ment de la pensée logique. D’autres psychologues ont repris ces
situations en les adaptant pour en faire des tests permettant
d’évaluer le stade de développement de la pensée logique. Un
exemple de test français de cette catégorie est l’échelle de déve-
loppement de la pensée logique (EDPL) mise au point par
François Longeot [1969]. Cette échelle reprend cinq des situa-
tions utilisées par Piaget dans ses recherches. Ces situations
visent à mettre en évidence la structure du raisonnement dans
différents domaines de la connaissance : logique, physique et
spatial. À titre d’exemple, l’épreuve relative au domaine
physique évalue le stade de raisonnement des sujets dans le
développement de la notion de conservation. Selon Piaget, une
des manifestations de la structuration des opérations concrètes
est le raisonnement qui permet aux enfants de comprendre que
les transformations dans la forme des objets laissent certaines de
leurs propriétés invariantes : étant donné deux boules de pâte à
modeler A et B rigoureusement semblables, est-ce que le chan-
gement de la boule B (par exemple l’aplatissement en « galette »,
qui la fait paraître plus mince, l’étirement en « saucisse », qui la
fait paraître plus longue) modifie la quantité, le poids, le volume
de cette boule B par rapport à ceux de la boule A ? La quantité, le
poids, le volume sont, par rapport aux changements de forme,
des invariants que l’enfant construit progressivement, dans cet
ordre-là. Par exemple, avant 6-7 ans en moyenne, les enfants
croient que le changement de forme de l’objet peut modifier la
quantité de substance dont il est fait. L’EDPL est conçue pour
la période d’âge de 8 ou 9 ans à 15 ou 16 ans, c’est-à-dire pour
la période du développement allant de la période des opérations
concrètes à celle des opérations formelles.
Une autre échelle, l’UDN II, a été mise au point en 1980 et
révisée en 1999 par Claire Meljac et Gilles Lemel, pour évaluer
le développement cognitif aux âges allant de la période préopé-
ratoire à la période opératoire concrète [Meljac et Lemel, 1999].
L’UDN est adaptée aux âges de 4 à 11 ans, allant donc de la

maternelle à la fin de l’école élémentaire. Elle aussi s’appuie sur
les situations imaginées par Piaget pour évaluer la compréhen-
sion des concepts logico-mathématiques chez le jeune enfant, en
particulier ceux qui sous-tendent la construction et l’utilisation
du nombre (d’où le sigle UDN). Les domaines explorés sont les
conservations, la logique élémentaire (classifications et séria-
tions), le domaine spatial (en particulier la capacité à fixer une
origine pour comparer des longueurs, et l’utilisation du nombre :
comparaison de collections statiques, modification de collec-
tions, transformation d’un énoncé). Un étalonnage indique,
pour chacune de ces épreuves, l’âge caractéristique auquel elle
est réussie par 75 % des enfants et donne, pour chacune des
conduites, la fréquence avec laquelle elle a été observée aux
différents âges dans l’échantillon d’étalonnage. Cette échelle est
particulièrement appropriée au diagnostic de difficultés dans
les apprentissages élémentaires de la numération et de
l’arithmétique.
Par rapport aux tests d’intelligence classiques, les tests « piagé-
tiens » ont plusieurs originalités.
1) Le niveau de développement cognitif du sujet n’est plus
défini par son rang dans la distribution des scores de sa popula-
tion de référence, mais en référence à un critère théorique : le
stade de développement auquel son mode de raisonnement
correspond.
2) Le comportement du sujet dans les épreuves peut être inter-
prété en référence à une théorie explicite du développement
cognitif. Certains aspects de la théorie de Piaget ont certes été
critiqués et abandonnés mais, dans les grandes lignes, sa descrip-
tion des étapes du développement de la pensée logique chez
l’enfant reste valable.
3) Le niveau de développement cognitif du sujet est évalué
par une caractéristique, son stade, dont on sait qu’elle est tran-
sitoire. En cela, le stade est comparable à l’âge mental, mais il
se distingue du QI. Ce dernier, qui correspond au rang du sujet
dans son groupe d’âge, le caractérise de façon relativement
stable.
4) L’existence d’un arrière-plan théorique suffisamment précis
évite d’avoir à définir la standardisation de la passation du test
de façon aussi étroite qu’avec les épreuves de conception plus
empirique. Le problème est moins ici de se comporter de façon
identique avec chaque sujet que de faire à chacun des sujets les
« contre-suggestions » appropriées afin de voir jusqu’où il peut

aller dans son raisonnement. Cette méthode « critique » d’inves-
tigation est celle qu’utilisait Piaget et le principe en a été
conservé dans les tests piagétiens.
5) La validation théorique du test repose ici principalement
sur la méthode d’analyse hiérarchique. Les items correspondant
aux différents stades de raisonnement doivent être réussis dans
l’ordre attendu par la théorie. Cette adéquation à l’ordre théori-
quement attendu peut être évaluée par un indice de hiérarchie
qui va de 0 lorsque l’ordre de réussite des items n’est pas diffé-
rent de ce que donnerait le hasard, à 1 lorsque l’ordre observé
correspond exactement à l’ordre attendu. Dans l’EDPL, l’échelle
individuelle de Longeot, les indices hiérarchiques des diffé-
rentes épreuves sont tous supérieurs à 0,90, ce qui indique que
les items correspondant aux différents stades s’ordonnent prati-
quement comme attendu par la théorie.
Compte tenu de leur originalité, qui tient en bonne partie à
leur ancrage théorique, on aurait pu penser que les tests piagé-
tiens allaient supplanter les tests d’intelligence classiques, de
conception plus empirique. Il n’en a rien été. Il y a à cela
plusieurs raisons, mais nous n’en retiendrons qu’une. L’utilisa-
tion de ce type de test a assez vite fait apparaître qu’un sujet
pouvait être caractérisé par des stades assez différents dans les
différentes épreuves qui composent le test (cf. Lautrey [1980 b]).
Il n’était donc pas possible de caractériser un sujet par « son »
stade de développement cognitif, au singulier. On en est donc
venu, dans certains tests piagétiens, à calculer un score global
qui, par convention, affectait le sujet à un stade, mais le stade
ainsi défini n’est plus très différent d’un QI. D’autant plus que
la corrélation entre le score total des tests « piagétiens » et le QI
obtenu dans les échelles d’intelligence classiques s’est révélée
assez forte : elle varie entre 0,70 et 0,80 selon les études, ce qui
laisse penser que la capacité globale évaluée par ces deux types
de tests n’est pas très différente. Dans le même ordre d’idées, si
l’on soumet les items de tests piagétiens à une analyse factorielle,
on trouve à peu près les mêmes facteurs qu’avec les tests facto-
riels [Lautrey, 2002], à ceci près que les tests piagétiens, focalisés
sur le développement de la pensée logique, couvrent un champ
moins large que les tests factoriels ou les échelles d’intelligence.
Par conséquent, bien qu’élaborés à partir d’une théorie du déve-
loppement cognitif nouvelle en son temps, les tests piagétiens
n’ont pas renouvelé profondément les tests d’intelligence. Ils se
sont révélés particulièrement appropriés à l’évaluation du déve-

loppement de la pensée logique, c’est là leur point fort, mais ils
n’ont pas détrôné pour autant les échelles de développment à
spectre plus large.
La K-ABC
La K-ABC (Kaufman-assessment battery for children) est une

échelle d’évaluation du développement de l’intelligence conçue
pour la période d’âge de 2 ans et demi à 12 ans, qui a été publiée
aux États-Unis par Alan et Nadeen Kaufman en 1983 et adapté
en France en 1993 [Kaufman et Kaufman, 1993]. Le cadre théo-
rique qui sous-tend la construction de cette échelle s’appuie sur
la neuropsychologie et la psychologie cognitive pour distinguer
deux grandes sortes de processus mentaux, les processus séquen-
tiels et les processus simultanés. Pour étayer cette distinction,
les auteurs se réfèrent notamment aux travaux de Luria, qui
situait le siège du traitement « successif » de l’information dans
les régions fronto-temporales du cerveau et le traitement simul-
tané dans les régions pariéto-occipitales. Ils se réfèrent aussi aux
travaux de neuropsychologie et de psychologie cognitive qui ont
montré une spécialisation de l’hémisphère gauche du cerveau
dans le traitement « analytique » de l’information et une spécia-
lisation de l’hémisphère droit dans le traitement « global ». La
variété des dénominations et des localisations cérébrales dans les
travaux auxquels les auteurs se réfèrent laisse penser que la ques-
tion de la localisation cérébrale de ces processus est peut-être
plus complexe qu’ils ne l’ont cru.
En mettant au point cette nouvelle batterie, l’objectif de A.
et N. Kaufman était de renouveler les tests d’intelligence d’un
double point de vue : créer une échelle orientée vers la caracté-
risation de processus mentaux (séquentiel, simultané) plutôt que
de domaines de contenus (verbal, spatial) et lui donner des
fondements théoriques mieux assurés que ceux des échelles
précédentes. Ils ont pour cela composé la batterie de trois sous-
échelles bien distinctes. L’une évalue l’efficience des processus
séquentiels, une autre évalue l’efficience des processus simul-
tanés et la troisième évalue les connaissances. Les processus
séquentiels sont ceux qui sont mis en œuvre lorsque les diffé-
rents aspects de l’information sont traités l’un après l’autre, en
succession dans le temps. Les processus simultanés sont ceux qui
sont mis en œuvre lorsque les différents aspects de l’information
disponible sont traités en parallèle, en même temps. Ces deux

premières sous-échelles sont exclusivement orientées vers
l’évaluation de l’efficience de ces deux grands processus
mentaux. La sous-échelle évaluant les connaissances n’est pas
mélangée avec celles-ci, comme c’était le cas dans le Binet-Simon
ou dans la WAIS, de telle sorte que l’on puisse bien distinguer
la quantité et la qualité des connaissances acquises, d’une part,
de l’efficience des processus grâce auxquels elles ont été acquises
d’autre part. Une troisième sous-échelle évalue donc, à part, les
connaissances.
Dans la sous-échelle des processus séquentiels, on trouve une
épreuve de répétition de chiffres dont le principe est le même
que dans le Binet-Simon et la WAIS, une épreuve de rappel de
mots, de principe analogue, et une épreuve plus originale,
inspirée des travaux de Luria, qui consiste à montrer au sujet
une succession de mouvements de la main qu’il doit reproduire
ensuite (cf. figure 12).
Figure 12. Exemple d’item analogue à ceux de l’épreuve

de mouvements de la main dans la K-ABC
(ibid.)
M P C M C
Les trois mouvements de base à reproduire dans les différentes séquences sont la main à
plat (M), de côté (C) et le poing (P). Le sujet doit ici reproduire les 5 mouvements (M, P,
C, M, C). Le nombre des mouvements présentés varie de 2 à 6 selon l’âge du sujet.
La sous-échelle de processus simultanés comporte un plus

grand nombre d’épreuves. Certaines sont proches de celles de
l’échelle de performance de la WAIS ou de la WISC (par exemple,
le test séries de photos qui est analogue à l’épreuve d’arrange-
ment d’images de la WAIS, à ceci près que les éléments en
désordre à partir desquels il faut reconstituer l’histoire sont des
photos au lieu d’être des dessins). D’autres sont plus nouvelles,
par exemple celle de reconnaissance de formes, dans laquelle le
sujet doit reconnaître l’objet dont on lui présente une image

dégradée (cf. figure 13).
Figure 13. Item de démonstration de l’épreuve de reconnaissance

de formes de la K-ABC
(ibid.)
La forme à reconnaître est ici celle d’un oiseau. Les images sont dégradées en supprimant
une partie plus ou moins importante des traits.
Les épreuves de la troisième sous-échelle, celle d’informa-

tion, sont conçues sur le même principe que les épreuves de
vocabulaire, d’information, ou d’arithmétique de la WAIS ou de
la WISC et elles comportent aussi des épreuves de compréhen-
sion de lecture. Elles sont présentées sous une forme attrayante
et adaptée à de jeunes enfants. Par exemple, l’épreuve d’infor-
mation n’est pas donnée sous forme de questions comme dans la
WAIS ou la WISC, mais en montrant aux enfants des photogra-
phies de personnages ou de monuments célèbres qu’ils doivent
reconnaître (par exemple, la photo de la tour Eiffel).
Les notes brutes dans ces trois sous-échelles sont transformées
en notes standards et les notes standards sont transformées en QI,
selon les mêmes principes que dans la WAIS. On peut aussi
comparer les notes standards obtenues aux différents sous-tests et
établir des profils. Les qualités métrologiques de cette batterie sont
tout à fait comparables à celles des échelles précédentes et l’analyse
factorielle des différents sous-tests qui la composent confirme que
les épreuves de processus séquentiels et celles de processus simul-
tanés sont bien saturées par deux facteurs différents.
En mettant l’accent sur l’évaluation de l’efficience de deux
grands types de processus, séquentiels et simultanés, cette
nouvelle échelle a-t-elle réellement renouvelé la conception des
tests d’intelligence et permis d’évaluer autre chose que les tests

précédents ? On manque encore de recul pour pouvoir le dire.
Notons cependant que les trois échelles de la K-ABC évaluent
trois aspects de l’intelligence qui sont assez proches des trois
facteurs auxquels ont abouti les analyses factorielles de la WAIS :
un facteur verbal saturant des sous-tests assez proches de ceux
de l’échelle d’information de la K-ABC ; un facteur visuo-spatial,
saturant des épreuves de performance assez proches de ceux de
l’échelle de processus simultanés ; et enfin un facteur qui satu-
rait surtout l’épreuve de répétition de chiffres et le code, inter-
prété comme un facteur de résistance à la distraction ou
d’attention, dont le contenu est donc assez proche de celui de
l’échelle de processus séquentiels de la K-ABC. Par ailleurs, la
corrélation entre le QI obtenu à la K-ABC et le QI obtenu à
d’autres échelles d’intelligence est assez forte (aux environs de
0,70), ce qui indique que la capacité générale évaluée par cette
échelle est assez liée à celle qui est évaluée par les échelles
d’intelligence déjà existantes.
En résumé, les tests construits à partir de théories de l’intelli-
gence plus récentes ont tenté d’approcher le fonctionnement et
le développement cognitifs sous un autre angle. Les tests piagé-
tiens ont pour objectif d’appréhender les grandes structures par
lesquelles passe, selon Piaget, le développement de la pensée
logique. La K-ABC vise l’évaluation de l’efficience de deux
formes différentes de traitement de l’information : simultané et
séquentiel. Chacune de ces nouvelles approches enrichit la
palette des psychologues et leur ouvre des possibilités de
diagnostic plus ciblées. Il n’en reste pas moins que, pour une
bonne part, ces tests inspirés de théories plus récentes évaluent
la même capacité générale que les tests classiques. D’un certain
point de vue, le fait que des épreuves conçues à partir de cadres
théoriques assez différents évaluent à peu près la même chose
que les épreuves antérieures contribue à la validation théorique
— a posteriori — de l’approche empirique et pragmatique des
premiers concepteurs de tests d’intelligence.
Les épreuves d’intelligence sociale, d’intelligence émotionnelle

et d’intelligence pratique
Les épreuves qui viennent d’être présentées correspondent à des

formes d’intelligence qui peuvent être qualifiées d’abstraites dans
la mesure où elles portent sur la manipulation de signes ou de
symboles. Il existe d’autres formes d’intelligence, plus concrètes,

qui concernent les relations avec autrui (intelligence sociale), la vie
émotionnelle (intelligence émotionnelle) et la résolution de
problèmes pratiques (intelligence pratique). On a construit des
tests pour évaluer ces diverses formes d’intelligence. Pour l’instant,
leurs bases théoriques sont encore fragiles et leurs qualités psycho-
métriques (fidélité et validité) mal assurées.
L’intelligence sociale se manifeste dans les situations de la vie
quotidienne où l’on interagit avec les autres. Elle est constituée
d’une série de compétences qui permettent la compréhension
d’autrui et l’élaboration de conduites sociales adaptées. Les sujets
ayant une bonne intelligence sociale sont particulièrement
sensibles aux indices verbaux et non verbaux qui renseignent
sur les états mentaux, les émotions et les intentions d’autrui. Ils
sont capables aussi d’utiliser les informations recueillies pour
agir en tenant compte d’autrui (aider à résoudre des conflits,
faire progresser un individu ou un groupe dans la résolution
d’un problème…) ou sur autrui (convaincre, manipuler…).
L’intelligence sociale est un savoir-faire rarement explicité qui
se manifeste dans des contextes particuliers. On a mis au point
des épreuves objectives permettant de repérer, souvent dans des
situations simulant des situations de la vie quotidienne ou des
situations professionnelles, les compétences sociales. On peut,
par exemple, et c’est une pratique courante dans les assessments
centers 3, confier à un groupe de sujets une tache à accomplir
ou un cas à analyser et demander à plusieurs observateurs de
relever, à l’aide de grilles préalablement établies, les comporte-
ments et les modes d’intervention de chacun qui sont les indi-
cateurs des compétences sociales recherchées. Ces méthodes
sont lourdes à mettre en œuvre. On a donc cherché à simuler
les situations sociales au moyen de dessins ou de photogra-
phies, mais on perd alors ce caractère essentiel de la situation
sociale qui est la présence physique d’autrui. Il existe aussi des
questionnaires d’intelligence sociale. Ils sont d’un usage aisé
mais ils apportent une information relativement ambiguë dans
la mesure où ils nous renseignent sur l’image que le sujet se fait
3. Ce terme désigne davantage une démarche d’évaluation que des institutions parti-
culières. Destinée aux cadres, l’évaluation a lieu dans un contexte professionnel, les
compétences à rechercher pour remplir des fonctions particulières sont soigneuse-
ment définies, les méthodes d’évaluation mobilisent plusieurs observateurs et utili-
sent largement des simulations.
de lui-même et non sur ses comportements effectifs. Comme

exemple de questionnaire, on peut citer celui mis au point par
Riggio [1986]. Cet auteur considère qu’il y a trois compétences
de base : l’expressivité, la sensibilité et le contrôle, et que ces
compétences peuvent se manifester dans le domaine social et le
domaine émotionnel. On a donc six dimensions qui sont appré-
hendées par six ensembles d’items.
L’intelligence émotionnelle, capacité à connaître son fonc-
tionnement émotionnel et à utiliser cette connaissance, est un
concept plus récent et aujourd’hui très à la mode. Elle est parfois
conçue comme un aspect de l’intelligence sociale. Meyer et
Salovey [1997] ont construit des tests destinés à évaluer les
quatre facettes de l’intelligence sociale qu’ils distinguent :
— la perception des émotions chez soi et chez les autres ;
— l’utilisation des émotions pour faciliter les processus de
pensée (aider à décider, à aller à l’essentiel, à créer) ;
— la compréhension des émotions (capacité à nommer
et distinguer les émotions, à connaître leurs causes et leur
dynamisme) ;
— la gestion des émotions.
Tous les auteurs n’adoptent pas une définition aussi restreinte
de l’intelligence émotionnelle et certains n’hésitent pas à inclure
dans l’intelligence émotionnelle des caractères individuels que
l’on considère habituellement comme des traits de personna-
lité ou des aspects de l’intelligence. C’est ainsi que parmi les
quinze aspects de l’intelligence émotionnelle distingués par
Bar-On [1997], à côté de ceux qui relèvent de l’intelligence
émotionnelle au sens strict (conscience de soi émotionnelle,
tolérance au stress, empathie…), on en rencontre qui relèvent
plutôt de la personnalité comme l’optimisme ou l’indépen-
dance, ou de l’intelligence, comme la capacité à identifier et
résoudre des problèmes. Bar-On a construit, sur le modèle des
échelles de Wechsler, un questionnaire qui permet le calcul d’un
quotient émotionnel général et de cinq quotients émotionnels
particuliers (intrapersonnel, interpersonnel, d’adaptabilité, de
gestion du stress et d’humeur générale). Les incertitudes qui
pèsent sur la définition même de l’intelligence émotionnelle et
sur sa mesure ne permettent pas de répondre clairement à la
question de ses relations avec l’intelligence telle qu’elle est
définie par les épreuves présentées tout au long de ce chapitre.
L’intelligence pratique, comme l’intelligence sociale, n’est pas
une intelligence générale ; elle dépend étroitement des contextes
situationnels. C’est aussi une intelligence en acte qui, du point de

vue du sujet, relève de l’intuition. Les problèmes relevant de l’intel-
ligence pratique sont souvent mal définis, présentent un intérêt
personnel, sont concrets, ils n’ont pas de solution unique et
peuvent être résolus de plusieurs manières. Ces caractères les distin-
guent fortement des problèmes que l’on rencontre dans les tests
d’intelligence présentés dans ce chapitre. Ceux-ci sont souvent
bien définis, ne présentent pas un intérêt personnel immédiat, sont
abstraits, le plus souvent, ils ont une solution unique que l’on ne
peut atteindre que par une seule voie. Les connaissances mobilisées
pour la résolution des tests classiques sont explicites ou facilement
explicitables, celles utiles à la résolution des problèmes pratiques
sont tacites : procédurales, elles sont très liées à l’action, elles sont
associées à des buts pratiques, elles ne sont pas systématiquement
enseignées [Sternberg et Wagner, 1986].
Afin d’évaluer cette forme d’intelligence on a cherché à savoir
à quel degré les sujets possédaient des compétences utiles dans
la vie quotidienne, comme lire une carte, comprendre un mode
d’emploi ou encore utiliser les transports en commun… On a
aussi cherché à simuler les situations dans lesquelles se manifes-
tent la débrouillardise du bon bricoleur ou le sens de l’opportu-
nité et l’esprit de décision du bon manager. Voici un exemple
d’une procédure proposée par Sternberg et Wagner pour évaluer
l’intelligence pratique des managers. On demande au sujet de
s’imaginer qu’il est un manager occupant une position moyenne
dans la hiérarchie de son entreprise, qu’il est responsable d’une
trentaine de personnes et qu’il a deux adjoints, l’un qui le
seconde bien et l’autre qui ne lui est d’aucune utilité. On lui
demande aussi d’imaginer que son objectif est d’obtenir une
promotion rapide. On lui présente ensuite une liste d’une quin-
zaine de tâches qu’il pourrait accomplir dans les deux mois qui
viennent. Par exemple : participer à des groupes de discussion
afin d’apparaître à la télévision locale, s’assurer que ses supé-
rieurs ont bien conscience de ses performances, mieux tenir
compte des points forts et des points faibles de chacun dans
l’organisation du travail, trouver un moyen de se séparer de son
adjoint peu efficace… Il doit indiquer les taches qui lui parais-
sent prioritaires. Des managers confirmés, à qui l’on attribue le
statut d’experts, ont été mis dans la même situation. On consi-
dère que l’intelligence pratique du sujet pour le management
sera d’autant meilleure que ses réponses se rapprocheront de
celles données par les experts.
IV / Les usages des tests d’intelligence
Depuis le début du siècle, les tests sont utilisés, plus ou moins

fréquemment selon les pays et selon les questions à traiter, dans
divers secteurs de la vie sociale. On peut distinguer deux grandes
classes d’utilisation : l’aide au diagnostic et la contribution à
l’affectation sociale. Dans les situations d’aide au diagnostic, le
psychologue cherche à comprendre la nature du problème de la
personne qu’il a en face de lui et qu’il se propose d’aider. Il peut
s’agir de troubles sérieux de la conduite, de difficultés rencon-
trées à l’école, d’hésitations quant aux décisions à prendre et aux
stratégies à mettre en œuvre dans les domaines de l’orientation
scolaire ou professionnelle, ou encore d’inadaptation aux situa-
tions de la vie quotidienne, familiale ou professionnelle. Dans
tous ces cas, il peut paraître utile, parmi d’autres moyens d’inves-
tigation, d’appliquer des tests et, éventuellement, des tests
d’intelligence.
L’utilisation des tests dans la perspective d’une contribution
au processus d’affectation sociale est de nature toute différente.
Ce mode d’utilisation se rencontre essentiellement dans les
domaines de l’éducation (sélection scolaire) et du travail (recru-
tement). On considère alors que le test fournit des informations
qui, généralement combinées à d’autres, permettront de décider
de l’affectation des individus à des formations ou à des emplois
particuliers. Les interrogations que l’on peut formuler sur l’usage
des tests ne sont évidemment pas de même nature ni de même
importance dans ces deux types de situations.
Nous examinerons dans ce chapitre les débats et polémiques
dont les tests d’intelligence ont été l’objet, l’usage qui en est
généralement fait aujourd’hui en France et quelques questions
d’ordre éthique et déontologique posées par cet usage.
Les débats et polémiques sur les usages sociaux des tests
Les interrogations à propos des tests, et les critiques qu’ils ont

suscitées, sont diverses ; elles remontent, pour certaines d’entre
elles, à l’origine même des tests et elles ont pris des formes très
différentes selon les contextes nationaux.
Trois types d’interrogations
Les tests d’intelligence peuvent être examinés et, le cas

échéant, critiqués d’un point de vue philosophique, d’un point
de vue psychologique et d’un point de vue social.
Les premiers tests sont apparus au début du siècle dans le cadre
d’une psychologie naissante qui, rompant avec la tradition philo-
sophique pour se rapprocher des sciences naturelles, se proposait
non seulement d’étudier objectivement les phénomènes psycholo-
giques, en les abordant à partir des comportements observables,
mais aussi de les mesurer. En s’opposant ainsi frontalement aux
positions idéalistes dominantes, cette psychologie a évidemment
rencontré de fortes résistances. Le rejet des tests correspondait alors
à une prise de position philosophique : on ne pèse pas les âmes !
Ce débat est aujourd’hui dépassé. La psychologie objective est
devenue une discipline reconnue dont les apports sont signifi-
catifs. Mais il se trouve toujours des personnes, et parfois même
des personnalités éminentes, pour affirmer que l’intelligence
humaine est si complexe qu’il est vain de chercher à l’appréhender
objectivement et à la mesurer. Personne ne conteste la complexité
des phénomènes que l’on évoque par le terme « intelligence ». Il est
clair que la psychologie ne peut en fournir que des représentations
partielles et approximatives (il en va d’ailleurs ainsi pour beaucoup
d’autres aspects du réel qui ne relèvent pas de la psychologie). La
véritable question est de savoir si ces représentations sont suscep-
tibles ou non de s’améliorer. Les disciplines empiriques, et c’est le
fondement même de leur existence, parient pour l’amélioration.
Les tests ont été l’objet de critiques au sein même de la psycho-
logie. Celles-ci sont de deux ordres : elles concernent soit la portée
des observations, elles sont alors d’inspiration « béhavioriste » 1,
1. Le béhaviorisme, néologisme formé à partir du terme behavior, qui signifie

« comportement » en américain, est un courant théorique qui, dans ses formes les
plus radicales, limite la psychologie scientifique à la recherche des lois reliant les
LES USAGES DES TESTS D’INTELLIGENCE 85
soit leur signification, elles sont alors d’inspiration

« cognitiviste » 2.
Le sujet étant caractérisé par sa performance au test, l’est-il
pour un large ensemble de situations (on dira alors qu’il est situé
sur une dimension large) ou pour un groupe de situations très
proches du test (on dira alors qu’il est situé sur une dimension
étroite) ? Si l’on considère que la conduite des individus
s’explique essentiellement par les propriétés des situations dans
lesquelles ils sont insérés et par les apprentissages spécifiques
qu’ils ont eu l’occasion de réaliser, on ne pourra les distinguer
que relativement à ces situations et apprentissages spécifiques.
On pourra parler alors de différences d’intelligence, mais seule-
ment pour une situation donnée ou un groupe de situations
proches. Or les tests d’intelligence prétendent le plus souvent
caractériser les individus de manière générale. On peut donc,
dans cette perspective, leur reprocher des généralisations
abusives. Dans le cadre de cette critique générale, on a parfois
souligné le caractère scolaire de la situation de test, particuliè-
rement nette avec les tests papier-crayon. L’intelligence mesurée
par les tests serait alors une intelligence « scolaire » mise en
œuvre par des individus isolés et dans des situations artificielles.
La critique peut aussi porter sur la signification des perfor-
mances observées. Ce type de critique souligne les ambiguïtés
des performances individuelles relevées à l’issue de la passation
d’un test. Il est vrai que les tests classiques nous fournissent
uniquement une information sur la performance du sujet (nous
l’avons vu au chapitre II avec le test des matrices progressives).
Une même performance n’aura pas nécessairement la même
signification si elle est obtenue en mettant en œuvre des acti-
vités mentales différentes. Par voie de conséquence, l’informa-
tion fournie par les tests perdra une part de son intérêt.
Ces critiques, à la différence de la critique philosophique, sont
internes au champ de la psychologie. Aussi est-il possible d’en
tenir compte dans la construction des tests. Dans le chapitre
précédent, nous avons repéré deux évolutions nettes en matière
de mesure de l’intelligence : le passage de conceptions
comportements aux stimuli, en rejetant tout recours à des variables intermédiaires

entre l’entrée (le stimulus) et la sortie (la réponse).
2. Le cognitivisme s’oppose au béhaviorisme notamment par le fait qu’il considère la
modélisation des activités internes, celles qui s’intercalent entre le stimulus et le
comportement, comme partie intégrante de la psychologie scientifique.
unidimensionnelles à des conceptions pluridimensionnelles et la

prise en compte plus fréquente des processus cognitifs respon-
sables de l’élaboration de la réponse. Cette dernière tendance a
été évoquée à propos de l’évaluation des processus séquentiels
et simultanés dans la K-ABC. Elle est beaucoup plus développée
encore par un courant de recherche qui tente de modéliser les
processus cognitifs que les sujets mettent en œuvre dans la réso-
lution des items de tests. Un exemple des travaux réalisés dans
le cadre de ce courant de recherches en a été donné à la fin du
chapitre II à propos des composantes du processus de résolu-
tion des items des matrices progressives de Raven. Ces deux
évolutions visent à répondre aux deux critiques que nous venons
d’évoquer.
Le troisième type d’interrogation porte sur les fonctions que
les tests peuvent remplir dans la société. Il concerne essentiel-
lement les questions relatives à l’affectation sociale des indi-
vidus et les conclusions que l’on peut tirer des observations faites
au moyen de tests sur l’organisation de la vie sociale. Il a été
suscité principalement par des problèmes qui se posent dans le
champ des politiques éducatives — comment interpréter les
inégalités en matière d’éducation ? Comment organiser le
système de formation ? — et secondairement par des problèmes
de travail ou d’emploi. Ce type d’interrogation conduit à des
critiques politiques. Deux thèmes reviennent constamment :
celui de l’équité des différenciations opérées par les tests et celui
de l’origine des différences individuelles, avec la question du rôle
de l’hérédité. Après avoir rappelé quelques données historiques,
nous examinerons la forme prise par les débats et polémiques
sur la fonction socio–politique de certains usages des tests aux
États-Unis, dans l’ex-Union soviétique et en France.
La naissance des tests et leur diffusion
Les tests sont nés de la rencontre entre une demande sociale et

l’émergence d’une psychologie scientifique. Dès l’origine, on
peut donc s’interroger sur leurs fonctions sociales et leurs fonde-
ments scientifiques. À la fin du XIX e siècle et au début du
XXe siècle, le besoin de disposer de procédures d’évaluation de
l’efficience cognitive des individus se manifeste dans plusieurs
secteurs de la vie sociale. Cette demande est d’abord apparue, dès
le début du XIXe siècle, dans certains asiles accueillant les défi-
cients mentaux profonds, où l’on commençait à se préoccuper
de leur éducation. La demande de diagnostic était motivée par

le souci de repérer des niveaux de déficience afin d’affiner les
méthodes de remédiation et de constituer des groupes homo-
gènes. Elle est apparue ensuite dans les écoles avec la générali-
sation de l’enseignement primaire. Un peu plus tard, le besoin
de diagnostic se manifeste dans les usines. Il s’agit alors
d’améliorer les procédures de recrutement des ouvriers, non
seulement afin d’augmenter la production, mais aussi, notam-
ment, la sécurité (les premiers travaux portèrent sur les conduc-
teurs de tramway). L’orientation professionnelle apparaîtra dans
le sillage des premières tentatives de sélection professionnelle.
On souhaite alors pouvoir disposer d’évaluations des aptitudes
qui permettront une bonne adaptation à la profession. Parmi
ces aptitudes, il y a les aptitudes cognitives qui définissent
l’intelligence.
Avec Binet, le mouvement des tests reste circonscrit pour
l’essentiel à l’éducation spécialisée et à l’enseignement primaire.
La participation des psychologues à la mise en place de l’armée
américaine, à la suite de l’entrée des États-Unis dans la Première
Guerre mondiale (1917), allait permettre une extension considé-
rable de ce mouvement. Des tests de groupe furent construits et
appliqués à plus de trois millions de recrues qui furent ensuite
affectées à différentes fonctions dans l’armée largement en fonc-
tion de leurs résultats aux tests. Des procédures spéciales furent
mises au point pour le recrutement des pilotes et des profes-
sionnels nécessaires au fonctionnement de l’armée. Le fait que
les Américains se soient trouvés dans le camp des vainqueurs
fut parfois considéré comme une validation suffisante des tests !
Au lendemain de la guerre, les tests commencèrent à être utilisés
dans presque tous les secteurs de la société : dans les écoles
secondaires et dans les universités, dans les entreprises et les
administrations, dans le monde judiciaire, et l’on continua, bien
sûr, à les utiliser dans l’armée. Bien qu’avec une moindre
ampleur qu’aux États-Unis, le mouvement des tests (on parle
alors de psychotechnique) se développe aussi dans la plupart des
pays industrialisés [Zurfluh, 1976]. Pour l’Europe, c’est en Angle-
terre qu’il est le plus fort (les tests commencent à y être utilisés
comme moyen de sélection scolaire dans les années 1920). Mais
ce développement et les débats qui l’accompagnent prennent
des formes très différentes selon les pays.
Les débats sur les tests d’intelligence aux États-Unis :

héréditarisme et biais culturels
Dans la période de l’entre-deux-guerres, les débats sur les tests

portent sur les conclusions à tirer des résultats observés lors du
gigantesque testing de 1917 (ils furent publiés en 1921). Les diffé-
rences entre groupes, observées notamment entre les Noirs et les
Blancs, sont systématiquement interprétées comme des diffé-
rences héréditaires. La supériorité moyenne aux tests des Noirs
du Nord sur les Noirs du Sud, par exemple, ne fut pas interprétée
en évoquant des facteurs environnementaux assez évidents
comme les taux de scolarisation. On préféra inventer la thèse des
migrations sélectives selon laquelle ce seraient les Noirs du Sud
les plus intelligents qui auraient émigré vers le Nord. L’applica-
tion de normes pour le moins discutables conduisit à affirmer
que 37 % des conscrits étaient des débiles mentaux ! Ces affir-
mations étaient loin d’être anodines. Elles donnèrent des argu-
ments aux eugénistes qui prônaient des restrictions de la vie
sexuelle des débiles et leur stérilisation, aux xénophobes
partisans d’une politique sélective de l’immigration et aux
racistes. Si le point de vue héréditariste était majoritaire, il n’y
avait cependant pas unanimité chez les psychologues, d’où une
série de controverses. La plus vive opposa, en 1922-1923,
Terman, adaptateur du test de Binet et alors partisan des thèses
héréditaristes qu’il abandonnera quelques années plus tard, et
Lippman. Lippman ne mettait pas en cause l’intérêt des tests
d’intelligence, mais il critiquait sévèrement le seuil choisi pour
définir la débilité et, surtout, affirmait que l’intelligence ne
pouvait être évaluée indépendamment des apprentissages et
récusait donc l’idée d’une intelligence « pure », sorte de subs-
tance mystérieuse qui serait imperméable aux influences éduca-
tives. Beaucoup de débats et de polémiques ultérieurs n’ont fait
que reproduire cet affrontement initial [Cronbach, 1975 ; Gould,
1983 ; Paicheler, 1992]. Notons que toutes ces discussions
portent sur les tests d’intelligence, et plus particulièrement les
tests collectifs, quel que soit le type d’étalonnage retenu, qui est
ici tout à fait secondaire. Or, les résultats aux tests étant le plus
fréquemment exprimés en quotient intellectuel, on en est arrivé
à penser, surtout dans les médias, que c’est le QI qui était criti-
quable, alors que les problèmes traités sont rigoureusement iden-
tiques que l’on utilise ou non la notion de QI.
Les critiques de Lippman ne visaient pas les tests, mais seule-

ment l’interprétation des observations faites au moyen de tests.
Au lendemain de la Seconde Guerre mondiale, une critique va se
développer qui met en cause les tests eux-mêmes. Eels, Davis et
Havighurst [1951], des sociologues de Chicago, mettent en cause
l’impartialité apparente des tests. Les enfants des milieux popu-
laires, disent-ils, ne sont pas nécessairement moins intelligents
en moyenne que les enfants des classes aisées et il se pourrait
fort bien que les tests, par leur contenu proche de la culture des
enfants des classes aisées, favorisent ces enfants au détriment de
ceux des classes populaires. Davis et ses collègues examinèrent
les tests alors en usage pour valider leur thèse et ils tentèrent de
construire un test « socialement équitable », entreprise qui, fina-
lement, se révéla quasi impossible. La critique de Davis et al. a
été à l’origine d’un courant de recherche important sur les biais
culturels dans les tests ; nous y reviendrons.
Le débat sur le rôle de l’hérédité dans l’explication des diffé-
rences individuelles est un débat permanent. L’année 1969 en
marque un temps fort. On s’interroge alors sur l’efficacité des
grands programmes socio-éducatifs lancés pour lutter contre la
pauvreté et pour faciliter l’intégration des minorités noire et
hispanique. C’est alors qu’un psychologue de l’université de
Berkeley, Arthur Jensen, publie un long article où il tente de
montrer : 1) que les programmes socio-éducatifs n’ont pas
d’effets ; 2) que l’intelligence et la réussite scolaire sont déter-
minées massivement par l’hérédité dans la population blanche ;
et 3) que les différences d’efficience dans les tests et à l’école
entre Noirs et Blancs s’expliquent aussi par l’hérédité. Il ne
restait plus alors, selon Jensen, qu’à mettre un terme aux
programmes socio-éducatifs. Dans d’autres écrits, Jensen a déve-
loppé l’idée qu’il y avait deux formes d’intelligence, l’une noble
et créative, l’autre simplement associative, que ces formes
d’intelligence étaient déterminées par l’hérédité, que la première
était plus fréquente chez les Blancs tandis que la seconde l’était
chez les Noirs, et que, en conséquence, il était souhaitable
d’organiser deux types d’enseignement. Jensen reçut quelques
soutiens, celui d’Eysenck notamment, un psychologue qui fut
pendant longtemps la personnalité la plus représentative de
l’école psychométrique anglaise, de tradition galtonienne, mais
ces thèses, qui, encore une fois, ne portent pas sur les tests mais
sur l’interprétation des constats faits au moyen des tests, eurent
une audience plutôt limitée chez les psychologues (en France,
aucune personnalité connue dans le monde de la psychologie

ne prit publiquement le parti de Jensen). Un autre temps fort
du débat sur le rôle de l’hérédité dans l’origine des différences
individuelles fut la publication en 1994 de The Bell Curve, sous
la signature de Herrnstein, un psychologue qui avait déjà
apporté son soutien à Jensen en 1971, et de Murray, un spécia-
liste de sciences politiques. Ces auteurs réactualisèrent les posi-
tions de Jensen en affirmant que la différenciation sociale, aux
États-Unis, se faisait sur une base cognitive et que les différences
d’efficience cognitive, entre individus et entre groupes, étaient
largement dépendantes du patrimoine héréditaire.
Les positions défendues par Jensen, Herrnstein et Murray sont
représentatives d’un certain darwinisme social. Elles affirment
que les inégalités sont naturelles. Ce n’est donc pas la peine
d’essayer de réformer la société pour les réduire, il est préfé-
rable de l’organiser en conséquence. Ces positions reposent sur
deux postulats : le caractère unidimensionnel de l’intelligence
(qui permet de la faire coïncider avec les classements sociaux)
et le rôle massif des déterminants héréditaires. Or il est bien
établi aujourd’hui que l’intelligence est pluridimensionnelle et
que, compte tenu des phénomènes d’interaction entre l’équipe-
ment génétique et les facteurs environnementaux, il n’y pas de
sens à quantifier les parts respectives de l’hérédité et du milieu
dans l’explication des différences individuelles.
Malgré les tentatives d’un certain nombre de médias pour les
importer, ces polémiques eurent un écho relativement faible en
France où, pour des raisons tenant à la fois à l’histoire et à la
sociologie, on pense les relations entre communautés en des
termes radicalement différents. On peut aussi noter, nous y
reviendrons, que l’usage des tests est beaucoup plus limité dans
le système scolaire français, et que, surtout, les pratiques sélec-
tives ne sont pas fondées sur des tests d’intelligence, mais
uniquement sur les résultats scolaires.
Les tests en Union soviétique : de l’enthousiasme au rejet
Au lendemain de la révolution d’Octobre, le gouvernement

soviétique encourage les développements de la psychotech-
nique, considérée comme une discipline scientifiquement
fondée et tout à fait susceptible de contribuer à la construction
du socialisme. En 1931, le septième congrès international de
psychotechnique se tient à Moscou et les congressistes
occidentaux sont impressionnés par les réalisations dont ils

prennent connaissance et envient les moyens dont disposent
leurs collègues soviétiques. Ces derniers travaillent en plein
accord avec le gouvernement de leur pays et ont conscience de
participer à la construction d’une psychologie marxiste.
Mais cette belle harmonie ne va pas durer. Dès le début des
années 1930, des critiques commencent à s’élever contre les tests
et elles deviennent de plus en plus vives. En 1936, une résolu-
tion du comité central du parti communiste portant sur « les
altérations pédologiques dans les commissariats de l’éduca-
tion » interdit purement et simplement les tests. Deux types de
justifications sont présentés. Les premières concernent ce que
l’on pourrait appeler les effets pervers des tests dans le système
éducatif. On reproche aux « pédologues » (les psychologues de
l’enfance qui utilisent des tests) d’être responsables de la multi-
plication des classes spéciales et d’avoir pris le pouvoir dans les
écoles au détriment des enseignants. Les secondes, de loin les
plus importantes, sont exclusivement d’ordre idéologique. La
recherche sur les tests et la pratique psychotechnique sont jugées
incompatibles avec le marxisme, et du coup « bourgeoises » et
« antiscientifiques » (comme la génétique mendélienne, la
physique quantique et la psychanalyse). La législation organi-
sant le travail des psychologues est supprimée, l’enseignement
des tests est aboli et les livres à sujet « pédologique » doivent être
détruits. Les animateurs du mouvement des tests disparaissent
de la scène. En fait, ce sont des pans entiers de la psychologie
soviétique qui sont liquidés et ne subsiste plus qu’un pavlo-
visme officiel qui restreint l’étude des conduites à la mise en
évidence de leur conditionnement. Les tests réapparaîtront en
Union soviétique dans les années 1970. Cette critique idéolo-
gique des tests sera reprise en France par de nombreux intellec-
tuels, notamment des psychologues appartenant au mouvement
communiste.
Les débats sur les tests en France : la « juste sélection »

et la légitimation des inégalités
Le mouvement des tests en France est marqué par deux fortes

personnalités : Alfred Binet et Édouard Toulouse. L’influence de
Binet, disparu prématurément en 1911, s’est essentiellement
exercée à travers son test. Celle de Toulouse, bien que moins
connue, a été plus profonde. Toulouse (1865-1947) est un
psychiatre qui a développé tout au long de sa vie une intense

activité en conduisant des recherches fondamentales (notam-
ment sur les rapports entre le génie et la névropathie), en créant
de nombreux laboratoires, en proposant des solutions aux
problèmes sociaux (notamment dans le domaine de la santé
mentale [Huteau, 2002]). Toulouse est un chaud partisan des
méthodes objectives, donc des tests. Soucieux d’expliquer les
conduites à partir de phénomènes psychologiques élémentaires
et de la physiologie, il adhère aux positions réductionnistes
adoptées par la plupart des psychologues du début du siècle (à
l’exception de Binet). Les premiers tests élaborés par Toulouse
et ses collaborateurs, en 1904, ressemblent beaucoup, nous
l’avons noté (cf. chapitre I), aux situations que l’on rencontrait
alors dans les laboratoires de psychologie expérimentale, ils
portent pour l’essentiel sur l’évaluation de processus psycholo-
giques élémentaires. Toulouse est aussi fortement engagé dans
son époque et il propose des réformes inspirées de la philoso-
phie positiviste qui rejoignent les revendications égalitaires des
mouvements sociaux du moment. Jusqu’aux années 1940-1950,
ce sont des élèves de Toulouse, Henri Laugier, Jean-Maurice
Lahy, Henri Piéron, qui seront les plus ardents promoteurs de la
psychotechnique [Huteau, 1996].
Pour Toulouse et ses élèves l’utilisation des tests n’est pas
seulement un moyen de rationaliser la vie sociale, mais aussi un
moyen de promouvoir davantage de justice. Ils pensent que les
psychotechniciens doivent jouer un rôle d’experts dans le
domaine du travail, en déterminant au moyen de tests les apti-
tudes nécessaires à l’exercice des professions, en orientant les
politiques de formation professionnelle, en réformant les condi-
tions de travail, en enquêtant sur les causes des grèves. L’objectif
affiché est de répartir plus équitablement la « tâche sociale »
entre les ouvriers et les patrons. Toulouse et ses élèves voient
aussi dans une orientation professionnelle fondée sur des
constats d’aptitudes un moyen de corriger les inégalités d’accès
à l’éducation. Plus fondamentalement, ils se proclament sans
réserves pour l’école unique (jusqu’à la Seconde Guerre
mondiale, il y a en fait deux écoles : l’école primaire avec son
prolongement primaire-supérieur fréquentée par les enfants
d’origine populaire, et les classes primaires des lycées avec le
lycée comme prolongement naturel, réservées aux enfants des
classes aisées) et proposent, à l’issue d’un tronc commun, « une
juste sélection » fondée sur des constats objectifs d’aptitudes.
Dans les années 1920-1930, plusieurs projets de loi seront

proposés pour organiser le système d’enseignement dans cette
perspective.
L’usage des tests qui est ainsi proposé, du début du siècle au
lendemain de la Seconde Guerre mondiale, s’inscrit donc dans
des politiques visant à réformer dans un sens progressiste le
système social. Cela explique que les tests aient été perçus
comme des outils au service du progrès social dans le mouve-
ment syndical et dans le mouvement socialiste, et comme des
techniques dangereuses, dont on contestait la validité, dans les
milieux de la bourgeoisie conservatrice. Ces débats n’ont pas
grand-chose à voir avec ceux qui se déroulaient à peu près au
même moment outre-Atlantique. Malgré leur ardeur, Toulouse
et ses élèves ne réussirent que très partiellement à imposer leurs
vues. Certes, les tests furent de plus en plus utilisés en sélec-
tion et surtout en orientation professionnelle, mais la sélection
scolaire continua à se faire précocement et sur une base sociale.
Le projet psychotechnique demeura une utopie.
Au lendemain de la Seconde Guerre mondiale, le paysage
change radicalement. Les critiques les plus vives adressées aux
tests ne viennent plus des secteurs conservateurs de l’opinion,
mais d’intellectuels et de psychologues membres ou proches du
parti communiste, qui trouvent parfaitement justifiées les
mesures prises en Union soviétique en 1936. Les tests sont
présentés comme un moyen « de confirmer, de légitimer, et
même de faire accepter les inégalités de l’ordre social » [La
Raison, 1952, nº 4]. La fonction idéologique attribuée aux tests
étant au premier plan, on n’insiste pas sur le fait que l’écart entre
enfants issus des groupes sociaux favorisés et défavorisés est
moindre avec les tests qu’avec les notes scolaires. Les psycho-
logues des années 1930 qui pensaient contribuer au progrès
social en préconisant l’usage des tests sont présentés comme des
idéalistes naïfs. Autour de 1968 plusieurs ouvrages reprendront
ces thèses, en les atténuant ou en les radicalisant [Salvat 1969 ;
Tort, 1974].
Comme aux États-Unis, et aussi en Grande-Bretagne, ces
débats et polémiques portèrent surtout sur l’école et la sélection
scolaire. Mais, à la différence de ce que l’on a pu observer dans
ces deux pays, ils ont gardé en France un caractère académique
et abstrait qui provient de l’absence d’un véritable enjeu social.
Il s’agissait de mettre en cause des attitudes idéologiques et non
des pratiques sociales. En effet, les tests n’ont jamais été utilisés
en France comme moyen de sélection scolaire (à l’exception des

affectations dans l’enseignement spécialisé). Les tests ont été
massivement utilisés dans l’enseignement secondaire de la fin
des années 1950 au début des années 1980, mais les orienta-
tions ont toujours été fondées sur les résultats scolaires (nous y
reviendrons un peu plus loin à propos des pratiques actuelles en
France).
Les débats les plus vifs sur les tests, ceux qui sont conduits
d’un point de vue sociopolitique, ne portent pas sur les tests
comme méthode d’observation, mais bien davantage sur
l’origine des différences individuelles et sur l’équité des procé-
dures d’affectation sociale. Ces questions n’ayant pas de
réponses scientifiques satisfaisantes, la première, parce que les
connaissances scientifiques ne sont pas suffisantes, la seconde,
parce qu’elle relève d’un choix de valeurs, les débats qu’elles ont
suscités ne pouvaient être que des débats à forte composante
idéologique opposant des conceptions globales de l’homme et
de la société [Lemaine et Matalon, 1985]. Dès lors, il n’est pas
très surprenant que ces débats ne soient jamais clos et qu’ils
prennent des formes différentes selon les contextes
socio-historiques.
Les pratiques actuelles en France
En France, les tests d’intelligence sont utilisés à des fins assez

diverses dans les trois grands secteurs d’application de la psycho-
logie : l’éducation, la santé et le travail.
L’utilisation des tests d’intelligence dans le domaine de l’éducation
Il existe deux corps distincts de psychologues dans le système

éducatif français. Les psychologues scolaires ont la charge de
l’enseignement élémentaire, de la maternelle au cours moyen,
tandis que les conseillers d’orientation-psychologues ont la
charge de l’enseignement secondaire.
En 2005, un relevé du ministère de l’Éducation nationale
faisait état de 3 624 postes de psychologues scolaires pour la
France et les Dom-Tom. Leur fonction est de prévenir et de
réduire les difficultés rencontrées par les élèves, qu’il s’agisse
d’échec scolaire ou de difficultés d’intégration plus générales. Ils
peuvent être consultés par les parents, de leur propre initiative
ou sur le conseil des enseignants. Des cas d’enfants en diffi-

culté peuvent aussi leur être signalés par les enseignants. Lorsque
l’importance des problèmes le justifie, le psychologue peut faire
un examen psychologique de l’enfant, étant entendu — les
textes officiels le précisent — qu’un tel examen ne peut être fait
qu’avec l’accord des parents.
L’examen psychologique comporte en général plusieurs
éléments, variables selon la nature du problème posé : entre-
tien avec les parents, entretien avec l’enfant, tests de connais-
sances scolaires, épreuves de personnalité, etc. Parmi ces
éléments, les tests d’intelligence occupent une place prépondé-
rante. Il s’agit toujours d’échelles à passation individuelle. Les
plus utilisées sont les échelles de Wechsler (WPPSI au niveau
préscolaire et WISC au niveau élémentaire), et, plus rarement,
des échelles inspirées de la théorie de Piaget ou la K-ABC. On
utilise aussi des épreuves plus spécifiques visant par exemple à
explorer les capacités de structuration spatiale et temporelle. Les
résultats à ces tests sont interprétés dans le cadre d’une démarche
clinique, en les mettant en regard de l’ensemble des informa-
tions recueillies dans l’examen psychologique.
Les informations apportées par le test d’intelligence se révè-
lent particulièrement utiles lorsque le psychologue scolaire
cherche à savoir si les difficultés rencontrées par l’enfant sont
attribuables à un retard global du développement intellectuel ou
à des troubles instrumentaux plus spécifiques, par exemple des
troubles de l’apprentissage de la lecture, de l’écriture ou calcul,
ou encore des troubles relationnels, avec la famille ou l’ensei-
gnant. Les indications chiffrées comme le QI ou la position dans
le groupe d’âge donnent des repères dont la signification dépend
des autres éléments recueillis au cours de l’examen, mais aussi
des observations faites au cours de la passation même du test
d’intelligence : attitude devant la nouveauté, attitude devant
l’échec, réactions émotionnelles, communication, etc. On trou-
vera des exemples d’utilisation des tests dans cette perspective
clinique dans les ouvrages de C. Arbisio [2003] et A.-M. Gardey
et al. [2003].
Les solutions proposées par le psychologue pour réduire les
problèmes qui ont justifié la consultation peuvent être de
simples conseils au parents ou aux enseignants, l’indication de
rééducations ou de soutiens appropriés aux troubles spécifiques
diagnostiqués (dyslexies, dyscalculies, troubles psychomoteurs,
etc.) dans le cadre des réseaux d’aide spécialisés (ces réseaux
comprennent un psychologue, des rééducateurs, et des ensei-

gnants de soutien qui interviennent sur un secteur scolaire), ou
l’admission dans des classes d’enseignement spécial. Les cas de
retard mental qui justifient un enseignement spécial sont peu
fréquents (moins de 5 % de la population scolaire actuelle-
ment). L’admission dans ces classes ou institutions est soumise
à l’avis d’une commission départementale de l’enseignement
spécial, ou d’une de ses antennes locales, qui fait des proposi-
tions aux parents. Les résultats aux tests d’intelligence, inter-
prétés par le psychologue scolaire, sont un des éléments
déterminants sur lesquels s’appuient ces commissions pour juger
de la pertinence d’un enseignement spécial. Bien que se mani-
festant avec une force moindre, du fait d’une politique visant à
intégrer dans l’enseignement normal la plupart des élèves, la
demande sociale qui avait motivé l’invention du premier test
d’intelligence par Binet existe donc toujours et les tests qui sont
les descendants du Binet-Simon répondent encore à cette
demande actuellement.
La question de l’utilisation des tests se pose de façon tout à
fait différente dans le domaine de l’orientation scolaire et profes-
sionnelle. On dénombre en France environ 4 300 conseillers
d’orientation-psychologues qui interviennent surtout dans
l’enseignement secondaire. Leur fonction principale est d’aider
les jeunes à préparer les décisions d’orientation scolaire et profes-
sionnelle qui jalonnent leur cursus. Cette aide à la formation
des choix et à la décision passe bien entendu par l’apport d’infor-
mations sur les filières scolaires, les professions, le marché de
l’emploi, mais aussi par l’apport d’informations susceptibles de
faire prendre une conscience plus exacte au sujet lui-même de
ses propres potentialités et intérêts. Parmi les différentes tech-
niques que peut utiliser le conseiller d’orientation pour recueillir
cette dernière catégorie d’informations (entretien, question-
naires d’intérêt, échelles de maturité vocationnelle, etc.) figu-
rent aussi les tests d’intelligence. L’utilisation des tests dans cette
démarche est cependant devenue assez marginale.
Il n’en a pas toujours été ainsi. Les tests d’intelligence ont été
utilisés de façon assez massive et systématique par les conseillers
d’orientation dans une période qui va en gros du milieu des
années 1950 au début des années 1980. Cette période a été celle
de la généralisation de l’enseignement secondaire, d’abord celle
du premier cycle, puis celle du second cycle. Dans la ligne des
idées sur la « juste sélection » qui ont inspiré le développement
du courant psychométrique à l’école en France, les tests d’intel-

ligence ont paru être un moyen de repérer, parmi les élèves dont
les résultats scolaires n’étaient pas très bons, ceux dont les
résultats aux tests laissaient néanmoins prévoir de bonnes
chances de réussite dans l’enseignement secondaire. Les tests
utilisés étaient des batteries factorielles collectives du type de la
batterie PMA qui a été présentée au chapitre précédent. Dans la
période de démarrage de la généralisation du premier cycle, ce
type d’intervention a été focalisé sur le palier d’orientation entre
le CM2 et la sixième, puis il s’est déplacé au palier d’orientation
entre la troisième et la seconde dans la période de généralisa-
tion du second cycle. Le conseiller d’orientation participait au
conseil de classe et pouvait faire état de bons résultats aux tests
pour appuyer le passage en second cycle d’un élève dont les
résultats scolaires étaient considérés comme un peu justes par les
enseignants.
Cet emploi massif des tests, qui était pavé de bonnes inten-
tions, a rapidement tourné à l’abus. Ce qui était gagné en exten-
sion (nombre de cas examinés) était perdu en compréhension
(richesse des informations recueillies sur chaque individu) et la
discussion avec les enseignants se faisait sur une base très pauvre.
Il apparut assez vite aussi que l’accord des enseignants et des
conseillers d’orientation sur l’intérêt des tests, lorsqu’il existait,
reposait souvent sur un malentendu. Alors que les conseillers
d’orientation cherchaient à exploiter les cas de discordance entre
les résultats aux tests et les résultats scolaires, les enseignants
retenaient surtout les cas de concordance — beaucoup plus
nombreux —, dans lesquels ils voyaient une légitimation du
classement scolaire.
Cette pratique systématique des tests collectifs d’aptitudes a
diminué très rapidement à partir de la fin des années 1970 pour
disparaître à peu près complètement. Le mouvement de contes-
tation des tests dont il a été question plus haut a sans doute
joué un rôle dans ce reflux rapide, d’autant plus que la systéma-
tisation des examens collectifs était effectivement critiquable par
bien des aspects. Mais, plus fondamentalement, ce reflux corres-
pond à une évolution profonde du rôle du conseiller d’orienta-
tion. D’une part, la recherche des talents cachés n’avait plus
grand intérêt à partir du moment où la généralisation de l’ensei-
gnement secondaire était acquise ; d’autre part, les conseillers
d’orientation s’investissaient de plus en plus dans une fonction
éducative d’aide au développement personnel et à la formation

des choix.
L’utilisation des tests d’intelligence dans le domaine de la santé
On compte plusieurs milliers de psychologues dans le

domaine de la santé. Ils ont une spécialisation en psychologie
clinique et interviennent dans des cadres institutionnels variés :
hôpitaux psychiatriques, hôpitaux généraux, associations
diverses, collectivités territoriales (par exemple, directions dépar-
tementales de l’action sanitaire et sociale), établissements de
soins privés, institutions judiciaires, etc.
Dans le secteur psychiatrique, les consultations d’enfants sont
souvent suscitées par les problèmes d’adaptation à l’école. L’utili-
sation de tests d’intelligence dans l’examen psychologique
remplit alors les mêmes fonctions que chez les psychologues
scolaires. Dans les consultations d’adultes, l’examen psycholo-
gique est généralement demandé par le médecin psychiatre.
L’inclusion de tests d’intelligence dans l’examen psychologique
peut être motivée par un problème de diagnostic. On peut, par
exemple, vouloir faire la part du trouble psychiatrique et d’un
retard mental plus général, suspecter une détérioration mentale
chez une personne âgée, se demander dans quelle mesure
l’évolution d’un trouble psychiatrique a affecté les capacités
intellectuelles, etc. Le psychologue qui réalise l’examen peut
aussi inclure un test d’intelligence pour recueillir des observa-
tions plus qualitatives sur la façon dont le sujet se comporte
devant une tâche à résoudre, la façon dont il l’approche, son
attitude devant les difficultés, ses réactions émotionnelles.
Dans le secteur non psychiatrique, les tests d’intelligence sont
utilisés dans les consultations de neuropsychologie, parmi les
différents instruments visant à faire le bilan des atteintes
neurologiques consécutives à des lésions du cerveau. Dans les
services de médecine générale, ils peuvent aussi être utilisés
lorsqu’il s’agit d’évaluer les éventuelles répercussions d’un
trouble somatique sur le développement intellectuel (par
exemple, lorsque le médecin se demande si un trouble de la
croissance physique a ou non des répercussions sur le dévelop-
pement intellectuel d’un enfant). Un test d’intelligence peut
aussi aider à apprécier la part de réalité et la part de souffrance
psychosomatique lorsqu’un patient se plaint de ce que ses possi-
bilités intellectuelles ne sont plus ce qu’elles étaient (et le
diagnostic peut dans ce cas devenir thérapeutique). Dans le

domaine de la justice, un test d’intelligence peut être un des
éléments permettant d’apprécier la crédibilité d’un témoignage
ou le degré de responsabilité d’un accusé.
La variété des cas dans lesquels les tests d’intelligence peuvent
apporter des informations utiles dans l’examen psychologique
laisse penser que leur utilisation est assez fréquente dans le
domaine de la santé. Une enquête récente le confirme [Castro,
Meljac et Joubert, 1996]. Parmi les psychologues cliniciens inter-
rogés, 88 % considèrent l’utilisation des tests comme indisso-
ciable de leur pratique. Parmi les dix tests les plus utilisés, on
trouve cinq tests d’intelligence (la WISC, la WAIS, la WPPSI, la
K-ABC, et l’échelle de Brunet-Lézine, qui est une échelle de déve-
loppement pour la petite enfance). Cet état des choses est tout
à fait comparable à ce qui a pu être observé à l’échelon mondial
dans une enquête portant sur les tests les plus utilisés dans
44 pays [Oakland et Hu, 1992]. Là aussi, on trouve en tête des
dix tests les plus utilisés dans le monde cinq tests d’intelligence :
1) WISC, 2) matrices progressives de Raven, 3) échelle de Stan-
ford-Binet, 4) test d’aptitudes différentielles, 5) WAIS, les cinq
suivants étant des tests de personnalité.
Le mouvement de critique des tests qui a marqué les
années 1970 a provoqué un recul de l’utilisation d’épreuves stan-
dardisées, d’intelligence ou autres, chez les psychologues clini-
ciens. Dans ce secteur, c’est essentiellement sur la base de la
psychanalyse, sur laquelle s’appuie principalement la psycho-
logie clinique en France, que s’est développé ce mouvement cri-
tique. L’enquête à laquelle il a été fait allusion plus haut montre
que la situation a bien changé : « Longtemps perçus comme les
outils serviles de la classification outrancière ou comme des
obstacles inutiles sur la voie de la relation à l’autre, et donc
considérés comme “les mauvais objets des psychologues”, les
tests à travers cette étude semblent avoir retrouvé leur place au
sein de l’activité évaluative quotidienne du psychologue clini-
cien » [Castro, Meljac et Joubert, 1996, p. 76].
L’utilisation des tests d’intelligence dans le domaine du travail
Dans le domaine du travail, les tests sont parfois utilisés dans

le cadre de procédures de recrutement ou d’orientation, parfois
aussi à des fins d’aide à la décision comme dans les bilans de
compétence.
100 L E S TESTS D’INTELLIGENCE
Les entreprises qui utilisent les tests dans leurs procédures de

recrutement et d’orientation ne sont pas très nombreuses en
France. Il s’agit en général de grandes entreprises dans lesquelles
le recours à la psychométrie a été motivé au départ par les
problèmes particuliers que pose le recrutement de professionnels
ayant des fonctions de sécurité (rappelons que les premières
applications de la psychométrie en France ont porté sur le recru-
tement des conducteurs de tramway). C’est, par exemple, le cas
de grandes entreprises de transport comme la SNCF, la RATP ou
les compagnies aériennes. C’est aussi le cas de l’armée, qui a été
un des premiers secteurs d’application des tests. Limitée au
départ au recrutement dans les métiers de sécurité, l’utilisation
des tests s’est souvent étendue par la suite au recrutement dans
des fonctions plus larges.
Le cas de la SNCF illustre bien cette évolution. Dans cette
entreprise, les tests n’étaient utilisés au départ que pour le recru-
tement des conducteurs. Dans les années 1960, leur utilisation
s’est étendue au recrutement dans les autres fonctions de sécu-
rité, puis, dans les années 1970, aux fonctions commerciales et
enfin au recrutement dans l’ensemble des métiers de la SNCF à
la fin des années 1970. Dans le même temps, les concours SNCF
ont été supprimés. Cette évolution de la politique de recrute-
ment s’est faite en accord avec les syndicats.
Depuis, les candidats au recrutement à la SNCF, qui sont
plusieurs milliers chaque année, passent tous une batterie
comportant des tests intellectuels, des tests psychomoteurs et
des tests de personnalité. Cette batterie est aussi passée, en cours
de carrière, par les candidats à une réorientation ou à une
promotion. Les tests d’intelligence sont des tests factoriels
analogues à ceux de la batterie PMA qui a été présentée au
chapitre précédent. Ils correspondent aux principaux facteurs
classiquement trouvés dans les analyses factorielles de tâches
intellectuelles : verbal, numérique, spatial, raisonnement,
perceptif. La batterie comporte aussi quelques tests plus spéci-
fiques évaluant l’efficience dans des tâches de collationne-
ment, caractéristiques des activités de bureau, ou dans des tâches
d’attention (gestion simultanée de plusieurs stimuli) davantage
caractéristiques de certaines fonctions de sécurité.
La passation de ces épreuves est informatisée et dure environ
une heure trente. Leur présentation sur micro-ordinateur donne
une plus grande souplesse à la passation et permet la correc-
tion automatique. Cette batterie de tests a été étalonnée sur un
échantillon de 7 000 sujets. La validation n’a pas porté sur

chacune des épreuves prise isolément, mais sur l’avis global, plus
ou moins favorable au recrutement dans une fonction donnée,
que donne le psychologue à partir de l’ensemble des informa-
tions recueillies.
Pour ce qui concerne les tests d’intelligence, le psychologue
s’intéresse notamment à l’allure du profil d’aptitudes et à son
adéquation à la fonction postulée. À titre d’exemple, un profil
dans lequel dominent les aptitudes verbales est jugé plus compa-
tible avec les fonctions commerciales qu’un profil dans lequel
ces aptitudes constituent le point faible. Le profil d’aptitudes est
aussi évalué du point de vue de sa cohérence — ou de son inco-
hérence — avec la formation suivie ou le diplôme. Les questions
qui naissent de la mise en relation des résultats aux tests avec
les autres éléments d’information préparent l’entretien avec le
candidat. L’examen psychologique comporte en effet deux
entretiens, l’un avant la passation des tests, et l’autre avec les
résultats. Au cours de l’entretien final, le psychologue indique
au candidat l’avis, plus ou moins favorable pour la fonction
demandée, qu’il transmettra à la personne chargée du recrute-
ment du personnel (l’avis du psychologue n’est qu’un des
éléments pris en compte par la personne chargée de prendre la
décision de recrutement). Si le candidat le souhaite, le psycho-
logue lui donne aussi un compte rendu sur les points forts et
les points faibles de son profil de résultats et, le cas échéant, un
conseil d’orientation.
Cet exemple d’utilisation systématique de tests d’intelligence
parmi les éléments pris en compte dans le recrutement ne doit
pas laisser penser que cette pratique est répandue. En France,
les procédures de recrutement dans les entreprises s’appuient
essentiellement sur le curriculum vitae, un entretien non struc-
turé et, fréquemment, une analyse graphologique. La grapho-
logie est une spécificité française [Levy-Leboyer, 1994] d’autant
plus surprenante qu’aucune étude rigoureuse du point de vue
méthodologique n’a jamais pu montrer une quelconque vali-
dité de cette forme d’évaluation [Huteau, 2004]. Or, selon les
enquêtes qui ont porté sur les méthodes de sélection utilisées
par les entreprises ou les cabinets de recrutement, le pourcentage
de recrutements dans lesquels la graphologie est utilisée, prati-
quement nul dans les autres pays, va en France de 93 % des cas
[Bruchon-Schweitzer et Ferrieux, 1991] à 49 % des cas [Shac-
kleton et Newell, 1991]. Les tests cognitifs et les questionnaires
personnalisée, qui resserre rapidement

L’informatisation des tests le champ des items utiles, a l’avantage
de réduire le temps de passation tout
On peut distinguer trois grands en permettant un diagnostic plus fin.
niveaux d’utilisation des ressources de Le troisième niveau d’utilisation des
l’informatique dans la conception des ressources de l’informatique consiste à
tests. Le premier consiste à présenter formuler un modèle des processus
sur écran les items qui étaient d’habi- cognitifs en jeu dans la résolution du
tude présentés sur un cahier et à faire test et à concevoir sur cette base à la fois
choisir la bonne réponse avec le la situation de test (ensemble d’items
clavier ou la souris plutôt qu’en la conçus pour isoler les différents
cochant avec un crayon. Un des avan- processus supposés) et les indices
tages de l’informatisation est d’éviter comportementaux (structure des temps
certaines des contraintes de la passa- de réponse, des erreurs) qui permet-
tion collective, en permettant à tront de caractériser, dans le cadre de
chacun d’avancer à son rythme sur ce modèle, les processus de résolution
son poste de travail. Un second avan- mis en œuvre par chaque sujet. À ce
tage, non négligeable, est d’automa- niveau, il ne s’agit plus seulement de
tiser la correction : il est possible mettre les tests existants sur support
d’avoir dès la fin de la passation le informatique pour les utiliser de façon
listing situant les performances du plus efficace, mais de concevoir de
sujet par rapport à sa population de nouveaux tests en fonction des
référence. L’informatisation de la nouvelles possibilités ouvertes par
passation peut enfin donner des infor- l’informatique pour l’analyse des
mations sur les temps de réponse aux processus cognitifs. L’informatisation
différents items et plus généralement donne notamment les moyens
sur la gestion du temps dans d’analyser en temps réel une grande
l’épreuve. densité d’informations grâce auxquelles
Un deuxième niveau d’utilisation il est possible de modéliser la dyna-
des ressources de l’informatique mique de la conduite du sujet au cours
consiste à rendre la passation interac- même de la résolution des épreuves. Les
tive. Dans ce cas, l’ordinateur est tentatives de construction d’épreuves se
programmé pour adapter les items situant à ce troisième niveau d’utilisa-
qu’il propose aux réponses données tion des ressources informatiques sont
par le sujet. Cela permet de déter- encore très rares. Les obstacles sont
miner assez rapidement, par des ques- surtout théoriques : nos connaissances
tions-sondes, la zone de difficulté sur les processus cognitifs humains ne
qu’un sujet est capable de maîtriser et, permettent pour l’instant que des
une fois ciblée cette zone, de déli- modélisations très grossières de la dyna-
miter plus finement le niveau d’effi- mique du fonctionnement d’un sujet en
cience à l’intérieur. Cette passation train de résoudre un problème.
de personnalité sont utilisés de façon à peu près équivalente,

dans 30 % des cas environ.
Les tests d’intelligence sont aussi utilisés dans le domaine de
l’orientation professionnelle des adultes. L’orientation profes-
sionnelle des adultes, rendue nécessaire par la mobilité crois-
sante de l’emploi, s’est développée avec la proclamation du droit

au bilan de compétences (1991) et l’ouverture des centres de
bilan. Les bilans de compétences, financés par les organismes
paritaires et d’une durée ne devant pas excéder vingt-quatre
heures, se déroulent à l’initiative du salarié qui est le seul desti-
nataire des résultats. Ils doivent lui permettre de faire le point sur
ses compétences, leur développement et leur utilisation éven-
tuelle. Aujourd’hui, des bilans sont aussi réalisés à l’initiative de
l’employeur dans le cadre du plan de formation de l’entreprise.
D’autres bilans, d’une durée plus brève, sont produits par l’ANPE
et destinés aux demandeurs d’emploi (les bilans de compétences
approfondis). Ils ont pour objectif le retour rapide à l’emploi.
Cette dernière forme de bilan est la plus fréquente (en 2003,
155 000 bilans de ce type ont été réalisés contre 55 000 à l’initia-
tive des salariés ou des employeurs). Les prestataires sont les
centres interinstitutionnels de bilans de compétences, placés
sous la tutelle du ministère chargé du Travail et de l’Emploi
(60 % des bilans) et des organismes privés agréés.
La démarche de bilan a été formalisée et se déroule en trois
étapes. 1) Phase d’accueil. Le bénéficiaire est informé sur le bilan
de compétences et sur les méthodes qui seront utilisées. On
vérifie que le bilan est bien susceptible de répondre aux attentes
de la personne. 2) Phase d’investigation. Diverses méthodes sont
mises en œuvre pour permettre aux bénéficiaires d’acquérir une
meilleure connaissance d’eux-mêmes (compétences, intérêts…)
et de l’environnement professionnel. C’est au cours de cette
phase que les projets s’esquissent et, éventuellement, se préci-
sent. 3) Phase de conclusion. Le conseiller examine avec le béné-
ficiaire les conditions de réalisation des projets et les étapes de
leur mise en œuvre. L’usage d’épreuves psychométriques, et
notamment de tests d’intelligence, est fréquent, mais non systé-
matique, au cours de la phase d’investigation.
En revanche, cet usage est systématique dans les prestations
d’aide à l’orientation proposées par l’Association nationale pour
la formation professionnelle des adultes (AFPA). L’AFPA est le
premier organisme de formation qualifiante en Europe : en 2004,
elle a formé 255 000 personnes et 271 000 ont bénéficié d’une
aide à l’orientation. Le mode d’intervention le plus fréquent vise
à aider à l’élaboration d’un projet de formation. Comme pour les
bilans, la démarche se structure en trois étapes : 1) analyse du
besoin de formation et vérification que la formation est bien la
réponse au problème que se pose le bénéficiaire ; 2) analyse des
formations disponibles et des caractéristiques du bénéficiaire,

mise en rapport des deux types de données ; 3) élaboration d’un
plan d’action. Elle repose sur deux principes : associer le bénéfi-
ciaire à toutes les étapes de la démarche et le rendre actif dans le
processus de prise de décision ; utiliser des évaluations objectives
comme élément de pronostic de la réussite en formation.
Les tests utilisés visent à s’assurer que les bénéficiaires possè-
dent bien les prérequis cognitifs indispensables à la formation
envisagée. Ils varient selon le secteur de formation, certains sont
plutôt utilisés pour le positionnement vers des formations de
l’industrie ou du bâtiment, d’autres pour le positionnement vers
des formations tertiaires. Ils varient aussi selon le niveau des
formations. On rencontre des tests de raisonnement logique
(matrices, séries numériques), des tests d’intelligence pratique
(connaissance et compréhension de phénomènes physiques de
la vie courante), des tests de raisonnement mathématique, des
tests de représentation spatiale. Le critère de validité des batteries
de tests utilisées est la réussite évaluée à l’issue de la formation.
Les coefficients de validité des batteries sont généralement tout
à fait satisfaisants : par exemple, coefficients supérieurs à 0,60
pour les formations agent-entretien-bâtiment, agent-magasinier-
tenue-stock, mécanicien-automobile ; coefficients compris entre
0,50 et 0,60 pour installateur en équipement électrique, opéra-
teur régleur-fraiseur, conducteur routier-marchandises, conduc-
teur routier-voyageurs.
En résumé, cette présentation des principaux usages des tests
d’intelligence en France fait apparaître que, dans le domaine de
l’éducation et de la santé, ils sont surtout employés à des fins
d’aide au diagnostic, tandis que, dans le domaine du travail, ils
sont surtout employés à des fins d’affectation sociale. Dans le
premier cas, ce sont principalement les échelles d’intelligence à
passation individuelle qui sont utilisées, tandis que, dans le
second, ce sont généralement les tests factoriels à passation
collective qui sont préférés, avec un intérêt marqué pour
l’analyse du profil d’aptitudes. Dans ce second cas, l’informati-
sation des tests et la passation sur un terminal individuel
tendent à remplacer la passation en groupe de la forme
papier-crayon.
Éthique et déontologie
Le souci de disposer de tests fiables et équitables a conduit à

définir des normes strictes pour leur construction et leur appli-
cation en accordant, surtout aux États-Unis, une place particu-
lière à la détection des biais culturels. Parallèlement, tandis que
les psychologues élaboraient des codes de déontologie, une légis-
lation a été mise en place dans de nombreux pays afin de fournir
un cadre juridique aux pratiques de testing.
Normes et biais culturels
Définies par des collectifs de psychologues dont la compé-

tence est reconnue, essentiellement techniques et profession-
nelles, les normes fournissent des critères pour évaluer la qualité
des tests (pas uniquement les tests d’intelligence, mais aussi,
notamment, les tests de connaissances scolaires et les question-
naires de personnalité) et des pratiques qui les incluent. Tous
les concepteurs et les utilisateurs de tests sont invités à s’en
approcher. Certaines de ces normes sont très détaillées. Celles
éditées aux États-Unis, régulièrement actualisées depuis 1954, les
Standards for Educational and Psychological Testing, et qui sont de
loin les plus complètes, remplissent une bonne centaine de
pages. Pour ce qui est de la construction des tests, elles rappellent
les exigences de la méthodologie psychométrique. On insiste
notamment sur la nécessité de disposer d’informations sur la
validité des épreuves (validité théorique et validités empiriques
relativement aux objectifs poursuivis) et sur leur fidélité. On
recommande aussi de procéder à des révisions périodiques des
tests. Ceux-ci, en effet, doivent pouvoir bénéficier des études
réalisées sur les versions antérieures et il est nécessaire, par
ailleurs, de vérifier périodiquement qu’ils sont toujours adaptés
aux buts visés. On souligne enfin qu’il est impératif de disposer
d’étalonnages variés et actualisés et de respecter des procédures
précises lorsque l’on compare des scores obtenus avec des
épreuves différentes ou dans des conditions différentes. Les
normes portent aussi sur le mode d’utilisation des tests en distin-
guant plusieurs secteurs d’application : la pratique clinique, la
psychologie scolaire, le conseil, le recrutement, l’usage des tests
pour la certification professionnelle (il ne s’agit plus alors de
tests d’intelligence au sens strict du terme) et pour l’évaluation
des programmes éducatifs et sociaux. On insiste sur les
compétences requises par les utilisateurs et sur la nature des

informations dont ils doivent disposer (notamment via les
manuels qui accompagnent les épreuves) afin de faire un usage
optimal des tests. Enfin, les normes traitent des problèmes parti-
culiers posés par le testing des minorités linguistiques et des
groupes qui vivent dans des conditions particulièrement diffi-
ciles, ce qui conduit à la question des biais culturels.
Cette question des biais culturels a été posée, nous l’avons vu,
dès le début des années cinquante par Eels et al. Elle a de fortes
implications pratiques dans la mesure où les tests, s’ils sont
biaisés, sous-estiment le « mérite » de certains groupes relative-
ment à d’autres. Ces implications sont fortes dans tous les pays
où l’on utilise des tests à des fins de sélection puisque partout
l’on rencontre des différenciations sociales, à fondement
ethnique, socio-économique ou sexuel, qui peuvent donner
naissance à des biais. Elles ont reçu une attention particulière, de
la part des juristes et des psychologues, aux États-Unis, à la suite
de la promulgation de la loi sur les droits civils, en 1964, dont
l’objectif était de supprimer toutes les formes de discrimination.
Depuis la fin des années 1960, les tribunaux ont eu à traiter
de nombreuses plaintes de personnes et de groupes s’estimant
lésés par les procédures d’évaluation au moyen de tests (à notre
connaissance, il n’y a pas de cas de ce type en France). Quelques
procès ont été abondamment commentés dans la presse et sont
devenus célèbres. Des parents ont contesté le bien-fondé de
l’affectation de leurs enfants dans des classes pour retardés, des
candidats à l’entrée à l’Université ont pensé que leur non-
admisssion n’était pas justifiée, des professionnels à la recherche
d’un emploi ont pensé qu’ils avaient été injustement écartés.
Bien que la jurisprudence ne soit pas parfaitement homogène,
dans plusieurs cas les tests ont été mis en accusation et leurs
concepteurs sommés de produire des modalités d’évaluation non
biaisées.
Aussi tout un courant de recherche sur les biais s’est-il déve-
loppé. D’une manière très générale, on dit qu’il y a biais lorsque
les scores à un même test n’ont pas la même signification, la
même validité, pour des individus appartenant à des groupes
différents. Dans le contexte des opérations de sélection, cette
différence de signification peut conduire à pénaliser un groupe.
Prenons un exemple fictif. Soit deux groupes, un groupe favorisé
F et un groupe défavorisé D. Les scores de F sont supérieurs à
ceux de D pour un test. Si on utilise la corrélation positive entre
ce test et un critère (l’efficience professionnelle, par exemple)

pour procéder à un recrutement, on recrutera forcément davan-
tage de personnes du groupe F. Mais il peut très bien se faire
qu’il n’y ait pas de différences entre les groupes F et D sur le
critère (s’il se trouve que les sujets du groupe D ont en moyenne
la même efficience professionnelle que ceux du groupe F). Le test
peut en effet très bien prédire la réussite sur le critère au sein de
chaque groupe, mais pas les différences de réussite entre groupes.
Dans cet exemple, une sélection fondée sur les scores au prédic-
teur pénalise injustement le groupe D et c’est en ce sens que le
test est biaisé à l’avantage du groupe F.
A priori, l’origine des biais peut être très diverse. La même
caractéristique psychologique peut ne pas avoir le même sens
dans deux groupes si elle interagit avec d’autres caractéris-
tiques des individus de ces groupes (on peut penser, par
exemple, que l’intelligence mesurée par un même test n’aura pas
la même signification selon que les sujets savent lire ou non).
Le mode d’application et de cotation du test peut avoir des effets
différents selon les groupes (si les tests sont appliqués par des
femmes, est-ce que cela peut avoir un effet différent chez les
filles et les garçons ?). La structure interne des réponses peut ne
pas être la même d’un groupe à l’autre.
Les recherches sur la présence éventuelle de ces divers biais
ont montré que les tests actuels n’étaient pas ou étaient peu
biaisés. Un test peut donc différencier des groupes sans pour
autant être biaisé. Cette évidence n’est cependant pas unanime-
ment partagée. Pour certains, la seule différence entre deux
groupes témoigne d’un biais, ou, en d’autres termes, toute diffé-
rence entre groupes est une erreur de mesure ou un artefact. Une
telle hypothèse est difficile à admettre, surtout lorsqu’il s’agit de
groupes qui, au sein d’une culture donnée, ne disposent pas des
mêmes opportunités pour développer leurs capacités [Lautrey,
1980 a].
Certes, il serait souhaitable, dans un régime démocratique,
que les individus d’origine sociale différente soient également
représentés dans les divers secteurs de la société, que, par
exemple, il y ait le même pourcentage de fils d’ouvriers et de
fils de cadres à l’Université. Pour se rapprocher d’un tel objectif,
on peut pratiquer une discrimination positive au moment du
recrutement à l’égard du groupe défavorisé et ainsi permettre à
certains membres de ce groupe de franchir les barrages sélectifs
(c’est en général la fonction que remplissent les quotas). De tels
quotas ont été imposés à certaines universités américaines pour

assurer une représentation plus équitable entre Blancs et Noirs
dans la sélection faite à l’entrée. Ce faisant, en fonction de
valeurs, on change les critères de sélection. Le critère méritocra-
tique classique — à chacun selon ses capacités — est pondéré
par un critère plus collectif — faire en sorte que la société gagne
en cohésion. Les bénéficiaires de la discrimination positive
seront sans doute satisfaits, mais d’autres s’estimeront lésés et
feront valoir, éventuellement devant des tribunaux, qu’il n’est
pas équitable qu’ils aient été rejetés alors que d’autres, moins
efficients, ne l’ont pas été… Ces problèmes d’affectation sociale
correspondent à des enjeux sociopolitiques majeurs qui dépas-
sent les questions posées par les tests, même si ceux-ci contri-
buent à les expliciter et à les formaliser.
Codes de déontologie et législation
La réflexion sur l’éthique, qui relève des valeurs, et la déonto-

logie, qui concerne la morale professionnelle, s’est développée
chez les psychologues au lendemain de la Seconde Guerre
mondiale. Les premiers codes de déontologie élaborés par les orga-
nisations professionnelles de psychologues datent des
années 1950-1960. En France, la Société française de psychologie
publie son code de déontologie en 1961 (un nouveau code, établi
en collaboration avec d’autres organisations de psychologues, a
été adopté en 1996). Les codes de déontologie concernent l’en-
semble des pratiques psychologiques. Ils peuvent être généraux ou
être centrés plus particulièrement sur un domaine (la psycho-
logie scolaire, la psychologie du travail, la recherche). Les codes
n’ont pas de valeur légale, ils définissent simplement des règles de
bonne conduite (voir encadré). Les organisations professionnelles
qui les ont mis en place invitent non seulement leurs membres à
les respecter, mais elles les assurent aussi de leur soutien au cas
où ils éprouveraient quelques difficultés à les mettre en pratique
dans leur milieu de travail. Tous les codes se situent dans une
perspective humaniste : le psychologue doit respecter les droits
fondamentaux des personnes, leur liberté et leur dignité. Les codes
insistent également sur la nécessité d’utiliser, de manière éclairée,
des techniques valides [Bourguignon, 1994, 2005 ; Dupont, 1994 ;
Levy-Leboyer, 1987 ; Schlegel, 1994].
La réglementation en matière d’évaluations psychologiques est
assez récente en France. La loi de 1978 « relative à l’informatique,
La déontologie de l’usage des tests
Voici quelques extraits du code français de 1996, qui concernent les modalités
techniques de l’exercice professionnel, modalités qui incluent l’usage des tests.
« La pratique du psychologue ne se réduit pas aux méthodes et techniques qu’il
met en œuvre. Elle est indissociable d’une appréciation critique et d’une mise en
perspective théorique de ces techniques » (article 17). « Les techniques utilisées
par le psychologue pour l’évaluation, à des fins directes de diagnostic, d’orien-
tation ou de sélection, doivent avoir été scientifiquement validées » (article 18).
« Le psychologue est averti du caractère relatif de ses évaluations et interpréta-
tions. Il ne tire pas de conclusions réductrices ou définitives sur les aptitudes ou
la personnalité des individus, notamment lorsque ces conclusions peuvent avoir
une influence directe sur leur existence » (article 19).
aux fichiers et aux libertés » a largement contribué à son dévelop-

pement. Elle est souvent assez générale et variable d’un secteur
d’application à un autre en fonction de la finalité des évaluations.
C’est ainsi, par exemple, que la législation du recrutement n’est
pas la même que celle du dispositif « bilan de compétences ». Cette
réglementation s’organise autour de deux axes principaux, qui sont
également les points marquants de la réflexion déontologique : le
respect de la personne et la qualité des prestations.
Le respect des personnes, de leur dignité et de leur vie privée,
est assuré par l’information préalable, le secret professionnel et la
confidentialité, l’accès aux informations recueillies et des restric-
tions sur les investigations possibles.
1) D’après les dispositions de la loi Informatique et libertés
relatives à la collecte d’informations nominatives (et il a bien été
précisé que « les tests et épreuves à caractère psychotechnique ou
psychologique » étaient des informations nominatives au sens
de la loi), les personnes auprès desquelles ces informations sont
recueillies doivent être informées du caractère obligatoire ou
facultatif des réponses à chaque question et de la destination
des informations recueillies. Lorsque les individus sollicités pour
une passation de tests sont des mineurs, les parents doivent être
informés du caractère facultatif de l’évaluation et donner leur
autorisation par écrit. Dans le cadre du recrutement profes-
sionnel et de l’évaluation du personnel, le candidat à un emploi
ou le salarié doit être informé des méthodes ou techniques qui
seront utilisées. Le comité d’entreprise doit également être
informé sur ces méthodes et techniques avant leur utilisation.
2) Le psychologue est en principe tenu au secret profes-

sionnel. Dans le bilan de compétences, tel qu’il a été défini au
début des années 1990, la confidentialité est poussée très loin
puisque le bénéficiaire du bilan est le propriétaire et l’unique
destinataire des résultats détaillés du bilan et du document de
synthèse et que son dossier doit être détruit (il peut être conservé
une année à la demande écrite du bénéficiaire).
3) L’individu doit pouvoir accéder aux informations le
concernant.
4) Enfin, la législation tend à limiter le champ des investiga-
tions à celles qui paraissent indispensables. « Les informations
demandées doivent être adéquates, pertinentes et non excessives
eu égard aux finalités pour lesquelles elles sont sollicitées » (loi
Informatique et libertés). Dans le domaine du recrutement, on doit
s’intéresser uniquement à « la capacité de l’individu à occuper
l’emploi proposé » et il doit y avoir « un lien direct et nécessaire »
entre les informations recueillies et cette capacité. Dans le bilan de
compétences, on souligne également l’obligation de ce lien direct
et nécessaire entre les informations à recueillir et l’objet du bilan.
La qualité des prestations offertes par les psychologues dépend
à la fois de leur qualification et des méthodes qu’ils utilisent. La
loi de 1985 définissant le titre de psychologue fixe le niveau de
formation des psychologues à cinq années de formation univer-
sitaire après le baccalauréat. On trouve par ailleurs dans les textes
législatifs des indications concernant la fiabilité des méthodes
et techniques. Pour le bilan de compétences, « les méthodes et
techniques doivent être élaborées à partir de théories validées
par des pratiques professionnelles, ou par l’intermédiaire de
méthodes scientifiques… ».
Les indications fournies par les codes de déontologie et les textes
législatifs demeurent souvent assez vagues et leur application est
parfois problématique. Qu’est-ce qu’une technique scientifique-
ment validée si l’on ne se réfère pas à des normes ? Quelle est
l’information vraiment pertinente à rechercher dans un bilan ou
une procédure de recrutement ? Dans le contexte de l’aide à autrui,
il est assez facile de respecter les règles déontologiques et il n’a
d’ailleurs pas paru nécessaire d’élaborer une législation dans ce
secteur. Mais il n’en va pas ainsi dans tous les domaines. La confi-
dentialité est forcément mise à mal dans les procédures de recru-
tement et dans les bilans demandés par les entreprises et l’ANPE :
le psychologue est bien obligé de fournir des informations concer-
nant les candidats puisqu’il est payé pour cela !
Conclusion
Un test est un dispositif d’observation conçu pour évaluer

certaines caractéristiques psychologiques des individus en
situant leurs conduites par rapport à celles qui ont été observées
au sein de la population à laquelle ils appartiennent. Pour
remplir cette fonction, un test doit avoir été standardisé,
étalonné, et les mesures qu’il permet d’effectuer doivent par
ailleurs s’être révélées fidèles et valides. L’intelligence n’est pas
la seule caractéristique psychologique qui puisse être évaluée par
des tests. Il existe aussi des tests de connaissances dans des
domaines variés, des tests psychomoteurs, des tests de personna-
lité, etc. La particularité des tests d’intelligence est d’évaluer une
capacité assez générale d’adaptation cognitive à des situations
nouvelles. Cette méthode d’évaluation de l’intelligence a fait la
démonstration de son intérêt, mais aussi de ses limites.
Deux sortes de limites des tests d’intelligence classiques
doivent être gardées à l’esprit dans les utilisations qui en sont
faites. L’une tient au niveau de généralité effectif de la capacité
d’adaptation cognitive évaluée, l’autre tient à la multiplicité des
déterminants de la performance observée.
Sur le premier point, il faut d’abord souligner que la validité
d’un test d’intelligence est limitée à la culture au sein de laquelle
il a été conçu. L’intelligence humaine se développe à travers
l’utilisation de langages, de symboles, de représentations qui
sont les instruments de la pensée et donnent un sens aux situa-
tions. Le fonctionnement de l’intelligence humaine est indisso-
ciable de l’outillage symbolique et conceptuel sur lequel elle
s’appuie. La situation de test dans son ensemble (la relation de
face à face avec l’examinateur, le matériel utilisé, le type de
problème posé, etc.) ne permet d’évaluer valablement les capa-

cités d’adaptation du sujet testé que si elle a pour lui un sens.
Imaginons un instant que le problème du diagnostic du retard
mental se soit posé dans la société pygmée. Les items qu’un équi-
valent de Binet aurait retenus comme « marqueurs » des diffé-
rentes étapes du développement cognitif des enfants pygmées
auraient été bien différents de ceux de l’échelle de Binet et
Simon. Ils auraient eu trait à des problèmes ayant du sens dans la
société pygmée et portant sur des domaines importants pour
l’adaptation dans cette société. L’échelle de Binet-Pygmée aurait
peut-être comporté de petits problèmes ayant trait à la construc-
tion ou à l’utilisation efficiente d’un arc, des problèmes de repé-
rage dans un espace à grande échelle, etc. Il est vraisemblable
que les performances de petits Occidentaux dans une échelle de
ce type ne seraient pas d’aussi bons prédicteurs de leur réussite
scolaire que le Binet-Simon, pas plus que la performance
d’enfants pygmées au Binet-Simon ne serait un bon prédicteur
de leur capacité d’adaptation cognitive à leur propre société. Les
tentatives de construction de tests d’intelligence indépendants
de la culture n’ont pas abouti. Même lorsque l’on s’efforce de
réduire le rôle des connaissances, du langage, il reste que la
conduite du sujet dépend de la représentation qu’il se fait de
ce que l’on attend de lui dans cette situation, et que cette repré-
sentation dépend du contexte culturel dans lequel il a été
éduqué. La contextualisation de l’intelligence limite nécessaire-
ment la « généralité » de la capacité d’adaptation cognitive
évaluée et rend dénuée de sens l’idée même d’intelligence indé-
pendante de la culture. Les tests décrits dans cet ouvrage n’ont
donc de validité qu’avec les individus qui ont été socialisés dans
des sociétés dont les modes de pensée sont suffisamment
proches de ceux des sociétés dans lesquelles ces tests ont été
conçus.
Une autre limite au caractère général de la capacité d’adapta-
tion cognitive évaluée par ces tests classiques tient à ce que,
même au sein d’une culture comme la nôtre, ils n’échantillon-
nent pas, loin de là, toutes les catégories de situations qui requiè-
rent une forme ou une autre d’intelligence. Nous avons évoqué
les tentatives de construction d’épreuves d’intelligence sociale,
d’intelligence émotionnelle et d’intelligence pratique. Ces
formes d’intelligence qui jouent un rôle important dans la vie
sociale ne sont pas prises en compte dans les échelles d’intelli-
gence, les tests factoriels ou les tests inspirés de la psychologie
C O N C L U S I O N 113
cognitive dont le contenu est verbo-conceptuel. Ils évaluent

surtout la forme d’intelligence qui est nécessaire pour réussir à
l’école et, plus généralement, pour apprendre dans le cadre d’un
enseignement explicite. Il s’agit de l’intelligence que l’on appelle
parfois « académique » ou « géométrique ». Il ne faut pas sous-
estimer l’importance de cette forme d’intelligence, ni la rela-
tive généralité de son usage dans notre société. Elle joue en effet
un rôle primordial dans les sociétés complexes où l’accultura-
tion passe en bonne partie par une transmission scolaire des
savoirs. Mais elle n’épuise pas, loin de là, la diversité des
ressources cognitives humaines.
Au sein même de l’intelligence que nous avons appelée
verbo-conceptuelle, les analyses factorielles des tests ont permis
de distinguer plusieurs dimensions correspondant à des apti-
tudes relativement différenciées (verbale, numérique, spatiale,
notamment). Le fait qu’il y ait des corrélations positives entre
tous ces tests fait néanmoins place également à un facteur
général de réussite dans l’ensemble de ces tests. Il y a un
consensus assez large, à l’heure actuelle, pour admettre un
modèle hiérarchique de la structure factorielle de l’intelligence
comportant à la fois un facteur général d’intelligence et des
facteurs de groupe correspondant à des aptitudes distinctes. On
peut donc effectivement parler d’un facteur d’intelligence
général, mais seulement dans les limites qui viennent d’être
précisées : il s’agit d’un facteur général d’intelligence
verbo-conceptuelle.
Une seconde limite des tests d’intelligence tient à la multipli-
cité des déterminants de la performance observée. Une même
performance dans un test peut être obtenue par des mécanismes
différents, des stratégies différentes ; le sujet peut être plus ou
moins familiarisé avec le contenu du test ; un même score, un
même QI, un même écart entre QI verbal et QI de performance
peuvent avoir des significations différentes. Le résultat à un test
d’intelligence doit être mis en regard de l’ensemble des informa-
tions recueillies au cours de l’examen psychologique pour être
interprété. Cette ambiguïté de la performance rend très contes-
tables les pratiques dans lesquelles, au simple vu du résultat à un
test, on donne des conseils ou l’on prend des décisions relatives
à l’affectation sociale des individus.
La standardisation des tests fait que, avec un apprentissage
réduit, n’importe qui ou presque peut administrer un test
d’intelligence. De là à considérer que n’importe qui peut
interpréter le résultat à un test, il n’y a qu’un pas qui est, hélas,

parfois franchi. Il existe périodiquement des pressions pour que
l’usage des tests ne soit plus réservé aux seuls détenteurs du titre
de psychologue. Dans le même ordre d’idées, on propose main-
tenant sur Internet de tester soi-même son intelligence ou, plus
grave encore, de tester soi-même l’intelligence de son enfant.
Cette dérive nous paraît dangereuse car seule la formation de
psychologue permet de connaître les différentes sortes de limites
des tests d’intelligence et les problèmes déontologiques que pose
leur usage.
L’intérêt de la démarche dans laquelle s’inscrit la méthode des
tests est de viser à établir des faits qui soient répétables par
quiconque se place dans les mêmes conditions. Cette visée est
au cœur de toute tentative de mesure et doit donc être aussi au
cœur de toute tentative d’évaluation objective de l’intelligence.
La standardisation vise à rendre l’évaluation aussi peu dépen-
dante que possible de la personne qui l’effectue et donc de la
rendre répétable, publique, transparente. Le coefficient de stabi-
lité indique par ailleurs à quel degré cette évaluation est répé-
table dans le temps. Les dispositions qui assurent la répétabilité
de l’évaluation sont loin d’être parfaites et sont elles aussi
susceptibles d’évoluer. On peut, par exemple, imaginer des
façons plus satisfaisantes de standardiser la passation d’un test
que de mettre tous les sujets strictement dans la même situa-
tion. Mais l’exigence sous-jacente doit être maintenue. Elle a
pour objectif de rendre l’évaluation accessible à la vérification et
à la critique de chacun.
La méthode des tests permet aussi d’inscrire la procédure
d’évaluation dans la démarche de vérification qui est celle de
l’approche scientifique. Établir la validité théorique d’un test
d’intelligence n’est pas autre chose que de soumettre à la vérifi-
cation les conceptions qui ont inspiré sa construction. Les
conceptions de l’intelligence qui ont guidé la construction des
premiers tests n’étaient certes pas des théories très élaborées,
mais les avancées théoriques ultérieures ont permis de mieux
comprendre pourquoi certains items, qui avaient été retenus au
départ dans le cadre d’une démarche très pragmatique, étaient
de bons indicateurs de l’efficience cognitive. Quelques exemples
de ces retours de la théorie sur les tests ont été donnés dans cet
ouvrage, notamment à propos de la réinterprétation des items
des matrices progressives dans le cadre de modèles du traite-
ment de l’information. Réciproquement, la construction de tests
C O N C L U S I O N 115
opérationnalisant une théorie de l’intelligence a parfois

contribué à mettre celle-ci en question. C’est ainsi que l’élabora-
tion de tests inspirés de la théorie de Piaget a contribué à
ébranler la conception des stades de développement cognitif qui
reposait sur cette théorie.
Si la construction de tests d’intelligence s’est bien inscrite dès
le départ dans cette démarche d’aller et retour entre élaboration
théorique et vérification empirique, on peut cependant regretter
que les interactions entre recherche fondamentale et applica-
tions aient été longtemps fort limitées. Il y a à cela des raisons
historiques. Chez Binet, la réflexion théorique sur l’intelligence
et la mise au point d’une échelle destinée à la mesurer étaient
deux moments étroitement articulés d’une même démarche. Le
succès des tests a été tel par la suite que la réponse à la demande
sociale l’a emporté sur les questionnements théoriques. Il faut
ajouter à cela que, même s’ils l’avaient souhaité, les psycho-
logues utilisant les tests d’intelligence auraient difficilement
trouvé matière à renouvellement théorique dans la recherche
fondamentale en psychologie pendant la période où le béhavio-
risme a dominé. Le développement du courant cognitiviste, qui
a pris le relais à partir des années 1970, offre un cadre beaucoup
plus propice au renouvellement des idées sur le fonctionnement
de l’intelligence. Les recherches ont pour l’instant plutôt porté
sur la modélisation des processus de traitement de l’informa-
tion en jeu dans la résolution d’items de tests existants que sur
l’élaboration de nouveaux tests [Huteau, 1995 ; Huteau et
Lautrey, 1978 ; Lautrey, 1995 ; Lautrey et Huteau, 1990]. L’état
actuel de la question paraît néanmoins plus favorable que par le
passé à ce que marchent à nouveau d’un même pas la recherche
fondamentale sur les différents aspects du fonctionnement intel-
lectuel et la construction d’instruments permettant aux prati-
ciens de les évaluer.
Repères bibliographiques
A MERICAN E DUCATIONAL R ESEARCH BRUCHON-SCHWEITZER M. et FERRIEUX

ASSOCIATION, AMERICAN PSYCHOLO- D. (1991), « Une enquête sur le
GICAL ASSOCIATION, NATIONAL recrutement en France », Euro-
COUNCIL ON MEASUREMENT IN pean Review of Applied Psycho-
EDUCATION (1985), Standards for logy, 41, 9-17.
Educational and Psychological CARPENTER P.A., JUST M.A. et SHELL
Testing, American Psychological P. (1990), « What one intelli-
Association, Washington. gence test measures : a theore-
ARBISIO C. (2003), Le Bilan psycholo- tical account of the processing
gique de l’enfant. Approche in the Raven progressive
clinique du WISC III, Dunod, matrices test », Psychological
Paris. Review, 97, 404-431.
BAR-ON R. (1997), Bar-On Emotional
CARROLL J.B. (1993), Human Cogni-
Quotient Inventory, Multi-Health
tive Abilities, Cambridge Univer-
System Inc., Toronto.
sity Press, Cambridge.
BAUDELOT C. et ESTABLET R. (1989),
CASTRO D., MELJAC C. et JOUBERT B.
Le Niveau monte, PUF, Paris.
(1996), « Pratiques et outils des
BINET A. et SIMON T. (1908), « Le
cliniciens français. Les enseigne-
développement de l’intelli-
ments d’une enquête », Pratiques
gence chez les enfants », L’Année
psychologique, 14, 1-94. psychologiques, 4, nº spécial, « Les
B INET A. et S IMON T. (1964), La tests au XXIe siècle », 73-80.
Mesure de l’intelligence chez les C ATTELL R.B. (1963), « Theory of
jeunes enfants, Armand Colin, fluid and crystallised intelli-
Paris. gence : A critical experiment »,
BOURGUIGNON O. (1994), « Éthique, Journal of Educational Psychology,
déontologie et clinique », 54, 1-22.
L’Orientation scolaire et profes- CATTELL R.B. (1971), Abilities : Their
sionnelle, 23, 79-84. Structure, Growth and Action,
BOURGUIGNON O. (2005), Déonto- Houghton Mifflin, Boston.
logie des psychologues, Armand C R O N B A C H L.J. (1975), « Five
Colin, Paris. decades of public controversy
REPÈRES BIBLIOGRAPHIQUES 117
over mental testing », American H U T E A U M., L O N G E O T F.,

Psychologist, 30, 1-14. MOSCATO M. et OHLMANN T. (éd.),
DUPONT J.B. (1994), « Compé- Fonctionnement cognitif et indivi-
tences requises pour appliquer dualité (p. 41-87), Mardaga,
des tests psychologiques d’éva- Bruxelles.
luation des personnes », L’Orien- HUTEAU M. (1990), « La variété des
tation scolaire et professionnelle, formes et des composantes de
23, 85-98. l’intelligence », in REUCHLIN M.,
EELS K., DAVIS A., HAVIGHURST R.J., L A U T R E Y J., M A R A N D A Z C. et
H E R R I C K V.E. et T Y L E R R.H. O HLMANN T. (éd.), Cognition :
(1951), Intelligence and Cultural l’individuel et l’universel
Differences, University of (p. 253-283), PUF, Paris.
Chicago Press, Chicago. H U T E A U M. (1995), « Les tests
F LIELLER A., J ANTZ M. et K OP J.L. d’intelligence et la psychologie
(1989), « Les réponses au test cognitive », in LAUTREY J. (éd.),
Mosaïque à quarante ans Universel et différentiel en psycho-
d’intervalle », Enfance, 42, 7-21. logie, p. 385-412, PUF, Paris.
F LYNN J.R. (1987), « Massive IQ HUTEAU M. (1996), « L’école fran-
gains in 14 nations : What IQ çaise de psychotechnique
tests really measure », Psycholo- 1900-1940 », in C LOT Y. (éd.),
gical Bulletin, 101, 171-191. Les Histoires de la psychologie du
GARDEY A.M., BOUCHERAT-HUE V. et travail, Octarès, Toulouse.
J U M E L B. (2003), Pratiques H UTEAU M. (2002), Psychologie,
cliniques de l’évaluation intellec- psychiatrie et société sous la Troi-
tuelle, Dunod, Paris. sième République. La biocratie
GOULD S.J. (1983), La Mal-mesure de d’Édouard Toulouse, L’Harmat-
l’homme, Ramsay, Paris. tan, Paris.
H E R R N S T E I N R.J. et M U R R A Y C. H U T E A U M. (2004), Écriture et
(1994), The Bell Curve, The Free personnalité. Approche critique de
Press, New York. la graphologie, Dunod, Paris.
HORN J.L. (1994), « The theory of H UTEAU M. et L AUTREY J. (1978),
fluid and crystallised intelli- « L’utilisation des tests d’intelli-
gence », in STERNBERG R.J. (éd.), gence et de la psychologie
The Encyclopedia of Intelligence cognitive dans l’éducation et
(p. 443-451), Macmillan, New l’orientation », L’Orientation
York. scolaire et professionnelle, 7,
HORN J.L. et CATTELL R.B. (1966), 99-174.
« Refinement of the theory of H UTEAU M. et L AUTREY J. (2003),
fluid and cristallized intelli- Évaluer l’intelligence. Psychomé-
gence », Journal of Educational trie cognitive, PUF, Paris.
Psychology, 57, 253-270. J ENSEN A.R. (1969), « How much
HUTEAU M. (1985), « Dimensions can we boost IQ and scholastic
des différences individuelles achievement ? », Harvard Educa-
dans le domaine intellectuel et tional Review, 39, 1-123.
processus de traitement de K A U F M A N A.S. et K A U F M A N N.L.
l’information », in DRÉVILLON J., (1993), K-ABC. Batterie pour
l’examen psychologique de L’Orientation scolaire et profes-

l’enfant. Manuel d’interprétation, sionnelle, 23, 85-98.
Éditions du Centre de psycho- LONGEOT F. (1969), Psychologie diffé-
logie appliquée, Paris. rentielle et théorie opératoire de
LANDSHEERE G. DE (1992), Évalua- l’intelligence, Dunod, Paris.
tion continue et examens. Précis de M E L J A C C. et L E M E L G. (1999),
docimologie, Nathan, Paris. Manuel de l’UDN-II, Éditions du
LAUTREY J. (1980 a), Classe sociale, Centre de psychologie appli-
milieu familial, intelligence, PUF, quée, Paris.
Paris. M EYER J.D. et S ALOVEY P. (1997),
LAUTREY J. (1980 b), « La variabilité « What is emotional intelli-
intra-individuelle du niveau gence ? », in S A L O V E Y P. et
opératoire et ses implications S LUYTER D.J. (éds.), Emotional
théoriques », Bulletin de psycho- Development and Emotional Intel-
logie, 33, 685-697. ligence, Basic Books, New York.
LAUTREY J. (1995), « Les apports de OAKLAND T. et HU S. (1992), « The
la psychologie cognitive à la top 10 tests used with chidren
compréhension des différences
and youth worldwide », Bulletin
en matière d’intelligence et de
of the International Test Commis-
réussite scolaire », in MIALARET G.
sion, 19, 99-120.
(éd.), Intelligences, scolarités et
PAICHELER G. (1992), L’Invention de la
réussites, Éditions La Pensée
psychologie moderne, L’Harmattan,
sauvage, Grenoble.
Paris.
L A U T R E Y J. (2002), « Is there a
P IAGET J. (1970), L’Épistémologie
general factor of cognitive deve-
génétique, PUF, Paris.
lopment ? », in STERNBERG R.J. et
PIÉRON H. (1929), Le Développement
GRIGORENKO E. (éds.), The General
de l’intelligence, Alcan, Paris.
Factor of Intelligence : How
RAVEN J.C. (1965), Advanced Progres-
General Is It ? (p. 117-148),
Lawrence Erlbaum, Hillsdale. sives Matrices, Set I and II, Lewis,
L AUTREY J. et H UTEAU M. (1990), Londres.
« L’évaluation du développe- R AVEN J.C. (1981), Progressives
ment et des compétences cogni- Matrices, Manuel, Établissements
tives chez l’enfant : quoi de d’applications psychotechniques,
neuf ? », Revue de psychologie Issy-les Moulineaux, 92.
appliquée, 40, 437-464. RAVEN J.C., COURT J.H. et RAVEN J.
LEMAINE G. et MATALON B. (1985), (1988), Manual for Raven’s
Hommes supérieurs, hommes infé- Progressive Matrices and Vocabu-
rieurs, Armand Colin, Paris. lary Scales, Section IV : Advanced
LEVY-LEBOYER C. (1987), « Problèmes Progressives Matrices, Lewis,
éthiques posés par l’usage des Londres.
tests », in L EVY -L EBOYER C. et REUCHLIN M. (1971), « Naissance de
S PÉRANDIO J.C. (éd.), Traité de la psychologie appliquée », in
psychologie du travail, PUF, Paris. R E U C H L I N M. (éd.), Traité de
LEVY-LEBOYER C. (1994), « La sélec- psychologie appliquée, tome I,
tion du personnel en Europe », PUF, Paris.
REPÈRES BIBLIOGRAPHIQUES 119
RIGGIO R.E. (1986), « Assessment of interpretation of the general

basic social skills », Journal of factor in human intelligence »,
Personality and Social Psychology, in E YSENCK H.J. (éd.), A Model
51, 649-660. for Intelligence (p. 231-254),
S ALVAT H. (1969), L’Intelligence. Springer, Berlin.
Mythes et réalités, Éditions S T E R N B E R G R.J. et W A G N E R R.K.
Sociales, Paris.
(1986), Practical Intelligence :
SCHLEGEL J. (1994), « L’évaluation
Nature and Origins of Compe-
dans les codes de déontologie »,
tence in the Everyday World,
L’Orientation scolaire et profes-
Cambridge University Press,
sionnelle, 23, 99-118.
S H A C K L E T O N N.J. et N E W E L L S. New York.
(1991), « Management selec- THURSTONE L.L. et THURSTONE T.G.
tion : A comparative study of (1958-1964), Manuel de la
methods used in top British an batterie factorielle PMA (Adapta-
French companies », Journal of tion du CPA), Éditions du Centre
Occupational Psychology, 64, de psychologie appliquée, Paris.
23-36. THURSTONE L.L. et THURSTONE T.G.
S PEARMAN C.E. (1904), « General (1941), Factorial Studies of Intelli-
intelligence objectively measured gence, The University of Chicago
and determined », American Press, Chicago.
Journal of Psychology, 15, 201-292. TORT M. (1974), Le Quotient Intellec-
SPEARMAN C. (1927), Les Aptitudes de
tuel, Maspero, Paris.
l’homme. Leur nature et leur
TOULOUSE E., VASCHIDE N. et PIÉRON
mesure, MacMillan, Londres
H. (1904), Technique de psycho-
(trad. franç., 1936, CNAM,
logie expérimentale, Douin, Paris.
Paris).
STERNBERG R.J. (1977), Intelligence, W ECHSLER D. (2000), WAIS III.
Information Processing and Analo- Manuel, Éditions du Centre de
gical Reasoning, Erlbaum, psychologie appliquée, Paris.
Hillsdale. Z U R F L U H J. (1976), Les Tests
S TERNBERG R.J. et G ARDNER M.K. mentaux, Éditions Universi-
(1982), « A componential taires, Paris.
Table des matières
Introduction 3
I Quelques repères historiques sur la naissance

des tests d’intelligence
Les premières tentatives de « mesure »
et leur contexte 6
La solution de Binet : l’échelle métrique
de développement de l’intelligence 8
La solution de Spearman : l’analyse factorielle 12
Les principes généraux de l’analyse factorielle, 13
Spearman et le facteur général d’intelligence, 15
Thurstone et les « aptitudes primaires », 16
Cattell, Horn, Carroll et la structure factorielle
hiérarchique de l’intelligence, 17
_ Encadré : Les huit facteurs larges de la strate II
du modèle de Carroll, 19
II Qu’est-ce qu’un test ?

Un test de raisonnement inductif 20
Les propriétés formelles des tests 23
La standardisation, 23
Niveau de difficulté des items et unidimensionnalité
de l’échelle, 27
Les étalonnages 29
Les quantilages, 30
Les échelles normalisées, 31
Le quotient intellectuel, 34
Les erreurs de mesure 37
La stabilité ou constance, 37
TABLE DES MATIÈRES 121
L’équivalence et l’homogénéité, 39
La validité 40
La validité empirique, 41
La validité théorique, 44
III Les grandes catégories de tests d’intelligence

Distinctions entre les différents types de tests
d’intelligence 48
Les échelles d’intelligence : l’exemple de la WAIS 50
Les principes généraux de construction, 50
Présentation de l’échelle, 52
Les qualités métrologiques de la WAIS III, 54
L’interprétation des résultats, 59
Les tests factoriels d’intelligence 65
Un exemple de batterie de tests factoriels d’intelligence :
les PMA de Thurstone, 65
Présentation des tests composant
la batterie factorielle PMA, 66
Les qualités métrologiques de la batterie PMA, 67
L’interprétation des résultats, 70
_ Encadré : Le niveau monte, 71
Les tests inspirés par des théories plus récentes 71
Les tests « piagétiens », 72
La K-ABC, 76
Les épreuves d’intelligence sociale,
d’intelligence émotionnelle et d’intelligence pratique, 79
IV Les usages des tests d’intelligence

Les débats et polémiques sur les usages sociaux
des tests 84
Trois types d’interrogations, 84
La naissance des tests et leur diffusion, 86
Les débats sur les tests d’intelligence aux États-Unis :
héréditarisme et biais culturels, 88
Les tests en Union soviétique : de l’enthousiasme
au rejet, 90
Les débats sur les tests en France : la « juste sélection »
et la légitimation des inégalités, 91
Les pratiques actuelles en France 94
L’utilisation des tests d’intelligence dans le domaine
de l’éducation, 94
de la santé, 98

du travail, 99
_ Encadré : L’informatisation des tests, 102
Éthique et déontologie 105
Normes et biais culturels, 105
Codes de déontologie et législation, 108
_ Encadré : La déontologie de l’usage des tests, 109
Conclusion 111
Repères bibliographiques 116

Collection
R E P È R E S
dirigée par
JEAN-PAUL PIRIOU (de 1987 à 2004), puis par PASCAL COMBEMALE,
avec STÉPHANE BEAUD, ANDRÉ CARTAPANIS, BERNARD COLASSE, FRANÇOISE DREYFUS, YANNICK
L’HORTY, PHILIPPE LORINO, DOMINIQUE MERLLIÉ, CHRISTOPHE PROCHASSON, MICHEL RAINELLI
et YVES WINKIN.
ÉCONOMIE
Allocation universelle (L’), Économie britannique depuis Économie des inégalités (L’),
nº 412, Philippe Van Parijs 1945 (L’), nº 111, nº 216, Thomas Piketty.
et Yannick Vanderboght. Véronique Riches. Économie des logiciels, nº 381,
Balance des paiements (La), Économie de l’Afrique (L’), François Horn.
nº 359, Marc Raffinot et nº 117, Philippe Hugon. Économie des organisations
Baptiste Venet. Économie de l’éducation, (L’), nº 86, Claude Menard.
Bourse (La), nº 317, nº 409, Marc Gurgand. Économie des relations
Daniel Goyeau Économie de l’environnement, interentreprises (L’), nº 165,
et Amine Tarazi. nº 252, Pierre Bontems Bernard Baudry.
Budget de l’État (Le), nº 33, et Gilles Rotillon.
Économie des réseaux, nº 293,
Maurice Baslé. Économie de l’euro, nº 336, Nicolas Curien.
Calcul économique (Le), nº 89, Agnès Benassy-Quéré
Bernard Walliser. et Benoît Cœuré. Économie des ressources
humaines, nº 271,
Capitalisme financier (Le), Économie française 2007 (L’), François Stankiewicz.
nº 356, Laurent Batsch. nº 463, OFCE.
Économie des ressources
Capitalisme historique (Le), Économie de l’innovation, naturelles, nº 406,
nº 29, nº 259, Dominique Guellec. Gilles Rotillon.
Immanuel Wallerstein. Économie de la Chine (L’), Économie du droit, nº 261,
Chômage (Le), nº 22, nº 378, Françoise Lemoine. Thierry Kirat.
Jacques Freyssinet. Économie de la connaissance Économie du Japon (L’),
Commerce international (Le), (L’), nº 302,
nº 235,
nº 65, Michel Rainelli. Dominique Foray.
Évelyne Dourille-Feer.
Comptabilité nationale (La), Économie de la culture (L’),
nº 57, Jean-Paul Piriou. nº 192, Françoise Benhamou. Économie du risque pays,
nº 421, Nicolas Meunier
Concurrence imparfaite (La), Économie de la distribution, et Tania Sollogoub.
nº 146, Jean Gabszewicz. nº 372, Marie-Laure Allain
et Claire Chambolle. Économie du sport (L’), nº 309,
Consommation des Français Jean-François Bourg
(La) : Économie de la drogue, et Jean-Jacques Gouguet.
1. nº 279 ; nº 213, Pierre Kopp.
2. nº 280, Nicolas Herpin Économie et écologie, nº 158,
Économie de la firme, nº 361, Franck-Dominique Vivien.
et Daniel Verger. Bernard Baudry.
Coût du travail et emploi, Économie expérimentale (L’),
Économie de la propriété
nº 241, Jérôme Gautié. nº 423, Nicolas Eber
intellectuelle, nº 375,
et Marc Willinger.
Croissance et richesse des François Lévêque
nations, nº 419, Pascal Petit. et Yann Ménière. Économie informelle dans le
Démographie (La), nº 105, Économie de la qualité, nº 390, tiers monde, nº 155,
Jacques Vallin. Bénédicte Coestier Bruno Lautier.
Développement soutenable et Stéphan Marette. Économie marxiste du
(Le), nº 425, Économie de la capitalisme, nº 349,
Franck-Dominique Vivien. réglementation (L’), nº 238, Gérard Duménil
François Lévêque. et Dominique Lévy.
Développement économique
de l’Asie orientale (Le), Économie de la RFA (L’), nº 77, Économie mondiale 2007 (L’),
nº 172, Éric Bouteiller Magali Demotes-Mainard. nº 462, CEPII.
et Michel Fouquin. Économie de la Russie (L’), Économie politique de
Différenciation des produits nº 436, François Benaroya. l’entreprise, nº 392,
(La), nº 470, Économie de l’Inde (L’), François Eymard-Duvernay.
Jean Gabszewicz. nº 443, Jean-Joseph Boillot. Économie postkeynésienne,
Dilemne du prisonnier (Le), Économie des États-Unis (L’), nº 384, Marc Lavoie.
nº 451, Nicolas Eber. nº 341, Hélène Baudchon Efficience informationnelle des
Économie des changements et Monique Fouet. marchés financiers (L’),
climatiques, nº 414, Économie des fusions et nº 461, Sandrine Lardic et
Sylvie Faucheux acquisitions, nº 362, Valérie Mignon.
et Haitham Joumni. Nathalie Coutinet Emploi en France (L’), nº 68,
Économie bancaire, nº 268, et Dominique Dominique Gambier
Laurence Scialom. Sagot-Duvauroux. et Michel Vernières.
Éthique économique et Microéconomie des marchés Politique de la concurrence
sociale, nº 300, du travail, nº 354, (La), nº 339,
Christian Arnsperger Pierre Cahuc, Emmanuel Combe.
et Philippe Van Parijs. André Zylberberg. Politiques de l’emploi et du
France face à la mondialisation Modèles productifs (Les), marché du travail (Les),
(La), nº 248, Anton Brender. nº 298, Robert Boyer nº 373, DARES.
France face aux marchés et Michel Freyssenet.
Population française (La),
financiers (La), nº 385, Mondialisation et nº 75, Jacques Vallin.
Anton Brender. délocalisation des
entreprises, nº 413, Population mondiale (La),
Grandes économies nº 45, Jacques Vallin.
européennes (Les), nº 256, El Mouhoub Mouhoud.
Jacques Mazier. Mondialisation et l’emploi Produits financiers dérivés,
(La), nº 343, nº 422, Yves Jégourel.
Histoire de l’Europe
monétaire, nº 250, Jean-Marie Cardebat. Protection sociale (La), nº 72,
Jean-Pierre Patat. Monnaie et ses mécanismes Numa Murard.
(La), nº 295, Protectionnisme (Le), nº 322,
Incertitude dans les théories
Dominique Plihon. Bernard Guillochon.
Économiques (L’), nº 379,
Nathalie Moureau Multinationales globales (Les), Qualité de l’emploi (La),
et Dorothée Rivaud-Danset. nº 187, Wladimir Andreff. nº 456, CEE.
Industrie française (L’), nº 85, Mutations de l’emploi en Quel avenir pour nos
Michel Husson France (Les), nº 432, IRES. retraites ? nº 289,
et Norbert Holcblat. Notion de risque en économie Gaël Dupont
Inflation et désinflation, nº 48, (La), nº 444, Pierre-Charles et Henri Sterdyniak.
Pierre Bezbakh. Pradier.
Régionalisation de l’économie
Introduction aux théories Nouvelle histoire économique mondiale (La), nº 288,
économiques, nº 262, de la France contemporaine : Jean-Marc Siroën.
Françoise Dubœuf. 1. L’économie
préindustrielle (1750-1840), Revenu minimum garanti (Le),
Introduction à Keynes, nº 258, nº 125, Jean-Pierre Daviet. nº 98, Chantal Euzéby.
Pascal Combemale. 2. L’industrialisation Revenus en France (Les), nº 69,
Introduction à la (1830-1914), nº 78, Yves Chassard
macroéconomie, nº 344, Patrick Verley. et Pierre Concialdi.
Anne Épaulard 3. L’économie libérale à Socio-économie des services,
et Aude Pommeret. l’épreuve (1914-1948), nº 369, Jean Gadrey.
Introduction à la nº 232, Alain Leménorel.
4. L’économie ouverte Système monétaire
microéconomie, nº 106, international (Le), nº 97,
Gilles Rotillon. (1948-1990), nº 79,
André Gueslin. Michel Lelart.
Introduction à l’économie de Taux de change (Les), nº 103,
Marx, nº 114, Pierre Salama Nouvelle économie (La),
nº 303, Patrick Artus. Dominique Plihon.
et Tran Hai Hac.
Nouvelle économie chinoise Taux d’intérêt (Les), nº 251,
Investisseurs institutionnels
(La), nº 144, A. Bénassy-Quéré, L. Boone
(Les), nº 388, Aurélie Boubel
Françoise Lemoine. et V. Coudert.
et Fabrice Pansard.
FMI (Le), nº 133, Nouvelle microéconomie (La), Taxe Tobin (La), nº 337,
Patrick Lenain. nº 126, Pierre Cahuc. Yves Jegourel.
Lexique de sciences Nouvelle théorie du commerce Théorie de la régulation (La),
international (La), nº 211, nº 395, Robert Boyer.
économiques et sociales,
Michel Rainelli. Théorie économique
nº 202, Jean-Paul Piriou.
Nouvelles politiques de néoclassique (La) :
Libéralisme de Hayek (Le),
l’emploi (Les), nº 454, 1. Microéconomie, nº 275,
nº 310, Gilles Dostaler. Yannick L’Horty. 2. Macroéconomie, nº 276,
Lire l’économétrie, nº 460, Luc Nouvelles théories de la Bernard Guerrien.
Behaghel. croissance (Les), nº 161,
Macroéconomie. Théories de la monnaie (Les),
Dominique Guellec nº 226, Anne Lavigne
Investissement (L’), nº 278, et Pierre Ralle.
Patrick Villieu. et Jean-Paul Pollin.
Nouvelles théories du marché Théories des crises
Macroéconomie. du travail (Les), nº 107,
Consommation et épargne, économiques (Les), nº 56,
Anne Perrot.
nº 215, Patrick Villieu. Bernard Rosier
Nouveau capitalisme (Le), et Pierre Dockès.
Macroéconomie financière : nº 370, Dominique Plihon.
1. Finance, croissance et Théories du salaire (Les),
Nouveaux indicateurs de nº 138, Bénédicte Reynaud.
cycles, nº 307 ; richesse (Les), nº 404,
2. Crises financières et Jean Gadrey Théories économiques du
régulation monétaire, et Florence Jany-Catrice. développement (Les),
nº 308, Michel Aglietta. nº 108, Elsa Assidon.
Organisation mondiale du
Marchés du travail en Europe commerce (L’), nº 193, Travail des enfants dans le
(Les), nº 291, IRES. Michel Rainelli. monde (Le), nº 265,
Marchés financiers Paradis fiscaux (Les), nº 448, Bénédicte Manier.
internationaux (Les), nº 396, Christian Chavagneux et Travail et emploi en Europe,
André Cartapanis. Ronen Palan. nº 417, John Morley,
Mathématiques des modèles Partenariats public-privé (Les), Terry Ward et Andrew Watt.
dynamiques, nº 325, nº 441, F. Marty, S. Trosa et Urbanisation du monde (L’),
Sophie Jallais. A. Voisin. nº 447, Jacques Véron.
SOCIOLOGIE
Capital social (Le), nº 458, Notion de culture dans les Sociologie de Paris, nº 400,
Sophie Ponthieux. sciences sociales (La), nº 205, Michel Pinçon
Catégories Denys Cuche. et Monique Pinçon-Charlot.
socioprofessionnelles (Les), Nouveau système français de Sociologie des cadres, nº 290,
nº 62, Alain Desrosières protection sociale (Le), Paul Bouffartigue
et Laurent Thévenot. nº 382, Jean-Claude Barbier et Charles Gadea.
Conditions de travail (Les), et Bruno Théret. Sociologie des changements
nº 301, Michel Gollac Personnes âgées (Les), nº 224, sociaux (La), nº 440,
et Serge Volkoff. Pascal Pochet. Alexis Trémoulinas.
Critique de l’organisation du Pouvoir des grands (Le). De Sociologie des chômeurs,
travail, nº 270, l’influence de la taille des nº 173, Didier Demazière.
Thomas Coutrot. hommes sur leur statut social, Sociologie des comportements
Culture matérielle (La), nº 431, nº 469, Nicolas Herpin. sexuels, nº 221,
Marie-Pierre Julien Santé des Français (La), nº 330, Maryse Jaspard.
et Céline Rosselin. Haut comité de la santé Sociologie des employés,
Démocratisation de publique. nº 142, Alain Chenu.
l’enseignement (La), nº 345, Sciences de l’éducation (Les), Sociologie des entreprises,
Pierre Merle. nº 129, Éric Plaisance nº 210, Christian Thuderoz.
et Gérard Vergnaud.
Économie sociale (L’), nº 148, Sociologie des mouvements
Claude Vienney. Société du risque (La), nº 321, sociaux, nº 207, Erik Neveu.
Patrick Peretti Watel.
Enseignement supérieur en Sociologie des organisations,
France (L’), nº 429, Sociologie de Durkheim (La), nº 249, Lusin Bagla.
Maria Vasconcellos. nº 154, Philippe Steiner.
Sociologie des pratiques
Ergonomie (L’), nº 43, Sociologie de Erving Goffman culturelles, nº 418,
Françoise Darses et (La), nº 416, Jean Nizet Philippe Coulangeon.
Maurice de Montmollin. et Natalie Rigaux.
Sociologie des publics, nº 366,
Étudiants (Les), nº 195, Sociologie de Georg Simmel Jean-Pierre Esquenazi.
Olivier Galland (La), nº 311,
Frédéric Vandenberghe. Sociologie des relations
et Marco Oberti. professionnelles, nº 186,
Féminin, masculin, nº 389, Sociologie de l’architecture, Michel Lallement.
Michèle Ferrand. nº 314, Florent Champy.
Sociologie des réseaux
Formation professionnelle Sociologie de l’alimentation, sociaux, nº 398,
continue (La), nº 28, nº 468, F. Régnier, Pierre Mercklé.
Claude Dubar. A. Lhuissier et S. Gojard.
Sociologie de l’art, nº 328, Sociologie des syndicats,
Histoire de la sociologie : Nathalie Heinich. nº 304,
1. Avant 1918, nº 109, Dominique Andolfatto
2. Depuis 1918, nº 110, Sociologie de l’éducation, et Dominique Labbé.
Charles-Henry Cuin nº 169, Marlaine Cacouault
et Françoise Œuvrard. Sociologie du crime (La),
et François Gresle. nº 435, Philippe Robert.
Histoire du féminisme, nº 338, Sociologie de l’emploi, nº 132,
Margaret Maruani Sociologie du droit, nº 282,
Michèle Riot-Sarcey. Évelyne Séverin.
et Emmanuèle Reynaud.
Histoire du travail des femmes, Sociologie du sida, nº 355,
nº 284, Françoise Battagliola. Sociologie de l’immigration,
nº 364, Andrea Rea Claude Thiaudière.
Insécurité en France (L’), et Maryse Tripier. Sociologie du sport, nº 164,
nº 353, Philippe Robert. Jacques Defrance.
Sociologie de l’organisation
Introduction aux Science sportive, nº 281, Sociologie du travail (La),
Studies, nº 449, William Gasparini. nº 257, Sabine Erbès-Seguin.
Dominique Pestre. Sociologie économique (La),
Sociologie de la bourgeoisie,
Jeunes (Les), nº 27, nº 294, Michel Pinçon nº 274, Philippe Steiner.
Olivier Galland. et Monique Pinçon-Charlot. Sociologie et anthropologie de
Jeunes et l’emploi (Les), Sociologie de la Marcel Mauss, nº 360,
nº 365, Florence Lefresne. consommation, nº 319, Camille Tarot.
Méthode en sociologie (La), Nicolas Herpin. Sondages d’opinion (Les),
nº 194, Sociologie de la lecture, nº 38, Hélène Meynaud
Jean-Claude Combessie. nº 376, et Denis Duclos.
Méthodes de l’intervention Chantal Horellou-Lafarge Syndicalisme enseignant (Le),
psychosociologique (Les), et Monique Segré. nº 212, Bertrand Geay.
nº 347, Gérard Mendel Sociologie de la négociation, Système éducatif (Le), nº 131,
et Jean-Luc Prades. nº 350, Reynald Bourque Maria Vasconcellos.
Méthodes en sociologie (Les) : et Christian Thuderoz. Théories sociologiques de la
l’observation, nº 234, Sociologie de la prison, nº 318, famille (Les), nº 236,
Henri Peretz. Philippe Combessie. Catherine Cicchelli-Pugeault
Métiers de l’hôpital (Les), Sociologie de la ville, nº 331, et Vincenzo Cicchelli.
nº 218, Yankel Fijalkow. Travail et emploi des femmes,
Christian Chevandier. Sociologie de Marx (La), nº 287, Margaret Maruani.
Mobilité sociale (La), nº 99, nº 173, Jean-Pierre Durand. Travailleurs sociaux (Les),
Dominique Merllié Sociologie de Max Weber (La), nº 23, Jacques Ion
et Jean Prévot. nº 452, et Bertrand Ravon.
Modernisation des entreprises Catherine Colliot-Thélène. Urbanisme (L’), nº 96,
(La), nº 152, Danièle Linhart. Sociologie de Norbert Elias Jean-François Tribillon.
Multiculturalisme (Le), nº 401, (La), nº 233, Violences contre les femmes
Milena Doytcheva. Nathalie Heinich. (Les), nº 424, Maryse Jaspard.
SCIENCES POLITIQUES-DROIT
Aménagement du territoire Gouvernance de la Politique de la famille (La),
(L’), nº 176, mondialisation (La), nº 403, nº 352, Jacques Commaille,
Nicole de Montricher. Jean-Christophe Graz. Pierre Strobel
Collectivités locales (Les), Groupes d’intérêt (Les), et Michel Villac.
nº 242, Jacques Hardy. nº 453, Guillaume Courty. Postcommunisme en Europe
Constitutions françaises (Les), Histoire de l’administration, (Le), nº 266, François Bafoil.
nº 184, Olivier Le Cour nº 177, Yves Thomas. Régime politique de la
Grandmaison. Histoire des idées politiques en Ve République (Le), nº 253,
Construction européenne (La), France au XIXe siècle, nº 243, Bastien François.
nº 326, Guillaume Courty Jérôme Grondeux.
et Guillaume Devin. Régimes politiques (Les),
Histoire des idées socialistes, nº 244,
Décentralisation (La), nº 44, nº 223, Noëlline Castagnez. Arlette Heymann-Doat.
Xavier Greffe.
Histoire du Parti communiste
DOM-TOM (Les), nº 151, Socialisme libéral (Le), nº 466,
français, nº 269,
Gérard Belorgey Serge Audier.
Yves Santamaria.
et Geneviève Bertrand. Sociologie historique du
Introduction à la philosophie
Droits de l’homme (Les), politique, nº 197, politique, nº 209,
nº 333, Danièle Lochak. Christian Ruby. Yves Déloye.
Droit du travail (Le), nº 230, Introduction à Marx, nº 467, Sociologie des relations
Michèle Bonnechère. Pascal Combenale. internationales, nº 335,
Droit international Introduction au droit, nº 156, Guillaume Devin.
humanitaire (Le), nº 196, Michèle Bonnechère. Sociologie de la vie politique
Patricia Buirette.
Islam (L’), nº 82, française, nº 402,
Droit pénal, nº 225, Michel Offerlé.
Anne-Marie Delcambre.
Cécile Barberger.
Justice en France (La), nº 116, Sociologie du phénomène
Économie politique
Dominique Vernier. Le Pen, nº 428,
internationale, nº 367,
Nouvelle Constitution Jacques Le Bohec.
Christian Chavagneux.
Évaluation des politiques européenne (La), nº 380, Syndicalisme en France depuis
publiques (L’), nº 329, Jacques Ziller. 1945 (Le), nº 143,
Bernard Perret. ONG (Les), nº 386, René Mouriaux.
Femmes en politique, nº 455, Philippe Ryfman. Théories de la république
Catherine Achin ONU (L’), nº 145, (Les), nº 399, Serge Audier.
et Sandrine Lévêque. Maurice Bertrand.
Union européenne (L’), nº 170,
Fonction publique (La), nº 189, Philosophie de Marx (La), Jacques Léonard
Luc Rouban. nº 124, Étienne Balibar. et Christian Hen.
HISTOIRE
Affaire Dreyfus (L’), nº 141, Histoire de l’immigration, Histoire politique de la
Vincent Duclert. nº 327, Marie-Claude IVe République, nº 299,
Archives (Les), nº 324, Blanc-Chaléard. Éric Duhamel.
Sophie Cœuré Histoire de l’URSS, nº 150, Introduction à la
et Vincent Duclert. Sabine Dullin. socio-histoire, nº 437,
Catholiques en France depuis Histoire de la guerre d’Algérie, Gérard Noiriel.
1815 (Les), nº 219, 1954-1962, nº 115,
Introduction à l’histoire de la
Denis Pelletier. Benjamin Stora.
France au XXe siècle, nº 285,
Chronologie de la France au Histoire de la Turquie Christophe Prochasson.
XXe siècle, nº 286, contemporaine, nº 387,
Catherine Fhima. Hamit Bozarslan. Judaïsme (Le), nº 203,
État et les cultes (L’). Histoire des États-Unis depuis Régine Azria.
1789-1905-2005, nº 434, 1945 (L’), nº 104, Pierre Mendès France, nº 157,
Jacqueline Lalouette. Jacques Portes. Jean-Louis Rizzo.
Franc-maçonneries (Les), Histoire des sciences Politique étrangère de la
nº 397, Sébastien Galceran. biomédicales, nº 465, France depuis 1945 (La),
Front populaire (Le), nº 342, Jean-Paul Gaudillière. nº 217, Frédéric Bozo.
Frédéric Monier. Histoire du Maroc depuis
l’indépendance, nº 346, Protestants en France depuis
Guerre froide (La), nº 351, 1789 (Les), nº 273,
Stanislas Jeannesson. Pierre Vermeren.
Rémi Fabre.
Harkis (Les), nº 442, Tom Histoire du parti socialiste,
Charbit. nº 222, Jacques Kergoat. Question nationale au
XIXe siècle (La), nº 214,
Histoire de l’Algérie coloniale, Histoire du radicalisme, nº 139,
Gérard Baal. Patrick Cabanel.
1830-1954, nº 102,
Benjamin Stora. Histoire en France (L’), nº 84, Régime de Vichy (Le), nº 206,
Histoire de l’Algérie depuis Collectif. Marc Olivier Baruch.
l’indépendance, Histoire politique de la Santé au travail (La), nº 438,
1. 1962-1988, nº 316, IIIe République, nº 272, S. Buzzi, J.-C. Devinck et
Benjamin Stora. Gilles Candar. P.-A. Rosental.
GESTION
Analyse financière de Gestion des ressources Méthodologie de
l’entreprise (L’), nº 153, humaines (La), nº 415, l’investissement dans
Bernard Colasse. Anne Dietrich l’entreprise, nº 123,
Audit (L’), nº 383, et Frédérique Pigeyre. Daniel Fixari.
Stéphanie Thiéry-Dubuisson. Modèle japonais de gestion
Gestion financière de
Calcul des coûts dans les (Le), nº 121,
l’entreprise (La), nº 183, Annick Bourguignon.
organisations (Le), nº 181, Christian Pierrat.
Pierre Mévellec. Normes comptables
Gestion prévisionnelle des internationales (Les), nº 457,
Capital-risque (Le), nº 445, ressources humaines (La), Chrystelle Richard.
Emmanuelle Dubocage et
nº 446, Patrick Gilbert. Outils de la décision
Dorothée Rivaud-Danset.
Gouvernance de l’entreprise stratégique (Les) :
Comptabilité anglo-saxonne 1 : Avant 1980, nº 162,
(La), nº 201, Peter Walton. (La), nº 358, Roland Perez.
2 : Depuis 1980, nº 163,
Comptabilité en perspective Introduction à la comptabilité José Allouche
(La), nº 119, Michel Capron. d’entreprise, nº 191, et Géraldine Schmidt.
Contrôle budgétaire (Le), Michel Capron Sociologie du conseil en
nº 340, Nicolas Berland. et Michèle Lacombe-Saboly. management, nº 368,
Michel Villette.
Contrôle de gestion (Le), Management de la qualité
nº 227, Alain Burlaud et (Le), nº 315, Michel Weill. Stratégies des ressources
Claude J. Simon. humaines (Les), nº 137,
Management de projet (Le), Bernard Gazier.
Culture d’entreprise (La), nº 377, Gilles Garel. Théorie de la décision (La),
nº 410, Éric Godelier.
nº 120, Robert Kast.
Éthique dans les entreprises Management international
(Le), nº 237, Isabelle Huault. Toyotisme (Le), nº 254,
(L’), nº 263, Samuel Mercier. Koïchi Shimizu.
CULTURE-COMMUNICATION
Argumentation dans la Histoire de la philosophie, Presse magazine (La), nº 264,
communication (L’), nº 204, nº 95, Christian Ruby. Jean-Marie Charon.
Philippe Breton. Industrie des médias (L’),
Bibliothèques (Les), nº 247, nº 439, Jean Gabszewicz et Presse quotidienne (La),
Anne-Marie Bertrand. Nathalie Sonnac. nº 188, Jean-Marie Charon.
Culture de masse en France Industrie du disque (L’),
(La) : nº 464, Nicolas Curien et Programmes audiovisuels
1. 1860-1930, nº 323, François Moreau. (Les), nº 420, Benoît Danard
Dominique Kalifa. Introduction aux sciences de la et Remy Le Champion.
Diversité culturelle et communication, nº 245,
mondialisation, nº 411, Daniel Bougnoux. Psychanalyse (La), nº 168,
Armand Mattelart. Introduction aux Cultural Catherine Desprats-Péquignot.
Économie de la presse, nº 283, Studies, nº 363,
Patrick Lefloch Armand Mattelart Révolution numérique et
et Nathalie Sonnac. et Érik Neveu. industries culturelles, nº 408,
Histoire sociale du cinéma Marché de l’art contemporain Alain Le Diberder
français, nº 305, Yann Darré. (Le), nº 450, et Philippe Chantepie.
Histoire de la société de Nathalie Moureau
l’information, nº 312, et Dominique Sagot-Duvauroux. Sociologie du journalisme,
Armand Mattelart. Médias en France (Les), nº 313, Erik Neveu.
Histoire des théories de nº 374, Jean-Marie Charon.
l’argumentation, nº 292, Mondialisation de la culture Télévision (La), nº 405,
Philippe Breton (La), nº 260, Régine Chaniac
et Gilles Gauthier. Jean-Pierre Warnier. et Jean-Pierre Jézéquel.
Histoire des théories de la Musée et muséologie, nº 433,
communication, nº 174, Dominique Poulot. Tests d’intelligence (Les),
Armand Presse des jeunes (La), nº 334, nº 229, Michel Huteau
et Michèle Mattelart. Jean-Marie Charon. et Jacques Lautrey.
Classiques ou tout autre travail Voir, comprendre, analyser les
universitaire à l’ère du Net, images, Laurent Gervereau.
R E P È R E S Michel Beaud.
La formation du couple. Textes Comment se fait l’histoire. Manuels
essentiels pour la sociologie de Pratiques et enjeux,
la famille, Michel Bozon et François Cadiou, R E P È R E S
François Héran. Clarisse Coulomb,
Anne Lemonde et Comprendre le monde.
Invitation à la sociologie, Yves Santamaria. Une introduction à l’analyse
Peter L. Berger. des systèmes-monde,
La comparaison dans les Immanuel Wallerstein.
Un sociologue à l’usine, sciences sociales. Pratiques et Analyse macroéconomique 1.
Donald Roy. méthodes, Cécile Vigour.
Analyse macroéconomique 2.
Les ficelles du métier. Comment 17 auteurs sous la direction de
Dictionnaires conduire sa recherche en Jean-Olivier Hairault.
sciences sociales,
R E P È R E S Howard S. Becker. L’explosion de la
communication. Introduction
Dictionnaire de gestion, Guide de l’enquête de terrain, aux théories et aux pratiques de
Élie Cohen. Stéphane Beaud et la communication,
Dictionnaire d’analyse Florence Weber. Philippe Breton et
économique, microéconomie, Guide des méthodes de Serge Proulx.
macroéconomie, théorie des l’archéologie, Une histoire de la comptabilité
jeux, etc., Bernard Guerrien. Jean-Paul Demoule, nationale, André Vanoli.
François Giligny,
Histoire de la psychologie en
Guides Anne Lehoërff et
France. XIXe-XXe siècles,
Alain Schnapp.
J. Carroy, A. Ohayon et
R E P È R E S Guide du stage en entreprise, R. Plas.
Michel Villette.
L’art de la thèse. Comment La mondialisation de
préparer et rédiger un mémoire Manuel de journalisme. Écrire l’économie. Genèse et
de master, une thèse de doctorat pour le journal, Yves Agnès. problèmes, Jacques Adda.
Composition Facompo, Lisieux (Calvados)

Dépôt légal : novembre 2006

Les Tests D'intelligence-2006

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Les Tests D'intelligence-2006

Transféré par

Droits d'auteur :

Formats disponibles

Michel Huteau

S i vous désirez être tenu régulièrement informé des parutions de la collection

ISBN papier : 978-2-7071-4999-2

© Éditions La Découverte & Syros, Paris, 1997.

Les tests inquiètent et fascinent. Périodiquement, les médias les

L’idée de « mesurer » l’intelligence était dans l’air à la fin du

est plus ancien. Il est en effet le cousin de Darwin et, depuis la

Les premières tentatives de « mesure » et leur contexte

Les premières tentatives de mesure des différences indivi-

La solution de Binet : l’échelle métrique

C’est un psychologue français, Alfred Binet (1857-1911), qui

Le rôle de déclencheur sera joué par la demande sociale. En

Source : d’après le Manuel de l’échelle métrique, de Binet-Simon,

Dès 1905, Binet et Simon proposaient une première version de

* Les références entre crochets renvoient à la bibliographie en fin d’ouvrage.

d’exprimer la vitesse du développement par le rapport entre l’âge

rien donné d’intéressant et qui n’a d’ailleurs jamais rien donné

La solution de Spearman : l’analyse factorielle

Pour comparer les sujets, Binet s’est appuyé sur l’approche

factorielle, pour définir les dimensions intellectuelles sur

Les principes généraux de l’analyse factorielle

Avant de donner quelques repères historiques sur l’origine de

général de performance dans toutes ces activités, qu’il s’agisse de

1. Précisons que nous ne sommes en rien spécialistes de ce domaine et que cette

fait une analyse factorielle de leurs intercorrélations. Si nous

Spearman et le facteur général d’intelligence

La première méthode d’analyse factorielle a été inventée par

Spearman n’a pas proposé de théorie très élaborée de ce que

Thurstone et les « aptitudes primaires »

Ce modèle unidimensionnel a été mis en question vers la fin

Spearman, ou multidimensionnelle, comme le suggéraient les

Cattell, Horn, Carroll et la structure factorielle hiérarchique

Lorsque l’analyse factorielle d’une batterie de tests d’intelli-

et dont l’interprétation est donnée dans l’encadré ci-contre.

Représentation auditive (Ga) : sature

Un test est un dispositif d’observation des individus qui

Un test de raisonnement inductif

Le test de Raven est destiné à des adolescents ou à des adultes

1. Construites sur le même principe, il existe deux autres épreuves de matrices

1943 pour être utilisé au cours de la procédure de sélection des

Figure 2. Item nº 1 de la première série des matrices progressives

chercher des régularités ou des règles de transformation en ligne

Figure 3. Item nº 10 de la première série des matrices progressives

(score brut ou score d’échelle) est le nombre de problèmes

Les propriétés formelles des tests

Les tests sont des procédures d’observation standardisée. La

Figure 4. Item nº 19 de la seconde série des matrices progressives

posés sont strictement identiques pour tous les sujets puisqu’ils

puisqu’il suffit généralement d’ajouter des bonnes réponses.

incités à fournir des réponses variées. Il en va ainsi, par exemple,

commune, auquel cas il ne pourrait conduire qu’à des conclu-

Niveau de difficulté des items et unidimensionnalité de l’échelle

Le test doit permettre de différencier les individus, soit en les

être utilisées pour vérifier cette unidimensionnalité. Nous en

La corrélation item-test. — Lorsque le test a été appliqué, chaque

Tableau I. Diagramme de corrélation entre le score à un item (y)

Score au test (x)

Le score de l’item est 1 ou 0. Le score au test varie de 0 à 12.

Voici, pour le test de Raven, les corrélations item-test calculées

2. La corrélation est le degré de dépendance entre deux variables. Les coefficients de

Les courbes caractéristiques des items. — Elles fournissent en

Le score brut au test donne une indication sur la performance

Figure 5. Courbes caractéristiques des 12 items de la série I