Psychologie de La Perception-2013

Simon Grondin
Psychologie
de la
perception
PSYCHOLOGIE DE LA PERCEPTION
PSYCHOLOGIE DE LA PERCEPTION
Simon Grondin
Les Presses de l’Université Laval reçoivent chaque année du Conseil des Arts du
Canada et de la Société de développement des entreprises culturelles du Québec
une aide financière pour l’ensemble de leur programme de publication.
Nous reconnaissons l’aide financière du gouvernement du Canada par l’entremise
du Fonds du livre du Canada pour nos activités d’édition.
Mise en pages : Diane Trottier

Maquette de couverture : Laurie Patry
© Presses de l’Université Laval. Tous droits réservés.

Dépôt légal 4e trimestre 2013
ISBN 978-2-7637-2064-7
PDF 9782763720654
Les Presses de l’Université Laval

www.pulaval.com
Toute reproduction ou diffusion en tout ou en partie de ce livre par quelque moyen

que ce soit est interdite sans l’autorisation écrite des Presses de l’Université Laval.
Table des matières
Avant-propos............................................................................................ IX
1 – PSYCHOPHYSIQUE................................................................................ 1
1.1 Détection................................................................................... 1
Seuil absolu et méthode des stimuli constants........................ 2
Théorie sur la détection du signal........................................... 4
1.2 Discrimination........................................................................... 7
Seuil différentiel et méthode des stimuli constants................. 7
La loi de discrimination de Weber et sa forme généralisée...... 9
1.3 Autres méthodes d’estimation des seuils..................................... 11
La méthode de l’ajustement................................................... 11
La méthode des limites.......................................................... 12
Les méthodes adaptatives....................................................... 14
1.4 Échelonnage.............................................................................. 16
Méthodes............................................................................... 17
Loi de Stevens........................................................................ 18
Autres contributions de Stevens............................................. 19
2 – BASES PHYSIQUES ET BIOLOGIQUES DE L’AUDITION................... 21

2.1 Caractéristiques physiques d’une onde sonore simple................. 21
La fréquence et la phase......................................................... 22
L’amplitude............................................................................ 24
2.2 Caractéristiques physiques d’une onde sonore complexe............ 26
2.3 Caractéristiques subjectives du son............................................. 28
Tonie, sonie et timbre............................................................ 28
Autres caractéristiques subjectives.......................................... 30
VI Psychologie de la perception
2.4 Bases biologiques....................................................................... 31

Oreille externe, moyenne et interne....................................... 31
La cochlée.............................................................................. 34
Mécanismes centraux............................................................. 35
2.5 Théories de l’audition................................................................. 36
Théorie de la fréquence.......................................................... 36
Théories basées sur l’emplacement.......................................... 38
2.6 Aspects cliniques........................................................................ 40
3 – ENTENDRE.............................................................................................. 43
3.1 Organisation perceptive............................................................. 43
Notion de stream................................................................... 44
Illusion de continuité et la mutation d’interruption............... 46
3.2 Localisation sonore.................................................................... 48
Localisation de la direction ................................................... 49
Localisation de la distance...................................................... 50
3.3 Entendre la musique.................................................................. 52
Description technique............................................................ 52
Expérience subjective............................................................. 55
3.4 Entendre la parole...................................................................... 56
Description linguistique......................................................... 56
Analyse technique.................................................................. 57
Perspectives théoriques........................................................... 59
Intermodalité......................................................................... 61
4 – BASES BIOLOGIQUES DE LA PERCEPTION VISUELLE.................... 63

1. L’œil............................................................................................... 63
Le globe oculaire.................................................................... 63
La rétine................................................................................ 66
4.2 Notions de champs récepteurs.................................................... 68
4.3 Mécanismes centraux................................................................. 70
Le cortex visuel...................................................................... 71
Les voies visuelles................................................................... 74
Table des matières VII
5 – PERCEPTION DES COULEURS............................................................. 79

5.1 Description de la lumière........................................................... 79
Intensité................................................................................. 80
Longueur d’onde et composition spectrale............................. 81
5.2 Dimensions perceptives de la couleur......................................... 82
5.3 Mélanges chromatiques.............................................................. 84
Couleurs primaires................................................................. 84
Additionner vs soustraire........................................................ 85
5.4 Théories de la vision des couleurs............................................... 88
5.5 Effets chromatiques ................................................................... 91
6 – PERCEPTION DE LA FORME................................................................ 97
6.1 Perception des contours............................................................. 97
Bordures et contours subjectifs............................................... 98
Inhibition latérale.................................................................. 99
Les bandes de Mach............................................................... 101
Facteurs influençant la perception des contours...................... 103
6.2 Gestalt : organisation perceptive................................................. 105
Distinction figure/fond.......................................................... 105
Groupement perceptif............................................................ 108
6.3 Théorie des canaux spatiaux multiples........................................ 110
Concepts de base................................................................... 110
Fonction de la sensibilité aux contrastes................................. 113
6.4 Reconnaissance de la forme........................................................ 115
Exemplaires ou caractéristiques ?............................................ 116
Une approche computationnelle............................................ 117
Un modèle structurel............................................................. 118
Les agnosies........................................................................... 119
7 – PERCEPTION DE LA PROFONDEUR................................................... 121

7.1 Indices de perception d’une troisième dimension....................... 121
Indices binoculaires................................................................ 122
Indices monoculaires.............................................................. 124
VIII Psychologie de la perception
7.2 La constance perceptive.............................................................. 131

Types de constance................................................................. 132
Interprétations et investigations............................................. 133
Point de vue de Gibson.......................................................... 135
7.3 Les illusions............................................................................... 136
Variété d’illusions................................................................... 137
L’illusion de la lune................................................................ 143
8 – PERCEPTION ET ATTENTION.............................................................. 147

8.1 Qu’est-ce que l’attention ?.......................................................... 148
Cécités................................................................................... 149
8.2 Préparation et orientation.......................................................... 150
Préparation spatiale................................................................ 150
Préparation temporelle........................................................... 151
8.3 Sélectivité................................................................................... 153
Sélectivité visuelle.................................................................. 154
Sélectivité auditive................................................................. 156
8.4 Recherche visuelle ..................................................................... 159
Appendice A
COURBES ROC..................................................................................... 165
Appendice B
LOI DE FECHNER................................................................................ 167
Appendice C
LE SYSTÈME NERVEUX...................................................................... 171
BIBLIOGRAPHIE.................................................................................. 179
Avant-propos
Ce livre porte le même nom qu’un cours offert à l’École de psychologie de

l’Université Laval. En fait, il est écrit pour les étudiants de ce cours et
conçu de manière à fournir des explications sur une bonne partie de la
matière couverte en classe. Au fil des ans, j’ai beaucoup appris des étudiants
qui, en classe, que ce soit à l’Université Laurentienne autrefois ou à l’Uni-
versité Laval depuis 1996, posaient des questions afin de mieux
comprendre. Ces questions m’ont permis de réaliser à quel point il y avait
dans mon enseignement de nombreuses notions que je tenais pour
acquises, mais qui, en les rendant explicites, permettaient à tous de mieux
comprendre les phénomènes, les techniques ou les principes propres au
domaine de la perception.
J’espère que ce livre est à la hauteur des plus éveillés d’entre les
étudiants qui ont assisté et qui assisteront à mon cours, des étudiants qui
comprennent rapidement combien les mécanismes de la perception sont
fascinants et à la base d’une pleine compréhension de l’adaptation à l’envi-
ronnement.
Par ailleurs, j’aimerais remercier Tsuyoshi Kuroda, spécialiste de
psychoacoustique, qui a fourni de nombreux conseils et quelques figures
lors de la préparation des chapitres 2 et 3. J’aimerais aussi exprimer ma
gratitude à Anne-Marie Grondin pour sa précieuse contribution à la
production de nombreuses illustrations contenues dans le présent ouvrage,
à Daniel Voyer pour son efficacité lors du travail de révision du contenu et
à Carole Pâquet pour son travail minutieux lors de la révision linguistique.
Simon Grondin, professeur

École de psychologie
Université Laval
IX
1
PSYCHOPHYSIQUE
Un champ de la psychologie, la psychophysique, a pour principale préoccu-

pation de comprendre le passage d’un événement physique à une réalité
psychologique. On y étudie le lien entre la mesure physique d’une stimula-
tion et la mesure psychologique de cette stimulation. Les psychophysiciens
s’intéressent essentiellement à trois types de capacités : la détection des
stimuli, la discrimination de ceux-ci et l’estimation (l’échelonnage) de leur
valeur. Les deux premiers types sont associés aux notions fondamentales de
seuil absolu et de seuil différentiel, respectivement.
1.1 Détection
Les différents systèmes sensoriels renseignent sur les changements
physiques ou chimiques pouvant survenir dans l’environnement. Un
objectif fondamental de la psychophysique consiste à évaluer l’amplitude
minimale que doivent avoir ces changements afin qu’un individu puisse en
être averti. Cette amplitude minimale, c’est-à-dire la plus petite quantité
d’énergie pouvant être détectée en l’absence de toute autre stimulation, est
appelée seuil absolu. Sous ce seuil, la sensation n’est pas possible.
Cependant, ce seuil est un point dont l’identification correspond à une
définition opérationnelle pour une méthode donnée. La psychophysique
traditionnelle offre de nombreuses méthodes d’estimation d’un seuil. Les
plus conventionnelles sont celles des stimuli constants, des limites et de
l’ajustement. Pour l’instant, seule la méthode des stimuli constants est
présentée.
1
2 Psychologie de la perception
GUSTAV FECHNER
On pourrait dire que la psychophysique a pris son envol en 1860 avec la
parution du livre Éléments de psychophysique de l’Allemand Gustav
Theodor Fechner (1801-1887). Philosophe et physicien, cet auteur
désirait étudier les liens entre le monde interne et le monde externe. Aussi
connu sous le pseudonyme « Dr Mise », Fechner, qui a travaillé à Leipzig,
avait un esprit particulier. On lui doit notamment différentes méthodes
expérimentales toujours utilisées en psychophysique, mais il s’est
également intéressé, par exemple, aux propriétés du courant électrique, à
l’esthétique expérimentale et même à la vie après la mort. Notons qu’il
existe un congrès annuel de psychophysique, tenu généralement en
octobre, appelé Fechner Day (Fechner est décédé le 22 octobre 1887). Ce
congrès se tient à différents endroits dans le monde sous la supervision de
l’International Society for Psychophysics (http ://www.ispsychophysics.org/),
société fondée en 1985 dans le sud de la France.
Seuil absolu et méthode des stimuli constants
Pour mesurer un seuil absolu avec la méthode des stimuli constants,

aussi appelée la méthode constante, il faut d’abord déterminer le seuil de
façon grossière en déterminant une région pour laquelle il n’y a presque
jamais de perception et une pour laquelle il y a presque toujours perception.
On retient alors généralement de 5 à 9 stimuli situés entre ces régions,
stimuli ensuite présentés plusieurs fois dans un ordre aléatoire. La méthode
nécessite qu’un observateur rende au moins une centaine de jugements,
mais bien entendu, plus il y a d’essais pour estimer un seuil, plus on
minimise le risque que la valeur estimée soit éloignée de ce qu’est le
seuil réel.
À chaque présentation, un observateur dit si oui ou non il perçoit le
stimulus. On obtient une distribution discrète (non continue) de
fréquences ; pour chaque stimulus on dit détecter le stimulus un certain de
nombre de fois. On doit transformer ces fréquences en probabilités et c’est
sur la base de celles-ci que la valeur du seuil sera éventuellement estimée.
Après avoir calculé les probabilités pour chaque stimulus, on peut rapporter
celles-ci sur une figure. Comme l’indique la figure 1.1, il faut placer le
pourcentage de fois où le stimulus est détecté sur l’axe des y en fonction de
la magnitude des stimuli, placés sur l’axe des x en ordre croissant. La
fonction qui relie la probabilité sur l’axe des y à la magnitude d’un
continuum physique, sur l’axe des x, est appelée fonction psychométrique.
Une telle fonction a généralement la forme d’une ogive – une espèce de S
– et le seuil est défini opérationnellement comme étant le point qui
1 – Psychophysique 3
correspond à une capacité de percevoir lors de 50 % des essais. Cette valeur,

50 %, représente le point à partir duquel un observateur réussit à détecter
le stimulus à un niveau supérieur à celui que leur auraient procuré, avec
une procédure où deux réponses (oui ou non) sont possibles, des réponses
rendues au hasard.
Figure 1.1 – Illustration (cas fictif) d’une fonction psychométrique pour le seuil absolu pour le son.
Sur l’axe des y, il y a le pourcentage de fois où l’observateur dit percevoir le son. La ligne verticale
pointillée arrivant sur l’axe des x indique le seuil absolu.
Pour tracer une fonction sur la base d’une série de points, il faut
poser certaines hypothèses. Une première hypothèse est celle selon laquelle
le phénomène étudié soit une variable aléatoire continue. Ainsi croirons-
nous que la distribution discrète obtenue (série de points) est une
approximation d’une fonction continue. Aussi, il faudra poser une
hypothèse sur la forme de cette fonction. Les mathématiques offrent
plusieurs possibilités, mais une fonction souvent retenue en psychologie est
la distribution normale. Le lecteur est probablement déjà familier avec la
notion de distribution normale (courbe normale, ou courbe de Gauss, en
forme de cloche). La fonction utilisée pour tracer une fonction psychomé-
trique est dérivée de la fonction en forme de cloche (fonction de densité de
probabilités) et est appelée fonction normale cumulée. C’est après avoir
tracé cette fonction qu’il sera possible d’estimer précisément la valeur du
seuil. Outre la fonction gaussienne cumulée, les fonctions Weibull et logis-
tiques, qui ont des formes semblables, sont probablement les plus
susceptibles d’être utilisées (Macmillan et Creelman, 1991).
Théorie sur la détection du signal
Malgré toute la rigueur utilisée pour estimer la capacité de détecter

un stimulus avec la méthode des stimuli constants, un problème majeur
risque de se poser. La capacité estimée pourrait dépendre non seulement de
la sensibilité d’un observateur, mais aussi de la manière avec laquelle
celui-ci rend ses décisions. Un observateur pourrait très bien attendre d’être
sûr avant de rendre une décision, avant de déclarer percevoir le stimulus
tandis qu’un autre, en situation de doute, aurait plutôt tendance à dire
« oui, je perçois ».
Il existe une méthode, élaborée dans les années 1940, pour déter-
miner la sensibilité de l’observateur à détecter un stimulus tout en
corrigeant le problème que pose le rôle des processus décisionnels. C’est
ainsi que la théorie sur la détection du signal (TDS), également appelée la
théorie sur la décision sensorielle, utilise deux paramètres pour décrire la
performance : l’un relié à la sensibilité et l’autre à la manière de décider de
l’observateur (Macmillan et Creelman, 1991).
Notions de base
Pour comprendre la TDS, il faut d’abord connaître deux concepts

fondamentaux : le signal et le bruit. Le signal (S) et le bruit (B) sont à la
base de tout message sensoriel. Le stimulus que l’on tente de détecter,
appelé signal, a des caractéristiques précises et stables. Le bruit peut être
défini comme une variable aléatoire et il varie constamment. Cette variable
prend différentes valeurs qui se distribuent, assume-t-on le plus souvent,
selon les caractéristiques de la courbe normale. Le bruit est une toile de
fond à laquelle s’ajoute parfois un signal à détecter. Ce bruit comprend une
activité externe (contrôlée par l’expérimentateur) et l’activité physiologique
interne (générée par le système nerveux).
Dans une tâche propre à la TDS, un observateur doit rendre la
décision suivante à propos de ce qui a été présenté : était-ce le bruit seul ou
le bruit à travers lequel un signal était ajouté (S+B) ? Pour une quantité de
bruit donnée, plus le signal génère d’activité interne (plus il est fort) plus
facilement il peut être détecté. Ces deux concepts, B et S+B, sont généra-
lement présentés à l’aide de deux distributions de fréquences normales
(figure 1.2).
Un observateur soumis à une tâche de détection de signal doit
adopter un critère de décision. Ce critère est appelé bêta (ß). L’adoption
d’un critère de décision détermine quatre situations (tableau 1.1). Des
quatre situations, deux sont reliées à la présence du signal et deux à

l’absence du signal. Lorsque le signal est présent et qu’un observateur
déclare l’avoir perçu, il s’agit d’une identification correcte appelée détection
correcte. Si l’observateur ne détecte pas la présence d’un signal lorsque
celui-ci est présenté, il commet une omission. Si le signal n’est pas présenté
et que l’observateur déclare l’avoir perçu, il s’agit d’une fausse alarme.
Enfin, ne pas percevoir un signal alors qu’il n’y a effectivement que le bruit
qui est présenté constitue un cas de rejet correct.
Tableau 1.1
Les quatre situations typiques de la théorie sur la détection du signal
Signal
Présent Absent
Présent Détection correcte Fausse alarme
Réponse
Absent Omission Rejet correct
Certaines personnes attendent plus que d’autres d’être sûres avant de

prétendre percevoir un signal. Ainsi peut-on parler d’observateurs conserva-
teurs, par opposition à des observateurs audacieux. Deux observateurs
pourront donc avoir des sensibilités semblables, mais adopter des stratégies
décisionnelles différentes. Par rapport à un observateur audacieux, le
nombre de détections correctes d’un observateur conservateur pourrait être
plus faible, mais ce dernier commettrait moins de fausses alarmes. Bref,
pour un niveau de sensibilité donné, le nombre de fausses alarmes et le taux
de détections correctes pourra varier, et ce, en fonction du style décisionnel
de l’observateur (voir Appendice A).
Unités de mesure
Il existe différents indices associés à la TDS qui permettent de

quantifier la sensibilité d’un observateur et le critère décisionnel qu’il
adopte. Parmi les indices de performance utilisés pour mesurer la sensi-
bilité, le plus conventionnel est probablement d' (on prononce d prime).
On peut définir d' comme la différence entre les moyennes des distribu-
tions B et SB, divisée par l’écart-type de la distribution bruit ; d' est un
indice pur de détectabilité en ce sens qu’il n’est pas influencé par le critère
décisionnel.
On peut calculer facilement d' sur la base des détections correctes et

des fausses alarmes obtenues empiriquement. On obtiendra une évaluation
de d' en transformant en scores Z les probabilités d’obtenir une détection
correcte et une fausse alarme. Ainsi :
d' = Z(détection correcte) – Z(fausse alarme)
Soit l’exemple suivant : Un observateur détecte correctement la

présence d’un signal lors de 90 % des essais, mais on compte 25 % de
fausses alarmes. Puisque la valeur de 90 % en score Z = 1,28 et celle de
25 % = - 0,67, sa sensibilité est estimée à une valeur de d' égale à 1,95
(c’est-à-dire 1,28 – (- 0,67)).
Figure 1.2 – Distributions Bruit et Signal + Bruit de la théorie sur la détection du signal (TDS). La
ligne verticale continue représente ß, le critère décisionnel. La distance entre les lignes pointillées
représente d', l’indice de sensibilité.
Il importe de souligner que cette transformation de pourcentages en

scores Z est rendue légitime an posant l’hypothèse que les distributions B
et S+B sont normales. Or, il existe d’autres indices comme Dm ou d'e pour
estimer la sensibilité. Un autre indice, A', est particulièrement intéressant,
car il permet d’estimer la sensibilité sans avoir à poser l’hypothèse de la
normalité des distributions. On obtient A' à l’aide de l’équation suivante :
A' = ½ + (p(DC) – p(FA)) × (1 + p(DC) – p(FA))
(4(p(DC)) × (1 – p(FA))
où p(DC) est la probabilité de faire une détection correcte et p(FA) la

probabilité d’une fausse alarme.
En ce qui concerne le critère décisionnel, il peut être estimé à l’aide

de ß. Cet indice consiste en un rapport des ordonnées correspondant à
l’emplacement du critère décisionnel pour chaque distribution (B et S+B).
Ainsi, le calcul du critère décisionnel ß va comme suit :
ordonnée de la distribution S+B

ordonnée de la distribution B
Ainsi, dans l’exemple précédent, le critère ß aurait une valeur de 0,552 :
ordonnée de 90 % = 0,176 et l’ordonnée de 25 % = 0,319 ; donc,

ß = 0,176/0,319 = 0,552
Une valeur élevée de l’indicateur ß signifie que l’observateur est très

conservateur dans sa prise de décision et à l’inverse, une valeur basse de ß
(< 1), comme c’est le cas dans le présent exemple, indique que l’observateur
tend à être audacieux. Enfin, notez qu’il existe aussi d’autres indices pour
exprimer le critère décisionnel, notamment c (Macmillan et Creelman,
1991).
1.2 Discrimination
Une autre capacité sensorielle fondamentale consiste à essayer de
savoir si deux stimuli sont différents l’un de l’autre. La différence d’intensité
minimale nécessaire pour que deux stimuli puissent être différenciés est
appelée seuil différentiel. Ce seuil différentiel est défini, comme c’était le cas
pour le seuil absolu, de façon arbitraire en fonction de la méthode utilisée,
c.-à-d. sur la base d’une définition opérationnelle. Ce seuil, qui est le point
à partir duquel un observateur devient capable de faire la différence entre
deux stimuli, est parfois aussi appelé la « différence juste perceptible » (DJP,
ou JND en anglais, just noticeable difference).
Seuil différentiel et méthode des stimuli constants
Afin d’estimer un seuil différentiel avec la méthode des stimuli

constants, un observateur se voit présenter deux stimuli et doit déterminer
lequel des deux stimuli est de plus grande magnitude. La méthode
comprend la présentation à chaque essai d’un stimulus standard et d’un
stimulus de comparaison. Ce dernier peut prendre l’une de 7 à 9 valeurs
réparties autour de la valeur standard. Le standard et un des stimuli de
comparaison sont présentés à de nombreuses reprises conjointement ou

successivement, selon la nature du continuum sensoriel à l’étude (Grondin,
2008).
Dans l’exemple suivant, on tente de déterminer le seuil différentiel
pour un poids standard de 250 g à l’aide de présentations successives du
standard et d’un stimulus de comparaison. Ce dernier peut prendre l’une
des valeurs suivantes : 230, 235, 240, 245, 250, 255, 260, 265 et 270 g.
Un observateur doit dire à chaque essai si le stimulus de comparaison est
plus léger ou plus lourd que le standard. Après que de nombreux jugements
ont été rendus, on peut construire une fonction psychométrique (figure
1.3). Sur l’axe des x de cette fonction, on place en ordre croissant les diffé-
rentes valeurs des stimuli de comparaison. Sur l’axe des y, il y a la
probabilité de trouver que le stimulus de comparaison est plus lourd que le
standard.
Figure 1.3 – Illustration (cas fictif) d’une fonction psychométrique pour le seuil différentiel concer-
nant le poids. Sur l’axe des y, il y a le pourcentage de fois où l’observateur dit que le comparateur (Co)
est plus grand (plus lourd) que le standard (St). La ligne verticale pointillée indique sur l’axe des x le
point d’égalité subjective. Les deux autres lignes indiquent les valeurs qui peuvent être utilisées pour
calculer le seuil différentiel (voir texte).
Cette fonction permet d’identifier deux variables qui peuvent être

importantes lorsqu’on étudie la sensation : le point d’égalité subjective (PES)
et le seuil différentiel. Le PES est le point sur l’axe des x qui correspond à
0,50 sur l’axe des y : la probabilité de répondre que le standard est plus long
que le stimulus de comparaison est la même que la probabilité de répondre
que le stimulus de comparaison est plus long que le standard. Par ailleurs,
on appelle erreur constante la différence entre le PES et la valeur du
standard.
Pour ce qui est du seuil différentiel, on peut en extraire deux, un
supérieur et un inférieur, sur cette fonction. Pour obtenir le premier, il faut
soustraire les points sur l’axe des x qui, sur la fonction, correspondent à
0,75 et 0,50 sur l’axe des y. Le raisonnement est le suivant : cette valeur,
0,75, est le point milieu entre une parfaite discrimination (100 %) et la
totale incapacité de discriminer (50 %). Dans le même esprit, on obtient le
seuil différentiel inférieur : les points sur l’axe des x qui, sur la fonction,
correspondent à 0,50 et 0,25 sur l’axe des y. Le 0,25 se trouve au milieu,
entre l’incapacité de discriminer (50 %) et une parfaite discrimination
(0 %). On obtient une valeur unique du seuil différentiel en faisant la
moyenne des deux seuils calculés. On peut aussi calculer directement ce
seuil différentiel en soustrayant les points sur l’axe des x correspondant à
0,75 et 0,25 sur l’axe des y, puis en divisant cette valeur par deux.
Enfin, il faut noter que des erreurs classiques peuvent survenir lors
de la détermination de seuils différentiels avec la méthode des stimuli
constants. Quand les stimuli sont présentés conjointement, c’est-à-dire en
même temps, il faut varier de manière aléatoire l’endroit, à gauche ou à
droite, où est présenté le standard. Cette variation vise à contrer le cas où il
y aura une nette préférence pour un côté ou l’autre. Cette préférence cause
ce qu’il est convenu d’appeler des erreurs spatiales. Lorsque les stimuli à
discriminer sont comparés successivement, plutôt que simultanément, il
risque de se produire un type d’erreur systématique appelé erreur d’ordre
temporel. Dans pareil cas, on aura une tendance plus ou moins marquée à
juger que le premier ou que le deuxième stimulus est de plus grande
magnitude. On assiste souvent à une sous-estimation de la valeur du
premier stimulus, ce qui pourrait être interprété comme une diminution
de la trace laissée en mémoire par celui-ci (Hellström, 1985).
La loi de discrimination de Weber et sa forme généralisée
Il n’existe pas une seule valeur de seuil différentiel pour une

modalité sensorielle donnée. En fait, cette valeur varie en fonction de la
magnitude des stimuli soumis à une investigation (Grondin, 2001, 2010,
2012). Selon la loi de Weber, parfois appelée aussi la Loi de Bouguer-
Weber (Bonnet, 1986), le seuil différentiel augmente en fonction de
l’intensité des stimuli à l’étude. Cette loi stipule que la différence de

magnitude minimale, ou seuil différentiel (Df), nécessaire pour distinguer
deux stimuli, dépend de leur magnitude (f). En d’autres termes, selon
cette loi, la relation entre Df et f est proportionnelle :
Df = Kf (ou Df/f = K)
où K, la fraction de Weber, est une constante. Cette loi de Weber est en fait
un principe qui fournit un outil pour regarder les mécanismes impliqués
lors de la discrimination de quantités sensorielles dans une modalité senso-
rielle donnée.
Un exemple permettra de saisir pleinement cette loi qui, du reste,
est toute simple. Dans la section précédente, un standard de 250 g était
utilisé. Si l’on sait que le seuil différentiel pour un poids de 250 g est de
25 g, on peut prédire sur la base de la loi de Weber que la différence
minimale pour distinguer deux poids sera de 50 g si le standard est de
500 g. Autrement dit, le ratio entre le seuil différentiel et le standard
demeurera le même, soit 10 % (50/500 ou 25/250) dans le présent
exemple.
Bien que la loi de Weber puisse être exacte pour une certaine
étendue d’un continuum sensoriel donné, elle se révèle inexacte pour
certaines valeurs de ce continuum. Cet échec de la forme stricte de la loi de
Weber a mené à une nouvelle formulation de la relation entre le seuil diffé-
rentiel et la magnitude du stimulus.
En fait, la fraction de Weber n’est valide que pour une gamme
limitée sur un continuum sensoriel. Pour des valeurs très basses ou très
élevées, la fraction de Weber est plus élevée. Pour des valeurs basses, cette
augmentation de la fraction peut être décrite facilement sur la base d’une
transformation de la loi de Weber. Il s’agit simplement d’ajouter une
constante, a, interprétée comme le résultat d’un bruit sensoriel :
Df = Kf + a
Si nous reprenons l’exemple ci-dessus, on comprend facilement
que, pour des valeurs faibles, a a beaucoup de poids, ce qui n’est pas le cas
pour des valeurs plus grandes. Si a prend une valeur de 10, le seuil calculé
pour un standard f, de 250 g est de 35, plutôt que de 25 comme ça aurait
été le cas sans le bruit additionnel (a). La fraction de Weber passe donc de
10 % à 14 %. Par contre, pour un standard f, de 2500 g le seuil calculé est
de 260 plutôt que de 250. La fraction de Weber passe donc de 10 % à
10,4 %.
1.3 Autres méthodes d’estimation des seuils

Il existe de nombreuses autres méthodes pour estimer la valeur des
seuils, absolu et différentiel. Nous ne décrirons que deux de celles-ci, la
méthode de l’ajustement et celle des limites.
La méthode de l’ajustement
Avec la méthode de l’ajustement, l’observateur a une participation

active. À chaque essai, il procède à un changement. Lorsqu’il s’agit de
déterminer le seuil absolu, l’observateur se voit présenter un stimulus dont
l’intensité se situe loin au-dessous ou au-dessus du niveau du seuil. Sa tâche
consiste à ajuster l’intensité du stimulus, soit en l’augmentant ou en la
diminuant, de telle manière que celui-ci se trouve tout juste à la limite de
ce qui est perceptible. Cette méthode comporte une série d’essais ascen-
dants et descendants. C’est la moyenne de tous les points de transition
observés, entre ce qui est perceptible et ce qui ne l’est pas, qui constitue la
valeur estimée du seuil absolu. Cette méthode est aussi appelée la « méthode
des erreurs moyennes ».
Cette méthode de l’ajustement n’est pas vraiment utilisée pour
déterminer un seuil absolu ; elle est plutôt utile pour la détermination d’un
seuil différentiel. Dans ce dernier cas, un observateur doit ajuster un
stimulus de comparaison de telle manière que celui-ci paraisse égal à un
stimulus standard. Pour utiliser cette méthode, il est impératif que les
stimuli à l’étude puissent varier de façon continue (pour les seuils absolu et
différentiel) et puissent être présentés simultanément (pour le seuil diffé-
rentiel). Le choix de la méthode de l’ajustement ne serait pas indiqué, par
exemple, pour tenter d’estimer le seuil différentiel pour l’intensité auditive.
Ainsi, au bout d’un grand nombre d’essais, on pourra tirer deux informa-
tions essentielles en faisant la moyenne des points d’égalité et en calculant
l’écart-type de cette distribution de points. En soustrayant la valeur du
stimulus standard de la moyenne, l’on obtient l’erreur constante ; et le seuil
différentiel sera révélé par l’écart-type. On comprend bien l’esprit de cette
définition opérationnelle du seuil : plus l’écart-type est grand, plus élevé est
le seuil (moins bonne est la discrimination, et moins sensible est l’orga-
nisme). Autrement dit, cela signifie que deux stimuli paraîtront égaux sur
une grande étendue.
Soit l’exemple suivant où deux observateurs, A et B, essayent
d’ajuster l’intensité lumineuse d’une source lumineuse au même niveau
qu’une autre source ayant une valeur fictive de 100. L’ajustement de
chaque observateur à chaque essai est rapporté au tableau 1.2. On peut voir
qu’en moyenne il y a peu de différence entre eux, mais on comprend qu’il y
a beaucoup plus de variabilité dans les scores de l’observateur B. C’est
l’estimation de cette variabilité qui sert à établir le niveau de sensibilité,
c’est-à-dire, le seuil différentiel.
Tableau 1.2
Valeur d’ajustement d’un stimulus de comparaison obtenue à chaque essai
pour un standard de valeur 100
Observateur/
1 2 3 4 5 6 7 8 9 10
Essai
A: 98 99 104 97 102 103 97 102 93 101
B: 91 97 89 108 111 99 93 108 95 100
Point d’égalité subjective de l’observateur A : 99,6 ; celui de l’observateur B : 99,1

Seuil différentiel de l’observateur A : 3,41 ; celui de l’observateur B : 7,65
La méthode des limites
On peut tout aussi bien mesurer un seuil absolu qu’un seuil diffé-
rentiel avec la méthode des limites. Dans chaque cas, on prévoit la
présentation de deux types de séries de stimuli, une dite ascendante et
l’autre descendante. Cependant, en plus de présenter un seul stimulus à la
fois (seuil absolu) plutôt que deux (seuil différentiel), le moment de cesser
la montée ou la descente change en fonction du type de seuil.
Ainsi, pour estimer un seuil absolu spécifiquement, il faut identifier
d’avance une série de stimuli plus ou moins rapprochés de ce que l’on croit
être le seuil. Ces stimuli seront présentés un à la fois, tantôt dans un ordre
croissant, tantôt dans un ordre décroissant, en alternant d’un ordre à
l’autre. Dans une série de présentations ascendantes, le premier stimulus
présenté est nettement sous le seuil absolu ; on augmente ensuite graduel-
lement l’intensité d’un essai à l’autre, jusqu’à ce que l’observateur rapporte
avoir perçu le stimulus. Dans la même veine, lors d’une série d’essais
descendants, on utilise d’abord un stimulus qui peut être perçu facilement
et l’on diminue peu à peu son intensité, et ce, jusqu’au moment de faire la
transition entre un essai où le stimulus est perçu et celui où il ne l’est pas. Il
faut noter que les séries ascendantes et les séries descendantes ne
commencent pas toutes au même point (tableau 1.3). Cela a pour but de
contourner le problème que pose la possibilité de commettre des erreurs
dites d’anticipation et d’habituation. Pour déterminer le seuil absolu, il
faut faire la moyenne des points de transition, de non perçu à perçu dans
les séries ascendantes, et de perçu à non perçu dans les séries descendantes.
On commet une erreur d’habituation quand on prend l’habitude de
répondre « non » lors d’une série ascendante ou « oui » lors d’une série
descendante. Un tel type d’erreur entraînera dans le premier cas une sures-
timation de la valeur réelle du seuil absolu et dans le second cas une
sous-estimation. Une erreur d’anticipation survient lorsqu’un observateur,
sachant qu’il y aura un point de transition, passe trop rapidement de « oui »
à « non » (série descendante) ou de « non » à « oui » (série ascendante). Dans
le premier cas, l’erreur d’anticipation aura pour effet de surestimer la valeur
du seuil par rapport à ce qu’est le seuil réel, et à la sous-estimer dans le
deuxième cas.
Lorsqu’il s’agit d’estimer un seuil différentiel à l’aide de la méthode
des limites, on utilise deux stimuli, un standard et un stimulus de compa-
raison (tableau 1.4). Ces stimuli sont donc présentés par paires, soit
simultanément, soit successivement. C’est la nature du continuum
sensoriel évalué qui détermine la pertinence du mode de présentation.
Pour le son, par exemple, mieux vaut présenter les stimuli successivement.
Après la présentation des deux stimuli, l’observateur doit déter-
miner si tel stimulus est plus petit ou plus grand que l’autre, ou si ces
stimuli apparaissent comme étant égaux. Les stimuli de comparaison
varient d’un essai à l’autre de telle façon que la difficulté de discrimination
soit peu à peu augmentée. S’il s’agit d’une série ascendante, la magnitude
de ces derniers est augmentée ; pour une série descendante, la magnitude
est diminuée.
Lors de la détermination du seuil différentiel avec la méthode des
limites, la méthode a la particularité de ne pas voir une série, descendante
ou ascendante, s’arrêter lorsqu’un point de transition est observé. En fait,
dans le cas d’une série ascendante par exemple, la première transition que
rencontre l’observateur est celle où le stimulus de comparaison apparaît
être plus petit que le standard puis, l’essai suivant, les stimuli apparaissent
égaux. Il faut continuer à augmenter la valeur des stimuli de comparaison
jusqu’à ce que les stimuli, standard et de comparaison, cessent de sembler
égaux. Il faut atteindre la transition qui mène à l’impression que le stimulus
de comparaison est plus grand que le standard. Dès que cette réponse est
rendue une première fois, la série s’arrête (tableau 1.4). Le même processus
est respecté avec les séries descendantes. Aussi, tout comme c’était le cas
pour le seuil absolu, on alterne les séries ascendantes et descendantes et le
point à partir duquel une série varie d’une fois à l’autre pour les séries
ascendantes et d’une fois à l’autre pour les séries descendantes.
Tableau 1.3
Détermination d’un seuil absolu avec la méthode des limites (valeurs fictives) où l’observateur
indique si oui ou non un stimulus est perçu
Intensité/Série
Ascendante Descendante Ascendante Descendante Ascendante Descendante
16 Oui
14 Oui Oui
12 Oui Oui Oui
10 Oui Oui Non Oui
8 Oui Oui Non Oui Non
6 Non Oui Non Non
4 Non Non Non Non
2 Non Non Non
0 Non Non
0 Non
Points de transition
7 5 9 11 7 9
Valeur du seuil : (7 + 5 + 9 + 11 + 7 + 9)/6 = 8
Pour chaque série, il y a donc deux points de transition. Ces points

permettent d’identifier une limite supérieure (Ls) et une limite inférieure
(Li). Par exemple, dans le cas d’une série descendante, on atteint la Ls au
moment où, après que le stimulus de comparaison a été perçu comme
étant plus grand que le standard, ces stimuli sont maintenant perçus
comme étant égaux. De même, on atteint une Li lorsque, après avoir été
perçu comme étant égal au standard lors d’un essai ou de plusieurs essais, le
stimulus de comparaison est maintenant perçu comme étant plus petit que
le standard. On peut calculer un intervalle d’incertitude en soustrayant la
moyenne des Ls de la moyenne des Li, le seuil différentiel étant ensuite
obtenu en divisant cet intervalle par 2. Un point d’égalité subjective est
estimé comme suit : (Ls + Li)/2.
Les méthodes adaptatives
Même si nous ne ferons qu’effleurer le sujet, il convient de signaler

qu’il existe toute une série de procédures dites adaptatives qui permettent
d’estimer les seuils. En général, ces méthodes permettent de faire une bonne
estimation des seuils en un nombre moindre d’essais, notamment en

diminuant le nombre de ceux-ci dans une région plutôt éloignée du seuil.
Une de ces procédures est dite de l’escalier (Bonnet, 1986). Pour
l’utiliser, il faut choisir un niveau de départ (plus ou moins loin du seuil) ; il
faut choisir un cran (step) qui permet de faire un changement du niveau de
difficulté, en diminuant ou en augmentant la magnitude du stimulus,
selon qu’on passe de l’état « je ne perçois pas » à « je perçois », ou de « je
perçois » à « je ne perçois pas » ; il faut décider si l’on change ou non la
magnitude dès qu’une réponse indique le passage d’un état à un autre ; et
enfin, il faut décider à quel moment s’arrête la procédure, par exemple
après un certain nombre de changements d’état ou après un nombre fixe
d’essais. Avec la procédure de l’escalier, on peut utiliser un escalier simple
qui ne compte qu’une seule série de variations, ou un escalier double
comportant deux séries indépendantes, une série partant bien au-dessus du
seuil, l’autre bien au-dessous.
Une autre méthode adaptative bien connue est appelée PEST (pour
les termes anglais « parameter estimation by sequential testing »). De façon
générale, avec cette procédure, à chaque inversion dans une direction
opposée, le cran retenu au départ est diminué de moitié ; aussi, ce cran
reste le même lors d’un changement dans la même direction, ou peut
même augmenter (être doublé) si, par exemple, on reste dans la même
direction lors de trois essais consécutifs (Macmillan et Creelman, 1991).
Enfin, il faut noter l’existence d’autres méthodes adaptatives comme celles
basées sur une procédure bayesienne ou sur un maximum de vraisemblance
(Shen, 2013 ; Shen et Richards, 2012).
Tableau 1.4
Détermination d’un seuil différentiel avec la méthode des limites (valeurs fictives)
où l’observateur indique si un stimulus de comparaison est plus petit (P) ou plus grand (G)
qu’un standard de 10, ou si les stimuli sont égaux (E)
Intensité/Série
Ascendante Descendante Ascendante Descendante Ascendante Descendante
18 G
17 G G
16 G G G
15 G G E G
14 G G E E G E
13 E G E E E E
12 E E E E E E
11 E E E E E E
10 E E E E E E
9 E E E P P E
8 E E P P P
7 P P P P
6 P P
5 P P
4 P P
3 P
2 P
Limite supérieure
13,5 12,5 14,5 15,5 13,5 14,5 (M = 14)
Limite inférieure
7,5 7,5 8,5 9,5 9,5 8,5 (M =8,5)
Point d’égalité subjective : (14 + 8,5)/2 = 11,25

Intervalle d’incertitude : 14-8.5 = 6,5
Seuil différentiel : 6,5/2 = 3,25
1.4 Échelonnage
Une troisième question fondamentale en psychophysique est celle
de la relation entre la magnitude d’un stimulus physique et la magnitude
psychologique. Une telle question diffère nettement de celle qui est posée
dans le cadre de la loi de Weber qui met en relation deux quantités
physiques. Les présents travaux sont dans la foulée de ceux de Fechner qui
avait proposé, à l’aide d’une méthode indirecte, que cette relation entre la
magnitude d’un stimulus physique et la magnitude psychologique est

nécessairement logarithmique (Appendice B).
Afin de procéder à une vérification empirique d’une loi sur la
relation entre les quantités physiques, pour un continuum sensoriel donné,
et l’expérience sensorielle qu’on en fait, il faut tenter de quantifier cette
expérience. Stanley Smith Stevens propose d’adopter différentes méthodes
afin de mesurer le plus directement possible cette expérience.
L’Américain Stanley Smith Stevens (1906 – 1973) est une figure
marquante de la psychophysique. Il a obtenu un doctorat de l’Université
Harvard où il a longtemps travaillé. Il est bien entendu connu pour la loi
de Stevens et pour l’élaboration de méthodes permettant d’étudier le lien
entre la magnitude d’un stimulus physique et sa magnitude sur le plan
psychologique. Ce qui est moins connu, c’est que sa contribution s’étend à
d’autres champs, en particulier dans le domaine de l’audition. Nous lui
devons notamment l’identification de différentes échelles de mesure.
Méthodes
Les démonstrations empiriques de Stevens reposent sur de

nombreuses méthodes d’échelonnage. On distingue essentiellement les
« échelles de partition » des « échelles de rapport ».
Parmi les échelles de partition, il existe notamment les échelles de
cotation et les échelles d’équisection. Dans le premier cas, un observateur
doit coter chacun des stimuli d’un ensemble dans certaines catégories (par
exemple de 1 à 5). Le nombre de stimuli de l’ensemble et le nombre de
catégories sont déterminés d’avance. Par ailleurs, avec les échelles d’équi-
section, un observateur doit diviser son continuum psychologique en une
série de distances considérées comme égales. Par exemple, l’observateur
pourrait être amené à déterminer que la distance entre les sensations créées
par les stimuli A et B sur un continuum sensoriel est plus petite que, égale
à, ou plus grande que la distance entre les sensations produites entre les
stimuli C et D, ailleurs sur ce continuum. Parmi les méthodes propres aux
échelles d’équisection, on note la bissection. Dans un tel cas, l’observateur
est appelé à choisir un stimulus dont l’intensité se trouve à mi-chemin
entre les intensités de deux autres stimuli.
Pour ce qui est des échelles de rapport, on distingue les tâches
d’estimation des tâches de production. Une procédure souvent utilisée est
appelée « l’estimation de la magnitude ». Quand cette procédure est utilisée,
un observateur se voit exposer à un stimulus standard, aussi appelé
modulus, auquel on assigne une valeur numérique. Ensuite, à chaque
présentation d’un stimulus, l’observateur doit lui attribuer une valeur

numérique relativement au standard. L’observateur établit lui-même son
barème autour de la valeur du modulus, tout en prenant soin de ne jamais
choisir zéro. Si un stimulus apparaît être deux fois plus intense (plus grand)
qu’un modulus de 50, l’observateur lui attribuera une valeur de 100. Ainsi
devient-il possible d’établir une correspondance des différentes valeurs
assignées (la magnitude psychologique sur l’axe des y), en fonction de la
magnitude sur le plan physique (sur l’axe des x).
Parmi les variantes dans la catégorie des échelles de rapport, on note
la production de rapport (ou fractionnement). Par exemple, un obser-
vateur peut être appelé à produire l’intensité d’un stimulus de telle manière
qu’il corresponde à un pourcentage (par exemple, la moitié ou le tiers)
donné d’un autre stimulus.
Loi de Stevens
Ainsi, une autre question fondamentale en psychophysique consiste

à identifier et quantifier la relation entre la magnitude de la sensation et la
magnitude d’un stimulus sur le plan physique. On parle parfois de la loi
psychophysique pour évoquer cette relation.
Bien entendu, on peut s’attendre à ce que la relation entre la
magnitude de la sensation et la magnitude d’un stimulus sur le plan
physique soit monotone, c’est-à-dire que la magnitude psychologique
s’accroisse de façon continue avec l’accroissement de la magnitude
physique. La question reste à savoir quelle est la nature exacte de cet
accroissement : est-il rapide au début, pour des stimuli de faible amplitude
et plus lent lorsque les stimuli sont de plus grande magnitude ?
En fait, cet accroissement dépend de la nature du stimulus à l’étude.
Essentiellement, comme l’indique la figure 1.4 et comme le rapporte
Stevens à la suite d’un très grand nombre de travaux, on observe trois types
d’accroissement : exponentiel, linéaire ou logarithmique. Ainsi, Stevens a
établi que la meilleure expression de la relation entre l’ampleur d’une
sensation perçue et l’intensité d’un stimulus est exprimée à l’aide d’une
fonction de puissance :
S = K fb
où S est la sensation, K est une constante dont la valeur dépend des unités
de mesure utilisées et b est l’exposant propre à une dimension sensorielle
donnée. Cette loi est appelée la loi de puissance ou la loi de Stevens, et

parfois aussi la loi de puissance de Stevens.
L’exposant b constitue en quelque sorte la principale caractéristique
ou, comme on le dit parfois, la signature d’un continuum sensoriel. Sa
valeur égale 1 si la relation est linéaire, est plus petite que 1 si la relation est
logarithmique et est plus grande que 1 si la relation est exponentielle. Les
valeurs de b rapportées par Stevens (1961) sont par exemple de 0,55 pour
l’odorat, de 0,60 pour l’intensité sonore, de 1,00 pour la température, et de
3,50 pour les décharges électriques. Il faut bien comprendre que ces valeurs
sont susceptibles de fluctuer d’une expérience à l’autre. Par exemple, Stevens
(1961) rapporte une valeur de b de 1,0 pour la durée, mais au terme d’une
longue recension des écrits sur la question, Eisler (1976) en est venu à la
conclusion que 0,90 est probablement une meilleure approximation.
Autres contributions de Stevens
Stevens (1975) apporte une nuance fondamentale à propos des

différents types d’expériences sensorielles. Celles-ci s’inscrivent dans l’un
des deux continuums sensoriels suivants appelés prothétique et métathé-
tique. Dans le cas d’un continuum prothétique, il s’agit d’expériences qui
reposent sur un processus physiologique additif, c’est-à-dire un processus
où l’augmentation de l’intensité physique d’un stimulus entraîne une
augmentation de la fréquence des potentiels d’action par les neurones
responsables de la réception de ces stimuli. Par opposition, un continuum
métathétique ne repose pas sur cette idée d’addition, mais plutôt sur celle
de substitution.
Figure 1.4 – Trois types de relation, exponentielle (N > 1), linéaire (N = 1) ou logarithmique (N < 1),
entre la sensation et la magnitude d’un stimulus.
Ainsi, avec un continuum prothétique, il est logique de tenter de

répondre à une question reposant sur l’idée de « combien ? » tandis qu’avec
le deuxième type, le continuum métathétique, la question consiste plutôt à
savoir « de quelle nature ? » est la sensation. Par exemple, dans la modalité
visuelle, un changement de brillance sera additif ; une source lumineuse
sera plus ou moins intense qu’une autre. Il s’agira donc d’un continuum
prothétique. Si c’est d’un changement de la longueur d’onde qu’il est
question, le changement sera substitutif, c’est-à-dire que ce qui sera observé
ne tiendra pas d’une différence quantitative sur le plan sensoriel, mais d’un
simple changement d’apparence, en l’occurrence, un changement de
couleur (de tonalité).
Comme il a été mentionné plus haut, Stevens est également à
l’origine de l’identification des différentes échelles de mesure. Il en avait
distingué quatre : l’échelle nominale, qui ne sert qu’à identifier un objet ;
l’échelle ordinale, qui indique le rang ou l’ordre des scores ; l’échelle inter-
vallaire, qui comprend la notion de distance entre les scores et l’échelle
ratio qui comporte, en plus de la notion de distance, un zéro absolu.
Or, on ne peut pas se servir des mêmes échelles pour toutes les
qualités sensorielles. Certaines de ces qualités peuvent être quantifiées
(continuum prothétique), d’autres pas (continuum métathétique). Dans le
premier cas, les scores peuvent être distribués sur une échelle ordinale ou
même intervallaire, mais avec un continuum métathétique, c’est l’échelle
nominale qui est appropriée.
2
BASES PHYSIQUES
ET BIOLOGIQUES DE L’AUDITION
L’audition se rapporte au sens qui a pour principale fonction de traduire

des séries de variations de pression dans l’air en un potentiel d’action, c’est-
à-dire en quelque chose que le cerveau peut reconnaître. Avant de s’atta-
quer à l’étude de ce que sont les bases biologiques de l’audition, décrivons
d’abord ce que le cerveau doit reconnaître.
2.1 Caractéristiques physiques d’une onde sonore simple

Des sons sont produits parce que des corps vibrent dans l’environ-
nement. Ces vibrations, ce sont des perturbations et leur propagation n’est
possible que parce que cela se passe dans un milieu matériel. Ce milieu est
habituellement l’air, mais il pourrait aussi s’agir, par exemple, de l’eau ou de
toute autre substance. Si vous êtes sous l’eau et tentez de parler à quelqu’un,
vous constaterez que cela est possible, mais que le message est loin d’être
transporté avec la clarté habituelle. Bref, un corps qui vibre produit des sons,
pourvu que ces vibrations ne surviennent pas dans le vide où rien n’est
transmis.
Plus spécifiquement, les vibrations causent une série de compressions
et de raréfactions des molécules dans l’environnement. La pression normale
dans l’air est successivement augmentée ou diminuée. Comme nous le
verrons ci-dessous, les caractéristiques de ces variations peuvent être repré-
sentées à l’aide d’une simple onde sinusoïdale (pour un son pur).
21
La fréquence et la phase
Une chose fondamentale à considérer dans l’analyse du son concerne

la vitesse des variations allant des compressions aux raréfactions aux compres-
sions et ainsi de suite. Ces changements se produisent plus ou moins
rapidement. Cette vitesse des changements d’état est appelée la fréquence. Il
s’agit du nombre de changements de cycles « compressions-raréfactions »
parcourus durant une période donnée. Il est convenu d’exprimer cette
fréquence en nombre de cycles complétés en une seconde, l’unité retenue
étant le Hertz (Hz), du physicien allemand Heinrich Hertz.
Par ailleurs, le temps pris pour compléter un cycle sur l’onde
sinusoïdale est appelé la période (figure 2.1). Comme pour le mouvement
circulaire, une période (ou un cycle complet) comprend 360o (360 degrés).
Le début du cycle vaut 0o tandis que le maximum de compression et le
maximum de raréfaction surviennent à 90o et 270o, respectivement. Aussi,
on parle de phase pour désigner la position relative de deux sons dans le
temps. Si deux sons purs arrivent à un point donné dans le temps avec une
différence de 1/8 de cycle, on les dira déphasés de 45o.
Si un cycle est complété en une seconde, on parlera d’une fréquence
de 1 Hz. Si 500 cycles sont complétés en une seconde, on parle d’une
fréquence de 500 Hz. Si un cycle ne met qu’un millième de seconde à être
franchi, c’est-à-dire que 1000 Hz sont complétés en une seconde, il s’agira de
1000 Hz ou 1 kHz (on dit kilo Hertz).
Parfois, pour exprimer l’idée de fréquence, on utilise la notion de
longueur de l’onde. Celle-ci est désignée par la lettre grecque lambda (λ) et
consiste en la distance linéaire entre deux compressions successives. Bien
entendu, moins il y a de cycles parcourus en un temps donné, plus longue
est l’onde. Cependant, cette longueur est également déterminée par la vitesse
de propagation de l’onde. Déterminée par le milieu où l’onde est générée,
cette vitesse est plus grande dans un milieu plus dense. La vitesse est par
exemple de 340 m/s dans l’air et de 1500 m/s dans l’eau. Ainsi, deux ondes
ayant la même fréquence dans l’air et dans l’eau n’ont pas la même longueur
dans chaque milieu.
2 – Bases physiques et biologiques de l’audition 23
Figure 2.1 – Illustration d’une onde simple (sinusoïdale) pour un son pur de 1000 Hz (ou 1 kHz).
La gamme des fréquences audibles par l’humain s’étend d’environ

20 Hz à 20 kHz. En fait, vers les extrémités, le seuil de détection est
beaucoup plus élevé ; autrement dit, pour être entendu, un son de 20 Hz
doit être beaucoup plus fort qu’un son de 5000 Hz. Aussi, les conversa-
tions se déroulent le plus souvent dans une gamme de fréquences allant
d’environ 100 Hz à 10 kHz. Notons aussi que les capacités auditives
varient avec l’âge ; ainsi, il devient difficile en vieillissant d’entendre les sons
de plus de 15 kHz. En fait, certaines personnes, mêmes jeunes, n’arrivent
pas à entendre de tels sons. L’humain peut donc composer avec une vaste
étendue des fréquences audibles, mais cette étendue ne se compare
cependant en rien à celle dont profitent par exemple les souris (jusqu’à
90 kHz), les chauves-souris (plus de 100 kHz) ou les dauphins (jusqu’à
200 kHz), capables donc d’entendre les ultra-sons. Au chapitre suivant
(figure 3.6), vous pourrez voir les gammes de fréquences couvertes par
certains instruments de musique et par les voix humaines. Notez cependant
que les animaux habilités à capter les très hautes fréquences seront
incapables d’entendre, par exemple, des fréquences de moins de 1000 Hz
dans le cas des souris ou de 3000 Hz dans le cas des chauves-souris. Les
éléphants, en revanche, entendent des sons de basses fréquences (jusqu’à
17 Hz), mais ne peuvent entendre des sons de plus de 10 kHz.
L’amplitude
Une deuxième caractéristique physique permettant de décrire le son

est appelée amplitude, ou intensité (figure 2.2). Cette caractéristique fait
référence au fait que les variations de pressions peuvent être plus ou moins
prononcées. Il est convenu d’exprimer cette amplitude avec une unité
appelée le décibel (dB – le nom « bel » étant donné en l’honneur d’Alexandre
Graham Bell. Or, cette unité est en fait issue d’un rapport de pression entre
celle exercée par un son donné et celle exercée par un son de référence. On
parle dans ce cas de dB SPL (SPL pour Sound Pressure Level).
Une mesure de pression s’exprime en force par unité de surface.
Ainsi, la pression du son utilisé comme référence est, par convention, de
0,0002 dyne/cm2, un « dyne » correspondant à la force nécessaire pour
donner à une masse de 1 gramme une accélération égale à 1 cm/s2. On peut
également exprimer la pression à l’aide d’une unité appelée pascal (du nom
du scientifique et philosophe Blaise Pascal), le son de référence équivalant à
20 µPa (micropascal).
Figure 2.2 – Alors que l’onde de gauche et celle du centre ont la même amplitude, mais des fréquen-
ces différentes, l’onde du milieu et celle de droite ont la même fréquence, mais sont d’amplitudes
différentes.
Plus spécifiquement, pour éviter de devoir composer avec des

nombres très élevés, il est convenu d’exprimer l’intensité sonore sous la
forme d’une échelle logarithmique. Ainsi, le nombre N de décibels produit
par un son peut être calculé de la façon suivante :
Prson
N dB = 20 log ___
Prréf
où Prson est la pression du son que l’on mesure et Prréf est la pression du son
de référence (20 µPa). On peut donc calculer facilement à combien de dB
correspond un son à partir du moment où l’on connaît la pression qu’il

exerce. Ainsi, si un son crée une pression 100 000 fois plus grande que celle
du son de référence, son intensité sera de 20 fois le log de 100 000, c’est-à-
dire 20 × log (105). Le log de 105 égale 5. En conséquence, ce son a une
intensité de « 100 dB SPL ».
La constante « 20 » utilisée dans le calcul du nombre de dB relève en
fait de deux constantes : multiplié par 2 et multiplié par 10. Le 10 tient de ce
qu’il est convenu d’utiliser des décibels plutôt que des bels ; cela évite de
devoir travailler avec des décimales. La source du 2 est un peu plus subtile.
Le bel est en fait une mesure de puissance et non une mesure de pression.
Puisqu’il est convenu d’exprimer le son en termes de rapport de pression, il
faut regarder quelle est la relation entre la puissance et la pression. La
puissance acoustique (Pu) équivaut à la pression (Pr) acoustique mise au
carré :
Pu = Pr2
log (Pu) = 2 log (Pr), d’où le 2.
Afin d’avoir une certaine idée de ce que représentent certaines inten-

sités sonores, voici quelques exemples tirés de la vie quotidienne. Un simple
chuchotement ou le bruissement de feuilles atteint une intensité sonore
d’environ 20 dB. Une bibliothèque n’est jamais vraiment totalement silen-
cieuse et le son ambiant peut s’approcher de 40 dB, ce qui demeure bien en
dessous des 60 à 70 dB observés dans un bureau de travail. Au fait, le niveau
d’intensité de la parole normale se situe aux alentours de 60 dB. Une forte
circulation automobile crée un niveau d’intensité sonore d’environ 80 dB,
niveau qui peut monter jusqu’à environ 90 dB avec la présence d’un gros
camion ou même jusqu’à 100 dB avec certaines motos. Cela demeure un
peu moins fort que les 100 dB d’un marteau-piqueur ou les 110 dB (et
même plus) de certaines discothèques, du moins, près de l’une des sources de
sons. Vous comprendrez pourquoi les travailleurs appelés à ranger les bagages
dans les gros avions portent des casques pour couvrir leurs oreilles en
apprenant que les gros transporteurs produisent des intensités sonores de
plus de 130 dB, ce qui est susceptible d’occasionner de la douleur. Des bruits
causés par une impulsion comme un coup de fusil ou de pistolet atteignent
plus de 160 dB.
2.2 Caractéristiques physiques d’une onde

sonore complexe
Habituellement, les ondes entendues dans l’environnement ne sont
pas des sons purs comme ceux décrits dans la section précédente. On arrive à
créer des sons purs en laboratoire ou avec un diapason ou certains instru-
ments électroniques. Le plus souvent, ce que l’on entend, qu’il s’agisse de
bruits, de la voix ou d’instruments de musique, ce sont des sons complexes.
Alors que les sons purs ne sont constitués que d’une seule fréquence, les sons
complexes résultent du mélange de deux ou de plusieurs ondes de fréquences
différentes.
Les sons complexes peuvent être périodiques ou apériodiques. Ils
sont périodiques quand leurs composantes sont des multiples entiers de la
fréquence la plus basse. Cette fréquence la plus basse dans un son porte le
nom de fréquence fondamentale (souvent désignée par l’abréviation F0). On
appelle aussi cette dernière la première harmonique. Un son périodique est
dit harmonique quand il contient l’ensemble des autres harmoniques et c’est
à cette catégorie qu’appartiennent les voyelles produites par la voix et les sons
d’instruments de musique, hormis les percussions. S’il manque une ou
quelques-unes de ces fréquences, le son est inharmonique. Si un son est
composé de différentes fréquences qui ne sont pas des multiples de la
fréquence fondamentale, il s’agit alors d’un son apériodique. Pour décrire la
composition d’un son apériodique, on ne parlera pas d’harmoniques, mais
de partiels.
Ainsi, la fréquence fondamentale est la note la plus basse générée par
un corps qui vibre. L’ensemble des fréquences générées est propre aux
propriétés de ce corps qui vibre. Ce qui permet de distinguer un son d’un
autre, ce n’est donc pas que la fréquence et l’amplitude, comme on l’a vu
ci-dessus. La distinction peut aussi tenir de ce qu’il convient d’appeler la
complexité, c’est-à-dire la série d’harmoniques que contient le son, y compris
sa fréquence fondamentale. Pourquoi deux sons sonnent-ils différemment
même s’ils ont la même fréquence de base et la même intensité ? Parce que
leurs harmoniques diffèrent.
Pour saisir les nuances à propos de la composition des sons, on peut
poser la question suivante : pourquoi deux « do » sur le piano sont-ils des
« do » ? On peut retenir deux éléments de réponse à cette question. D’une
part, deux sons purs séparés par une octave paraissent identiques. Cette
qualité est appelée chroma. D’autre part, ces deux « do » partagent des
harmoniques que ne partagent pas les autres notes. Un do de 32,70 Hz et un
do de 65,41 Hz auront tous les deux dans leurs harmoniques un do de
130,81 Hz, ce qui ne sera le cas d’aucune autre note (ré, fa, …). Notez
cependant qu’un do de 32,70 Hz comprendra dans ses harmoniques une
fréquence de 65,41 Hz, mais ce dernier do ne comprendra pas de do de
32,70 Hz, la fréquence la plus basse du do de 65,41 Hz étant justement de
65,41 Hz.
Toute aussi cruciale est cette deuxième question : pourquoi, puisqu’il
a la même fondamentale et les mêmes harmoniques, un do de 32,70 Hz
sonne-t-il différemment quand il est joué par un piano plutôt que par une
guitare ? Ces mêmes « do » diffèrent parce que l’importance relative de
chaque harmonique n’est pas la même pour les deux instruments. Les contri-
butions relatives de chaque harmonique dépendent des propriétés des corps
qui vibrent. Si on utilise un oscilloscope, on peut constater que deux « do »
identiques joués tantôt à la guitare, tantôt au piano, ont une même
fréquence, mais que l’onde dessinée n’est pas la même pour chaque
instrument. Dans chaque cas cependant, la configuration sera plus
compliquée que celle d’un son pur (simple sinusoïdale).
Il existe une manière de connaître l’importance relative des harmo-
niques d’un son complexe périodique. Pour ce faire, il suffit de procéder à
une analyse de Fourier, du nom de Jean Fourier, physicien français du début
du XIXe siècle. Une telle analyse permet de décrire de façon quantitative
toute onde complexe en une série de composantes simples (ondes sinusoï-
dales), toute onde complexe. C’est intéressant de noter, comme le stipule la
loi acoustique d’Ohm, que l’oreille peut en quelque sorte agir comme un
analyseur de Fourier. Ainsi, si quelques notes sont jouées en même temps, le
système auditif arrive à entendre chacun des sons simples dont est fait le son
complexe qui vient d’être produit.
Parmi les sons complexes apériodiques, il y a les bruits blancs. Ces
sons sont composés du mélange de l’ensemble des fréquences. On donne le
nom de bruit blanc par analogie à la lumière blanche qui désigne, comme
nous le verrons, non pas l’absence de longueurs d’onde qui aurait permis
d’observer une couleur, mais la présence de toutes les longueurs d’onde. Le
bruit blanc donne un son semblable à celui que l’on entend parfois
lorsqu’on tente de syntoniser une fréquence sur un poste de radio et que
l’on passe à des fréquences qui ne permettent pas de capter un poste correc-
tement.
Il est possible de créer des bruits en utilisant un filtre qui ne laissera
passer que les fréquences s’étendant d’une telle valeur jusqu’à une autre.
On parle alors d’une bande passante et celle-ci peut être plus ou moins
étroite. On peut également utiliser des filtres passe-haut qui laissent passer
les fréquences en haut d’une certaine valeur ; ou des filtres passe-bas qui
laissent passer les fréquences en bas d’une certaine valeur.
Par ailleurs, on appelle masquage le phénomène par lequel un son
normalement audible ne peut être entendu à cause de la présence, en
même temps ou presque, d’un autre son (masque). Par exemple, si deux
sons sont présentés simultanément, il se peut que les deux soient entendus.
Dans certaines circonstances, c’est-à-dire selon leur fréquence et leur
intensité relatives, il se peut qu’un son soit entendu et l’autre pas. Le plus
souvent, un son fort masquera un son plus faible ; aussi, un son masquera
des sons de fréquences égales ou plus élevées que la sienne. La gamme de
fréquences susceptibles d’être masquées par un son donné est appelée
bande critique. Le masque n’a pas à être présenté simultanément pour
exercer son influence. Il peut être décalé dans le temps, mais son influence
sera plus grande s’il est présenté un peu avant plutôt qu’un peu après le son
susceptible d’être masqué.
On peut noter que lorsqu’on produit un son pur en laboratoire, ce
son risque de ne pas être net au début (onset) et à la fin (offset). Afin de faire
en sorte que les transitions ne soient pas trop abruptes, on peut utiliser une
montée graduelle vers l’intensité à atteindre et une descente graduelle à la
fin du son. On parle ici de l’enveloppe du son. Cette montée et cette
descente peuvent ne durer que quelques millisecondes chacune et le son
sera adouci. Par ailleurs, si le son est présenté à chaque oreille, on parlera
d’une présentation binaurale, par opposition à une présentation monaurale
si le son est envoyé à une seule oreille.
2.3 Caractéristiques subjectives du son

Les impressions laissées par les sons, surtout quand il est question des
voix humaines ou de musique, sont nombreuses et diversifiées. Mais avant
de leur donner une connotation affective, on peut distinguer de grandes
catégories d’impressions psychologiques produites par les sons et les lier assez
directement à la réalité physique.
Tonie, sonie et timbre
Parmi les caractéristiques subjectives liées de près à une caractéris-

tique physique, il y a la tonie (pitch en anglais : Hartmann, 1996 ; Yost,
2009). Celle-ci désigne l’impression que le son nous semble grave ou aigu.
On parle parfois de la hauteur du son pour désigner cette caractéristique.
Alors que les sons aigus sont composés de fréquences élevées, les sons graves
sont faits de fréquences basses. Il existe donc une correspondance directe et
étroite entre la tonie et la fréquence. Cependant, la tonie n’est pas parfai-
tement corrélée à la fréquence. L’intensité, par exemple, est susceptible
d’exercer une certaine influence sur la tonie.
Il est difficile de mesurer directement une dimension subjective
comme la tonie. S. S. Stevens (voir chapitre 1) s’est attaqué à ce problème en
se basant sur des réponses d’observateurs et en travaillant autour d’une
nouvelle unité de mesure, définie de façon opérationnelle. Stevens a donc
élaboré la notion de mel, 1000 mels correspondant à la tonie d’un son de
1000 Hz à 40 dB SPL.
Une deuxième dimension subjective à la base de la perception
auditive est appelée la sonie. Cette qualité sonore renvoie essentiellement à
l’intensité sonore, c’est-à-dire à l’impression qu’un son semble être faible ou
fort. Bien entendu, un son de forte amplitude semblera plus fort qu’un son
de faible amplitude, mais cette impression peut varier en fonction de la
fréquence entendue. De même que Stevens a élaboré le mel, il a aussi mis au
point une unité de mesure de la sonie, le sone, qui correspond à la sonie d’un
son de 1000 Hz à 40 dB SPL.
Le fait que la sonie dépend non seulement de l’intensité sonore, mais
aussi de la fréquence a été mis en relief par de nombreuses expériences
psychophysiques qui ont permis d’élaborer des lignes isosoniques (« equal-
loudness contours » en anglais). Ces lignes, appelées phones et rapportées à la
figure 2.3, sont élaborées sur la base d’un son standard de 1 kHz. Si les
fréquences n’exerçaient aucune influence sur la sonie, les lignes seraient
droites. Ce que révèle la figure par exemple, c’est que la sonie d’un son de
100 Hz et 60 dB SPL sera pareille (environ 50 phones) à celle d’un son de
1 kHz et 50 dB SPL. Notons, en terminant, que cette impression sonore
dépend aussi de la durée de présentation du son puisque pour des sons très
courts (< 200 ms), il faut augmenter l’intensité sonore pour créer un son qui
paraisse aussi fort.
Une troisième dimension subjective de l’expérience auditive
intimement liée à la réalité physique est appelée le timbre. Comme nous
l’avons rapporté ci-dessus, deux sons peuvent avoir une même fréquence
fondamentale et une même amplitude, mais ils pourront néanmoins être
différents sur le plan perceptif. Ce qui cause cette différence est leur timbre,
celui-ci relevant de la composition du chaque son. Rappelons que la compo-
sition, ce sont les arrangements d’harmoniques.
Figure 2.3 – Lignes isosoniques, chacune étant exprimée en phones (Fletcher et Munson, 1933).
Autres caractéristiques subjectives
Les sons peuvent créer de nombreuses autres impressions subjectives.

On aura par exemple l’impression qu’il remplit plus ou moins l’espace. Dans
un tel cas, on parle de volume (à ne pas confondre avec intensité). Bien
entendu, si on augmente l’intensité, l’impression de volume est augmentée ;
le volume semble aussi plus grand si le son est grave plutôt qu’aigu. Une
autre impression subjective réside dans le fait qu’un son pourra nous paraître
plus ou moins compact ou plus ou moins dur. On parlera ici de la densité du
son, un son fort dominé par des hautes fréquences semblant plus dense
qu’un son plus faible dominé par des basses fréquences.
En fait, l’impression subjective causée par un son peut souvent être
associée à sa composition spectrale. Déjà au XIXe siècle, Helmholtz
rapportait qu’un son ne comportant que sa fondamentale paraît plutôt
doux, mais qu’avec une fondamentale moins intense et des harmoniques
intenses, le son paraît plutôt creux. Vous pourrez remarquer aussi que
certaines voix semblent nasillardes et que d’autres sons semblent stridents.
Aussi, deux notes jouées ensemble sembleront dissonantes ou consonantes,
selon la distance (en Hz) qui les sépare.
En terminant, même si nous y reviendrons au chapitre suivant, il

convient de souligner tout de suite que le plaisir que procurent les sons de la
musique peut aussi dépendre des habitudes culturelles et de certains facteurs
liés à l’apprentissage. Les musiques complexes (des symphonies ou des
opéras, par exemple) sont plus difficiles à apprécier, mais à force d’exposition
à l’œuvre (un certain apprentissage), elles deviennent plus accessibles et le
plaisir risque de durer longtemps, plus longtemps du moins que celui que
procurent des pièces plus simples comme celles que propose le plus souvent
la musique populaire.
2.4 Bases biologiques

Entre l’arrivée d’une onde sonore à l’oreille et la saisie par le cerveau
d’un message intelligible et révélateur, tout un chemin est parcouru. Les
vagues de compressions et de raréfactions que comporte le stimulus initial
sont traduites à travers différentes étapes qui constituent le trajet allant de
l’oreille externe à l’oreille interne, en passant par l’oreille moyenne.
Oreille externe, moyenne et interne
L’oreille externe est essentiellement composée de deux parties, le

pavillon et le conduit (ou canal) auditif (figure 2.4). Le pavillon a pour
fonction de recueillir les ondes sonores et de les diriger dans le conduit
auditif. Le rôle du pavillon, si l’on en juge par sa mobilité, est cependant
beaucoup moins important chez l’humain que chez certains autres vertébrés.
Néanmoins, il sert à amplifier les sons, surtout ceux qui se situent dans une
gamme allant de 1,5 à 7 kHz et jusque dans une certaine mesure, il contribue
à la localisation de la direction des sons (chapitre 3).
Figure 2.4 – Schéma général de l’oreille externe, de l’oreille moyenne et de l’oreille interne (on y
voit aussi les canaux semi-circulaires, qui font partie de l’oreille interne, mais qui servent une autre
fonction que l’audition, en l’occurrence le sens de l’équilibre).
Le conduit auditif est un passage qui s’étend sur environ 2,5 à 3 cm

du pavillon au tympan. Tout au long de ce conduit qui a un diamètre
d’environ 0,75 cm, se trouvent des glandes qui sécrètent une cire, le cérumen,
qui constitue une barrière pour l’oreille interne contre certaines particules
étrangères.
Entre l’oreille externe et l’oreille moyenne se trouve une mince
membrane sensible, le tympan, d’une surface d’environ 70 mm2. La fonction
de l’oreille moyenne est d’assurer la transmission du mouvement d’air du
tympan à l’oreille interne. Cette transmission s’opère au moyen de trois petits
os, appelés les osselets : le marteau, l’enclume et l’étrier. Le marteau est attaché
au tympan ; l’enclume est liée au marteau et à l’étrier, et celui-ci va se fixer à
une petite structure, la fenêtre ovale (ou fenêtre du vestibule), qui constitue la
porte d’entrée par laquelle sont transmises les vibrations d’air à l’oreille
interne. La base de l’étrier n’a une surface que de 3 mm2.
Or, l’oreille interne contient beaucoup de liquide. Pour que l’onde soit
transmise d’un milieu aérien à un milieu liquide, il faut qu’une certaine résis-
tance soit vaincue. Le fait de transmettre les vibrations d’une grande surface,
celle du tympan, à une petite surface qu’est celle de la base de l’étrier, a pour
effet d’augmenter considérablement la pression et de permettre de transmettre
efficacement l’information fournie sur la base des vibrations de l’air. Le rôle
principal de l’oreille moyenne est donc de créer cette augmentation de la

pression au moment de l’entrée dans l’oreille interne par la fenêtre ovale.
Juste au-dessous de la fenêtre ovale se trouve la fenêtre ronde (ou
fenêtre cochléaire). Celle-ci fait partie de l’oreille interne, mais sa fonction est
intimement liée à l’activité de la fenêtre ovale. Le liquide contenu dans
l’oreille étant incompressible, toute pression sur la fenêtre ovale doit être
absorbée ailleurs, ce qui est rendu possible par la fenêtre ronde qui est en fait
une membrane élastique.
D’autres structures reliées à l’oreille moyenne participent au bon
fonctionnement de l’audition. Une structure appelée la trompe d’Eustache
(ou conduit auditif interne) relie l’oreille moyenne au pharynx et au nez ou à
la bouche. Elle a pour rôle de rendre la pression d’air dans l’oreille moyenne
égale à celle qui existe dans le conduit auditif. On peut réaliser la nécessité de
rééquilibrer cette pression lorsqu’on est en altitude ou en avion : en avalant ou
en bâillant, on y arrive. L’air peut alors être envoyé du pharynx à l’oreille
moyenne, ce qui permet au tympan de vibrer normalement.
Deux muscles ont également un rôle primordial dans la modulation
de la transmission de l’énergie sonore à l’oreille interne. Un premier muscle
est appelé le muscle tenseur du tympan (ou muscle du marteau) et le
deuxième muscle, dit le muscle de l’étrier, permet de dégager l’étrier de la
fenêtre ovale. Ces deux muscles ont pour fonction d’assurer la protection du
système si des sons devaient être trop intenses. Ainsi, alors que l’oreille
moyenne est bâtie de manière à vaincre la résistance du milieu liquide de
l’oreille interne en augmentant la pression, elle bénéficie aussi d’un système
de sécurité visant à atténuer la transmission des sons. La contraction de deux
muscles se fait de façon réflexe – le réflexe acoustique.
L’oreille interne est également appelée le labyrinthe. En fait, on y
trouve une structure osseuse, le labyrinthe osseux, à l’intérieur duquel baigne,
dans la périlymphe, le labyrinthe membraneux. Dans l’oreille interne, on
distingue trois structures principales. La première, la cochlée, a un rôle crucial
dans l’audition qui est décrit dans la prochaine section et un peu plus loin
dans le chapitre. Les deux autres structures, le vestibule et les canaux semi-
circulaires, ont un rôle primordial dans l’équilibre, mais il n’en sera pas
question dans le présent ouvrage.
Notez que l’on peut entendre sans emprunter le chemin de l’oreille
externe et de l’oreille moyenne. Il y a une conduction des vibrations par les os
du crâne. Il s’agit de la conduction osseuse. Pour se convaincre de son
existence, il suffit d’émettre un son de façon continue et de se boucher
ensuite les oreilles (tout en maintenant le son). Vous entendrez le changement
de tonie du son. En fait, vous continuerez à entendre le son, même avec les
oreilles bouchées, mais par conduction osseuse. Cela explique pourquoi nous
avons souvent l’impression de ne pas reconnaître notre propre voix lorsque
nous sommes enregistrés. Quand nous parlons, nous sommes habitués à
entendre à la fois les sons qui ont été transmis par l’oreille externe et l’oreille
moyenne, et par conduction osseuse. Le son transmis par conduction osseuse
n’est pas présent quand on entend un enregistrement de sa propre voix.
La cochlée
La cochlée est une structure en spirale, une espèce de colimaçon qui

fait environ deux tours et demi. Elle contient un long tube membraneux, le
conduit cochléaire, ou canal cochléaire, dans lequel circule un liquide appelé
l’endolymphe.
Essentiellement, la cochlée est divisée en trois parties par deux
membranes (figure 2.5). Au-dessus du conduit cochléaire se trouve la rampe
(ou canal) vestibulaire séparée du conduit cochléaire par une mince
membrane, dite de Reissner (ou membrane vestibulaire). Au-dessous de la
membrane basilaire, il y a la rampe (ou canal) tympanique où circule, comme
c’est le cas pour la rampe vestibulaire, la périlymphe. Ces deux rampes
communiquent entre elles par un étroit canal, l’hélicotrème.
Lorsqu’il y a des vibrations sonores, celles-ci sont transmises à la
périlymphe. Le mouvement liquidien ainsi créé remonte le long de la rampe
vestibulaire et revient à la rampe tympanique. Ce mouvement engendre alors
une oscillation de la membrane basilaire qui subit ainsi différentes déforma-
tions. La membrane basilaire est plus étroite et plus rigide à la base, tout près
de la fenêtre ovale d’où arrive le signal sonore dans la cochlée, qu’en apex.
C’est justement cette membrane basilaire qui porte l’organe spiral,
également appelé organe de Corti. Il contient notamment les cellules récep-
trices qui transforment les ondes sonores en potentiels d’action. Cet organe
de Corti est composé de milliers de cellules ciliées. Celles-ci, qui reposent sur
des cellules de soutien (de Deiters), comptent chacune plusieurs dizaines de
stéréocils. Au-dessus de ces cellules sensorielles se trouve la membrane tecto-
riale. En fait, on distingue deux types de cellules ciliées, internes et externes.
On dénombre dans chaque oreille environ 3500 cellules ciliées internes
disposées sur une même rangée ; et plus de 10 000 cellules ciliées externes
disposées sur trois rangées. Pourtant, plus de 90 % des 30 000 fibres afférentes
du nerf auditif sont affectées au travail des cellules ciliées internes. Par contre,
les quelque 500 fibres efférentes (en provenance du cerveau) du nerf auditif
sont connectées aux cellules ciliées externes. C’est le contact des stéréocils sur
la membrane tectoriale, lorsque la membrane basilaire oscille, qui est à la base

de l’audition. C’est à ce moment que toute la mécanique vibratoire (d’abord
dans l’air et puis dans le milieu liquide de l’oreille interne) est transformée en
un signal électrique, l’influx nerveux, que le cerveau pourra reconnaître.
Figure 2.5 – Coupe transversale de la cochlée.
Mécanismes centraux
Les voies qui amènent l’information de la cochlée au cortex auditif

sont relativement complexes en raison des nombreux relais et croisements
qu’elles comportent. C’est au niveau du bulbe (voir Appendice C) que
l’information auditive entre dans le cerveau. L’influx nerveux voyage depuis
les ganglions spiraux jusqu’aux structures cérébrales par les nerfs vestibulo-
cochléaires (c’est-à-dire la VIIIe paire de nerfs crâniens) qui se séparent en
deux branches. Dans une oreille donnée, l’information est acheminée aux
parties ventrale et dorsale du noyau cochléaire. Du noyau cochléaire, diffé-
rentes voies peuvent être empruntées. Les neurones de la partie ventrale
permettront de faire le lien avec l’olive supérieure, la moitié étant expédiée
dans l’autre moitié du cerveau (côté controlatéral) et l’autre moitié restant du
côté ipsilatéral. Il y a très tôt dans le système auditif, soit au niveau olivaire (au
niveau du bulbe rachidien) une représentation de l’activité des deux oreilles
dans chaque côté du cerveau ; donc, une bonne partie de l’information arrive
dans l’oreille gauche (droite) est envoyée dans la partie droite (gauche) du
cerveau.
Les axones des cellules de la partie dorsale du noyau cochléaire se

rendent tous au colliculus inférieur (au niveau du mésencéphale), dans la
partie controlatérale. L’information arrivant au colliculus inférieur provenant
de l’olive supérieure a son origine autant du noyau cochléaire ventral gauche
que du noyau cochléaire ventral droit. Notons que les fibres provenant de
l’olive supérieure controlatérale, et certaines fibres provenant de la partie
dorsale du noyau cochléaire transiteront par le noyau du lemniscus médian
avant d’atteindre le colliculus inférieur ; et qu’au niveau de cette dernière
structure, il y a de nouveau un croisement de nombreuses fibres nerveuses.
L’influx nerveux est ensuite acheminé au niveau du thalamus, plus
précisément au niveau du corps genouillé médian pour être ensuite reçu au
cortex auditif primaire, ou A1, dans le lobe temporal. Notons qu’il y a certains
relais entre le colliculus inférieur et le colliculus supérieur où se ferait le
traitement de la localisation d’une source sonore, de concert avec l’infor-
mation provenant d’autres modalités sensorielles. Enfin, il faut noter qu’en
A1, il existe une représentation spatiale des différentes fréquences sonores,
c’est-à-dire une organisation tonotopique. En fait, cette organisation existe à
chacune des étapes du traitement de l’information auditive décrites ci-dessus.
2.5 Théories de l’audition

La section précédente permettait de connaître le rôle des différentes
structures biologiques dans le cheminement de l’onde sonore du pavillon
jusqu’au cortex auditif. Cependant, la question demeure à savoir comment
ces ondes peuvent permettre d’entendre avec tellement de nuances. Des
chercheurs se sont depuis longtemps attaqués à une question pourtant
simple : comment pouvons-nous percevoir la tonie ? Que se passe-t-il au
juste sur la membrane basilaire, dans l’organe de Corti ? Les prochaines sous-
sections offrent un rapide survol des principaux éléments de réponse révélés
par la recherche dans le domaine de l’audition.
Théorie de la fréquence
Une première proposition théorique fondée sur l’idée de la fréquence

a été amenée par le physiologiste anglais William Rutherford. Autrefois, les
téléphones étaient munis d’un diaphragme et ce sont les vibrations de ce
dernier, provoquées par la voix, qui étaient converties en signaux électriques.
Rendus à l’acoustique d’un autre appareil téléphonique, les signaux étaient
reproduits. Or, Rutherford avait tenté de faire le parallèle entre la membrane
basilaire et le diaphragme. Selon lui, la membrane basilaire servirait à
reproduire les variations de pression transmises par l’étrier. Dans cette

perspective, le nerf auditif sert de câble de transmission, le cerveau ayant
pour rôle d’interpréter la fréquence.
Cette formulation de la théorie de la fréquence n’allait pas pouvoir
tenir la route. Comme on l’a vu ci-dessus, contrairement à ce qu’était le
diaphragme du téléphone, la membrane basilaire n’est pas de la même
largeur partout et sa rigidité change d’un endroit à l’autre. Peut-être encore
plus sérieuse était l’objection suivante. L’oreille est sensible à des fréquences
qui vont jusqu’à 20 kHz. Cela suppose qu’une fibre nerveuse puisse envoyer
20 000 influx à la seconde. En fait, même la transmission de sons de
1000 Hz pose problème, car une cellule nerveuse n’arrive pas à produire
1000 influx nerveux par seconde. Bref, on n’arrive pas avec cette explication
à rendre compte de la perception de la tonie associée à la gamme de
fréquences audibles. Autrement dit, les hautes fréquences posent problème.
Une solution à ce problème a été proposée par Wever et Bray (1937).
Cette solution qui repose sur l’idée d’une coopération entre les fibres nerveuses
est appelée le principe de la volée. Elle consiste à faire en sorte que l’activité
neurale associée à chacun des différents cycles d’un son soit distribuée sur une
série de fibres. Chaque fibre n’a pas à répondre à chaque cycle d’une onde
sonore. Après une réponse pour un cycle, une fibre a une période de récupé-
ration et c’est une autre fibre qui prend soin du cycle suivant (figure 2.6). On
peut penser qu’un grand nombre de fibres se partagent le travail. C’est le
regroupement de l’activité sur un ensemble de fibres qui permet de saisir
l’ensemble des cycles d’une onde sonore donnée. Enfin, ce principe de la volée
permet non seulement de rendre compte de la perception de la tonie, mais
aussi de celle de la sonie. Pour ce faire, il suffit qu’il y ait une action combinée
de plus d’une fibre pour chaque cycle de l’onde.
Figure 2.6 – Illustration du principe de la volée.

En fait, nous savons maintenant que l’activité sur une fibre nerveuse
auditive est générée quand, dans un cycle donné, l’onde est à son plus haut
niveau de pression. Il y a donc une synchronisation entre le changement de
pression occasionné par un stimulus et le moment du déclenchement de
l’activité nerveuse. En anglais, ce phénomène est appelé phase locking. Aussi,
un neurone n’a pas à déclencher son activité à chaque cycle, mais lorsqu’il le
fait, cela arrive toujours au même point du cycle. Par ailleurs, ce phénomène
signifie également qu’il y a dans une fibre du nerf auditif un code temporel à
propos d’une onde sonore. En raison de la période réfractaire nécessaire à
chaque fibre du nerf auditif, le codage temporel commence à être un peu
moins fiable pour des fréquences au-delà de 1000 Hz et devient en quelque
sorte inutile avec des fréquences de plus de 5000 Hz.
Théories basées sur l’emplacement
L’idée d’associer le traitement de l’information auditive à un endroit

particulier sur la membrane basilaire n’est pas nouvelle. Déjà, au XIXe siècle,
le physiologiste allemand Hermann von Helmholtz avait proposé une
théorie « du lieu de résonance » pour expliquer la perception de la tonie.
Sachant que la membrane basilaire n’est pas partout de même largeur, il
croyait qu’à un endroit donné, la membrane, en raison de sa largeur,
donnerait un son d’une tonie particulière, comme les cordes d’un piano,
étant de longueurs différentes, donnent des notes différentes. L’analogie avec
le piano n’allait pas tenir, mais l’idée de lier la tonie à un lieu spécifique sur la
membrane basilaire demeure pertinente. C’est là la base de la théorie de
l’emplacement : il y a bien une organisation tonotopique des cellules ciliées
sur l’organe de Corti. Autrement dit, il y a un codage spatial de la fréquence.
Certaines fréquences sont traitées à certains endroits sur la membrane
basilaire.
Prix Nobel de physiologie et de médecine en 1961, le physicien
Georg von Békésy a en quelque sorte dévoilé la mécanique à l’intérieur de la
cochlée qui sous-tend cet encodage spatial. Comme nous l’avons vu
ci-dessus, la membrane basilaire est étroite et rigide à la base de la cochlée, et
va en s’élargissant et en s’assouplissant en allant vers l’apex. Ainsi, quand
l’étrier transmet les vibrations à l’intérieur de l’oreille interne, cela provoque
un mouvement hydrodynamique. L’onde sonore est ainsi propagée d’une
extrémité à l’autre de la membrane basilaire. C’est ce mouvement ondula-
toire le long de la membrane qui constitue l’onde itinérante.
Le point maximal de déplacement de l’onde dépend de sa fréquence.

Or, ce point maximal, c’est-à-dire là où la membrane basilaire est la plus
bombée (figure 2.7), sera plus rapproché de la base si la fréquence est basse.
L’onde atteint rapidement son amplitude maximale et disparaît ensuite
rapidement. À l’inverse, le point maximal de déplacement arrive plus loin
sur la membrane basilaire si la fréquence est élevée. C’est vis-à-vis ces parties
plus bombées que les cellules ciliées seront les plus déplacées et généreront la
plus forte stimulation. Les ondes de différentes fréquences agiront donc sur
différentes parties de la membrane basilaire et les fibres du nerf auditif spéci-
fiquement stimulées achemineront l’information au cortex auditif.
Figure 2.7 – Tout en haut, schéma de la membrane basilaire (en gris) lorsque la cochlée est dérou-
lée ; en dessous, illustration de l’onde itinérante, c’est-à-dire du point maximum de déplacement en
fonction de la fréquence du son.
Cette explication de von Békésy fondée sur l’idée d’une onde itiné-
rante permet non seulement de comprendre la perception de la tonie, mais
aussi la perception de la sonie. Celle-ci dépend en fait de la magnitude de
l’onde itinérante. Plus grande est l’intensité sonore, plus amples sont les
mouvements sur la membrane basilaire, ce qui résulte en une plus grande
inclinaison des cils et, conséquemment, en une plus grande activité neurale.
Notons en terminant cette section que la théorie basée sur la
fréquence (principe de la volée) et la théorie de l’emplacement (onde itiné-
rante) sont toutes deux acceptées. On reconnaît généralement que pour les
basses fréquences, on utilise un codage fréquentiel et pour les hautes
fréquences, un codage spatial.
2.6 Aspects cliniques

Certains bris dans la séquence de transmission de l’onde sonore allant
du tympan au cortex auditif peuvent occasionner des troubles de l’audition.
En plus du fait que certaines pathologies peuvent être occasionnées par une
atteinte des voies auditives centrales ou des différentes régions du cortex
auditif – on parle parfois de surdité centrale – on distingue généralement deux
catégories de perte auditive, catégories qui se distinguent selon le lieu qui se
trouve en mauvais état.
Une première catégorie de perte auditive est attribuable à des
problèmes de transmission (ou de conduction). Essentiellement, ce type de
trouble est mécanique, c’est-à-dire que l’onde sonore n’est pas transmise de
manière efficace à la cochlée. Les causes d’un tel état pathologique se situent
donc au niveau de l’oreille externe ou de l’oreille moyenne. Ces causes vont
d’une trop grande accumulation de cire à la détérioration des osselets. De
même, des infections de la gorge, reliée par la trompe d’Eustache à l’oreille
moyenne, peuvent nuire à l’équilibre de pression dans cette dernière et rendre
ainsi inefficace la transmission de l’onde sonore.
Le deuxième type de perte auditive est qualifiée de neurosensorielle (ou
surdité perceptive). Il s’agit d’un problème occasionné par une détérioration
de la cochlée ou du nerf auditif. Cette détérioration survient pour différentes
raisons comme des problèmes métaboliques ou des traumatismes. Certains
médicaments ayant des propriétés toxiques peuvent aussi occasionner ce
genre de trouble.
Toujours à propos de surdité neurosensorielle, il est particulièrement
intéressant de savoir que ce déficit peut survenir à la suite d’une détérioration
des cellules ciliées qui se trouvent sur l’organe de Corti dans la cochlée. Or,
cette détérioration est irréversible et peut être causée par une exposition à des
sons de fortes intensités. Plus forts sont les sons – à plus forte raison si vous
êtes près de la source sonore –, moins longtemps il est nécessaire d’être exposé
à ces sons pour subir des dommages permanents. Il y a donc un fort prix à
payer lorsque nous nous offrons ce merveilleux luxe que d’écouter de la
musique forte, souvent directement à la source à l’aide d’écouteurs !
Si vous vous exposez à des sons d’environ 85 dB, à raison de 8 heures
par jour, il est tout aussi probable que vous affectiez votre audition. On parle
de fatigue auditive, une fatigue qui cause un déplacement du seuil de
détection du son sur une période plus ou moins longue. Les effets sont les
mêmes, par exemple (1) avec une exposition de 4 heures par jour à des bruits
de 88 dB ou (2) avec une exposition de 15 minutes par jour à des bruits de
100 dB. Cependant, une exposition répétée à des sons encore plus forts
risque d’entraîner un déplacement permanent du seuil. Notons d’autre part
qu’une exposition continue à un son assez fort finit au bout de quelques
minutes par sembler moins fort. Il s’agit là de ce que l’on appelle l’adaptation
auditive.
Par ailleurs, les capacités auditives changent avec l’âge. La diminution
de l’audition avec l’âge est appelée presbyacousie. En particulier, en
vieillissant, le seuil de détection de hautes fréquences devient beaucoup plus
élevé. Ce fait est à ce point connu qu’il est possible pour un jeune de recevoir
un signal sonore indiquant l’arrivée d’un message texte sans qu’un adulte
d’un certain âge (un professeur par exemple !) l’entende. Il est improbable
qu’un adulte de plus de 40 ans entende un son de plus de 15 kHz, ou qu’un
adulte de plus de 50 ans entende un son de plus de 12 kHz. Les hautes
fréquences ont même déjà été utilisées pour faire fuir des adolescents bruyants
qui flânaient dans une cour d’école.
Enfin, parmi les troubles assez graves liés de quelque manière à
l’audition, il y a les acouphènes. Ce problème consiste en une impression
qu’il y a un son ou un bruit, et ce, en l’absence de toute stimulation auditive
externe. De causes variées, ce bruit peut ressembler, par exemple, à un
sifflement ou à un bruissement. Il peut être continu ou intermittent et est
habituellement plutôt aigu. Les acouphènes peuvent indiquer la présence
d’un trouble de l’audition, causé par un dommage à la cochlée, par exemple,
ou survenir après un traumatisme sonore ou lors d’une infection.
3
ENTENDRE
Comprendre comment nous entendons ne saurait se résumer à une simple

description de faits fondée sur la physique et en une description des struc-
tures de l’oreille ou du cerveau en cause dans l’audition. Ce que nous
entendons est rempli de nuances et d’impressions. Ces nuances provien-
nent notamment d’une certaine manière d’organiser l’information auditive
qui atteint l’oreille, cette organisation se faisant en fonction de certains
principes. Nous utilisons aussi des indices pour savoir d’où proviennent les
sons. Comme si tout cela n’était pas déjà assez mystérieux, certains sons
apparaissent clairement comme des sons du langage alors que d’autres sons
apparaissent manifestement comme faisant partie d’une structure musicale.
C’est sur ces ensembles de phénomènes auditifs que porte ce chapitre.
3.1 Organisation perceptive

Comme nous le verrons lors de l’étude de la vision, il y a déjà près
d’un siècle que de grands principes ont été mis au jour afin de comprendre
comment est organisée la perception visuelle. L’élaboration relative à l’orga-
nisation perceptive propre à l’audition est venue un peu plus tard. Albert
Bregman a grandement contribué au développement de cette facette de
l’étude de l’audition, notamment avec la parution de son ouvrage, Auditory
scene analysis, qui offre une solide synthèse des principes à la base de cette
organisation (Bregman, 1990).
Toute une série d’illusions ou d’effets auditifs montrent que le lien
entre ce qui est présenté et ce qui est entendu n’est pas toujours direct. Le
cerveau doit composer avec l’ensemble du contexte dans lequel arrivent les
stimuli. Notamment, jusqu’à quel point des stimuli se ressemblent et
arrivent plus ou moins en même temps détermine ce qui est entendu.
43
Notion de stream
L’organisation de l’information auditive, c’est l’intégration et la

ségrégation perceptives du matériel sonore de l’environnement en des
représentations auditives significatives (Snyder et Alain, 2007). Lorsqu’il y
a de nombreux sons dans l’environnement qui arrivent en même temps ou
de façon rapprochée, il faut que des éléments soient regroupés, intégrés,
fusionnés pour former un même « objet sonore », tout comme il faut que
soit assurée la ségrégation d’autres composantes de cet environnement
sonore afin de les affecter à des « objets » différents. En fait, alors que le son
peut référer tantôt à la stimulation physique dans le monde ou à l’expé-
rience qu’on en fait, Bregman utilisera le terme anglais stream pour parler
de cette unité perceptive qui constitue un objet. Le stream1 ou ligne
auditive est à l’expérience psychologique auditive ce que l’objet est à la
vision.
Le stream auditif permet de regrouper des qualités acoustiques qui
sont reliées ; il est fondé sur les relations que l’on perçoit entre les sons
successifs. La notion de regroupement est donc centrale dans l’idée que
recouvre le mot stream. Une mélodie musicale constitue un exemple
frappant d’impressions de lignes ou de flots (de streams), un peu comme le
sont les sons de pas successifs et réguliers. Dans l’environnement, il y a de
nombreux changements d’intensités sonores, de fréquences, de provenance
et de nombreuses irrégularités temporelles. Or, la proximité des fréquences
de différents sons et leurs régularités dans le temps sont des facteurs très
forts pour déterminer des streams, pour donner l’impression que des sons
vont ensemble.
Ainsi, si deux sons de fréquences différentes sont présentés en alter-
nance de façon répétée, ils sont spontanément regroupés et perçus comme
faisant partie d’une même structure (ligne/flot) si ces fréquences ne sont
pas trop éloignées l’une de l’autre (figure 3.1, en haut). Au contraire, si les
fréquences devaient être éloignées l’une de l’autre, il y aurait une ségré-
gation de ces sons qui appartiendraient ainsi à des lignes distinctes, comme
l’indique la partie du bas de la figure 3.1 (Miller, 1947).
1. On pourrait traduire « stream auditif » par fil ou flot auditif, ou encore ligne auditive.
3 – Entendre 45
Figure 3.1 – Ségrégation de la ligne auditive en fonction de la proximité des fréquences et de la

proximité dans le temps. Deux sons de fréquences différentes, qui sont répétés en alternance, sont
perçus comme s’ils formaient deux lignes (b), plutôt qu’une seule (a), quand leurs fréquences sont
passablement distantes l’une de l’autre (F est grand). La ségrégation est facilitée quand les sons de
même fréquence sont rapprochés l’un de l’autre dans le temps (T est petit)
Dans la même veine, on peut créer des impressions de rythme, par

exemple de galop, lorsque les premier et troisième sons d’une séquence de
trois ont la même fréquence, et que le deuxième a une fréquence différente
(figure 3.2). Il faut que ces trois sons soient rapprochés dans le temps (van
Noorden, 1975). Si l’on entend cette séquence deux fois, mais que la
fréquence des sons 1 et 3 devient très différente de celle du deuxième son,
l’impression de galop disparaît pour faire place à l’impression qu’il existe
deux streams distincts.
Figure 3.2 – Impression de galop (à gauche), causé par la proximité dans le temps et en fréquence ;
en éloignant trop, en fréquence, les premier et troisième sons du deuxième, l’impression de galop fait
place à une impression (à droite) qu’il existe deux lignes distinctes.
Illusion de continuité et la mutation d’interruption
L’illusion de continuité est aussi un élément important qui

contribue à la scène auditive. Cette illusion consiste en un son interrompu
par un silence (gap), mais un son pour lequel on perçoit une continuité
lorsque ce silence est rempli par un bruit plus intense (figure 3.3). Ainsi,
un bruit fort à la place d’un silence donne l’impression que le son, pourtant
interrompu, est continu. Il s’agit en quelque sorte d’un rétablissement
(restoration). De tels effets de rétablissement se produisent aussi lors de la
parole ou de la musique (Sasaki, 1980 ; Warren, 1970). Par exemple, les
parties manquantes dans une phrase pourraient empêcher d’en saisir le
sens. Le remplacement de ces parties par des bruits permet de saisir le sens.
Figure 3.3 – L’illusion de continuité auditive. Un son avec une interruption silencieuse (a) est perçu
comme étant continu quand l’interruption est remplie par un autre son (b). Cette illusion apparaît
dans des patrons où le son inséré est plus intense que le son discontinu.
Un autre phénomène qui montre comment s’organise une scène

auditive est appelé la mutation d’interruption (gap transfer). Ce
phénomène, qui diffère de l’illusion précédente, mais implique aussi une
impression de continuité, est cette fois-ci fondé sur des sons dont les
fréquences changent de façon continue. Soit deux sons de longueurs diffé-
rentes et ayant des progressions en sens inverse, comme l’illustre la figure
3.4, et qui se croisent en leur centre. Si l’on interrompt le plus long
segment, cette interruption est perçue comme appartenant au son le plus
court. Autrement dit, même si, sur le plan physique, le son court est
continu, il semble interrompu (Nakajima, Sasaki, Kanafuka, Miyamoto,
3 – Entendre 47
Remijn, & ten Hoopen, 2000)2. En fait, le son le plus long qui, lui, est
interrompu semble pour sa part continu. Bref, les sons courts et longs sont
respectivement, sur le plan physique, continus et discontinus, mais sur le
plan perceptif, ils semblent respectivement discontinus et continus.
Il est intéressant de noter ce qui suit à propos de la mutation d’inter-
ruption. Celle-ci peut être créée en utilisant un son synthétique créant la
lettre /a/. Ainsi crée-t-on une situation où un long /a/ et un court /a/ se
croisent, et où le long son est interrompu. Encore une fois, c’est le long son
qui apparaît comme étant continu et le court comme discontinu. Par
contre, la mutation n’a pas lieu si ce sont des voyelles différentes qui se
croisent (Kuroda, Nakajima, Tsunashima, & Yasutake, 2009). Ainsi, si
c’est la voyelle /i/ qui est courte et qui coupe un long /a/, c’est ce dernier
qui sera perçu comme étant interrompu et le /i/ sera perçu comme étant
continu. Autrement dit, il y a concordance entre les stimuli physiques et ce
que l’on perçoit. Il n’y a donc plus de mutation d’interruption. Celle-ci ne
se produit que lorsque les deux sons sont des voyelles identiques ou ont la
même structure spectrale.
Figure 3.4 – Illustration de la mutation d’interruption consiste à attribuer, sur le plan perceptif,
l’interruption au segment plus court plutôt qu’au long comme c’est réellement le cas physiquement
(de Nakajima et coll., 2000).
2. Il est possible de se procurer des démonstrations intéressantes des différents effets acous-
tiques.
Par exemple : Bregman, A. S., & Ahad, P. A. (1996). Demonstrations of auditory scene
analysis :
The perceptual organization of sound [CD]. Cambridge, MA : MIT Press. Par ailleurs, de
nombreux sites Internet rendent accessibles des démonstrations. Parmi d’autres, nous
vous recommandons celui-ci : Nakajima, Y. (2000). Demonstrations of auditory Illusions
and tricks (2nd Ed.) [Internet homepage]. [En ligne] [http ://www.design.kyushuu.ac.
jp/~ynhome/ENG/Demo/illusions2nd.html]
Il existe bien entendu de nombreux autres effets auditifs. Parmi les

plus classiques, il y a l’escalier de Shepard. Il s’agit d’une série de sons, repris
en boucle, où la fréquence semble pourtant augmenter continuellement. Le
même effet peut être obtenu en créant l’impression que la fréquence des sons
semble diminuer sans interruption malgré l’utilisation de sons en boucle. En
fait, on compare habituellement cette illusion à celle de Penrose dans la
modalité auditive (figure 3.5 – Penrose et Penrose, 1958). Sur cette figure,
on peut imaginer quelqu’un qui monte à l’infini, ou qui descend à l’infini
(voir Deutsch, 20103).
Figure 3.5 – Illustration visuelle de l’illusion auditive de Shepard à l’aide d’une illusion classique,
l’escalier impossible de Penrose.
3.2 Localisation sonore

Pour certaines espèces animales, l’audition permet en quelque sorte
de voir, et cela tient de l’efficacité dans la manière de localiser ce qu’il y a
dans l’entourage. Cette capacité est l’écholocalisation et peut s’actualiser
dans l’air, comme le fait la chauve-souris, ou dans l’eau, comme le fait le
dauphin.
Chez l’humain, la capacité de localiser les sons dans l’espace n’est
peut-être pas aussi critique ou vitale. Par contre, elle contribue à se faire une
juste représentation de ce qui nous entoure. Il est possible, grâce à différents
indices, de connaître avec passablement de justesse de quelle direction
3. Le lecteur pourra découvrir de nombreuses illusions acoustiques ou paradoxes sonores en

se rendant sur le site Web de Diana Deutsch [En ligne] [http ://deutsch.ucsd.edu/
psychology/pages.php ?i=201#Introduction.php].
3 – Entendre 49
proviennent les sons et, jusqu’à un certain point, d’avoir une idée de la
distance à laquelle se trouve une source sonore.
Localisation de la direction
Si vous fermez les yeux et écoutez ce qui vous entoure, la provenance

des sons peut vous sembler évidente au point où on peut se demander s’il y a
là un objet d’étude. Si vous entendez des pas, des bruits de souliers ou de
talons sur une surface dure, vous saurez rapidement sans regarder si une
personne s’approche ou s’éloigne de vous. Aussi, si quelqu’un désire attirer
votre attention en vous appelant par votre nom, vous vous tournez presque
toujours la tête dans la bonne direction. Vous saurez si le son vient de gauche
ou de droite à l’horizon, et pourrez aussi savoir si ce son vient du haut ou du
bas. Vous vous tournerez automatiquement vers la source sonore, proba-
blement pour diriger votre regard vers celle-ci. Cette capacité, on la doit en
partie au pavillon de l’oreille qui contribue par exemple à la localisation de
sons de hautes fréquences (Musicant et Butler, 1984) et aussi à des indices
que le cerveau sait interpréter.
Un puissant indice permettant de connaître la direction d’où provient
un son est lié au temps d’arrivée dans chaque oreille. Cet indice, appelé diffé-
rence temporelle interaurale, tient de ce que les sons arrivent souvent à des
moments différents à chaque oreille. Un son émis à votre droite arrive à votre
oreille droite avant d’arriver à l’oreille gauche. La différence peut vous
paraître minime, puisque la distance entre les oreilles (la tête) semble petite.
Pourtant, le cerveau arrive à faire la différence à en interpréter la signifi-
cation. Si le son arrive à votre oreille gauche en premier, c’est que la source
sonore se trouve davantage vers votre gauche que vers votre droite. Cet
indice serait particulièrement efficace pour localiser les sons de basses
fréquences (Wightman, et Kistler, 1992).
Par ailleurs, il n’y a pas que le temps d’arrivée en soi qui soit pris en
considération par le cerveau, mais aussi à quel moment de son cycle un son
arrive à chaque oreille. Cet indice, la différence de phase dans chaque
oreille, contribuerait également à la localisation des sons de basses
fréquences.
Un autre indice important permettant de connaître d’où proviennent
les sons nous est fourni par le fait que ceux-ci ne nous arrivent pas nécessai-
rement à chaque oreille avec la même intensité. Cette démonstration est
facile à faire. Il suffit que quelqu’un tout juste à votre gauche ou à votre droite
vous parle fort, directement dans l’oreille, pour savoir que pour couper le son,
vous avez intérêt à vous boucher une oreille plutôt que l’autre ! Si vous
marchez sur un trottoir et qu’une moto bruyante, ou une sirène aiguë d’un
camion de pompier passe à côté de vous, ou que vous passez à côté d’un
marteau-piqueur, vous comprendrez que vous avez surtout intérêt à boucher
une oreille plutôt que l’autre pour ne pas trop avoir à endurer le bruit.
En fait, la différence d’intensité à chaque oreille, quand un son arrive
d’un côté plutôt que d’un autre, est attribuable au fait que la tête cause ce
que l’on appelle une ombre partielle. Cette ombre, qui permet d’atténuer un
peu l’intensité du son, est surtout efficace si celui-ci est de hautes fréquences.
Aussi, à défaut d’avoir un pavillon mobile comme l’ont certains animaux,
l’humain a toujours le loisir de faire des mouvements de la tête, de la tourner
dans une direction ou une autre, pour s’aider à localiser le son. On peut ainsi
faire de légères variations des intensités relatives, ou des moments d’arrivée à
chaque oreille, pour localiser la provenance du son.
Si des conditions expérimentales sont créées de telle façon que des
indices basés sur la différence temporelle interaurale indiquent une prove-
nance et que les indices basés sur la différence d’intensité ou le pavillon en
indiquent une autre, ce sont les indices liés à la différence temporelle
interaurale qui aura préséance, à la condition que les sons comportent des
basses fréquences. Sans la présence de basses fréquences, cet indice n’a pas
préséance ; en fait, la direction apparente sera d’abord déterminée par les
indices basés sur la différence d’intensité ou le pavillon (Wightman
et Kistler, 1992). On parle de la fonction de transfert liée à la tête pour
désigner des indices fondés sur la perception binaurale, les différences
d’intensité dans chaque oreille étant beaucoup plus importantes que la
différence temporelle lorsque la source sonore est à proximité, c’est-à-dire à
moins d’un mètre (Brungart, Durlach & Rabinowitz, 1999).
Localisation de la distance
Si l’on peut avoir une idée passablement juste de la direction d’où

provient un son, la connaissance de la distance d’une source sonore se révèle
par ailleurs assez difficile à établir avec exactitude. On peut savoir si la source
est rapprochée ou éloignée, mais quantifier la distance de cet éloignement est
un exercice auquel on ne se prête pas souvent. On essaie, par exemple, de
savoir si le coup de tonnerre que l’on vient d’entendre est plus ou moins
éloigné. En fait, la force du son nous indiquera d’emblée si un son est plus
ou moins éloigné, un son très fort étant le plus souvent très rapproché. Si
l’on connaît l’intensité que doit avoir un son à sa source, on peut se faire une
idée de la distance en fonction de l’intensité perçue.
3 – Entendre 51
En fait, il faut savoir que l’intensité sonore est liée à la distance, D,

entre la source et un observateur selon la relation suivante : 1/D2. Aussi, la
pression diminue en fonction de la distance selon la relation 1/D (puisque la
pression sonore varie en fonction de la racine carrée de l’intensité). Il en
résulte la règle simple suivante. On dit généralement que la pression sonore
diminue d’environ 6 dB chaque fois que l’on double la distance entre soi et
une source sonore. En fait, cette relation, 1/D, ne tient que dans certaines
circonstances particulières. D’abord, cela ne s’applique pas lorsqu’on est très
rapproché de la source (Butler, Levy, & Neff, 1980). Aussi, cela ne s’applique
que dans les cas où le son est émis d’un endroit déterminé et dans des
environnements libres de tout obstacle (on dit free-field, en anglais). Or, ces
conditions sont rarement celles avec lesquelles nous devons composer.
Par ailleurs, un indice très important nous renseigne sur la distance
qui nous sépare d’une source sonore. Il s’agit du rapport entre la quantité de
sons qui arrivent à l’oreille directement à partir d’une source sonore et la
quantité de sons qui arrivent à l’oreille après avoir frappé un obstacle. Les
sons qui ont rebondi après avoir atteint une surface, avant d’atteindre
l’oreille, constituent le phénomène appelé réverbérations. Lorsqu’il y a plus
de réverbérations dans l’environnement, on peut avoir l’impression qu’il y a
plus d’écho. Il s’agit là d’une qualité distinctive que l’on peut percevoir. On
comprend que plus on est éloigné d’une source, plus il est probable qu’il y
aura des obstacles en chemin. Ainsi, le rapport entre les sons provenant de la
source directement et ceux provenant de réverbérations diminue avec l’aug-
mentation de la distance entre la source et un observateur (Larsen, Iyer,
Lansing, & Feng, 2008).
En fait, les sons principalement composés de hautes fréquences
semblent venir de près tandis que les sons composés surtout de basses
fréquences semblent venir de plus loin. Cela est compréhensible si l’on
considère que les hautes fréquences sont plus facilement bloquées lorsque
se trouvent des obstacles sur le chemin entre la source et l’oreille. Quand
on songe à quel point la distance est susceptible d’affecter l’expérience
sonore, et que l’on considère les différences marquées d’intensités sonores
avec la distance, on s’imagine combien il peut être difficile de construire des
amphithéâtres ou des salles de concert de telle manière que le son demeure
partout de haute qualité.
Il convient enfin de souligner au passage certains phénomènes
acoustiques que l’on est susceptible de rencontrer. Les changements de
fréquences qui accompagnent, par exemple, les sirènes sur des voitures en
mouvement créent une impression auditive particulière. Il s’agit de l’effet
Doppler. En fait, les sons sont rarement statiques. Il y a souvent des sources
sonores en déplacement, quand ce n’est pas tout simplement l’observateur

qui est en déplacement. À l’approche du véhicule, les fréquences semblent
plus aiguës qu’elles le sont en réalité ; à proximité, il n’y a pas de telles
incohérences entre ce qui est émis et ce qui est perçu, et lorsque le véhicule
s’éloigne, les fréquences perçues semblent plus basses fréquences qu’elles le
sont en réalité.
Compte tenu de ce que la perception de la distance au quotidien
dépend considérablement de la vision, il n’est pas surprenant de constater à
quel point cette modalité sensorielle peut exercer une influence sur
l’impression de distance ou de provenance des sons. Vous connaissez sans
doute le phénomène du ventriloque, où l’on a, par exemple, l’impression
qu’une voix provient de la bouche d’une marionnette remuant les lèvres
alors qu’on sait pourtant que les sons proviennent du marionnettiste à
proximité. Dans la même veine, même si les sons au cinéma ou à la
télévision ne proviennent pas directement de la bouche des personnes qui
parlent, mais plutôt des haut-parleurs situés à proximité, nous avons
rarement l’impression que le son ne vient pas de la bouche de la personne
qui parle, à moins que les mouvements de la bouche et l’arrivée du son ne
soient pas synchronisés.
Notons en terminant que l’on peut parfois avoir l’impression que le
tonnerre et les éclairs, qui devraient fonctionner ensemble, ne sont pas
synchronisés. Cela tient au fait que le son se déplace beaucoup plus
lentement que la lumière. Si la foudre est très éloignée, l’écart entre
tonnerre et éclairs sera grand. En fait, si vous sentez que cet écart diminue,
au fil des minutes, c’est que la foudre s’approche de vous.
3.3 Entendre la musique

Parfois des séries de sons consécutifs produisent simplement du
bruit. Pourtant, en d’autres occasions, des séries de sons produisent ce que
l’on appelle la musique. Qu’il s’agisse de musique ou non, ces sons pourront
être décrits en fonction de leur tonie, de leur sonie et de leur timbre. Mais
qu’est-ce qui fait que certains sons résultent en une impression qu’il s’agit de
musique ? Il faut que ceux-ci soient liés selon une certaine structure.
Description technique
Alors que les sons en général peuvent varier en fonction de leur

hauteur tonale, la tonie musicale a cela de particulier qu’elle s’inscrit sur une
3 – Entendre 53
échelle chromatique. La tonie musicale consiste donc en une certaine

hauteur (plus ou moins aiguë, par exemple) et se situe à une certaine place
(la note) sur une octave. Celle-ci est l’intervalle séparant huit notes et est
composée de douze demi-tons. Pour une note donnée, le rapport d’une
octave à l’autre en matière de fréquences est simple : il double ou est divisé
par deux. Bref, les sons qui sont à une distance d’une octave entre eux
portent le même nom.
En fait, la magie de la musique, c’est que deux sons séparés par une
octave semblent similaires. Par exemple, si l’on joue les huit notes suivantes
consécutives sur un clavier, do, ré, mi, fa, sol, la, si et do, on parcourt une
octave (on pourrait couvrir une octave de ré à ré, de mi à mi, etc.). Même si
un do est beaucoup plus aigu que l’autre do, on reconnaît la ressemblance
entre eux. Par exemple, le fa et le sol d’une même octave ont beau avoir des
fréquences rapprochées, on ne les reconnaît pas comme ressemblantes. Mais
si deux sols différents sont joués, ils ne sont jamais dissonants. Dans la
description des sons musicaux, on ne peut donc pas se contenter de parler
du seul fait qu’ils semblent plus ou moins aigus. Il faut rendre compte de ce
que ces sons peuvent ou non se ressembler (en anglais, on parle de chroma).
La figure 3.6 permet d’illustrer l’étendue de fréquences couverte par
le piano, tout en déterminant les différentes notes qu’on y trouve et l’étendue
des fréquences couverte par certains instruments de musique et les voix
humaines. Si la voix humaine peut difficilement couvrir plus de deux
octaves, l’audition chez l’humain permet en revanche, comme nous l’avons
noté au chapitre précédent, d’entendre des sons s’étendant sur 10 octaves
(20Hz à 20kHz).
Ce que l’on appelle un accord, c’est la superposition de plus de deux
sons selon certaines règles. Ce n’est en fait que vers le milieu du XVIe siècle
que la notion d’accord s’est imposée au détriment de la notion d’intervalle
(Honegger, 1976). Maintenant, l’impression musicale et l’impression
psychologique laissées par un accord ne correspondent pas du tout à
l’impression que donneraient deux des notes de l’accord. Si un accord est
constitué des notes do, mi et sol, il ne saurait se réduire à la succession de do
avec sol, do avec mi puis mi avec sol.
Parmi les autres concepts importants qui déterminent l’impression de
musique, il y a par exemple la dynamique et le rythme. La première consiste
en la différence entre des niveaux extrêmes d’intensité sonore. Les musiciens
parlent parfois de nuance ou de contraste musical pour désigner la
dynamique. Pour sa part, le rythme, c’est l’organisation perceptive dans le
temps ; il est intimement lié à la durée relativement courte ou longue des
notes qui se succèdent. Il existe de nombreuses expressions visant à désigner
54
Psychologie de la perception
Figure 3.6 – Étendue de fréquences couverte par le clavier d’un piano et comparaison avec les voix humaines et certains autres instruments de musi-
que. Les chiffres sous le clavier, qui désignent des notes, sont des valeurs en Hz.
3 – Entendre 55
la durée d’une note (noire, blanche, ronde, croche…). Étant donné l’omni-
présence du temps dans la musique, on ne se surprend pas que des musiciens
soient supérieurs aux non-musiciens pour détecter de minces différentes
temporelles dans des extraits musicaux (Laforest et Grondin, 2004) ou pour
tenir le temps en comptant ou en chantant (Grondin et Killeen, 2009). Par
ailleurs, il ne faut pas confondre rythme et tempo. Ce dernier désigne plutôt
la vitesse à laquelle s’exécute une pièce musicale. Par exemple, quand on
entend les termes italiens allegro ou adagio, on parle du tempo qui est rapide
(allègrement) par opposition à un mouvement lent.
Une série d’éléments très brefs peuvent former un motif (ou
leitmotiv) qui donne une caractéristique à ce que l’on appelle une phrase
musicale. Sur une échelle encore plus globale se dégage une mélodie de la
succession de variations en tonie des différentes notes. Ainsi, une mélodie
n’est pas perçue comme une suite de sons individuels, distincts, mais plutôt
comme un tout cohérent. Cette idée de tout n’est pas sans rappeler qu’il
existe des principes d’organisation du son, comme nous l’avons vu ci-dessus,
et comme nous le verrons au chapitre 6 sur l’organisation de la forme dans le
cadre de l’étude de la vision.
Expérience subjective
Le fait d’aimer ou non certains sons que l’on reconnaît sans peine
comme formant de la musique ne saurait se réduire à l’utilisation de
quelques caractéristiques physiques. Plusieurs facteurs contribuent à l’appré-
ciation subjective de la musique. Parmi ceux-ci, il y a notamment la tradition
musicale et l’habitude. Sur le plan individuel, l’habitude est déterminante,
ce qui n’empêche pas de s’ouvrir à des formes nouvelles de musique. En fait,
l’habitude crée une familiarité qui se révèle parfois déterminante. Il suffit de
constater combien de fois on n’a pas aimé une pièce à la première écoute,
une pièce que l’on a pourtant fini par apprivoiser. Le fait d’être habitué à
une voix ou à un style musical et celui de les reconnaître facilitent l’appré-
ciation. Ce qui paraît mélodieux, pour les uns qui sont habitués, peut
sembler irritant pour les autres qui le sont moins.
On ne peut parler de familiarité et d’appréciation sans parler de la
complexité de la musique. Une pièce complexe, comme l’est souvent la
musique dite classique, peut difficilement être appréciée à la première écoute
sans entraînement à ce style musical. En fait, plus une pièce est complexe,
plus elle risque de prendre du temps (de nombreuses écoutes) avant d’être
appréciée pleinement. En revanche, elle risque d’être appréciée plus
longtemps. Notons enfin que l’appréciation musicale est intimement liée à
l’émotion et au souvenir. On ne se surprend pas qu’il existe des musicothé-

rapies, c’est-à-dire des approches thérapeutiques visant à mettre à profit la
puissance d’évocation de la musique dans le travail en psychologie clinique.
Curieusement, certaines personnes sont incapables d’apprécier la
musique lorsqu’elles en entendent. On dit qu’elles souffrent d’amusie (Peretz
et Hyde, 2003). En fait, il s’agit d’un trouble du traitement de la tonie,
mais certaines personnes montrent aussi un trouble lié à la mémoire et à la
reconnaissance de la musique. On distingue l’amusie congénitale de
l’amusie acquise. Environ 4 % de la population naîtrait avec une sorte de
surdité à la tonie qui mène à l’incapacité de reconnaître ou de fredonner
une chanson. Parfois, l’amusie fait suite à un dommage au cerveau et ces
cas sont plus fréquents que les précédents.
Enfin, parmi les différences individuelles notables relatives à la
musique, notons que certaines personnes sont capables nommer une note
lorsqu’on leur présente un son. Ces personnes savent s’il s’agit par exemple
d’un sol ou d’un ré. On dit de ces personnes qu’elles ont l’oreille absolue.
3.4 Entendre la parole

Parce que nous utilisons le langage tous les jours, et probablement
aussi parce que nous l’intégrons à un tout jeune âge, nous le tenons pour
acquis. Pourtant, la création des sons du langage et la capacité d’entendre ces
sons et d’en tirer quelque chose d’intelligible sont des habiletés hautement
sophistiquées. Les sons du langage peuvent être mal prononcés, notamment
en raison d’un fort accent ou du fait que le locuteur a quelque chose dans la
bouche. Ils peuvent également être émis avec un bruit de fond assez élevé ou
avec un débit très rapide, mais, le plus souvent, l’on parvient quand même à
en tirer du sens.
Description linguistique
Le domaine de la phonétique couvre ce qui touche l’étude acoustique

des sons de la parole. Chaque langue contient un certain nombre d’unités de
base utiles à la communication. Ces unités sont appelées phonèmes. Un
phonème est une unité abstraite, un segment de parole qui, sans avoir de
sens lui-même, contribue à en générer. Ce n’est ni une lettre ni une syllabe.
La langue française en compte 36, mais certains auteurs rapportent qu’il en
existe près d’une quarantaine en raison de disparités régionales dans la
prononciation de certains sons.
3 – Entendre 57
La manière de prononcer les sons ne correspond pas toujours à la

manière de les épeler. Ainsi, il existe une manière particulière, l’alphabet
phonétique international, de rapporter les phonèmes par écrit. Cette
notation a été adoptée par l’Association phonétique internationale. Par
convention, les mots transcrits en phonétique sont placés entre crochets, et
les phonèmes sont présentés entre des barres obliques. Les phonèmes de la
langue française sont rapportés en alphabet phonétique au tableau 3.1. Si
l’on compte 6 voyelles écrites (A, E, I, O, U, Y), il est à remarquer qu’on en
compte 16 phonétiques. En plus des phonèmes rapportés, on pourrait en
ajouter quelques-uns associés à des mots empruntés à une langue étrangère
(comme la terminaison « ing » provenant de l’anglais ou le « j » de l’espagnol).
C’est sur la base des phonèmes d’une langue que tous les mots de
celle-ci sont construits. On arrive donc à composer tous les mots de la langue
française avec 36 sons, les phonèmes, grâce à la seule combinaison de ceux-ci.
Il existe des centaines d’autres phonèmes dans les autres langues, mais ils ne
sont pas utiles dans la description des mots en français. Aussi, des distinctions
entre le /l/ et le /r/, si utiles en français, ne le seront pas en japonais.
Autrement dit, un Japonais ne distinguera pas « riz frit » de « lit flit ».
Il faut aussi savoir que les mots peuvent être divisés en fonction des
unités de sens qui les composent. Ces unités sont les morphèmes. Un mot
comme « accepter » en comprend un seul, mais « inacceptable » en comprend
trois (in-accepter-able). Les morphèmes sont dits libres s’ils peuvent
constituer un mot (c’est le cas de « accepter ») ou liés s’ils ne constituent pas
un mot en soi (par exemple, « in » et « able » dans acceptabilité).
Analyse technique
Les sons du langage sont produits grâce au passage de l’air dans la

cavité nasale, la bouche et la gorge, et au travail notamment de la langue et
des lèvres. Le chenal expiratoire ouvert permet de produire des voyelles ; les
mouvements de fermeture sont associés à la production de consonnes. On
compte trois caractéristiques pour distinguer les types de consonnes. Les
consonnes diffèrent selon l’emplacement de l’articulation, la manière
d’expulser l’air et le niveau de vibrations (voisement) des cordes vocales. On
dit de l’emplacement qu’il est, par exemple, labial (prononcer /b/), dental
(prononcer /d/), ou labiodental (prononcer /v/). L’expulsion d’air peut être
douce, comme c’est le cas avec les fricatives (prononcer /f/), ou abrupt,
comme c’est le cas avec les occlusives (prononcer /b/ ou /t/). Enfin, une
consonne peut générer beaucoup de vibrations (prononcer /b/ ou /z/) ; /f/ ou
/s/ sont des exemples de phonèmes non voisés.
Tableau 3.1
Les 36 phonèmes de la langue française (tiré du Larousse 2011)
VOYELLES CONSONNES SEMI-VOYELLES

(ou semi-consonnes)
Voyelles orales
[i] i (habit) [p] p (pas) [j] y (lieu)
[e] é (thé) [t] t (lutte) [ɥ] u (lui)
[ɛ] è (procès) [k] c, k, qu (képi) [w] ou (oui)
[a] a (avoir) [b] b (beau)
[ɑ] a (âne) [d] d (dos)
[ɔ] o (robe) [g] g (gare)
[o] o(dos) [f ] f (fou)
[u] ou (ouvrir) [v] v (vite)
[y] u (user) [s] s (chasse)
[ø] eu (feu) [z] z, s (raison)
[œ] eu (peur) [ʃ] ch (cheval)
[ə] e (le) [ʒ] j, g (jambe)
[l] l (large)
Voyelles nasales [r] r (rude)
[ɛ̃] in (pain) [m] m (maison)
[œ̃] un (parfum) [n] n (nourrir)
[ɑ̃] an, en (blanc) [ɲ] gn (agneau)
[ɔ̃] on (bon)
On peut faire une analyse exacte des fréquences qui composent les
sons du langage à l’aide d’un spectrogramme. Le spectrogramme permet de
faire l’analyse, sur une courte période, mais de façon continue, de la contri-
bution de différentes fréquences dans les sons du langage. Sur un tracé
comme celui de la figure 3.7, on voit l’intensité des différentes fréquences
sur l’axe des y, en fonction du temps, sur l’axe des x. Les bandes horizon-
tales foncées sur cette figure sont appelées formants et sont produites lors
de la prononciation de la lettre /a/. Sur la figure, les premiers formants sont
plus bas ; ils correspondent aux fréquences les plus basses.
3 – Entendre 59
Perspectives théoriques
Il suffit d’entendre quelqu’un parler avec un débit de la parole

normal, mais dans une langue étrangère, pour avoir l’impression que le flot
de paroles est continu. Si vous avez déjà appris une langue seconde,
rappelez-vous combien c’est plus facile de comprendre quand les gens
parlent moins rapidement. La difficulté survient au moment de segmenter
tout ce qui est dit en unités significatives, de bien identifier les mots.
Même dans sa propre langue, on peut faire l’expérience d’une certaine
difficulté, ou bien parce qu’un enfant articule mal, ou parce que l’on parle
à une personne âgée ayant un accent régional très fort. En fait, la question
fondamentale qui s’impose est la suivante : comment peut-on reconnaître
les mots et comprendre le message qu’ils portent quand il n’y a parfois pas
d’interruption dans les spectrogrammes qui correspondent à ces mots ?
Figure 3.7 – Spectrogramme de la lettre /a/ prononcée durant 700 ms.
La tentation est forte d’attribuer cette capacité au fait qu’il existerait

dans le cerveau un mécanisme propre au traitement de l’information langa-
gière. Certains chercheurs adoptent cette perspective dite modulaire,
c’est-à-dire l’hypothèse qu’il existerait des circuits neuronaux affectés au
traitement de la parole. À l’opposé, certains chercheurs soutiennent plutôt
l’idée qu’il n’y a rien de spécial dans le traitement des sons du langage ; les
mécanismes responsables de ce traitement sont les mêmes que ceux affectés
au traitement des autres stimuli auditifs (Diehl, Lotto, & Holt, 2004).
Une idée vieille de plus de 50 ans est celle selon laquelle on pourrait
percevoir la parole parce qu’on peut la produire. La perception et la
r econnaissance des sons du langage feraient intervenir de façon inconsciente,

ou automatique, le système moteur en opération dans la production des sons
(Galantucci, Fowler, & Turvey, 2006). Cette théorie dite motrice du langage
s’inscrit dans la perspective d’un processus déterminé puisqu’elle part d’un
processus propre au langage, celui situé dans le canal vocal.
Cette idée n’est plus tellement retenue, mais d’autres perspectives
modulaires ont été proposées. Il semblerait que les sons du langage seraient
distincts des autres sons par le fait que la perception qu’on en fait est catégo-
rielle. Il est question de perception catégorielle quand la discrimination des
éléments d’une même catégorie est plus difficile à faire que la discrimination
des sons de catégories différentes. Ainsi, certains sons du langage appar-
tenant à une même catégorie, comme différentes formes d’un même
phonème, seraient plus difficiles à discriminer que les membres de catégories
différentes comme /b/ et /p/.
Ces deux phonèmes se ressemblent en plusieurs points comme le
fait que leur prononciation nécessite de fermer les lèvres avant de relâcher
de l’air. Aussi, ces phonèmes font tous deux vibrer les cordes vocales.
Cependant, cette vibration ne se produit pas au même moment pour
chaque cas. Alors que les vibrations surviennent tout de suite au moment
où l’air est relâché lors de la prononciation du /b/, celles accompagnant la
prononciation du /p/ ne surviennent qu’après 50 ou 60 ms. Ce délai avant
le début des vibrations est appelé le temps d’attaque vocal (voice onset time
en anglais).
Supposons maintenant que nous manipulions expérimentalement,
avec des sons synthétiques, ce temps d’attaque vocal. Par exemple, on
demande à des participants de dire s’ils entendent « ba » ou « pa ». Lorsque
le temps d’attaque vocal durait moins de 25 ms, les participants enten-
daient « ba » ; mais lorsqu’il durait plus de 35 ms, ils entendaient « pa »
(Eimas et Corbit, 1973). Entre les deux, il y avait une frontière phonétique
où l’on ne distinguait pas les sons.
Lorsque cette perception catégorielle des sons du langage a été
dévoilée, elle a été interprétée comme une démonstration de l’existence de
mécanismes neuronaux propres au langage. Cependant, il est plus tard
ressorti que des sons non verbaux sont aussi sujets à une perception catégo-
rielle. Qui plus est, les animaux, à qui l’on ne prête aucune compétence
langagière parlée, montreraient aussi une forme de perception catégorielle
pour des signaux sonores (Kluender, Diehl, & Killeen, 1987 ; Tsunada,
Lee, & Cohen, 2011).
3 – Entendre 61
Le fait que des aires du cerveau qui ne font pas partie du cortex
auditif contribuent au traitement du langage peut être interprété comme
un appui à l’idée de la spécificité des mécanismes propres au langage. Non
seulement semblait-il y avoir une certaine spécialisation hémisphérique (à
gauche) du cerveau pour le langage, mais il existe des aires réservées à la
production et à la compréhension du langage. Ainsi, une atteinte à l’aire de
Broca, située dans la partie inférieure du lobe frontal, affecte la capacité de
produire la parole (aphasie de Broca). Une atteinte de l’aire de Wernicke,
dans la partie supérieure du lobe temporal, cause une difficulté de
comprendre le langage. Ainsi, on peut avoir un système auditif intact, c’est-
à-dire ne présenter aucune difficulté à traiter des signaux auditifs non
langagiers, mais présenter quand même des problèmes d’aphasie.
Intermodalité
Évidemment, la communication orale tient de la capacité de

produire les sons du langage, de les détecter et de les décoder. Pourtant,
comprendre la parole va au-delà du seul traitement de l’information
auditive. Une puissante démonstration de ce fait a été rapportée par
McGurk et MacDonald (1976). L’effet McGurk, comme il convient de
l’appeler, montre l’influence exercée par des signaux visuels sur le traitement
du langage. Ainsi, si l’on montre à un participant, à l’aide d’un montage
expérimental, un locuteur qui dit « ba ba », mais dont les lèvres disent « ga
ga », ce participant n’entendra ni « ba » ni « ga », mais plutôt « da ».
Par ailleurs, s’il y a un contexte où il peut être très difficile de
comprendre ce qui est dit, c’est celui de la chanson (à plus forte raison
quand elle est dans une langue seconde). Il existe un phénomène, dans la
parole, appelé « mondegreen4 » selon lequel il est non seulement difficile de
comprendre des mots, mais qui fait que l’on peut entendre quelque chose
de différent. Les paroles dans la chanson sont un terrain fertile où un
complément d’information visuelle risque d’augmenter la compréhension.
Jesse et Massaro (2010) ont vérifié si le fait de voir quelqu’un chanter,
plutôt que de simplement voir quelqu’un parler, pouvait aider la compré-
hension des paroles d’une chanson. Ils ont montré que la reconnaissance
pouvait être augmentée d’environ 35 %, en comparaison avec des condi-
tions où l’on ne pouvait que voir ou entendre le chanteur.
4. Ce terme vient d’une ballade écossaise, « The Bonnie Earl O’Murray », où « And laid him
on the green » peut sonner comme « And Lady Mondegreen ».
Que l’on puisse observer un phénomène semblable pour le langage

parlé et le langage chanté donne à croire que les deux domaines seraient
liés. En fait, le fait de voir le visage d’un chanteur aurait une influence sur
la perception de la musique (Thompson, Russo, & Livingstone, 2010).
Plus spécifiquement, l’expression faciale du chanteur contiendrait de
l’information sur un autre aspect du traitement auditif, soit les relations
entre tonies. Bref, au-delà de la question de savoir si le traitement du
langage est quelque chose de déterminé, on peut aussi se demander jusqu’à
quel point le langage et la musique partagent des propriétés communes
(Patel, 2008).
4
BASES BIOLOGIQUES
DE LA PERCEPTION VISUELLE
Ce chapitre amorce l’étude de la perception visuelle. Parce qu’elle est

étudiée depuis longtemps et qu’elle se prêtait plus facilement à l’utilisation
de certaines illustrations, la perception visuelle a longtemps couvert une
importante partie des livres de base en psychologie de la perception.
L’importance prise par la vision dans l’étude de la perception s’explique
aussi par la place évidente qu’elle occupe dans la vie de tous les jours chez
l’humain. Ce chapitre est consacré à la description des principales struc-
tures biologiques et à certains mécanismes associés à la perception visuelle.
1. L’œil
L’œil, qui est à peu près de forme sphérique et qui a un diamètre de
2 à 2,5 cm, consiste en un ensemble de structures qui permet de transformer
la lumière en un code que le cerveau peut comprendre.
Le globe oculaire
La figure 4.1 illustre les principales parties du globe oculaire. En sa

partie antérieure, on distingue notamment des ligaments qui tiennent le
cristallin, et l’iris qui contrôle l’entrée de lumière. En fait, c’est la couleur de
l’iris qui détermine le fait d’avoir, par exemple, les yeux bruns ou bleus. D’un
diamètre allant de 2 à 8 mm et située au centre de l’iris, la pupille laisse
entrer plus ou moins de lumière selon qu’elle est respectivement peu ou très
dilatée. On peut facilement constater l’effet direct de la lumière sur l’état de
63
l’iris et de la pupille. Il suffit de regarder une personne dans les yeux à la

noirceur et puis d’ouvrir une lumière. On verra une activité réflexe, appelée
réflexe de Whytt, durant laquelle le diamètre de la pupille diminue graduel-
lement.
Les rayons lumineux qui entrent dans l’œil sont d’abord déviés par
une membrane courbée, la cornée, avant de traverser la pupille où ils sont de
nouveau déviés. Cet autre ajustement des rayons se fait grâce à un mécanisme
automatique appelé l’accommodation qui consiste en un aplatissement plus
ou moins accentué du cristallin. Selon la distance à laquelle se trouve un
objet sur lequel se fait une mise au point, le cristallin devient peu aplati (si
l’objet est proche) ou très aplati (s’il est loin). Ainsi, si un objet est proche,
des muscles se contractent, le cristallin s’épaissit et les rayons lumineux sont
déviés encore plus.
Figure 4.1 – Principales structures de l’œil.
La partie la plus externe de l’œil est la membrane sclérotique (ou

sclère). Résistante, elle permet de maintenir la forme de l’œil. Sa partie
antérieure est transparente et recouverte d’une mince membrane, la
conjonctive, qui protège l’oeil des corps étrangers. Entre la membrane scléro-
tique et la rétine, il y a une membrane intermédiaire, la choroïde, ou
membrane choroïde, qui permet d’éviter la présence de reflets lumineux
(internes) en absorbant la lumière. Très vascularisée, la choroïde assure une
fonction nutritive pour les cellules rétiniennes.
4 – Bases biologiques de la perception visuelle 65
Notons que la forme sphérique de l’œil est assurée par la présence de

deux types de fluide. Dans la partie antérieure, entre la cornée et le cristallin,
ce fluide est appelé humeur aqueuse. Dans la partie postérieure, il y a un
grand espace rempli d’une substance plutôt gélatineuse appelée humeur
vitrée.
Dans la partie postérieure de l’œil, on distingue notamment la tache
aveugle (ou disque optique) causée par la présence du nerf optique et qui
couvre environ 7,5o sur l’axe vertical et 5o sur l’axe horizontal (environ
2,1 mm × 1,5 mm). Le cerveau arrive à compenser la perte de vision
occasionnée par la tache aveugle (figure 4.2).
La couche la plus interne de la partie antérieure est la rétine. C’est sur
la rétine qu’est formée l’image. Étant donné son importance dans la vision,
la prochaine sous-section lui est consacrée. Sur la rétine se trouve un point
ayant un diamètre d’environ 1o, la fovéa, où la vision est la plus nette. La
fovéa est située à 2 mm de la tache aveugle dans une petite région, la tache
jaune (ou macula lutea), où se trouve une forte concentration de cônes. En
fait, au centre de la fovéa, il n’y a que des cônes.
Figure 4.2 – Démonstration liée à la présence de la tache aveugle. (1) Il faut fixer le X de la rangée du
haut avec l’œil droit tout en gardant l’œil gauche fermé. Du coin de l’œil, vous devriez être en mesure
de voir le point noir situé sur la même rangée. Ensuite, avec un mouvement du bras qui tient le livre,
il faut varier la distance entre l’œil et le X. À une certaine distance, le point noir visible du coin de l’œil
devrait disparaître, même si un peu plus près ou un peu plus loin, il est possible de le voir. (2) Il faut
répéter la démonstration avec la rangée du bas. Cette fois-ci, en fixant le X, vous devriez, à une cer-
taine distance, percevoir une ligne noire non interrompue ; cette interruption, en blanc, devrait dis-
paraître, le cerveau ayant compensé la perte de vision occasionnée par la présence de la tache aveugle.
Enfin, chaque globe oculaire est pourvu des trois paires de muscles
qui permettent de diriger l’œil dans toutes les directions du champ visuel.
Ces paires ont en fait des rôles antagonistes. Les droits supérieur et inférieur
permettent à l’œil de faire des mouvements de haut en bas et de bas en haut ;
les droits interne et externe rendent possibles les mouvements vers la gauche
ou vers la droite ; et les muscles obliques inférieur (qui est plus petit) et
supérieur (qui est plus grand) sont responsables des mouvements de rotation
externe et interne, respectivement.
La rétine
La rétine couvre une section d’environ 200o dans la partie postérieure

de l’œil et a une surface d’environ 25 cm2 et une épaisseur d’environ 4 mm.
Tel qu’il est illustré à la figure 4.3, on y trouve essentiellement trois couches
de cellules. Il y a les cellules photoréceptrices, qui transforment l’énergie
électromagnétique (la lumière) en influx nerveux. Cette information est
transmise aux centres supérieurs par l’entremise des deux autres couches : les
cellules bipolaires et ganglionnaires. Au niveau de la rétine, on trouve aussi
les cellules horizontales et amacrines qui ont pour fonction de favoriser le
transfert de l’information entre les neurones d’un même niveau.
Figure 4.3 – Couches de cellules au niveau de la rétine (adapté de Dowling et Boycott, 1966, avec la
permission de la Royal Society of London).
Il existe deux types de cellules photoréceptrices au niveau de la rétine,

les cônes et les bâtonnets, qui ont différentes fonctions et propriétés. Ces
types de cellules n’ont pas la même sensibilité à la lumière. On compte
environ 5 millions de cônes et environ 120 millions de bâtonnets. Dotés

d’un seuil de réponses élevé, les cônes sont affectés à la vision diurne ; on
parle dans ce cas du système photopique. Les cônes sont sensibles à la
couleur et permettent une meilleure acuité visuelle que les bâtonnets. Ainsi,
ils sont en plus grand nombre – environ 35 000 – à la fovéa.
Pour leur part, les bâtonnets sont plutôt de forme allongée que les
cônes. Sensibles à une faible intensité lumineuse, les bâtonnets sont affectés à
la vision nocturne (le système scotopique). Ils sont de plus en plus nombreux
en allant vers la périphérie et leur forme, contrairement aux cônes, reste à
peu près toujours la même.
Les cônes et les bâtonnets sont composés de pigments photosen-
sibles. Les pigments des cônes sont de trois types, en ce sens que
l’absorption de lumière de chacun de ces types est maximale à certaines
longueurs d’onde, longues, moyennes et courtes (voir le chapitre 5 sur la
perception des couleurs). Le pigment photosensible des bâtonnets, la
rhodopsine, absorbe des ondes s’étendant de 400 à 600 nm. C’est donc un
processus photochimique qui va créer un potentiel d’action qui sera
transmis de la rétine au cerveau.
Les cellules bipolaires, qui peuvent prendre différentes formes et
différentes tailles, s’occupent du passage de l’influx nerveux des photoré-
cepteurs aux cellules ganglionnaires. Les cellules bipolaires font synapse
aussi bien avec les bâtonnets qu’avec les cônes. Selon que l’on se trouve en
périphérie ou à la fovéa, le nombre de récepteurs en contact avec les cellules
bipolaires varie. Ainsi, les cellules bipolaires de la fovéa peuvent ne recevoir
d’influx que d’un seul cône tandis qu’un peu plus loin en périphérie, elles
peuvent en recevoir de plusieurs. En général, les cellules bipolaires propres
aux cônes sont en contact avec moins de photorécepteurs que celles qui
reçoivent l’information de bâtonnets. Par ailleurs, les photorécepteurs sont
en contact les uns avec les autres grâce aux cellules horizontales. Certaines
ne sont en contact qu’avec des cônes, d’autres seulement avec des
bâtonnets ; certaines autres cellules peuvent être en contact avec ces deux
types de photorécepteurs. Elles peuvent aussi faire synapse avec les cellules
bipolaires. Le lecteur trouvera dans De Valois et De Valois (1988) d’autres
renseignements sur les liens entre photorécepteurs, cellules horizontales et
bipolaires, et sur les mécanismes biologiques à la base de la vision.
Les cellules bipolaires transmettent principalement l’influx nerveux
aux cellules ganglionnaires, mais aussi aux cellules amacrines. Le rôle de ces
dernières est comparable à celui des cellules horizontales en ce qu’elles
assurent principalement un rôle d’interaction, cette fois-ci entre les cellules
ganglionnaires et bipolaires. Pour leur part, les cellules ganglionnaires
reçoivent des influx provenant principalement d’un ou de plusieurs

neurones bipolaires. Plus on va en périphérie, plus fréquentes sont les
participations de plusieurs cellules bipolaires et amacrines à l’excitation
d’une cellule ganglionnaire. Ce sont les axones des cellules ganglionnaires
qui forment le nerf optique. Pour chaque œil, on compte environ un
million de cellules ganglionnaires.
4.2 Notions de champs récepteurs

Il importe de bien comprendre que la rétine a une organisation parti-
culière puisqu’elle comprend plus de 125 millions de récepteurs, cônes ou
bâtonnets, mais ne transmet toute son information aux cellules du cortex
visuel qu’à travers un million de cellules ganglionnaires. En fait, cet arran-
gement particulier des cellules rétiniennes renvoie à l’idée de champ
récepteur. À une cellule ganglionnaire donnée correspond un champ
récepteur, c’est-à-dire une surface au niveau des photorécepteurs où la
lumière provoque un changement du cours normal de l’activité électrique.
Des travaux anciens en neurophysiologie ont permis de montrer que
la lumière projetée sur la rétine provoque des réponses de trois types
(Hartline, 1940 ; Hartline et Ratliff, 1957 ; Kuffler, 1953). Ainsi, la réponse
enregistrée au niveau des cellules ganglionnaires à l’aide d’une électrode peut
être une des suivantes (figure 4.4). Les réponses des cellules montrent :
1) une augmentation de l’activité pendant la stimulation, et ce, dès son
arrivée, pour ensuite retrouver son cours normal lorsque cesse l’illumination ;
2) une annulation de toute activité pendant que la lumière est allumée mais
une accélération de ces réponses une fois la lumière éteinte et 3) une
augmentation de l’activité au début, suivie d’une diminution, et la répétition
de ce schéma (augmentation-diminution) lorsque la lumière est éteinte. Ces
trois types de réponses sont appelés « on », « off », et « on-off ».
Les réponses rendues par les cellules ganglionnaires dépendent de
l’endroit stimulé sur la rétine. Stimuler la rétine à un endroit précis, ou tout
juste à côté, peut donner lieu à des réponses de différents types sur une
même cellule ganglionnaire. Or, à chaque cellule ganglionnaire correspond
un champ récepteur, celui-ci pouvant être de type centre « on » ou centre
« off ». De forme circulaire (figure 4.5), ces deux types de champ sont répartis
en nombre égal sur la rétine. Pour un type de champ, une stimulation au
centre provoque des réponses « on » et autour de ce centre, des réponses « off ».
Entre ces deux niveaux, les réponses sont de types « on-off ». Pour le
deuxième type de champ récepteur, une stimulation au centre provoque des
réponses « off » et autour de ce centre, des réponses « on ». Autrement dit, les
cellules ganglionnaires sont en mesure de recueillir de l’information sur le
centre de leur champ récepteur et sur la région qui l’entoure.
Figure 4.4 – Illustration des patrons d’activation et d’inhibition sur les cellules ganglionnaires avec
l’arrivée, le maintien et la disparition d’une stimulation lumineuse.
Figure 4.5 – Deux types de champ récepteur circulaires : avec un centre « on » (à gauche) ou avec un
centre « off » (à droite). + = activation ; – = inhibition
Au fait, on distingue souvent deux types de cellules ganglionnaires :

« magno » par opposition à « parvo ». Environ 80 % des cellules ganglion-
naires sont de type parvo (parfois appelées « X »). Les cellules de type
magno (« Y ») représentent 10 % des cas. Il existe aussi une troisième classe
de cellules ganglionnaires (« W ») qui auraient un champ récepteur différent
de ceux décrits précédemment et qui auraient la vitesse de conduction la
plus lente.
Les cellules de type parvo ont un tout petit champ récepteur
(diamètre de 0,01 mm) et une vitesse de conduction d’environ 20 m/sec.
Par contraste, les cellules de type magno ont un champ récepteur plus
grand. Par exemple, à 10 mm de la fovéa, les champs récepteurs sont
50 fois plus grands (0,5 mm). En raison de leur corps cellulaire et de leur
axone plus gros, les cellules de type magno ont une vitesse de conduction
beaucoup plus grande (40 m/sec) que celle des cellules parvo. Le tableau
4.1 dresse un bilan des principales caractéristiques qui différencient ces
deux types de cellules ganglionnaires.
Tableau 4.1
Caractéristiques de deux types de cellules ganglionnaires
Magno (Y) Parvo (X)

Représentent : 10 % du total 80 % du total
Corps cellulaires et axones : Plus gros Plus petits
Vitesse de conduction : 40 m/s 20 m/s
Réponses nerveuses : Par secousses Soutenues
Champs récepteurs : Plus grands Plus petits
Sensibilité aux contrastes lumineux : Très sensibles Peu sensibles
Sensibilité à la perception : De gros objets Des couleurs
Sensibilité à la perception : Du mouvement Des patrons stationnaires
4.3 Mécanismes centraux

Le regroupement des axones des cellules ganglionnaires forme le nerf
optique. De la sortie de l’œil au chiasma optique, l’information circule sur
environ 5 cm. Or, au niveau du chiasma optique, il se produit un
changement d’orientation dans l’acheminement d’une partie de l’infor-
mation. Comme l’indique le mot chiasma, il y a un croisement de
l’information. Environ 50 % de l’information provenant d’un œil est
transféré du côté opposé du cerveau. C’est l’information reçue dans la partie
nasale de la rétine, c’est-à-dire celle arrivant sur la partie de la rétine la plus
rapprochée du nez, qui croise au niveau du chiasma optique. Les fibres issues
de la région temporale de la rétine restent du même côté. Or, que les fibres
du nerf optique croisent ou non, il n’y a pas de synapse à la hauteur du
chiasma optique. Aussi, passé le chiasma optique, le nerf optique porte le
nom de bandelette optique.
L’information transportée par chaque bandelette optique provient
donc de chaque œil et est acheminée à l’une des deux structures suivantes, le
corps genouillé latéral (CGL) et les tubercules quadrijumeaux, la majeure
partie de l’information visuelle allant vers le CGL. Les tubercules quadriju-
meaux, qui sont une structure primitive du cerveau, n’ont pas de rôle dans la
détection de la nature exacte des stimuli, mais serviraient à situer la prove-
nance de ceux-ci. Les tubercules quadrijumeaux exercent également un
contrôle sur le mouvement des yeux lorsque ceux-ci doivent être déplacés
pour fixer un objet en périphérie.
Pour leur part, les CGL ont une participation beaucoup plus impor-
tante à l’ensemble de la vision. Comme le nom l’indique, ils sont situés sur
les côtés du cerveau et ont la forme d’un genou fléchi. Chacun des deux
CGL, celui de gauche et celui de droite, a un champ récepteur semblable à
celui des cellules ganglionnaires. Ils possèdent également une organisation
rétinotopique, c’est-à-dire que la représentation sur la rétine est maintenue
au niveau des CGL. Parmi les autres caractéristiques des CGL, notons qu’ils
sont constitués de six couches séparées qui ne reçoivent d’information que
d’un seul œil, ils ont un rôle déterminant dans la perception de la forme et,
davantage que les tubercules quadrijumeaux, ils reçoivent beaucoup d’infor-
mation de la fovéa. Conséquemment, ils entrent en jeu dans la perception de
la couleur.
Le cortex visuel
Le cortex visuel est situé dans la partie occipitale du cerveau et a une

surface d’environ 64 cm2. Le cerveau conserve aussi l’ordre spatial des
cellules rétiniennes (une organisation rétinotopique) mais l’importance de
l’espace cérébral occupé dépend de l’endroit stimulé sur la rétine. Environ
65 % du cortex visuel est associé à l’activité sur la rétine correspondant à
10 % du champ visuel.
On utilise maintenant les termes V1 à V5 pour décrire les différentes
régions du cortex visuel. On distingue aussi deux grandes sections (tableau
4.2). Une première, le cortex visuel primaire, ou cortex strié, est encore
parfois appelé l’aire 17. Cela correspond à l’aire visuelle 1 (V1). L’aire V1
reçoit l’information provenant des CGL, celle-ci ayant un arrangement
spatial correspondant également à une organisation rétinotopique. L’aire V1

est divisée en six couches désignées par les chiffres 1 à 6. Les informations
provenant des CGL arrivent à la quatrième couche (plus spécifiquement 4c)
de V1.
Tableau 4.2
Noms donnés aux cortex visuels primaire et secondaire
Cortex visuel primaire Cortex visuel secondaire

Autre nom Cortex visuel strié Cortex visuel extrastrié
Classification de Brodmann Aire 17 Aires 18 et 19
Nomenclature courante Aire V1 Aires V2, V3, V4, et V5
La deuxième section, le cortex visuel secondaire, ou cortex

extrastrié, inclut les aires V2 et V3 (ou l’aire 18), et V4 et V5 (ou l’aire 19).
C’est dans ces aires que sont acheminés les influx nerveux provenant des
tubercules quadrijumeaux. De même, certaines informations déjà traitées
en V1 aboutiront dans certaines aires du cortex visuel secondaire. Enfin, le
traitement de l’information visuelle se fait aussi par le concours d’une autre
partie du cortex visuel appelé le cortex d’association. C’est dans cette partie
du cortex visuel que certains apprentissages et certaines associations
antérieures interviendront dans le processus de perception.
Il importe de souligner certaines autres caractéristiques du cortex
visuel. Cette connaissance repose à la base sur les travaux de deux neurobio-
logistes, David Hubel et Torsten Wiesel, qui leur ont valu un prix Nobel de
physiologie en 1981 (Hubel et Wiesel, 1959, 1962). Essentiellement, Hubel
et Wiesel ont utilisé une technique permettant d’enregistrer l’activité d’une
cellule du cortex visuel à la fois. Ils ont découvert que les champs récepteurs
au niveau du cortex visuel n’étaient pas nécessairement circulaires. Par
exemple, ils sont parfois de forme allongée. Ils ont identifié trois types de
cellules dans le cortex visuel auxquels ils ont donné le nom de cellules
simples, cellules complexes et cellules hypercomplexes.
Les cellules simples donnent une réponse maximale aux extrémités et
aux lignes ayant une orientation précise. Les cellules simples de la couche 4c
de l’aire V1 ont pour leur part un champ récepteur circulaire. La sélectivité
quant à l’orientation (barres placées plus ou moins à la verticale ou à l’hori-
zontale) est une caractéristique fondamentale de ces cellules simples. Un
changement de quelques degrés d’une barre diminue considérablement
l’activité électrique rendue par une cellule donnée, mais augmente l’activité
d’une autre de ces cellules simples situées en V1.
Parce qu’il est plus difficile de connaître ce qui détermine leur

activité, un deuxième type de cellules est appelé « cellules complexes ». On les
trouve dans les couches 2, 3, 5 et 6 de V1. On sait néanmoins qu’elles sont
sensibles au mouvement, les unes au mouvement dans une direction, les
autres au mouvement dans une autre direction. On parle donc dans ce cas-ci
d’une sélectivité pour la perception du mouvement.
Encore plus difficiles à cerner, les cellules hypercomplexes semblent
être des cellules de terminaisons. Elles ne rendent une réponse qu’à une
terminaison ayant une orientation précise ou qui bouge dans une certaine
direction.
Dans leurs travaux, Hubel et Wiesel ont également identifié une
caractéristique importante de l’organisation des cellules en V1. Il existe dans
le cortex visuel une forme d’architecture en colonnes. Ainsi, lorsqu’on insère
une électrode à la verticale en partant de la couche 1 en allant vers la couche
6, ce sont toujours les barres d’une même orientation qui donnent les
réponses maximales. C’est cette séquence qui s’appelle une colonne.
Lorsqu’on déplace plutôt l’électrode sur un plan horizontal, il y a un
changement de préférence graduel des cellules pour des stimuli allant de
l’horizontale à la verticale : cette séquence de colonnes est appelée hyperco-
lonne et aurait une surface d’environ 2 mm2. On dénombre environ
6400 hypercolonnes comptant chacune 15 000 cellules.
Il existe dans le cerveau des aires de traitement précis pour des
fonctions ou des caractéristiques spécifiques. Autrement dit, il y a une ségré-
gation des différentes fonctions liées au traitement visuel et une affectation
de ces fonctions à des régions précises dans le cortex visuel. Les aires V1 et
V2 se ressemblent par leurs petits champs récepteurs et forment, selon
certains auteurs, un complexe V1-V2. Certaines caractéristiques de V1 ont
été décrites ci-dessus. Il importe d’ajouter qu’en V1 s’exerce ladite ségré-
gation, en l’occurrence selon la forme, la couleur et le mouvement. V2 reçoit
un peu d’information directement des CGL mais reçoit surtout de
nombreux relais en provenance de V1.
L’aire V3 est très intimement liée à l’activité au niveau de la fovéa et
est spécialisée dans le traitement de la forme ; cependant, elle contiendrait
également de l’information relativement au fait que cette forme changerait
de position. L’aire V4 est spécialisée dans le traitement de la couleur, en
particulier dans le traitement de la lumière réfléchie. L’aire V5 traite le
mouvement ; plus spécifiquement, la plupart des cellules de cette aire répon-
draient au mouvement dans une direction particulière.
Les voies visuelles
On distingue deux grandes voies dans le traitement de l’information

visuelle. Leur nom désigne l’origine de la stimulation et leur lieu d’aboutis-
sement. Ainsi, la première est appelée la voie magnopariétale. On la désigne
aussi comme la voie temporale médiane ou voie dorsale (ou même géniculo-
striée). Cette voie du « où » ou du « comment » concerne 10 % des cellules
ganglionnaires. Comme cette voie passe par V5, on ne se surprend pas
qu’elle soit associée à la perception du mouvement.
L’autre voie est appelée parvotemporale ou voie ventrale (tectopul-
vinar). On l’appelle aussi la voie du « quoi ». Cette voie exige la contribution
des aires V2 et V4, cette dernière signalant qu’il se fait un traitement de la
couleur. En fait, cette voie permet de scruter les images ou les objets afin de
bien les identifier.
Enfin, dans cette présentation des bases biologiques de la perception
visuelle, certains principes ne doivent pas échapper au lecteur. Par exemple,
par rapport à un point situé droit devant soi, ce qui se situe à gauche sera
traité dans l’hémisphère cérébral visuel droit et ce qui se situe à droite sera
traité dans le champ visuel gauche. La figure 4.6 illustre comment se présente
l’information saisie dans le champ visuel au niveau de la rétine, puis dans
celui des hémisphères cérébraux. Ainsi, l’on peut voir que, par rapport au
champ visuel, l’image sur la rétine est inversée et croisée. Aussi, les propriétés
du chiasma optique permettent : 1) le passage de l’information de la région
nasale de l’œil gauche (information contenue du côté gauche du champ
visuel) au côté droit du cerveau et 2) le passage de l’information de la région
nasale de l’œil droit (information contenue du côté droit du champ visuel)
au côté gauche du cerveau. C’est cette particularité du croisement qui fait en
sorte que chaque hémisphère cérébral est responsable du traitement de
l’information visuelle présentée du côté opposé.
Figure 4.6 – Par rapport au champ récepteur, chaque œil reçoit une information inversée et croisée ;
aussi, ce qui est à la droite d’un point de fixation arrive à l’hémisphère cérébral gauche et ce qui est à la
gauche arrive à l’hémisphère cérébral droit.

Différents problèmes peuvent survenir qui entraveront le bon
fonctionnement de l’appareil visuel. On peut distinguer diverses catégories
de troubles qui entraînent une moins bonne vision. Les plus communs sont
ici répertoriés. Les troubles de la vision des couleurs sont présentés au
chapitre suivant.
Une première grande catégorie de problèmes, les plus fréquents au
fait, est liée à la mise au point. Des problèmes de réfraction (ou d’amétropie)
empêchent les rayons lumineux d’arriver à la rétine de telle manière que
l’image soit claire. Parmi les problèmes de réfraction, il y a les problèmes
d’hypermétropie. Ils surviennent lorsque la distance entre le cristallin et la
rétine est trop courte (figure 4.7). L’image se forme ainsi derrière la fovéa.
L’hypermétrope voit mal les objets rapprochés. Des lunettes avec un verre
biconvexe permettent de faire la correction.
À l’inverse, une personne souffre de myopie lorsque la distance entre
le cristallin et la rétine est trop grande ; l’image se forme en avant de la fovéa.
On distingue parfois la myopie réfractive, qui désigne le fait que les rayons
lumineux sont trop déviés par la cornée ou le cristallin, de la myopie axiale
qui désigne le fait que le globe oculaire est trop grand. Le myope, qui ne voit
pas nettement les objets éloignés, profitera de l’usage de verres biconcaves. Il
s’agit d’un problème très fréquent qui peut être corrigé par kératectomie
photo-réfractive. Il s’agit d’une opération au laser qui change la courbure de
la cornée. Après l’opération, les rayons arrivent correctement à la rétine.
Il existe des cas, plus rares, où une personne souffre d’astigmatisme,
c’est-à-dire qu’elle ne voit pas clairement dans toutes les directions du champ
visuel. Il y a toujours une partie de la vue qui reste hors foyer. Cela est causé
par une courbure non sphérique de la cornée ou du cristallin.
Figure 4.7 – Problèmes de réfraction souvent causés par une forme anormale du globe oculaire.
Après être passés par le cristallin (en gris), les rayons lumineux arrivent devant la rétine, dans le cas du
myope ou derrière, dans le cas de l’hypermétrope. Un verre biconcave (pour le myope) ou biconvexe
(pour l’hypermétrope) permet de faire la correction.
Par ailleurs, la presbytie consiste en une difficulté à faire la mise au

point sur un objet qui est près et est occasionnée par le durcissement du
cristallin avec l’âge. Il est fréquent que les personnes dans la quarantaine, qui
jusque-là n’avaient jamais eu quelque problème de vision que ce soit, aient
besoin de lunettes. On peut remarquer que sans leurs lunettes, les personnes
plus âgées ont tendance à éloigner au bout de leur bras le texte qu’elles
cherchent à lire. C’est que la diminution de la plasticité du cristallin finit par
rendre la lecture plus difficile.
Parfois, plutôt que d’être inadéquatement déviée, la lumière qui entre
dans l’œil est plutôt embrouillée. Ceci peut être causé par certaines blessures
ou certaines maladies. Il arrive parfois que la cornée soit infectée, ce qui
occasionne des problèmes de vision. Il existe par ailleurs différents cas de
cataracte, qui désigne l’opacité du cristallin. La perte graduelle de transparence
du cristallin peut dans certains cas occasionner une perte de la vision. Les
cataractes peuvent être congénitales, ou causées par la maladie (cataracte
secondaire) ou des blessures (cataractes traumatiques). Le plus souvent, les
cataractes sont causées par le vieillissement. Elles touchent 75 % des personnes
de 65 ans et plus, et 95 % des personnes de 85 ans et plus. Il est possible de
corriger à l’aide d’une chirurgie les problèmes causés par les cataractes quand
la baisse de vision devient trop importante.
Certains problèmes de vision sont spécifiquement causés par un
problème à la rétine. Un de ces problèmes est la dégénérescence maculaire
sénile, c’est-à-dire liée à l’âge. Avec un tel problème, une personne voit en
quelque sorte très bien partout, sauf là où elle regarde, c’est-à-dire là où se fait
la mise au point ! Il existe aussi des cas de rétinopathie causée par le diabète.
Les problèmes se développent souvent après plusieurs années de diabète. Les
personnes âgées qui ont longtemps souffert de diabète peuvent avoir de
graves problèmes de vision. Aussi, une mauvaise circulation de l’information
au niveau du nerf optique peut être occasionnée par une intoxication ou une
inflammation. Enfin, la vision peut être perturbée par un déplacement de la
rétine. Par ailleurs, certaines blessures peuvent causer un décollement de la
rétine et altérer parfois la vision périphérique, parfois la vision centrale.
Un autre groupe de problèmes des yeux est le glaucome. Il s’agit d’une
cause fréquente de cécité. Le glaucome est une dégénérescence du nerf
optique parfois causé par une très grande pression à l’intérieur de l’œil. Le
glaucome apparaît généralement chez les personnes de plus de 60 ans.
Notons en terminant qu’il existe de nombreux autres problèmes
susceptibles d’affecter la vision. Parmi ceux-ci, il y a des problèmes attri-
buables à une cause musculaire. C’est le cas du strabisme, qui consiste en
une mauvaise centration de l’image (qui n’arrive pas à la fovéa), et qui
occasionne une vision double. Il est causé par un désordre au niveau des
muscles oculomoteurs, par exemple par la paralysie des muscles d’un des
yeux. Le nystagmus, qui désigne un mouvement continuel des yeux, est un
autre problème d’origine musculaire, attribuable cette fois-ci à la présence de
plaques au niveau des yeux. Enfin, on appelle scotomes les déficits du champ
visuel. Ces déficits peuvent être plus ou moins importants et affecter des
parties précises du champ. Dans de rares cas, ce problème peut être causé par
une lésion du cortex visuel.
5
PERCEPTION DES COULEURS
Les couleurs sont omniprésentes dans nos vies et on ne pourrait s’imaginer

la vie sans elles. Elles sont utiles, ne serait-ce que pour nous informer sur
l’état de mûrissement d’un fruit ou sur l’état de tout autre aliment que l’on
s’apprête à manger. Elles aident à assurer des tâches fondamentales comme
la détection et la discrimination d’objets. De plus, et peut-être même
surtout, elles rendent la vie agréable. Par exemple, nous sommes sensibles à
la couleur des murs ou des vêtements, à l’agencement des couleurs, etc.
Pourtant, l’étude des couleurs est demeurée longtemps un mystère.
Nous verrons dans le présent chapitre que pour bien comprendre la
perception des couleurs, il faut intégrer des notions de base sur la nature
des stimuli physiques à la base de la sensation visuelle et sur la physiologie
rétinienne. Ces notions sont nécessaires si l’on veut bien comprendre ce
avec quoi le cerveau doit composer pour nous donner l’heure juste à
propos de ce qui est coloré dans l’environnement.
5.1 Description de la lumière

Chaque récepteur sensoriel est particulièrement sensible à une
forme spécifique de stimulation. Par exemple, les stimulations peuvent être
chimiques, comme dans le cas du goût ou de l’odorat, ou mécaniques,
comme dans le cas du toucher. Si l’oreille est sensible à des variations de la
pression d’air, l’œil est pour sa part sensible à des radiations électromagné-
tiques. La lumière, qui est une forme particulière de ces radiations, produit
une réponse visuelle. On peut décrire la lumière ou bien en considérant
que l’énergie irradiée se propage sous la forme d’une onde continue ou en
considérant qu’elle est composée de particules spécifiques de matières, les
photons.
79
Intensité
L’intensité lumineuse pourrait être exprimée en nombre de photons,

mais il est convenu d’utiliser différentes unités photométriques. La base de
la photométrie est une unité appelée chandelle. Celle-ci constitue la valeur
d’intensité lumineuse standard. Par exemple, avec une longueur d’onde de
555 nanomètres, une chandelle produit une énergie légèrement supérieure
0,001 watt.
Afin de bien s’y retrouver, il importe d’identifier la nature de ce qui
atteint l’œil et de distinguer deux types d’expériences sensorielles, la
lumière incidente et la lumière réfléchie. La quantité d’énergie qui sort
directement d’une source lumineuse est la radiance, ou flux lumineux,
tandis que la quantité de lumière émanant de cette source et qui atteint
une surface est appelée lumière incidente, ou illuminance. On utilise le
mètre-chandelle pour décrire l’illuminance et cela équivaut à l’illumination
d’une surface de 1 m2 située à 1 mètre d’une chandelle standard.
La lumière provenant d’une source atteint rarement l’œil direc-
tement, à moins que l’on ne regarde directement cette source. Le plus
souvent, la lumière est réfléchie par différentes surfaces en direction de
l’œil. Cette lumière ainsi réfléchie est appelée luminance. On parle parfois
de lumière de surface. La luminance d’une surface est exprimée à l’aide
d’une unité appelée chandelle par mètre carré (cd/m 2), c’est-à-dire la
quantité de lumière reflétée dans toutes les directions par une surface (qui
reflète et diffuse la lumière parfaitement) illuminée par un mètre-chandelle.
Parce que la luminance était autrefois exprimée en pied-lambert ou milli-
lambert (mL), on peut encore trouver ces unités dans certains ouvrages.
Pour vous donner une vague idée de la valeur de certaines luminances, la
neige au soleil donne 105 cd/m2 ; un ciel couvert est d’environ 3000 cd/m2 ;
on peut lire facilement avec une luminance de 100 cd/m2 ; et le seuil absolu
est d’environ 10-6 cd/m2.
La luminance d’une surface dépend certainement de la lumière
incidente, mais aussi d’une autre propriété appelée la réflectance. La réflec-
tance d’une surface, c’est sa capacité à réfléchir la lumière. Pour exprimer la
réflectance, on utilise un coefficient. Ainsi, une surface qui a 70 % de
réflectance réfléchit 70 % de la lumière incidente :
réflectance = (luminance/illuminance) × 100
Parfois, il est aussi question d’illuminance rétinienne. Il s’agit de la quantité

de lumière qui arrive à la rétine. Cette quantité est exprimée en trolands.
5 – Perception des couleurs 81
Longueur d’onde et composition spectrale
Dans son ensemble, le spectre électromagnétique s’étend de 10-14 m

à 108 m. Ce n’est cependant qu’une partie de ce spectre qui est visible. L’œil
ne peut percevoir que ce qui se situe entre les ondes ayant une longueur de
400 et de 700 nanomètres (figure 5.1). Un nanomètre, c’est 10 -9 m.
Lorsque les ondes sont un peu en deçà de 400 nm, on parle de rayons
ultraviolets ; celles d’un peu plus de 700 nm sont appelées rayons infra-
rouges. Bien que la variété d’ondes de 400 à 700 nm soit un continuum
sur le plan physique, ce sont plutôt des catégories de couleurs que l’on
distingue sur le plan perceptif. Nous pouvons discriminer des centaines de
couleurs, mais, dans la vie de tous les jours, nous nous restreignons le plus
souvent à quelques catégories. En fait, nous verrons dans la prochaine
section tout ce à quoi renvoie le terme couleur.
Figure 5.1 – Longueur des ondes de la lumière visible dans le spectre électromagnétique.
Il est extrêmement rare qu’un faisceau lumineux ne contienne

qu’une seule longueur d’onde. Si cela devait arriver, il s’agirait d’une
lumière dite monochromatique. Le plus souvent, un faisceau lumineux
comporte un ensemble de longueurs d’onde et compose ainsi une lumière

polychromatique. Toute l’énergie lumineuse ne sera cependant pas néces-
sairement répartie également entre toutes les longueurs d’onde. En fait, les
différentes lumières varient en fonction de leurs différentes compositions
spectrales. L’importance relative des différentes ondes varie donc d’une
lumière à une autre.
Entre une lumière monochromatique et une lumière polychroma-
tique s’étendant sur un large éventail d’ondes, il existe de nombreuses
possibilités de variations. Si une lumière est monochromatique, on la dira
pure. En fait, plus la lumière est concentrée sur une bande étroite, plus elle
est pure. À l’opposé de la pureté d’une lumière monochromatique, il peut y
avoir un cas où, pour un faisceau donné, toute l’énergie lumineuse de
toutes les longueurs d’onde visibles est répartie en proportions égales. Dans
un tel cas, on aura une lumière blanche et la pureté sera dite nulle.
Rappelons en terminant cette section que la composition de la
lumière qui parvient à l’œil dépend de deux facteurs. Bien entendu, elle
relève de la composition spectrale de la lumière émise par une source. Elle
dépend aussi des propriétés d’une surface donnée. Il s’agit des propriétés
réfléchissantes, s’il s’agit d’une lumière réfléchie, ou des propriétés de trans-
mission, si la lumière est transmise à travers quelque chose. Bref, deux
facteurs déterminent ce qui arrive à l’œil : la lumière émise et les propriétés
d’une surface donnée.
5.2 Dimensions perceptives de la couleur

Ce que l’on appelle normalement la couleur renvoie le plus souvent
à l’une des trois dimensions fondamentales qui composent l’expérience de
la couleur. Cette dimension est appelée tonalité (hue en anglais). Il existe
des tonalités chromatiques (le vert, le jaune…) et des tonalités achroma-
tiques. Les premières sont déterminées par la longueur d’onde et l’on dira
des dernières, qui vont du blanc au noir, en passant par les différentes
teintes de gris, que leur tonalité est neutre ou qu’elles n’en ont pas.
Si les différentes nuances de gris ne diffèrent pas par leur tonalité,
comment peut-on les distinguer ? L’œil pourra discriminer ces gris, et le
blanc et le noir, grâce aux différents degrés de clarté. Le continuum s’étend
d’un état de clarté nulle (le cas du noir) à celui où elle est à son maximum
ou presque (le cas du blanc). Entre les deux, il y a tout un continuum de
gris. Or, de la même manière qu’il y a différents degrés de clarté pour
distinguer des stimuli achromatiques, il existe différents degrés pour les
stimuli chromatiques. On utilise aussi le terme brillance pour désigner

cette notion de clarté. Plus spécifiquement, on dira de la brillance qu’elle
est claire ou foncée quand il sera question d’une surface, mais qu’elle est
plus ou moins intense s’il s’agit de la lumière.
En plus de la tonalité et de la brillance, il existe une troisième
dimension perceptive de la stimulation visuelle. Il s’agit de la saturation,
qui est en fait le degré de pureté de la lumière. Par exemple, on peut avoir
l’impression qu’un vert donné semble contenir plus ou moins de vert ou,
dit autrement, semble contenir plus ou moins de gris. Avec une impression
de gris plus grande, c’est que la lumière a perdu en pureté. Si une lumière
perd en pureté, on la dit peu saturée. Au contraire, si le vert paraît très
accentué ou très concentré, c’est que le niveau de saturation est élevé.
Si une couleur devait contenir beaucoup de gris au point d’en
perdre l’impression de couleur, c’est que la saturation serait devenue nulle.
Ce que l’on percevrait se situerait alors quelque part entre le blanc et le
noir. La figure 5.2 permet de synthétiser les trois dimensions fondamen-
tales à comprendre pour saisir pleinement ce que l’on peut expérimenter
relativement aux couleurs.
Figure 5.2 – Les trois dimensions fondamentales à la base des différentes nuances de couleurs. À
gauche, on trouve les différentes tonalités, et à droite, les différents carrés sont d’un vert plus ou moins
brillant et plus ou moins saturé.
5.3 Mélanges chromatiques

Afin de décrire efficacement l’expérience de la perception des
couleurs, il faut non seulement intégrer l’information précédente
concernant les bases physiques de la stimulation lumineuse, mais aussi
d’autres principes. Ainsi, il faut comprendre ce que sont les couleurs
primaires et faire la distinction entre ce que sont les mélanges additifs et les
mélanges soustractifs de couleurs.
Couleurs primaires
Malgré l’importance adaptative des couleurs chez de nombreuses

espèces animales, et dans la vie humaine en général, il a fallu attendre le
XVIIe siècle pour que des idées nouvelles permettent de bien comprendre
la perception de la lumière et des couleurs. Jusqu’alors, la perception de ce
qui apparaissait blanc aux gens était interprétée comme une absence de
couleur. Intuitivement, cela semblait du reste fort approprié.
Appuyé par une démonstration empirique toute simple, Isaac
Newton a rapporté cette idée importante : le blanc consiste plutôt en une
somme de toutes les couleurs. Son expérience consistait à faire passer des
faisceaux de lumière blanche (rayons de soleil) à travers une petite
ouverture, puis à travers un prisme (figures 5.3). Au-delà du prisme, ces
rayons venaient frapper un écran. Or, à l’écran, ces rayons n’apparaissaient
plus blancs, mais déployaient plutôt tout un spectre de couleurs, la
diffraction des différents rayons étant reliée à leur longueur d’onde.
Newton a complété sa démonstration en ajoutant, inversé, un deuxième
prisme qui avait pour effet de recomposer la lumière blanche. Cette
démonstration amena Newton à conclure que toutes les couleurs, c’est-à-
dire toutes les longueurs d’onde, sont contenues dans la lumière blanche.
Newton avança également un autre grand principe de la perception des
couleurs : à toute couleur correspond une deuxième couleur qui, mélangée
à la première, donne du blanc. Cette deuxième couleur est appelée la
complémentaire.
Une autre grande idée allait plus tard faire avancer notre compré-
hension de la perception des couleurs : il existe des couleurs primaires. Les
primaires sont des couleurs dont la combinaison permet de produire le
blanc et toute la gamme des autres couleurs. De nombreuses combinaisons
de couleurs pourraient constituer les trois primaires. Il s’agit de choisir trois
couleurs où le mélange de deux ne produira pas la troisième. Sur la base
d’une décision arbitraire de la Commission internationale de l’éclairage
(CIE), on définit les trois primaires comme étant le bleu (435,8 nm), le
vert (546,1 nm) et le rouge (700 nm).
Figure 5.3 – Expérience de Newton qui montre que la lumière blanche se décompose dans toutes
les couleurs du spectre.
Additionner vs soustraire
Ces différentes notions de la lumière et de la couleur vont un peu à

l’encontre du sens commun en ce qu’elles ne permettent pas de comprendre
certains phénomènes observés dans la vie quotidienne. Par exemple, en
travaillant avec des crayons à colorier, chaque enfant a fait l’expérience de
l’apparition du vert lors d’un mélange de bleu et de jaune. Cela porte
certains enfants à croire, à tort, que le jaune, mais pas le vert, serait une
couleur primaire puisque le vert résulterait d’un mélange. Pourtant, en
mélangeant deux faisceaux lumineux projetés à un même endroit, un qui
serait au préalable passé par un filtre jaune et l’autre par un filtre bleu, on
n’obtient pas du vert. Comprendre la différence des résultats observés avec
des crayons de couleur plutôt qu’avec des faisceaux lumineux requiert de
faire la distinction entre les deux concepts suivants : les mélanges additifs et
les mélanges soustractifs.
Les expériences communes sont des exemples de mélanges
soustractifs. Elles reposent sur le mélange de pigments, c’est-à-dire sur le
fait que les différents objets contiennent une substance qui absorbe
certaines longueurs d’onde et réfléchit les autres. Ainsi, la couleur des
objets ne dépend pas des propriétés de la lumière mais plutôt de la manière
dont les pigments réagissent à la lumière. Autrement dit, un mélange

additif repose sur l’addition de longueurs d’onde tandis qu’un mélange
soustractif consiste à empêcher certaines longueurs d’onde de participer à
la couleur d’un objet. Cet empêchement est provoqué par la présence, dans
cet objet, de pigments qui absorbent certaines longueurs d’onde. Ces
ondes absorbées ne pourront être réfléchies et par le fait même, n’attein-
dront pas l’œil et ne seront pas perçues. Lors d’un mélange additif de
couleurs, la couleur qui en découle sera plus lumineuse que chacune des
couleurs utilisées dans le mélange ; à l’inverse, un mélange soustractif
résulte en une diminution de la luminosité de chacune des couleurs
utilisées. La figure 5.4 illustre ces concepts de mélanges additifs et
soustractifs.
Figure 5.4 – Illustration de la couleur résultant d’un mélange additif (à gauche) ou soustractif (à
droite).
L’addition de certaines couleurs donne des résultats qui peuvent

être prédits si l’on comprend certaines règles. Cette compréhension est
facilitée en observant le cercle des couleurs illustré à la figure 5.5. Ce cercle
illustre deux dimensions subjectives des couleurs : 1) la circonférence
désigne la tonalité et 2) le rayon désigne la saturation. La circonférence
couvre toutes les longueurs d’onde du spectre visible, du violet (près de
400 nm) au rouge (près de 700 nm). Aussi, plus on s’éloigne du centre sur
ce cercle, plus grande est la saturation. Le centre correspond à un degré de
saturation nulle, c’est-à-dire à du gris, ou peut-être même à du blanc si la
brillance est élevée.
Figure 5.5 – Illustration de ce qui résulte du mélange additif à l’aide du cercle des couleurs. Pour une
paire donnée de points diamétralement opposés, si l’on fournit la même intensité de part et d’autre,
on obtient mélange qui conduit au point milieu, c’est-à-dire du gris ou du blanc.
Sur ce cercle, les couleurs complémentaires sont diamétralement

opposées. Aussi, plus on s’approche du centre, moins elles sont saturées. Si
l’on prend deux quantités égales d’énergie lumineuse associées à deux
couleurs complémentaires qui se trouvent à égales distances du centre,
alors le mélange qui en résulte donne du blanc (ou du gris). Par contre, si
l’une de ces deux couleurs complémentaires est moins saturée que l’autre, il
faut augmenter l’intensité du flux lumineux sur la moins saturée pour que
ne persiste aucune couleur. Aussi, en choisissant deux couleurs sur ce cercle
qui ne sont pas complémentaires, il ne sera pas possible d’obtenir un
mélange achromatique. Par ailleurs, toutes les couleurs ne sont pas
présentes sur le cercle des couleurs. Ces couleurs sont dites non spectrales
et ne peuvent être obtenues qu’en mélangeant au moins deux couleurs. Le
pourpre est un exemple de couleur non spectrale.
L’addition des couleurs obéit également à une autre loi. Si l’on
mélange des quantités égales de différentes couleurs, la brillance qui en
résulte est plus grande que la moyenne des brillances des couleurs ayant
servi au mélange. Aussi, si les quantités mélangées sont inégales, la brillance
résultante est plus proche de la couleur de celle présentée en plus grande
quantité.
Notez enfin qu’il existe d’autres types de mélanges de couleurs. Il en
est question dans une section ci-dessous consacrée aux effets et illusions
chromatiques.
5.4 Théories de la vision des couleurs

Deux grands points de vue se sont longtemps opposés lors des
tentatives d’explications de la vision des couleurs. Un premier point de
vue, soutenu par Thomas Young au tout début du XIXe siècle et aussi par
Hermann von Helmholtz quelques décennies plus tard, est connu sous le
nom de théorie trichromatique de Young-Helmholtz. Essentiellement,
cette théorie stipule que la vision des couleurs relève de la présence de trois
types de récepteurs au niveau de l’œil. On y postule que ces récepteurs sont
sensibles à toutes les longueurs d’onde, avec une sensibilité maximale pour
une longueur donnée. Ces récepteurs seraient plus sensibles au bleu, au
vert et au rouge. En fait, Young et Helmholtz savaient que, pour une
personne n’ayant aucun déficit de perception des couleurs, un mélange
additif de rouge et de vert donne du jaune. Ainsi expliquaient-ils la vision
du jaune par l’excitation des seuls récepteurs du rouge et du vert. En fait,
toute couleur selon eux pouvait être expliquée par différents taux d’exci-
tation des trois types de récepteurs.
Plus tard, au XIXe siècle, différentes observations non compatibles
avec la théorie trichromatique ont amené Ewald Hering à élaborer une
autre théorie de la vision des couleurs. Hering avait notamment observé
que les gens appelés à choisir des couleurs qui ne leur semblent pas être un
mélange ont tendance à discerner quatre et non pas trois couleurs
primaires : le bleu, le vert, le rouge... et le jaune. Il avait aussi observé que
les gens ne disent jamais percevoir un rouge tirant sur le vert ou un bleu
tirant sur le jaune. Par ailleurs, le fait que des gens qui ne voient ni le rouge
ni le vert puissent voir le jaune constitue également une objection majeure
à la théorie trichromatique de Young-Helmholtz. Enfin, Hering savait
aussi qu’une exposition prolongée à une couleur peut créer un drôle d’effet,
comme nous le verrons ci-dessous.
Ainsi, Hering a plutôt proposé la théorie des processus antagonistes
pour rendre compte du vaste ensemble de couleurs perçues. Cette théorie
stipule que la perception des couleurs est fondée sur un fonctionnement
par paires de couleurs opposées. Ces paires sont le rouge et le vert, le bleu
et le jaune, ainsi que le blanc et le noir pour rendre compte de perception
de la brillance. De cette façon, si un neurone est excité par la présence
d’une couleur, il sera inhibé par la présence de la couleur opposée.
Les données contemporaines provenant de la physiologie
permettent d’appuyer les deux théories. Par microspectrophotométrie, il
est possible de quantifier la portion de lumière, pour une longueur d’onde
donnée, absorbée par les photorécepteurs. Ainsi, il a été possible d’observer
qu’il y a effectivement trois types de cône, chacun ayant une absorption

maximale de lumière pour des longueurs d’onde différentes, comme le
laissait entendre la théorie de Young-Helmholtz. La valeur exacte de ces
longueurs d’onde varie quelque peu selon les études. Ainsi, l’on rapporte
des absorptions maximales à 420, 530 et 560 nm chez le macaque
(Bowmaker, Dartnall et Mollon, 1980) et à 425, 534 et 564 nm chez
l’humain (Bowmaker et Dartnall, 1980). Puisque ces valeurs correspondent
vaguement au bleu, au vert et au rouge, respectivement, certains auteurs
parleront plutôt des cônes du bleu, du vert ou du rouge. Bien qu’il puisse
être plus simple d’adopter ces termes, surtout dans le contexte de la théorie
trichromatique, il est plus exact de les appeler C, M ou L pour désigner
respectivement les cônes ayant leur absorption maximale de lumière avec
des ondes courtes, moyennes ou longues.
D’autres données de la physiologie permettent plutôt d’appuyer
l’autre théorie de la vision des couleurs, celle de Hering. Cependant,
contrairement à ce que soutenait ce dernier, ces processus antagonistes ne
se situent pas au niveau des récepteurs. Une investigation des fonctions des
cellules nerveuses au-delà des photorécepteurs dévoile que des cellules
fonctionnent effectivement de façon antagoniste. Cette investigation a été
faite à différents niveaux entre les photorécepteurs et le cortex strié,
notamment au niveau des cellules ganglionnaires et au niveau du corps
genouillé latéral. Dans ces deux cas, les réactions antagonistes sont compa-
rables. En se basant surtout sur la longueur d’onde à partir de laquelle une
cellule devenait inhibée plutôt qu’excitée, De Valois, Abramov et Jacobs
(1966) ont regroupé les cellules antagonistes du corps genouillé latéral en
quatre catégories (voir aussi De Valois et De Valois, 1988) :
R + V– V + R– B + J– J + B –
où R = rouge, V = vert, B = bleu, J =jaune, et où + signifie que les cellules

sont excitées par la présence de la couleur désignée et – signifie qu’elles sont
inhibées (figure 5.6). On trouve également deux types de cellules non anta-
gonistes au niveau du corps genouillé latéral. Ces cellules répondent à
toutes les stimulations, soit en augmentant leur activité (Blanc + / Noir –),
soit en la diminuant (Noir + / Blanc –).
Ainsi, on peut expliquer la vision des couleurs avec un système qui
constitue en quelque sorte un compromis entre les théories de Young-
Helmholtz et de Hering. Plus précisément, ce système, schématisé à la
figure 5.6, comporte deux niveaux : les trois types de cônes transmettent
leur information à un niveau plus central de traitement (De Valois et De

Valois, 1975). Au niveau de la rétine, l’information est captée par trois
types de cônes réagissant de façon optimale à leur longueur d’onde : les
cônes C pour les ondes courtes, M pour les ondes moyennes et L pour les
ondes longues. Au niveau des cellules ganglionnaires, l’information
provenant des photorécepteurs exerce une influence activatrice ou inhibi-
trice sur quelques-uns des quatre types de cellules antagonistes ou deux
types de cellules non antagonistes. Par exemple, les cônes sensibles à des
longueurs d’onde plus courtes auraient une action activatrice sur le système
B+J– et inhibitrice sur le système J+B–.
Figure 5.6 – Théorie du compromis de De Valois et De Valois où la vision des couleurs dépend de
l’activité nerveuse à deux niveaux. (1) Des cônes sont particulièrement sensibles aux ondes courtes,
moyennes et longues. (2) Au niveau suivant, il y a des processus antagonistes (les quatre de gauche)
et non antagonistes (les deux de droite). B = Bleu ; J = Jaune ; V = Vert ; R = Rouge ; N = Noir ; W =
Blanc ; + = Activation ; – = Inhibition ; Ligne continue = Activation ; Ligne pointillée = Inhibition.
Avec un tel système à deux niveaux, on expliquerait la tonalité par

l’excitation des processus antagonistes R-V, V-R, B-J et J-B. Ces processus
permettent aussi de comprendre pourquoi les couleurs complémentaires ne
peuvent pas coexister. Par exemple, on n’arrive pas à percevoir du rouge
tirant sur le vert, mais on arrive à percevoir du bleu tirant sur le vert (si les
cônes C et M sont excités). On expliquerait la brillance par l’activité des
cellules non antagonistes blanc-noir et noir-blanc. Enfin, la saturation
dépendrait de ce que les processus antagonistes seraient davantage excités
que le système Noir+Blanc-.
Enfin, la perception des couleurs dépend probablement aussi
d’autres mécanismes complexes. Des chercheurs ont identifié, au niveau du
cortex strié, des amas de cellules qui ne réagissent qu’aux couleurs

(Livingstone et Hubel, 1987 ; Michael, 1978). Ces cellules ont aussi la
propriété de posséder un champ récepteur avec double système antago-
niste. Ces cellules ont donc un champ récepteur semblable à celui décrit au
chapitre précédent, mais qui comporte en plus une opposition à l’intérieur
de chaque composante du champ.
5.5 Effets chromatiques

Même s’il existe peu d’explications définitives des différents phéno-
mènes perceptifs liés à la couleur, il convient de présenter quelques-uns de
ceux-ci. Certains phénomènes révèlent que la couleur n’est pas qu’une
simple affaire de longueurs d’onde ou de stimulations physiques. Il est
possible d’obtenir une forme de mélange de couleurs particulière en
fonction de la manière de présenter ces couleurs. Il peut en effet arriver que
le cerveau fasse une synthèse moyenne de ce qui est présenté. Des portions
colorées d’un champ visuel peuvent être confondues en raison de leur
densité. Par exemple, si de petits carrés de deux couleurs différentes se
succèdent, tant à l’horizontale qu’à la verticale, vous pourrez les distinguer
les uns des autres si vous êtes près de l’image. Vous discernerez correc-
tement la couleur de chacun des carrés. Par contre, si vous vous éloignez
considérablement de l’image, vous en viendrez à ne plus distinguer les
couleurs correctement. L’ensemble de l’image vous apparaîtra d’une
couleur différente, faite de la synthèse des deux couleurs utilisées. On parle
ici de synthèse spatiale. Dans la même veine, il est possible de créer des
conditions menant à une synthèse moyenne temporelle. Cette fois, vous
pourriez très bien discriminer deux couleurs sur un cercle, mais si vous
faisiez tourner ce cercle (comme on fait tourner une toupie), cela
conduirait, à une certaine vitesse, à l’incapacité de distinguer succinc-
tement les deux couleurs et le cerveau serait contraint de faire une synthèse
moyenne.
Les contraintes dans le temps ne se limitent pas aux seuls cas où des
couleurs sont en jeu. Parfois, des agencements en noir et blanc, comme
celui de la figure 5.7, permettent de générer différentes couleurs. Si on fait
tourner ces rayures noires sur fond blanc apparaissent des couleurs. Puisque
celles-ci varient d’une personne à l’autre, ce phénomène est appelé couleurs
subjectives. Selon Henri Piéron, psychologue français ayant œuvré dans la
première moitié du XXe siècle, la configuration et la vitesse de rotation du
disque influenceraient de façon sélective les récepteurs au rouge, au vert et
au bleu puisque les récepteurs n’ont pas tous la même vitesse de réponse.
D’autres auteurs soutiennent plutôt que l’explication ne se situerait pas au

niveau de la rétine. La stimulation se rendrait directement au cerveau. Elle
produirait une séquence d’événements neuronaux qui serait interprétée, en
raison de sa ressemblance avec l’effet réel de stimuli colorés, comme un
stimulus chromatique.
Figure 5.7 – Arrangement en noir et blanc – toupie de Benham – qui permet, en tournant rapide-
ment, de créer l’impression qu’il y a de la couleur.
Le contraste simultané consiste en un renforcement subjectif des

différences de couleurs. Autrement dit, la tonalité perçue dépend du
contexte (figure 5.8) et ce contexte peut accentuer les différences. Cela
pourrait être causé, selon Helmholtz, par une inférence inconsciente sur la
luminosité. Nous reviendrons sur ce concept d’inférence inconsciente,
dans le contexte de la perception de la profondeur (au chapitre 7). Pour
Hering, l’effet serait plutôt attribuable à l’inhibition latérale (dont il sera
question au chapitre suivant). Lorsqu’une région du système récepteur est
excitée par un stimulus chromatique, il se produit dans les régions voisines
une insensibilité aux stimuli de cette couleur. Cela a pour conséquence
d’activer la réponse à la couleur complémentaire.
Figure 5.8 – Exemple de contraste simultané où le carré rose du milieu semble moins foncé à gauche
qu’à droite.
À l’opposé d’un contraste simultané, il existe des effets d’assimilation

ou d’égalisation. Cet effet consiste en une atténuation subjective des diffé-
rences de couleur ou de luminosité de stimuli lorsque ceux-ci sont placés
en présence l’un de l’autre. Autrement dit, c’est lorsqu’une couleur
emprunte en quelque sorte la couleur de sa voisine. De façon générale, on
attribuerait cet effet à la grandeur des différents champs visuels sur la
rétine.
Un phénomène passablement spectaculaire survient lorsqu’on fixe
successivement une surface et ensuite une autre surface plutôt que de fixer
deux stimuli spontanément. Ce phénomène temporel est appelé image consé-
cutive. Lorsque vous fixez une image colorée sur une longue période, disons
une minute, puis fixer tout de suite après une surface blanche, vous voyez de
nouveau apparaître cette image. Cependant, plutôt que de voir les couleurs
initiales, celles que vous avez préalablement fixées, ce sont les couleurs
complémentaires qui apparaissent sur la surface blanche (figure 5.9).
Figure 5.9 – Est-il possible de transformer le drapeau de la Côte d’Ivoire, ci-dessus, en celui de la
France ? Il suffit de fixer le drapeau ci-dessus durant une minute et de regarder par la suite sur une
surface blanche.
Certains chercheurs expliquent la formation d’images consécutives

par le fait que les récepteurs spécifiques d’une couleur se fatiguent à force
d’être exposés à celle-ci. Si ensuite on regarde une surface blanche, qui
contient donc toutes les couleurs, il y aura une réponse plus grande des
récepteurs non fatigués, c’est-à-dire de ceux de la couleur complémentaire
à la première. Quoi qu’il en soit, l’existence d’un tel phénomène où les
couleurs complémentaires apparaissent après fixation constitue un appui à
la position de Hering décrite ci-dessus.
Il faut noter qu’il existe une forme particulièrement fascinante d’effet
consécutif lié à la couleur. Il s’agit de l’effet McCollough (McCollough,
1965). L’effet peut être obtenu en fixant chaque grillage du haut de la
figure 5.10) durant environ une quinzaine de secondes. Ensuite, il faut

regarder les grillages du bas. L’effet consécutif de couleur dépend de l’orien-
tation des barres. Comme couleur consécutive, il y aura quelque chose qui
tend vers le rouge entre les barres verticales et quelque chose qui tend vers le
vert entre les barres horizontales. Alors que l’on croit que les images consécu-
tives seraient attribuables à une adaptation neuronale au niveau de la rétine,
l’effet McCollough serait causé à un plus haut niveau de traitement, c’est-à-
dire là où il y a un traitement de l’orientation (à l’aire V1). Et qu’arrive-t-il si
l’on penche la tête ou si l’on tourne le livre (90 degrés) ?
Par ailleurs, de même qu’il existe un phénomène de constance pour
différentes dimensions de la perception visuelle, comme nous le verrons
plus loin, il existe ce que l’on appelle la constance de la couleur. Celle-ci
stipule qu’en dépit des variations chromatiques de l’éclairage, si bien
entendu celles-ci sont modérées, on arrive à reconnaître la couleur réelle
des objets. Autrement dit, même quand il commence à faire un peu nuit,
ou si une pièce intérieure est faiblement éclairée (suffisamment pour
stimuler les cônes) ou éclairée par une lumière d’une certaine couleur, mais
pas trop intense, un chandail rouge devrait continuer à paraître rouge,
comme il l’est par exemple à la lumière du jour. Ainsi, on peut croire que le
système visuel a probablement la propriété de transmettre les différences de
composition spectrale, comme il peut transmettre des différences
d’intensité.

II existe différents troubles de la vision des couleurs. Les problèmes
de discrimination du jaune et du bleu affectent de façon égale (bien en
dessous de 1 %) les hommes et les femmes. Les problèmes les plus fréquents
touchent la discrimination du rouge et du vert et surviennent plus
fréquemment chez l’homme que chez la femme (environ 8 % contre moins
de 1 %). Les gènes associés à ces couleurs sont situés sur le chromosome X.
Aussi, les femmes reçoivent deux chromosomes X plutôt qu’un seul comme
c’est le cas pour l’homme. Or, les femmes n’auront un trouble de la vision
des couleurs que si les deux chromosomes X sont déficients. C’est pour
cette raison qu’elles sont moins affectées d’un trouble de la vision des
couleurs.
Figure 5.10 – Dispositif nécessaire pour produire l’effet McCollough (voir le texte).
Plus spécifiquement, on distingue trois grandes catégories de

fonctionnement anormal. Le premier est le trichromatisme anormal. II
s’agit d’une insensibilité partielle à l’une des trois couleurs primaires. Dans
cette catégorie, on distingue les protanormaux, qui ont besoin d’une plus
grande quantité de rouge pour que le mélange rouge-vert donne du jaune.
Environ 1 % des hommes en sont affectés. Les deutéranormaux ont besoin
d’une plus grande quantité de vert pour que le mélange rouge-vert donne
du jaune : cela affecte environ 5 % des hommes. Enfin, les tritanormaux
ont besoin d’une plus grande quantité de bleu pour que le mélange
bleu-vert donne du « bleu-vert ».
Une deuxième grande catégorie est appelée le dichromatisme
anormal et consiste en une insensibilité complète à l’une des trois couleurs
primaires. Ainsi, le protanope, aveugle au rouge, voit en jaune et bleu, le
rouge et le vert bleuâtre sont vus comme étant du gris. Environ 1 % des
hommes en souffrent. Le deutéranope est aveugle au vert et voit aussi en
jaune et bleu. Le rouge bleuâtre et le vert sont aussi vus comme du gris. Ce
déficit affecte 1 % des hommes. Enfin, le tritanope ne voit qu’en rouge et
vert, mais ce déficit est très rare. Le bleu pourpre et le jaune vert sont vus
comme du gris.
La troisième grande catégorie est le monochromatisme. Extrêmement
rare, ce problème signifie que la vision se résume en nuances de gris. II est
causé par l’absence de fonctionnement des cônes et conséquemment, on ne
se surprend pas que cela résulte en une diminution d’acuité visuelle.
Il faut noter par ailleurs que des troubles de vision des couleurs
peuvent être causés par une atteinte de l’aire V4 du cortex visuel et non
seulement par un problème lié au fonctionnement des cônes. Enfin, il est
possible de détecter les problèmes de vision des couleurs à l’aide du test
d’Ishihara. Ce test consiste en une série de planches colorées sur lesquelles
apparaissent, à travers un ensemble de points, des nombres ou des dessins.
Les gens atteints de troubles de la vision des couleurs ont de la difficulté,
par exemple, à identifier correctement certains nombres lorsqu’ils sont
présentés dans les couleurs qu’ils ont de la difficulté à percevoir.
6
PERCEPTION DE LA FORME
On pourrait dire que nous vivons dans un monde où nos rétines sont
assaillies de partout. Des milliers de stimulations potentielles dans l’envi-
ronnement immédiat sont susceptibles d’atteindre notre œil. Ces stimula-
tions variées résultent des interactions entre les propriétés des surfaces et
celles des sources lumineuses (intensités et longueurs d’onde). De plus,
notre environnement est parfois fixe, parfois pas ; tantôt, des choses sont en
mouvement et tantôt, c’est nous qui bougeons. Il y a donc constamment
une variété inouïe de stimulations sur la rétine. Pourtant, nous arrivons à
tout instant à extraire de toute cette information quelque chose d’intelli-
gible ; par surcroît, nous y arrivons sans effort. Cette formidable efficacité
est rendue possible grâce à quelques mécanismes de base.
6.1 Perception des contours

Nous pouvons extraire une forme dans l’environnement parce qu’il
offre des variations de luminosité. Ces variations font en sorte qu’il y a des
délimitations entre les objets. Nous savons qu’il y a quelque part un objet
donné parce que nous percevons une délimitation entre cet objet et ce qui
l’entoure. Nous appelons cette délimitation un contour. Il s’agit là de ce
que l’on pourrait appeler l’unité élémentaire de la perception de la forme.
Afin de réaliser pleinement l’importance d’un contour, il suffit de
penser à ce qui arrive durant une tempête de neige. Lorsqu’il y a trop de
poudrerie, on ne voit plus rien, même si l’on essaie de garder les yeux
ouverts, car le champ visuel est éclairé uniformément (en allemand, on
parle d’un ganzfeld – champ complet). Pour faire l’expérience d’un champ
complet sans attendre la prochaine tempête de neige, il suffit d’essayer ce
qui suit. Prendre deux cuillères à soupe blanches en plastique ou bien
97
encore deux demi-balles de ping-pong blanches et faire une petite ligne

colorée à l’intérieur de telle manière qu’elle soit nettement visible. Ensuite,
il suffit de couvrir complètement les yeux avec les cuillères ou demi-balles
de telle façon qu’aucune lumière ne puisse entrer. Il faut garder les yeux
ouverts tout en fixant la ligne intérieure et éviter tout mouvement des
yeux. On doit poursuivre cette activité pendant plusieurs secondes de telle
manière que la ligne reste au même endroit sur la rétine.
Qu’arrive-t-il au bout de quelques secondes (moins d’une minute) ?
La ligne fixée disparaît à condition de ne pas avoir bougé. Pour percevoir la
forme, ne serait-ce qu’une simple ligne, il faut des variations de luminosité
entre cette forme et son environnement. On voit très bien la ligne au
début, mais on finit par la perdre de vue si l’on empêche le système visuel
de rétablir la perception d’un contour. En fait, l’image ne reste jamais
longtemps stable sur la rétine. Il y a toujours de petits mouvements,
appelés des microsaccades oculaires, qui font en sorte qu’une image bouge
un peu sur la rétine. Ces petits mouvements involontaires des yeux créent
des variations dans le temps sur les récepteurs de la rétine. Ce que l’expé-
rience des cuillères ou des demi-balles nous enseigne, c’est qu’il faut non
seulement percevoir des contours pour voir, mais il faut aussi que l’image
ne se stabilise pas sur la rétine afin d’éviter la disparition du contour.
Bordures et contours subjectifs
Le contour dépend le plus souvent de la présence d’une bordure.

Cette dernière peut être définie comme un changement de luminance ou
de composition spectrale se produisant quelque part dans l’environnement.
Le plus souvent dans l’environnement, des contrastes ou des changements
de texture créeront des bordures. Autrement dit, les contours relèvent
habituellement d’un phénomène physique, en l’occurrence de la présence
de délimitations. On parle parfois dans ce cas de contours de premier degré
(ou de premier niveau).
Comme le montre la figure 6.1, la présence d’une bordure n’est pas
toujours nécessaire à la formation d’un contour. Il est possible de percevoir
un contour sans qu’il y ait de variations physiques. On parle dans ce cas de
contours subjectifs ou de contours de deuxième niveau. On appelle aussi
contours émergents ces cas où l’on perçoit un contour alors qu’il n’y a stric-
tement aucune variation physique là où le contour est perçu.
Bref, pour percevoir une forme, il faut percevoir des contours. La
détection de ces contours dépend le plus souvent de la présence d’une
bordure causée par une hétérogénéité dans la stimulation. La perception de
6 – Perception de la forme 99
ces bordures requiert également que des variations de cette stimulation

surviennent sur la rétine. Ces variations sont assurées par des microsaccades
oculaires. Enfin, même en l’absence de bordures, il peut y avoir des contours,
dits subjectifs, mais la présence de ceux-ci exige quand même la présence de
conditions particulières dans l’environnement comme le montre la figure 6.1.
Figure 6.1 – Exemples de contours subjectifs. On peut voir un triangle et un carré à gauche, et une
ligne horizontale à droite.
Inhibition latérale
Il existe un mécanisme de base qui permet d’accentuer les variations

de luminosité perceptibles dans l’environnement qui génèrent une bordure.
Lorsque la lumière atteint la rétine sur un point donné, ce qui se situe tout
juste à côté de ce point subit une inhibition. Ce mécanisme par lequel
l’activité de certaines cellules nerveuses se répercute sur celle de ses voisines
s’appelle l’inhibition latérale. Ce phénomène, mis à jour par H. Keffer
Hartline et Floyd Ratliff, est une notion fondamentale de la physiologie
rétinienne.
Hartline et Ratliff (1957) ont travaillé sur le système visuel du
limule qui présente la particularité d’avoir une série de petits yeux élémen-
taires, des ommatidies, plutôt qu’un réseau de neurones très dense. Cette
particularité permet de stimuler plus facilement chaque œil lors de la
démonstration de l’effet d’inhibition latérale. Chaque ommatidie peut en
quelque sorte être comparée à la cellule ganglionnaire du système visuel
humain.
Dans les travaux de Hartline et Ratliff, l’activité électrique d’une
fibre nerveuse, disons A, est recueillie à l’aide d’une électrode. Lorsque le
récepteur correspondant à cette fibre A reçoit une stimulation lumineuse,
l’activité électrique augmente, ce qui indique que cette dernière est bien
liée à la stimulation (figure 6. 2). Lorsque seul un récepteur correspondant
à une fibre voisine B est stimulé, l’activité recueillie à partir de la fibre A
n’est pas affectée. Cela dénote l’indépendance de l’activité de B sur A
lorsqu’aucune stimulation ne touche A. Dans un cas où la stimulation

lumineuse est maintenue sur A et qu’une autre stimulation vient exciter B,
alors l’activité électrique observée plus tôt à partir de la fibre A est
diminuée. Autrement dit, B exerce un effet d’inhibition latérale, c’est-à-
dire qu’elle provoque une diminution de l’activité chez sa voisine A.
La force de cette inhibition dépend essentiellement de deux
facteurs : le rapprochement entre les cellules nerveuses impliquées et la
force de la stimulation sur la cellule inhibitrice. Plus forte est l’activité de la
cellule inhibitrice, plus grande est l’inhibition ; de même, plus rapprochée
sont les cellules inhibées et inhibitrices, plus grand est l’effet d’inhibition.
Les effets mutuels des cellules ou fibres nerveuses entre elles peuvent
être passablement compliqués. Qu’il suffise de nommer qu’il peut y avoir
un effet de diminution d’inhibition dans un cas comme le suivant. Soit les
fibres A, B, et C, disposées dans cet ordre. B exerce un certain effet d’inhi-
bition sur A lorsque la fibre C n’est pas stimulée. Mais lorsqu’une lumière
vient stimuler C, cette dernière inhibe l’activité de B. En ayant une activité
amoindrie, B exerce à son tour un effet d’inhibition moins marqué sur A.
Ainsi, l’activité électrique de A est plus élevée si les fibres A, B et C sont
stimulées que si seules les fibres A et B sont stimulées. L’activité recueillie à
partir de A dans la condition où A, B et C sont stimulées demeure
néanmoins inférieure à celle normalement observée lorsque seule la fibre A
est excitée.
Figure 6.2 – Illustration de l’effet d’inhibition latérale exercée sur une cellule, A, déjà activée par une
source lumineuse, par l’arrivée d’une stimulation lumineuse sur une cellule, B, située à proximité de A.
Les bandes de Mach
Il existe de nombreux effets perceptifs fascinants qui peuvent être

expliqués à partir de cette notion d’inhibition latérale. Un cas classique de
l’effet d’inhibition latérale est illustré par cette démonstration appelée les
bandes de Mach. Ernst Mach, qui a révélé cet effet, est ce même physicien et
philosophe autrichien qui a laissé son nom à l’unité servant à exprimer la
vitesse du son.
Soit la situation suivante où se succèdent des plages de noir et de
blanc et entre lesquelles se trouve un dégradé de gris (figure 6. 3). Bien que le
noir et le blanc soient chacun uniforme (même luminance), le fait d’avoir
inséré un dégradé de gris fait en sorte que ce qui est perçu (la brillance) n’est
pas uniforme. La plupart des gens perçoivent une petite ligne particuliè-
rement foncée (très noire) du côté où la luminance est faible ou
particulièrement pâle (très blanche) du côté où la luminance est forte. À ces
endroits, de chaque côté du gris, apparaissent donc sur le plan perceptif des
bandes de Mach. Le principal intérêt de cette démonstration se situe donc
au niveau des deux lieux où s’amorcent des changements de luminance.
On peut expliquer cet effet par l’inhibition latérale qu’exercent les
cellules entre elles. Par exemple, si l’on prend deux points rapprochés à peu
près au milieu de la séquence où la luminance est uniformément noire, ces
deux points subissent des niveaux d’inhibition provoqués par les cellules
voisines de gauche et de droite qui sont semblables. Ainsi, leur brillance est la
même. Si l’on prend plutôt un point X qui se situe là où s’amorce le
changement de luminance, alors l’inhibition exercée par les cellules de
gauche et de droite n’est plus la même. Si la transition amorce une augmen-
tation de luminance, la part de blanc du stimulus physique s’accroît et ainsi,
l’inhibition provoquée par les cellules de ce côté sur le point X est plus
grande que celle exercée par les cellules de l’autre côté. Ainsi paraît plus
foncée cette ligne de transition, car elle subit plus d’inhibition. Le même
raisonnement peut être appliqué à la situation inverse : là où s’amorce une
diminution de la luminance diminue l’effet d’inhibition. À ce point de
transition apparaît une mince bande plus brillante.
Figure 6.3 – Variations de luminance (ligne en noir) et de brillance (ligne en vert) correspondant à
l’image en noir et blanc. Les flèches indiquent les bandes de Mach. C’est un peu plus foncé sous la
flèche de gauche, et un peu plus clair sous la flèche de droite.
On peut également observer ce phénomène des bandes de Mach à la

figure 6.4 constituée d’une série de bandes uniformes. Ces bandes n’appa-
raissent pas uniformes lorsqu’on les regarde dans leur ensemble. Si on n’en
regarde qu’une, en cachant les autres de quelque manière, alors sa brillance
est uniforme, car la luminance d’une bande donnée est uniforme. C’est
l’activité exercée par les unes sur les autres qui détermine le niveau d’activité
neurale de chacune des cellules et, du coup, la brillance. Il s’agit donc d’une
série d’effets d’inhibition latérale.
Figure 6.4 – Autre illustration des bandes de Mach où une série de stimuli, chacun de luminance uni-
forme, apparaissent plus clairs dans la partie gauche et plus foncés dans la partie droite.
Facteurs influençant la perception des contours
De nombreux facteurs sont susceptibles d’influencer la manière de

créer des contours. Par exemple, on perçoit mieux les contours lorsque
l’acuité visuelle est plus grande. L’acuité étant plus grande à la fovéa, les
contours apparaissent plus clairement dans cette région. Plus on s’éloigne de
la fovéa, moins nets sont les contours. De même, les contours subjectifs
illustrés à la figure 6.1 sont des exemples de l’influence du contexte spatial
sur la création de contours.
Pour former un contour, il faut un minimum d’intensité de la stimu-
lation. L’intensité provient du nombre de photons absorbés par les
photorécepteurs. Or, la capacité de ces photons à produire un effet dépend
de la durée de leur arrivée à l’œil. Il faut un temps minimum d’exposition à
un stimulus pour qu’il puisse être détecté. Les photons peuvent bénéficier
d’un effet de sommation temporelle. Si leur arrivée s’espace trop dans le
temps, ils perdent ce bénéfice. C’est essentiellement ce que désigne la loi de

Bloch que l’on peut résumer ainsi :
I×T=C
Où l’interaction entre l’intensité, I, et le temps d’exposition, T, conduit à

un niveau constant, C, d’effet visuel. Si un stimulus est plus intense, il
pourra être détecté même en étant présenté sur une très courte période ; de
même, pour être détecté, un stimulus plus faible devra être présenté plus
longtemps.
En fait, cette interaction entre temps et intensité ne vaut que pour
des durées d’exposition très courtes, de moins de 100 ms. Au-delà de cette
durée, seule compte l’intensité dans le fait de percevoir ou non un stimulus.
Cette valeur de 100 ms vaut pour les bâtonnets ; pour les cônes, elle serait de
50 ms. Notez qu’il existe aussi une loi, de Ricco, qui ne s’applique qu’à la
fovéa et selon laquelle la détectabilité des stimuli est une combinaison de
l’intensité et de l’aire stimulée.
Par ailleurs, il existe différentes démonstrations qui illustrent l’impor-
tance de la durée d’exposition dans la perception des contours. À ce sujet,
une vieille expérience de Werner (1935) est très révélatrice. Dans cette
expérience, un disque noir et un anneau noir sont présentés en alternance à
un participant. Le contour extérieur du disque correspond exactement au
contour intérieur de l’anneau (figure 6.5-a). L’expérimentateur fait varier le
temps d’exposition des stimuli et le temps de pause entre les expositions.
Lorsque l’intervalle de temps entre les stimuli est plus petit que 100 ms, le
sujet perçoit un cercle plein (figure 6.5-b). Si l’intervalle entre les stimuli est
de plus de 200 ms, le sujet voit apparaître alternativement le disque et
l’anneau. Des pauses d’une durée variant de 100 à 200 ms ne permettent au
sujet de percevoir que l’anneau. Ainsi, en fonction d’un facteur temporel, il
peut y avoir un effet de masquage qui s’installe. La formation du contour
interne de l’anneau empêche le contour du disque d’être vu. Et si c’est le
disque et seulement un demi-anneau (figure 6.5-c) qui est présenté entre
100 et 200 ms, seul le demi-disque peut être détecté (figure 6.5-d).
Figure 6.5 – Disque et anneau de l’expérience de Werner (1935). Voir le texte pour les explications.
6.2 Gestalt : organisation perceptive

Déjà, il y a un siècle, Max Wertheimer avait développé une manière
d’approcher l’étude de la perception de la forme. L’école de pensée dite de la
Gestalt, qui signifie forme, allait s’imposer, notamment avec les contribu-
tions de Wolfgang Kohler et Kurt Koffka, autres spécialistes allemands de la
psychologie de la sensation et de la perception, et collaborateurs de
Wertheimer. La théorie dite de la Gestalt, et qui désigne l’ensemble des
travaux sur la structuration perceptive, consiste à expliquer comment le
système visuel regroupe les divers éléments présents dans le champ visuel.
Il y a dans cette notion de Gestalt l’idée que percevoir, c’est plus que
l’ensemble des sensations produites par des stimuli. Il y a une organisation
de ces stimuli. Une personne organise les éléments d’une scène visuelle pour
en extraire un sens. L’organisation de ces éléments comporte deux aspects
qui seront décrits dans les prochains paragraphes. Il y a d’une part la
distinction entre une figure et un fond, et d’autre part un regroupement
d’éléments selon certaines caractéristiques que l’on appelle parfois les lois de
la Gestalt.
Distinction figure/fond
En regardant un champ visuel, certaines parties se différencient des

autres. On regarde d’une manière particulière afin de faire ressortir certaines
parties de ce champ. Dans une tâche aussi simple que de regarder un tableau
sur un mur, il y a une manière de regarder. Notre regard est porté sur l’objet
dominant de notre champ visuel, le tableau ; pour sa part, le champ
avoisinant, le mur, sert de fond. Il existe donc une distinction fondamentale,
la figure par opposition au fond, dans notre manière de regarder. Ces deux
parties du champ comportent leurs propres caractéristiques. Dans une scène
visuelle, le contour semble appartenir à la figure plutôt qu’au fond. La figure
ressemble à quelque chose et semble être plus rapprochée que le fond. Il peut
parfois y avoir une ambiguïté dans la figure, comme à la figure 6.6, qui
pourra se résoudre en fonction de la manière de voir. À la figure 6.6, à droite,
le noir est perçu comme fond et ce sont des losanges blancs qui sont perçus
spontanément. À la figure 6.6, à gauche, les losanges blancs s’imposent
beaucoup moins spontanément. En fait, l’idée que le blanc puisse constituer
le fond s’impose un plus facilement que sur la figure de droite. En consé-
quence, nous percevons beaucoup plus facilement des losanges noirs.
Figure 6.6 – Illustration de la propension à voir, à droite, des losanges blancs sur fond noir alors qu’à
gauche, on peut tantôt voir des losanges noirs sur fond blanc ou des losanges blancs sur fond noir.
En général, une figure a une forme et une certaine signification alors

que le fond est plutôt désorganisé. En fait, plusieurs facteurs objectifs déter-
minent cette distinction figure/fond. Ces facteurs sont illustrés à la
figure 6.7. Il s’agit là de facteurs dits objectifs en ce qu’ils sont déterminés par
les stimuli. Une image placée dans une orientation horizontale verticale sera
plus spontanément perçue comme figure qu’une image placée dans des
orientations diagonales. Ainsi, il devrait être plus facile de percevoir une
croix blanche dans la portion de gauche de la figure 6.7-a que dans la
portion de droite. Dans la portion de droite, on perçoit plus spontanément
la croix grise que la croix blanche. De même, une image plus petite (ou plus
mince) est plus facilement perçue comme figure qu’une image plus grande.
Il s’agit de la grosseur relative. Ainsi, à la figure 6.7-b, on perçoit plus
facilement une croix grise qu’une croix blanche à gauche, et l’inverse à
droite. En fait, les croix minces de la figure 6.7-b s’impose encore plus que
les croix de la figure 6.7-a.
Par ailleurs, un facteur très puissant est la symétrie (ou la régularité).
Quand des objets ou des figures sont symétriques, ils ont plus de chances
d’être perçus comme figures. Ainsi, parce que les quatre morceaux noirs de
la figure 6.7-c sont sur un fond de page blanche, on tend à les percevoir
comme figures. Pourtant, il aurait été possible de percevoir une figure
blanche entre les deux morceaux noirs du centre mais en étant très irrégu-
lière, elle n’arrive pas à s’imposer. De plus, les deux morceaux noirs étant
symétriques, ils s’imposent perceptivement, encore plus que ne le font les
deux morceaux noirs les plus à droite.
Quand une image se trouve à l’intérieur d’une autre, elle risque
aussi d’être reconnue comme figure plutôt que comme fond. Ce facteur est
appelé inclusion (on parle parfois de surroundedness, en anglais). Ainsi, le
carré au milieu de la figure 6.7-d, à gauche, n’agit pas comme fond mais
fait partie d’une figure complexe entourée d’un cercle. Pourtant, des
portions du cercle auraient pu faire partie de la figure si ce qui s’était
imposé perceptivement avait été des éléments comme ceux de la portion de
droite de la figure 6.7-d.
Notons qu’il existe différents autres facteurs objectifs susceptibles de
contribuer à la distinction figure/fond. Par exemple, les motifs à l’intérieur
d’une image peuvent être déterminants pour percevoir une figure ; ce
facteur est appelé l’articulation interne. Aussi, différents facteurs subjectifs
sont également susceptibles d’influencer cette distinction. Parmi ces
facteurs, il y a l’expérience antérieure de la personne qui perçoit de même
que ce vers quoi l’attention est portée. Que des traits individuels exercent
une influence sur ce qui est tiré d’une scène visuelle donnée ne surprendra
guère les psychologues cliniciens qui utilisent des tests projectifs.
Figure 6.7 – Caractéristiques objectives de la distinction figure/fond : a) l’orientation ; b) la grosseur ;

c) la symétrie et d) l’inclusion (voir le texte).
Groupement perceptif
Le système perceptif visuel a tendance à regrouper automatiquement,

c’est-à-dire sans effort cognitif, certains éléments présents dans le champ
visuel. Ce regroupement se fait sur la base de certains principes identifiés par
les gestaltistes. On désigne ces principes d’organisation comme les lois de la
Gestalt.
Nous avons tendance à regrouper ensemble les éléments les plus
rapprochés les uns des autres. Cette tendance est appelée la loi de la
proximité. Ainsi percevrons-nous spontanément, à la figure 6.8-a, 4 groupes
de 3 éléments plutôt que 12 éléments. Une série d’éléments peuvent être
équidistants les uns des autres, mais certains d’entre eux peuvent être
regroupés en raison de leur ressemblance. C’est ce que veut la loi de la
similarité (figure 6.8-b).Une troisième loi, dite de la bonne continuité, révèle
que les éléments d’un ensemble qui forment une série continue, ou s’ins-
crivent dans une continuité les uns par rapport aux autres, tendent à être
perçus comme s’ils formaient une unité. Ce qui est perçu à la figure 6.8-c, ce
sont deux lignes qui se croisent, plutôt que les deux éléments illustrés tout
juste à la droite de ces lignes.
Plus récemment, dans ce que l’on pourrait appeler une Gestalt
moderne, d’autres principes d’organisation perceptive ont été dévoilés. Ces
autres principes sont très puissants. Le premier est celui de la connexité
(connectedness, en anglais). Le fait de connecter des éléments ensemble,
comme on le fait à la figure 6.8-d, fait en sorte que les autres principes
n’arrivent pas s’imposer. De même, les éléments faisant partie d’une même
région sont perçus comme étant ensemble. On parle ici du principe de région
commune, illustré à la figure 6.8-e.
Par ailleurs, il existe d’autres lois de la Gestalt. Par exemple, la loi de
la fermeture selon laquelle le système visuel tend à percevoir une figure
comme étant fermée, qu’elle le soit complètement ou en partie ; si elle n’est
pas complètement fermée, le système se charge de le faire (voir les contours
subjectifs, figure 6.1). Aussi, plus une forme est régulière ou symétrique,
plus elle s’impose au système perceptif. Il s’agit de la loi de la prégnance,
aussi appelée loi de la bonne forme (et parfois de la symétrie). Enfin, un
autre facteur très puissant qui organise la manière de voir est lié au fait que
certains éléments bougent. S’ils bougent dans la même direction, on les
perçoit comme étant groupés ensemble. Il s’agit ici de la loi du sort (ou
destin) commun (ou loi du mouvement commun).
Figure 6.8 – Illustrations des lois de la Gestalt : a) proximité ; b) similarité ; c) bonne continuité ;
d) connexité ; e) région commune.
6.3 Théorie des canaux spatiaux multiples

Une manière très originale d’aborder la question de la perception de
la forme a été proposée vers la fin des années 1960. Cette approche, élaborée
par F. W. Campbell et J. G. Robson est connue comme la théorie des canaux
spatiaux multiples (Campbell et Robson, 1968).
Concepts de base
La théorie des canaux spatiaux multiples part d’une idée simple :

chaque image peut être décomposée en une série de variations cycliques de
luminance. Le lecteur déjà familier avec les bases physiques de la perception
auditive sait que le son peut être interprété comme des variations de pression
en fonction du temps. Dans la même veine, une scène visuelle peut être
décrite comme des variations, mais plutôt que de décrire ces variations en
fonction du temps, elles le sont en fonction de l’espace.
Il faut savoir que la grandeur de l’image rétinienne dépend de la
distance à laquelle se trouve l’objet regardé. Pour une image d’une taille
donnée et par rapport à une distance donnée, la grandeur sur la rétine est
deux fois plus petite si l’image est deux fois plus éloignée. Quand on
regarde une image, la fréquence spatiale dépend ainsi des variations de
luminance (« clair/foncé ») et de la distance à partir de laquelle est perçue
l’image. Pour un angle visuel donné, il y a un certain nombre de ces varia-
tions. Par exemple, un objet de 175 mm de diamètre situé à 10 mètres
d’une personne sous-tend chez cette dernière un angle visuel d’environ
1 degré. Une variation où ont alterné une période claire et une période
foncée constitue un cycle. Il devient ainsi possible d’exprimer ce qui est vu
en nombre de cycles par degré d’angle visuel. Il s’agit là de la fréquence
spatiale, qui est une des quatre caractéristiques qui permettent de
comprendre l’idée de Campbell et Robson.
Une scène visuelle – un grillage – comme celle illustrée à la figure 6.9
peut être décrite à l’aide d’une onde sinusoïdale. La fréquence spatiale est
plus élevée en C qu’en A ou B. Ce qui distingue A et B, c’est une deuxième
caractéristique : le contraste. Pour un cycle donné allant d’une bande claire
à une bande foncée, la variation d’intensité n’est pas la même. La zone est
plus claire en B qu’en A. Quand les différences entre les bandes claires et
foncées sont grandes, on dit que le contraste est grand. Si le contraste est
trop faible pour qu’une différence entre les deux zones soit perçue, c’est
que l’on se trouve sous le seuil de visibilité. On quantifie le niveau de
contraste à l’aide d’une échelle en pourcentage, de 0 à 100 %, c’est-à-dire
de l’incapacité de percevoir le contraste au contraste le plus fort.
Figure 6.9 – La fréquence spatiale est beaucoup plus élevée en C qu’en A ou B, mais ces deux der
nières diffèrent en raison du contraste qui est plus élevé en B qu’en A.
Deux autres caractéristiques permettent de compléter la description

d’une scène visuelle. Ainsi, les grillages comme ceux de la figure 6.10
(colonne de gauche) sont identiques, mais leur position n’est pas la même.
C’est leur phase spatiale qui les distingue. Enfin, les barres des grillages
peuvent être plus ou moins inclinées. Ceux de la colonne de gauche et ceux
de la colonne de droite diffèrent sur la base d’une caractéristique fonda-
mentale appelée l’orientation.
Figure 6.10 – Les grillages de la colonne de gauche diffèrent en raison de leur phase tandis que ceux
de la colonne de droite diffèrent en raison de leur orientation.
Dans la vie de tous les jours, les scènes visuelles sont rarement aussi
simples, ou aussi bien découpées, que celles décrites dans les figures 6.9 et
6.10. La figure 6.11-E par exemple est plus complexe. Pourtant, elle contient
une série d’éléments plus simples. En utilisant une procédure mathématique
appelée analyse de Fourier, il est possible de décomposer une scène complexe
sur la base d’éléments plus simples, en l’occurrence une série d’ondes sinusoï-
dales. Les grillages 6.11-A et 6.11-B permettent de former le grillage 6.11-D.
Si l’on ajoute le grillage 6.11-C à 6.11-A et 6.11-B (ou à 6.11-D), on obtient
la figure complexe rapportée en 6.11-E. Notez que la fréquence spatiale en
6.11-C est beaucoup plus élevée que celle en 6.11-B, qui est elle-même
beaucoup plus que celle en 6.11-A.
Figure 6.11 – Le grillage en E est complexe, mais est constitué en fin de compte du mélange des
grillages A, B et C, le grillage D résultant du mélange de A et B.
Bien que consciemment, nous n’ayons pas l’impression qu’elles y

sont, chacune des composantes d’un grillage comme celui illustré à la figure
6.11-A agit sur le cerveau. Ces différentes composantes excitent des
ensembles différents de neurones. Pour chaque composante, il y a donc dans
le cortex visuel un ensemble de neurones qui lui sont propres. Pour qu’une
forme soit perçue au niveau cortical, il est nécessaire de synchroniser l’activité
d’une série de neurones spécialisés.
Dans le cadre de cette explication de Campbell et Robson fondée sur
des fréquences spatiales, un tel ensemble de neurones est appelé un canal. Il
s’agit en quelque sorte d’un détecteur de fréquences. Chaque canal est
sensible à des fréquences spatiales qui s’étendent sur une bande étroite.
Aussi, parce que plusieurs canaux sont souvent activés en même temps, on
parlera de la théorie des canaux multiples, et plus spécifiquement de la
théorie des canaux spatiaux multiples puisqu’il s’agit de fréquences spatiales.
Lorsqu’on utilise des images en carrés comme celle rapportée à la
figure 6.12, on peut réaliser que percevoir une forme, c’est filtrer ce que sont
ces images en fonction des fréquences spatiales qui s’y trouvent. Selon la
distance à laquelle on se trouve, ce ne sont pas les mêmes fréquences spatiales
qui sont en jeu et conséquemment, ce sont différents canaux spécialisés qui

sont activés. Les carrés ajoutent du bruit à l’image. Quand on est à une
distance de lecture normale, l’image n’est pas claire en raison de la présence
supplémentaire de hautes fréquences ; une série de petits carrés sont perçus.
Quand on s’éloigne, on change la fréquence spatiale et une vision plus claire
est rétablie.
Sur un plan plus pratique, cela veut dire que si l’on présente à la
télévision une image en carrés pour cacher le visage d’un criminel ou d’un
accusé, on sait maintenant que l’on risque d’augmenter les chances d’iden-
tifier la personne en s’éloignant du téléviseur ! On sait également que
lorsqu’on change l’angle avec lequel on regarde quelque chose, on voit les
choses différemment. Il est bon de s’en souvenir lors d’une visite dans une
galerie d’arts visuels où sont exposés des tableaux. L’impression change si l’on
adopte différentes perspectives. L’effet est encore plus frappant dans une
galerie comme le Musée d’Orsay à Paris, par exemple, où sont exposées les
œuvres de grands maîtres impressionnistes. Différents angles et différentes
distances, permettent d’apprécier les œuvres par exemple de Van Gogh, de
Renoir ou de Monet, ou d’artistes comme Georges Seurat ou Paul Signac
qui utilisent le pointillisme pour créer des impressions.
Figure 6.12 – Image en blocs d’Abraham Lincoln, floue de près, mais plus claire en s’éloignant (de
Harmon et Julesz, 1973, avec la permission de l’American Association for Advancement of Science).
Fonction de la sensibilité aux contrastes
La théorie des canaux spatiaux multiples offre une nouvelle interpré-

tation de la perception de la forme, et du coup, une nouvelle façon
d’approcher l’étude ou la mesure des capacités visuelles. Nous sommes
capables de percevoir les images de différentes distances en mettant en jeu

différentes fréquences spatiales. Cependant, pour des fréquences spatiales
données, nous n’avons pas la même efficacité pour percevoir. Du reste,
comme c’est le cas pour l’étendue des fréquences audibles dans le domaine
de l’audition, ou des longueurs d’onde visibles comme on l’a vu au chapitre
précédent, nous ne sommes pas sensibles à toutes les fréquences spatiales.
Tout comme il est possible de compenser une certaine inefficacité
dans la perception de certaines fréquences auditives en augmentant la force
du son, il ne sera possible de percevoir une image, pour certaines fréquences
spatiales données, qu’en augmentant le contraste. Autrement dit, le seuil de
perception doit être augmenté. Ce lien entre la fréquence spatiale et le seuil
de perception est décrit par ce que l’on appelle la fonction de la sensibilité
aux contrastes (FSC ; en anglais : contrast sensibility function). Bref, la sensi-
bilité aux contrastes est décrite en fonction de la fréquence spatiale.
Pour l’humain, cette sensibilité est plus grande, ou meilleure, à
environ 3 cycles/degré. C’est à cette fréquence que le seuil est le plus bas.
L’étendue de cette sensibilité des systèmes visuels varie d’une espèce animale
à une autre et selon les niveaux d’éclairage. Compte tenu des exigences de
leur environnement, on ne se surprend pas d’apprendre que les poissons
rouges ont une sensibilité maximale pour des images ayant une fréquence
spatiale d’environ 0,3 cycle/degré, mais qu’à l’opposé, les faucons qui
sillonnent le ciel et cherchent des proies sur terre ont une sensibilité
maximale pour des fréquences spatiales d’environ 30 cycles/degré.
Cette notion de FSC comporte des implications pratiques intéres-
santes. En fait, elle permet de mesurer les capacités visuelles de façon plus
complète que le traditionnel test d’acuité visuelle, la charte de Snellen
(figure 6.13). Avec ce dernier, la capacité visuelle n’est testée que dans une
condition optimale, c’est-à-dire dans des cas où le contraste est élevé. Aussi,
les tests ne sont exécutés qu’avec de hautes fréquences. Or, les conditions de
visibilité avec lesquelles nous devons composer ne sont pas toujours
optimales. Par exemple, il se peut bien que vous ayez à conduire une
automobile dans une brume plus ou moins épaisse ou lorsqu’il neige ou qu’il
pleut abondamment. Dans de tels cas, le contraste n’est pas à son maximum.
Il se peut fort bien que les gens ayant la meilleure acuité visuelle, telle qu’elle
est mesurée par la charte de Snellen, n’aient pas la plus grande sensibilité aux
contrastes pour les basses fréquences spatiales. Une telle remarque s’applique
également aux pilotes d’avion qui doivent composer avec toutes sortes de
conditions climatiques, notamment à travers les nuages (Ginsburg, Evans,
Sekuler et Harp, 1982).
Figure 6.13 – Quelques lignes de la charte de Snellen.
Au fait, la charte (ou test) de Snellen est un outil traditionnel

d’examen ophtalmologique permettant de quantifier l’acuité visuelle. Mis
au point par le néerlandais Herman Snellen vers le milieu du XIXe siècle,
cet outil est encore très utilisé de nos jours. Ces chartes sont calibrées de
différentes manières (différentes grosseurs de lettres). Une manière
classique d’en faire usage consiste à faire la lecture d’une distance de
20 pieds (6 m en Europe). Il faut lire les lettres d’un seul œil, une lettre à la
fois, et descendre jusqu’aux plus petites lettres qu’il est possible de lire. Il
s’agit de déterminer si une personne arrive à lire à 20 pieds ce que l’on
arrive normalement à lire de cette distance. Lorsqu’on dit qu’une personne
a une lecture de 20/15, on dit que cette personne voit à 20 pieds ce qu’une
personne voit à 15 pieds. Comme le diraient certains humoristes, « pour
lire les lettres, c’est assez facile ; c’est le texte qui est difficile à comprendre ! »
6.4 Reconnaissance de la forme

Il est difficile d’évoquer la perception de la forme sans parler de la
capacité à la reconnaître. Or, pour reconnaître une forme, il faut en avoir
une représentation. Il devient donc nécessaire, pour comprendre les
mécanismes de la perception de la forme, de faire référence à des notions
de plus haut niveau. Dans cette partie du chapitre, il ne sera plus seulement
question de ce qui stimule la rétine, mais plutôt de ce que l’on retient de
ces stimuli, des différentes scènes visuelles, des objets ou des visages.
Exemplaires ou caractéristiques ?
Pour comprendre l’intérêt théorique de l’étude de la reconnaissance,

il faut d’abord bien comprendre les exigences posées par la tâche. Tous les
lecteurs du présent ouvrage connaissent la lettre A et sauraient sans diffi-
culté la reconnaître, qu’il s’agisse de a, a, a, a, a, a, a, ou a. Pourtant, il est
fort probable que vous n’ayez jamais vu un ou quelques-uns de ces A.
Imaginez maintenant toutes les versions de A que vous avez écrites à la
main ou mieux encore, toutes les versions de A que l’ensemble des humains
ont écrites depuis un an. Même en n’ayant vu qu’un très faible pourcentage
de ces A, vous seriez capables de reconnaître la plupart de ceux-ci. Cette
situation indique que nous n’avons pas à avoir tout vu une première fois
pour qu’il soit possible de reconnaître certaines formes. Malgré toutes les
transformations possibles d’un même objet, nous le reconnaissons. On
appelle invariance la capacité de reconnaître un stimulus visuel en dépit des
transformations qu’il a subies, ou en dépit de l’angle nouveau sous lequel
on le voit.
Un premier modèle pour rendre compte de cette capacité de recon-
naître est appelé « l’appariement à un exemplaire ». Selon ce modèle, un
exemplaire serait gardé en mémoire et surimposé sur une forme de manière
à vérifier à quel point cet exemplaire et la forme se ressemblent. Une fois
l’apprentissage du A complété, il devient possible de tenter un appariement
avec celui que l’on perçoit. Un tel point de vue théorique repose sur la
nécessité de conserver en mémoire un vaste répertoire d’images et de
gabarits. Cette idée a l’avantage d’être simple, mais ne permet pas
d’expliquer vraiment comment on peut expliquer l’invariance. Il faudrait
tout apprendre une première fois, ce qui ne semble pas très économique si
l’on pense à l’espace en mémoire que nécessiterait l’entreposage à la suite
d’un tel apprentissage.
Plutôt que d’apprendre des exemplaires, nous apprenons peut-être
des caractéristiques. Cette perspective stipule que les stimuli sont plutôt
définis comme des combinaisons de caractéristiques élémentaires. Si l’on
reprend l’exemple précédent, celui de l’apprentissage des lettres, il s’agirait
plutôt de faire la comparaison, non pas avec un exemplaire, mais avec la
définition de ce qui est retenu. Pour les lettres, des questions pertinentes
seraient, par exemple, les suivantes : « Y a-t-il des lignes avec une orien-
tation verticale ? Y a-t-il des intersections ? Y a-t-il des courbes ? » Compte
tenu de la spécificité de certaines cellules pour un traitement en fonction
de l’orientation (chapitre 4), ce modèle a une certaine plausibilité d’un
point de vue physiologique (Hubel et Wiesel, 1968). Aussi, si on fait une
expérience durant laquelle la tâche consiste à dire si les deux lettres
présentées sont identiques ou non (Gibson, Shapiro et Yonas, 1968, dans

Reed, 1982), le temps de réponse sera plus long si les lettres se ressemblent
(P et R, par exemple), que si elles ne se ressemblent pas (G et W, par
exemple). Autrement dit, le traitement est plus long et doit être plus
complet, si plusieurs caractéristiques sont en commun.
Il semble donc y avoir une reconnaissance de la forme fondée sur les
caractéristiques. Mais comment se fait ce traitement ? S’agit-il d’un
traitement en séquence, où chaque élément est traité successivement ou
d’un traitement simultané, en parallèle ? Selon Selfridge (1959), qui a
élaboré une théorie dite du pandémonium, ce traitement se fait en
parallèle, selon trois étapes. Les différentes caractéristiques (courbe,
angles,…) sont d’abord enregistrées, puis des unités spécialisées (démons
des caractéristiques) s’occupent alors de les identifier. Des unités repré-
sentant les lettres (démons cognitifs) s’occupent ensuite de révéler le niveau
d’accord entre la lettre qu’elles représentent et les caractéristiques enregis-
trées. À un troisième niveau, des unités (démons de la décision) seraient
affectées à l’identification du démon cognitif ayant manifesté le plus fort
niveau d’accord.
Une approche computationnelle
On peut voir dans la théorie du pandémonium un premier signe de

théorie computationnelle de la reconnaissance de la forme. Par une telle
approche, on essaie de développer des programmes (série de calculs) qui
permettent de faire le lien entre ce qui arrive à la rétine et la représentation
des objets ou du monde physique. Si la neurophysiologie nous renseigne
sur le disque dur, elle ne nous informe pas sur la dynamique (les processus
impliqués) qui permet de voir et de reconnaître la forme.
Pour Marr (1982), la représentation perceptive est une construction
qui suit différentes étapes. Il existe d’abord une première étape de filtrage
qui permet d’extraire les grandes caractéristiques d’une image. Selon les
propriétés du filtre, que l’on peut associer aux champs récepteurs qui sont
de différentes tailles et qui permettent d’accentuer les contours, on tire une
idée plus ou moins grossière de cette image. En fait, des filtres plus étroits
sont plus sensibles aux fréquences spatiales élevées.
L’information tirée de cette opération de filtrage entraîne ainsi en
une esquisse primitive en deux dimensions (en 2D). Voilà une première
étape fondamentale dans la théorie computationnelle de Marr. L’entrée sur
la rétine des différentes variations d’intensité lumineuse est traduite en
caractéristiques telles les bordures, les intersections, etc. Bref, les contours
sont détectés et les grands traits de l’image sont tirés. On peut comparer
cette étape à celle de l’ébauche au crayon d’un artiste peintre. Vient ensuite
une représentation en 2,5D où les caractéristiques sont plutôt organisées
en fonction de l’orientation, de la profondeur, des ombres ou de la texture.
À cette étape, l’objet n’est pas encore un tout structuré. Toute l’information
tridimensionnelle n’est pas pleinement saisie. À ce point du traitement,
l’esquisse dépend du point de vue de l’observateur et du coup, un
changement de perspective pourrait empêcher la reconnaissance. La
troisième étape est celle du modèle en 3D. Il est centré sur l’objet plutôt
que sur le point de vue de l’observateur. Les surfaces sont structurées en
composantes volumétriques.
Un modèle structurel
Un autre modèle visant à rendre compte de la formidable capacité

de reconnaître la forme a été proposé par Biederman (1987). Selon cet
auteur, cette reconnaissance est fondée sur des composantes structurelles.
Un peu comme on avait une description des lettres ci-dessus en fonction
de caractéristiques structurales, on pourrait décrire les objets en fonction
d’une série de structures de base. On pourrait comparer ce point de vue à
l’idée que quelques dizaines de phonèmes permettent de produire et de
reconnaître les milliers de mots d’une langue (voir le chapitre 3). Ainsi, la
description de tous les objets pourrait être réduite en une série de compo-
santes de base. Les objets en mémoire seraient représentés sous la forme
d’un arrangement spatial de composantes géométriques. Ce sont ces
composantes qui font en quelque sorte office de phonèmes. On les appelle
géons, de l’anglais « geometric ions ». La figure 6.14 illustre quelques-uns
de ces géons ; selon Biederman, il y en aurait 36. Notons que ces géons
ressemblent aux cylindres dont Marr et Nishihara (1978) se servaient pour
décrire différentes formes.
Figure 6.14 – Quelques exemples de géons, structures de base du modèle de reconnaissance par
composantes de Biederman (1987).
On extrait directement les géons à partir des caractéristiques 2D.

Ce sont ces géons et leur position entre eux qui déterminent l’objet. Si
nous avons un cylindre avec un arc sur le côté, nous aurons la représen-
tation d’une tasse ; mais si l’arc est sur le dessus, il s’agira plutôt d’un seau.
Quel que soit le point de vue d’un observateur, cette description en
fonction des structures et de leurs relations ne change pas. On arrive donc
avec ce modèle à rendre compte de cette importante propriété qu’est l’inva-
riance spatiale. Ce modèle est intéressant, car il offre une certaine résistance
aux contraintes qui accompagnent parfois la vision des objets. Pour recon-
naître, il suffit que les géons ne soient pas détériorés.
Les agnosies
Il existe un trouble propre à l’identification ou à la reconnaissance

d’objets. Ce problème est appelé agnosie, et est diagnostiqué comme tel
lorsqu’il ne relève ni d’une déficience intellectuelle, ni d’un trouble
sensoriel, ni d’un trouble du langage. En général, on dit que les agnosies
sont causées par des problèmes perceptifs ou par des problèmes de repré-
sentations en mémoire.
Les agnosies aperceptives peuvent dépendre de la difficulté
d’extraire des caractéristiques de base comme des coins ou des bords. Il
s’agit donc d’un problème très grave. On parle dans ce cas d’agnosie de la
forme. D’autre part, il pourrait arriver que les caractéristiques soient
perçues, mais qu’il ne soit pas possible d’en tirer une configuration globale.
On parle alors d’agnosie intégrative. Une troisième catégorie d’agnosie
perceptive est dite de transformation. Dans ce cas, on n’arrive pas à recon-
naître des objets présentés sous un angle nouveau.
Par ailleurs, on distingue deux catégories d’agnosie liées à un
problème de représentations mnésiques. Il y a les agnosies causées par la
perte des représentations structurales, qui causent un trouble de l’imagerie et
la perte d’un sentiment de familiarité avec l’objet. Parfois, il y a des agnosies
dites associatives, caractérisées par l’incapacité de trouver la signification de
l’objet, soit parce que la représentation sémantique en mémoire est
détériorée, soit parce qu’il n’est pas possible d’accéder à cette représentation.
Enfin, on appelle prosopagnosie le trouble qui consiste en une
incapacité à reconnaître les visages, même son propre visage. Dans un tel
cas, la vue du visage n’active pas de sentiment de familiarité ou d’éléments
biographiques. Dans certains cas, la personne atteinte est même incapable
d’identifier si le visage présenté est celui d’une personne jeune ou vieille,
celui d’un homme ou d’une femme, ou encore quelle émotion le visage
exprime. Notons en terminant que la reconnaissance des visages est en soi

un domaine d’étude spécifique et fascinant de la reconnaisse de la forme
(Tsao et Livingstone, 2008). Une des questions débattues concerne le fait
que le visage serait d’abord perçu comme un tout (modèle holistique) par
opposition à un point de vue où les traits et leur organisation spatiale
seraient analysés avant la reconnaissance du visage.
7
PERCEPTION DE LA PROFONDEUR
Le fait que nous puissions voir le monde de façon tridimensionnelle

demeure intrigant si l’on considère le fait singulier suivant : les images arri-
vent sur la rétine en deux dimensions. Personne n’est spontanément porté à
douter qu’il existe un monde physique comportant une troisième dimen-
sion. Pourtant, cette troisième dimension, il faut que le cerveau la
construise. Le présent chapitre s’attaque à ce phénomène, celui de la
construction de l’espace ou, plus spécifiquement, de la profondeur (que l’on
pourrait aussi appeler la perception du relief ou de la tridimensionnalité).
Dans les chapitres précédents, certains aspects de la perception
visuelle renvoyaient à des notions de physique pour comprendre la nature
des stimuli ou à des notions de physiologie ou des sciences du cerveau pour
comprendre certaines bases biologiques. Dans le présent chapitre, une
attention spéciale est portée aux phénomènes psychologiques qui
permettent de percevoir cette troisième dimension. Après une revue des
indices de perception de la profondeur, deux phénomènes seront à l’étude.
Le premier, fondamental, et qui ne touche d’ailleurs pas que la perception
de la profondeur, est celui de la constance perceptive. Le second, plutôt
amusant à l’occasion, révèle les cas où lesdits indices peuvent être trompeurs
et induire des illusions.
7.1 Indices de perception d’une troisième dimension

La capacité de percevoir la profondeur est rendue possible grâce à la
contribution de différents indices. Ces indices sont en quelque sorte des
trucs qui permettent au cerveau de dégager cette impression de profondeur.
Cependant, ces trucs ne demandent aucun effort volontaire ; ils sont activés
spontanément par les données fournies par la scène visuelle.
121
Pour bien comprendre comment sont étudiés ces indices, il convient

de procéder à quelques distinctions. D’abord, dans l’étude de l’estimation
de la distance, par exemple, les chercheurs distingueront distance absolue
et distance relative. L’idée de distance absolue, parfois aussi appelée égocen-
trique, renvoie à l’estimation de la distance entre un objet et celui qui
observe cet objet. Par opposition, on fait référence à la distance relative, ou
exocentrique, pour désigner la distance entre les objets ou entre des parties
de ces objets. Si nous avons généralement du mal à estimer précisément la
distance absolue, nous arrivons en revanche à discerner très bien si un objet
est plus ou moins rapproché de soi qu’un autre objet.
Par ailleurs, les différents indices que l’on peut utiliser peuvent être
distingués selon les trois catégories dichotomiques suivantes. Il peut s’agir
d’indices oculomoteurs (non visuels) plutôt que d’indices visuels. Ainsi, les
renseignements relatifs à la profondeur peuvent ne pas être tirés de ce que
le système propre à la vision a à offrir, mais par une source appartenant à
une autre modalité sensorielle, en l’occurrence, le système kinesthésique.
On distingue également les indices picturaux, qui sont statiques, des
indices cinématiques, qui sont dynamiques, liés au mouvement. Enfin – et
c’est sur la base cette distinction que seront décrits ci-dessous les différents
indices –, il existe des indices binoculaires, par opposition à monoculaires.
Indices binoculaires
Le fait d’avoir deux yeux, et d’avoir une certaine distance entre eux,
permet d’avoir une meilleure perspective sur ce qui se passe dans notre
environnement. Il est possible de percevoir la profondeur avec un seul œil,
mais certains indices requièrent le fonctionnement conjoint des deux yeux.
Ces indices, appelés binoculaires, sont très puissants, car ils ajoutent de la
précision à notre appréciation de la troisième dimension.
La convergence binoculaire
Un premier indice impliquant la contribution des deux yeux est

appelé la convergence binoculaire. Lorsqu’on regarde un objet, il y a une
convergence des deux yeux vers celui-ci. Si un objet est éloigné, l’angle
décrit entre le point de convergence et les yeux est petit. Si l’objet est
rapproché, l’angle de convergence est plus grand. Or, selon l’angle de
convergence, les globes oculaires seront plus ou moins déplacés. Avec ces
déplacements sont générés des indices non visuels sur la distance à laquelle
se trouve l’objet. Ces indices sont d’origine kinesthésique, car ils relèvent
7 – Perception de la profondeur 123
des récepteurs kinesthésiques situés à l’intérieur des muscles oculomoteurs,

muscles qui permettent le mouvement des yeux.
Ce serait davantage le mouvement de convergence, plutôt que l’état
de convergence, qui fournirait ces indices. La convergence binoculaire
donne de l’information sur la distance absolue. Aussi, cet indice serait plus
efficace quand les objets sont rapprochés (disons moins de 6 m). Vous
pouvez d’ailleurs sentir qu’il se fait un travail au niveau des globes oculaires
lorsque vous approchez un doigt vers votre nez et essayez de le suivre des
yeux.
La disparité rétinienne
Un deuxième indice binoculaire est appelé disparité rétinienne. Le

fait qu’il y ait une distance entre les yeux n’est pas banal du tout. Cela
signifie que l’on a deux points de vue quand on regarde un objet : pour un
objet donné, nous voyons deux images. On désigne par le terme disparité le
fait de recevoir deux images d’une même chose, et disparité binoculaire le
fait que cette disparité soit causée par les deux yeux. Le fait de percevoir le
relief de façon binoculaire est aussi appelé stéréoscopie (et parfois parallaxe
binoculaire) et l’appareil qui permet de recréer un effet de profondeur avec
deux images différentes d’un même objet, une pour chaque œil, est appelé
stéréoscope.
On réalise facilement que les yeux offrent chacun un point de vue
lorsque l’on place un doigt à 15 cm devant soi, à la hauteur des yeux. En
alternant la fermeture d’un œil puis de l’autre, on s’aperçoit que ce sont des
vues différentes du doigt qui apparaissent. Tout aussi important est le fait
suivant. Placer un deuxième doigt à 15 cm derrière le premier, dans le
même axe. En posant le regard sur le doigt le plus rapproché, on peut
noter en y prêtant attention que le doigt le plus éloigné est vu double. En
posant plutôt le regard sur le doigt le plus éloigné et en portant attention
à celui qui est rapproché, c’est celui-là qui est vu double.
Cette différence quant à la netteté de l’image en fonction de
l’endroit où se fait la mise au point est très importante. Elle nous enseigne
que tout ce qui se trouve dans notre champ visuel n’est pas vu clairement.
On appelle horoptère une ligne d’horizon devant soi où la vision est
simple ; cette ligne est en fait une aire, appelée aire de Panum. Selon la
distance du point de fixation, la grandeur et la forme de cette aire changent
légèrement. En dehors de cette aire, la vision est double. Si la vision simple
est possible même si nous avons deux yeux, donc deux images pour un
même lieu de fixation du regard, c’est que pour chaque endroit donné sur
la rétine d’un œil, il y a un point de correspondance précis sur la rétine de

l’autre œil.
Par ailleurs, il importe de noter que la vision double du doigt
rapproché et du doigt éloigné, quand on fixe son regard sur le doigt
rapproché et le doigt éloigné, respectivement, comporte une différence
fondamentale. En replaçant deux doigts comme on l’a fait plus tôt et en
fixant le doigt rapproché, le doigt éloigné est vu double. Or, en fermant
l’œil droit tout en continuant à fixer le doigt devant, le doigt éloigné est vu
avec l’œil gauche à la gauche du doigt rapproché ; de même, en fermant
plutôt l’œil gauche, le doigt éloigné est vu avec l’œil droit à la droite du
doigt rapproché. Ainsi, lorsque les deux yeux sont ouverts et que l’on fixe
un point donné, ce qui se trouve au-delà de ce point est vu en disparité
homonyme.
On peut faire la démonstration inverse en fixant le doigt éloigné,
mais en portant attention à celui qui est rapproché. En fermant alternati-
vement un œil puis l’autre tout en continuant à fixer le doigt éloigné, on
s’aperçoit que le doigt rapproché est vu, avec l’œil gauche, à la droite du
doigt éloigné, et avec l’œil droit, à la gauche du doigt éloigné. Il s’agit ici
d’un cas de disparité croisée. Le cerveau dispose donc d’un indice de
perception de la profondeur qui permet de déterminer si un objet se trouve
avant le point de convergence du regard ou au-delà.
Enfin, il faut noter qu’un champ visuel d’environ 120 degrés est vu
devant soi de façon binoculaire. À cela s’ajoutent environ 40 degrés de
vision monoculaire à gauche grâce à l’œil gauche, et à droite grâce à l’œil
droit.
Indices monoculaires
Les indices monoculaires de perception de la profondeur sont des

sources d’information sur la distance qui restent disponibles même
lorsqu’un observateur n’utilise qu’un seul œil. Il en existe un très grand
nombre, pour la plupart d’origine visuelle. Cependant, il y en a un,
l’accommodation, qui est d’origine kinesthésique. Le fait qu’un objet soit
plus ou moins éloigné entraîne un changement de la forme du cristallin. Si
un objet est éloigné, le cristallin est moins courbé. Or, l’aplatissement du
cristallin exige une contraction musculaire et celle-ci produit des indices
kinesthésiques susceptibles d’être utilisés par le cerveau.
Parce que de nombreux objets ont une taille typique, il peut arriver
que l’on estime la distance sur la base de cette connaissance. Par exemple,
on connaît assez bien la taille normale d’une carte. Si l’on n’est pas dans des
conditions particulières comme celles qui causent des illusions optico-
géométriques (voir ci-dessous), on peut miser sur la combinaison de cette
connaissance et de la grandeur rétinienne pour estimer la taille. On appelle
cet indice la grandeur familière. Ainsi, si l’on regarde une pièce qui
ressemble à une pièce de deux dollars canadiens (ours polaire), et si on le
fait dans un environnement où d’autres indices de perception de la
profondeur ne sont pas disponibles, on posera l’hypothèse que la taille de
cette pièce est normale pour estimer à quelle distance elle se trouve. S’il
devait arriver que cette pièce soit en fait de plus petite taille (parce qu’un
ami joue un tour ou qu’un chercheur en psychologie de la perception
étudie les mécanismes de la perception de la profondeur), l’on serait induit
en erreur et l’estimation de la distance serait erronée.
Un indice de perception de la profondeur puissant et très exploité
dans le domaine du dessin est appelé perspective linéaire. Lorsque deux
lignes comme celles représentées à la figure 7.1 convergent vers un point de
fuite, elles donnent une impression de profondeur. Les points les plus
rapprochés les uns des autres semblent les plus éloignés de l’observateur.
Plus la partie de l’image est éloignée, plus petite est la distance entre chaque
ligne occupée sur la rétine. Ce que nous voyons dans le monde réel en trois
dimensions peut ainsi être transposé sur une image en deux dimensions en
jouant sur la distance entre les objets dessinés et sur leur taille.
Figure 7.1 – Bien que les rails soient parallèles, la distance entre eux semblent s’amenuiser en allant
du bas de l’image vers le milieu, ce qui induit une forte impression de profondeur. Il s’agit ici d’un
exemple de la perspective linéaire.
En fait, cet effet de perspective linéaire causé par la convergence

pourrait être considéré comme un cas particulier d’un indice plus général
que James Jerome Gibson, dont il est question ci-dessous, appelle la
texture. Il s’agit en fait d’un indice qui recoupe à la fois la perspective
linéaire et la taille relative des objets composant une scène visuelle. On
parle le plus souvent de gradients de texture pour désigner le fait que la
densité et la grandeur des éléments d’une scène visuelle varient en fonction
de leur éloignement. Ainsi, comme on peut le voir sur la figure 7.2, lorsque
des points sont plus petits et plus rapprochés les uns des autres, ils semblent
être plus éloignés. Plus ce qui est regardé est éloigné, plus les éléments sont
compacts.
Figure 7.2 – Lorsque des gradients de texture sont uniformes, comme sur la gauche, aucune impres-
sion de profondeur n’est créée ; par contre, la compression des points et leur taille hétérogène, sur la
droite, donnent une impression de profondeur.
Un autre indice visuel de perception de la profondeur est appelé le

recouvrement. Cet indice, aussi appelé interposition ou occlusion, désigne
le fait que des objets, ou des parties d’une scène visuelle, sont souvent
cachés par d’autres objets. Ce qui est recouvert apparaît forcément comme
étant plus éloigné que ce qui cause le recouvrement. Ce puissant indice ne
dit rien sur la distance entre l’observateur et l’objet, mais permet d’avoir
une idée de la distance des objets les uns par rapport aux autres. La figure
7.3 permet de constater combien cet indice est puissant.
Un autre indice basé sur la relation entre deux objets permet de tirer
des conclusions quant à leur distance relative. Il s’agit de la hauteur relative.
Plus un objet se trouve près du point d’horizon, plus il semble loin. En
conséquence, pour les objets liés au sol, c’est-à-dire sous le point d’horizon
(ce qui du reste est généralement là où est posé notre regard), plus un objet
est haut dans le champ visuel, plus il semble éloigné (figure 7.4). À
l’inverse, si le regard est posé en haut du point d’horizon, ce sont les objets
les plus bas qui semblent les plus éloignés.
Figure 7.3 – Si l’on ne voit que les deux cartes de gauche, on peut facilement s’imaginer qu’il s’agit
de cartes de même taille, le 5 de cœur étant plus éloigné que le 3 de trèfle. Il n’est pas possible d’en
arriver à la même conclusion avec les cartes de droite en raison du recouvrement. Parce que le 5 de
cœur recouvre une partie du 3 de trèfle, le 5 de cœur doit nécessaire se trouver en avant de l’autre
carte (c’est-à-dire être plus près) ; du coup, il n’est pas possible de croire que ces cartes sont de la
même taille.
Figure 7.4 – La hauteur relative est un indice très fort de perception de la distance. Lorsqu’on regarde
les choses au sol, plus elles se trouvent haut dans le champ visuel, plus elles sont loin. On comprend
sans difficulté que C est plus éloigné que B qui est plus éloigné que A. Lorsqu’on regarde le ciel, la
hauteur est aussi un indice mais cette fois-ci, plus un objet se trouve en hauteur dans le champ visuel,
plus il est rapproché. Ainsi, le nuage D est plus éloigné que le nuage E, qui est lui-même plus éloigné
que le nuage F.
Par ailleurs, les différents agencements de lumière et de clarté

peuvent contribuer à donner une impression que des objets ou des parties
du champ visuel sont plus ou moins rapprochés. Par exemple, dans l’obs-
curité, le plus lumineux de deux objets est perçu comme plus près. Cet
indice est appelé brillance relative. Un peu dans la même veine, l’utilisation
d’ombres (figure 7.5) permet de créer une impression que quelque chose
est plus ou moins rapproché. Dans le cas de la figure, on a l’impression que
certains cercles sont concaves et d’autres convexes. Or, cette impression
peut s’inverser en tournant le livre de 180 degrés. En fait, l’angle d’éclairage
à partir d’une source lumineuse est susceptible de changer la perception
d’un objet, d’une image ou d’un visage. Il est aussi connu que la distance
crée une atténuation des contours. Cet indice est appelé perspective
aérienne (ou netteté relative) et est plutôt utile dans l’estimation de la
distance d’objets éloignés. Plus le contour d’un objet est net, plus l’objet
semble rapproché, car les contrastes de luminosité sont atténués par la
distance. Ainsi, une auto ou même une montagne est susceptible de vous
paraître plus rapprochée par beau temps que dans des conditions de
brume.
Figure 7.5 – Impressions de profondeur (concave versus convexe) créées par un jeu d’ombres. Les
images de gauche et de droite sont identiques mais ont subi une rotation de 180 degrés.
Un autre indice monoculaire, mais lié au mouvement celui-là, est

appelé parallaxe de mouvement. Le terme parallaxe signifie un changement
de position. Or, il est ici question des cas où ce changement est causé par le
mouvement d’un observateur. Pour comprendre le lien entre le mouvement
et l’impression de distance, il suffit de placer un doigt devant soi, d’y fixer
son regard tout en bougeant la tête vers la gauche puis la droite. Quand la
tête va à gauche, on a l’impression que le doigt va à droite ; quand elle va à
droite, il va à gauche. Le mur derrière le doigt semble pour sa part aller

dans le même sens que la tête, mais ce qui se trouve entre soi et le doigt (le
point de fixation), va dans la direction opposée. Cela constitue un indice
pour savoir si un objet se trouve avant un point de fixation ou au-delà de
celui-ci. Plus important est le point suivant : plus un objet est rapproché,
plus grande sera la distance parcourue sur la rétine. Ainsi, les objets dans le
champ visuel donnent l’impression de ne pas se déplacer à la même vitesse.
Plus grande est la vitesse, plus rapprochés sont les objets. On peut vérifier
cette affirmation en circulant sur une route dans le siège du passager : le
gravier au bord de la route semblera s’éloigner rapidement vers l’arrière
tandis que la montagne au loin, ou un nuage, semblera vous suivre tout
doucement. Vous savez pourquoi maintenant on a l’impression que la lune
nous suit lorsqu’on circule en auto le soir !
On peut résumer la présente section en se référant au tableau 1 où
sont classifiés les indices de perception de la distance selon qu’ils sont
binoculaires ou monoculaires, visuels ou non visuels, statiques ou
dynamiques, et selon qu’ils servent à apprécier une distance relative ou
absolue.
Tableau 1
Résumé et classification des indices de perception de la profondeur
Indices Nature Distance

Binoculaires Convergence* K A
Disparité V R
Monoculaires Accommodation K A
Grandeur familière V A
Hauteur relative V R
Netteté V R
Occlusion V R
Parallaxe de mouvement* V R
Perspective linéaire V R
Texture V R
K = Kinesthésique ; V = Visuel ; A = Absolue ; R = Relative.

* Indice dynamique (les autres indices sont statiques)

En terminant, il convient de noter que la présence de certains indices
dans une scène visuelle détermine la manière de voir. Il peut arriver
cependant que la scène puisse être interprétée de différentes façons, c’est-à-
dire que des indices puissent conduire à une certaine réversibilité. C’est le cas
du cube de Necker (figure 7.6) où, selon que l’on considère que la surface 1
recouvre la surface 2, ou que la surface 2 recouvre la surface 1, la surface 1
sera vue comme étant au premier plan ou en arrière-plan. De même, l’utili-
sation en peinture de certains effets de recouvrement peut conduire à la
construction de jolies scènes qui semblent réelles, mais qui ne pourraient
d’aucune manière être observées dans la nature. L’artiste néerlandais Maurits
Cornelis Escher est passé maître dans l’élaboration de scènes mettant en jeu
ce genre de tromperie. Pour voir certaines œuvres de l’artiste, il suffit de
taper son nom sur un moteur de recherche d’Internet. De même, en tapant
« trompe-l’œil » sur Internet, on a accès à de nombreuses autres illustrations
qui permettent de constater combien une juste utilisation des indices de
perception de la profondeur par des artistes peintres permet de créer de
puissantes impressions, parfois vertigineuses, d’une troisième dimension.
Nous reviendrons plus loin sur certaines impressions particulières, les
illusions, causées par une utilisation particulière des indices de perception de
la profondeur.
Figure 7.6 – Le cube de Necker, à gauche, peut être vu comme celui du centre ou celui de droite.
7.2 La constance perceptive

Cette section, qui porte sur la notion de constance perceptive, aurait
pu être introduite à différents endroits dans le présent ouvrage, car elle
s’applique à des dimensions autres que celle –la constante de la taille – qui
sera approfondie dans les prochains paragraphes. La constance perceptive est
un mécanisme de base du système perceptif grâce auquel à peu près tout
semble ordonné. Sans ce mécanisme, on ne pourrait rien reconnaître. Toutes
les stimulations physiques seraient un véritable chaos et tout serait toujours à
recommencer.
Ce qui arrive sur la rétine change continuellement. Si une chaise est

présentée à un observateur d’un angle sous lequel elle n’a jamais été vue,
l’observateur arrive quand même à identifier qu’il s’agit d’une chaise. On
peut tourner la chaise dans tous ses sens et varier constamment les patrons
d’énergie lumineuse qu’elle envoie vers la rétine de l’observateur. Cette
chaise conserve toujours ses caractéristiques objectives et l’observateur est en
mesure de savoir, sans l’ombre d’un doute, que deux patrons d’énergie
complètement différents arrivés à sa rétine prennent leur source d’un même
objet. Autrement dit, voir ne se résume pas à la simple stimulation des
cellules rétiniennes.
Types de constance
Parmi les différents types de constante perceptive, on note la constance

de la forme. Ainsi un objet maintient sa forme même si les différentes incli-
naisons dans différents plans de l’espace provoquent autant de variations de
l’image projective (voir le chapitre précédent sur la reconnaissance de la
forme). De même, en vertu de la constance de la couleur, il est possible à un
observateur de reconnaître la tonalité d’un objet même si l’éclairage projeté
sur cet objet change de composition spectrale, à condition tout de même
que ce changement ne soit pas exagéré. Aussi, la brillance de l’objet ne varie
pas malgré des différences d’intensité de l’éclairage, et ce, en raison de la
constance de la brillance. De même, en dépit des différences de vitesse de
l’image rétinienne que peut occasionner la distance en profondeur, il est
possible d’évaluer correctement la vitesse d’un objet en mouvement grâce à
la constance de la vitesse.
Dans le contexte de la perception de l’espace, c’est-à-dire de la tridi-
mensionnalité, la question de la constance perceptive touche
particulièrement la constance de la taille. On peut définir cette dernière
comme le maintien de la taille apparente d’objets ou de personnes en dépit
de ce que la grandeur de l’image sur la rétine diminue avec l’éloignement de
ceux-ci. Autrement dit, ce n’est pas parce que l’image rétinienne d’une
personne qui s’éloigne de l’observateur rapetisse que cette personne lui
semble plus petite. À moins qu’il n’y ait dans l’environnement un jeu
d’indices qui induit l’observateur en erreur, il continue de croire que la
personne a la même taille.
Interprétations et investigations
Une question devenue classique se pose à propos de la nature de la

constance de la taille : relève-t-elle d’une prise en considération de la
distance ? De façon générale, pour désigner cette question, on fait référence
au principe d’invariance taille-distance (Kilpatrick et Ittelson, 1953). Cette
hypothèse de l’invariance entre taille et distance stipule essentiellement
qu’un observateur détermine la taille apparente sur la base de deux indices
combinés, la distance perçue et la grandeur de l’image rétinienne. Cette idée
est exprimée par plusieurs auteurs sous des formes différentes. Ainsi, déjà
Helmholtz avait invoqué la participation d’un mécanisme, l’inférence incons-
ciente, pour désigner le fait que la distance est prise en considération dans
l’estimation de la taille d’un objet, cette manière de prendre en considération
s’installant sans le concours de mécanismes conscients. On désigne aussi
parfois cette perspective théorique comme la théorie de l’algorithme
(Epstein, 1977), par opposition à une théorie dite relationnelle. Dans cette
dernière, l’estimation de la taille d’un objet ou d’une personne ne relève pas
d’une prise en considération de la distance à laquelle se trouve cet objet ou
cette personne, mais plutôt d’une mise en relation avec l’information dispo-
nible dans l’entourage de l’objet ou de la personne. Il s’agit en fait davantage
d’une relation de type taille-taille que de type taille-distance. Nous revien-
drons brièvement sur ce point de vue dans la sous-section suivante.
Cette question de la prise en considération de la distance dans l’éva-
luation de la taille a fait l’objet de nombreuses investigations empiriques.
Une façon d’illustrer l’importance que semble avoir la distance dans l’éva-
luation de la taille consiste à utiliser une image consécutive. Comme on l’a
vu au chapitre 5 sur la perception des couleurs, une image consécutive est
une image qui reste en quelque sorte imprimée sur la rétine pendant
quelques secondes après une stimulation prolongée. En demeurant fixe sur la
rétine, cette image conserve toujours la même grandeur rétinienne. Or, la
grandeur apparente de cette image est reliée à la distance à laquelle se trouve
la surface sur laquelle l’image est projetée. Plus la surface en question est
éloignée, plus grande paraît l’image. Cette relation entre la taille apparente
d’une image consécutive et la distance de la surface qui sert à l’observer est
connue sous le nom de loi d’Emmert. Elle permet d’illustrer le fait que la
taille apparente d’un objet dépend non seulement de la grandeur de l’image
rétinienne, mais aussi de la distance à laquelle est perçu cet objet et donc,
vraisemblablement, de la prise en considération de cette dernière.
Parmi les différentes études élaborées afin de tester l’hypothèse de
l’invariance taille-distance, ou la théorie de l’algorithme, la plus classique est
probablement celle de Holway et Boring (1941). Dans cette expérience,
quelques observateurs, dont les auteurs, commandaient à l’expérimentateur

un ajustement d’un stimulus de comparaison, situé à 10 pieds du sujet
(environ 3 m). Cet ajustement était fait en fonction d’un stimulus standard
situé dans un long corridor à différentes distances, de 10 à 120 pieds (de 3 à
36 m), du sujet (figure 7.7). Les stimuli, standard et de comparaison, étaient
projetés sur des écrans. Les images formées consistaient en des illuminations
circulaires uniformes. Pour chaque distance à laquelle se trouvait le stimulus
standard, celui-ci était ajusté de telle sorte que l’image rétinienne était
maintenue constante, c’est-à-dire qu’elle sous-tendait constamment un angle
visuel de 1 degré.
Figure 7.7 – Schéma de la situation expérimentale élaborée par Holway et Boring (1941). Dc =
Distance du stimulus de comparaison (10 pieds ~ 3 m) ; Ds = Distance du stimulus standard (de 10
à 120 pieds ~ de 3 à 36 m) ; O = observateur.
L’idée de l’expérience était de voir si l’ajustement du stimulus de

comparaison allait être conforme à la taille réelle du stimulus standard
comme le veut l’hypothèse de l’invariance taille-distance. Ainsi, s’il n’y a pas
de prise en considération de la distance dans l’ajustement, celui-ci sera
toujours le même ; et si la distance est prise en considération, l’ajustement
sera conforme à la taille réelle du stimulus, ou s’en rapprochera.
Holway et Boring ont poussé leur raisonnement un peu plus loin. Si
la distance est bel et bien prise en considération, alors différentes conditions
d’estimation de la distance devraient avoir un effet sur l’ajustement du
stimulus de comparaison. Ainsi, les ajustements ont été exécutés sous quatre
conditions : 1) une condition de vision binoculaire où l’évaluation devait être
la meilleure ; 2) une condition où la seule restriction était d’utiliser une
vision monoculaire ; 3) une condition de vision monoculaire à travers une
pupille artificielle qui avait pour effet de réduire les indices que fournit la
parallaxe de mouvement et 4) une condition de vision monoculaire à travers
une pupille artificielle et avec des conditions d’éclairage réduit afin de

réduire le plus possible les sources d’information sur la distance.
Holway et Boring (1941) ont observé que dans les conditions où des
indices d’évaluation de la distance sont disponibles, l’ajustement du stimulus
de comparaison se rapproche de la grandeur réelle de l’objet. Autrement dit,
même si la grandeur rétinienne du stimulus standard reste la même, la taille
perçue de l’illumination circulaire change en fonction de la distance : plus
grande est la distance, plus grand est le cercle lumineux et l’ajustement du
stimulus de comparaison est fait en conséquence. La figure 7.8 illustre les
résultats obtenus dans chaque condition. Il importe de noter que la perte
d’indices provoque directement, comme le laisse entendre la pente de
chaque fonction, une diminution de la grandeur estimée du stimulus
standard. L’ensemble de ces résultats peut être interprété comme un appui à
l’hypothèse de l’invariance taille-distance souvent soulevée pour expliquer la
constance de la taille.
Point de vue de Gibson
Malgré l’élégance de cette démonstration, d’autres auteurs

soutiennent que cette hypothèse peut être prise en défaut (Kilpatrick et
Ittelson, 1953) et constitue plutôt une description de résultats dans certaines
conditions qu’une explication générale. En fait, en enlevant des indices de
perception de la profondeur, on altère aussi la qualité de la mise en relation
de grandeur.
Il existe une position tranchante dans le domaine de la perception
visuelle, voulant qu’il n’y a aucun besoin de traitement cognitif ou de
mécanismes d’inférence pour estimer, par exemple, la profondeur. Selon
Gibson (1966, 1979), tout ce qu’il faut au système perceptif est déjà dispo-
nible dans l’environnement. Selon le point de vue gibsonien, tout ce qui se
trouve dans l’environnement (les surfaces ou objets) arrive à l’observateur
avec des caractéristiques physiques spécifiques. Les déplacements de l’obser-
vateur déterminent ce qui arrive jusqu’à l’œil et l’information qui s’y trouve
est déjà organisée. Si l’on coupe un observateur des repères que procurent les
mouvements, comme c’est notamment le cas dans l’expérience de Holway et
Boring, notamment quand il faut regarder par une pupille artificielle, on
entrave le bon fonctionnement, voire la connivence, entre l’observateur et
son environnement.
Figure 7.8 – Résultats de l’expérience de Holway et Boring (1941 – voir leur figure 22) où sont
regroupées les quatre conditions expérimentales : (1) vision binoculaire ; (2) vision monoculaire ; (3)
vision monoculaire avec pupille artificielle et (4) vision monoculaire avec pupille artificielle et indices
réduits. Les lignes pointillées désignent les résultats attendus dans les cas d’une constance perceptive
parfaite (diagonale) et d’une constance perceptive nulle (pente nulle). (1 pouce ~ 2,54 cm ; 1 pied ~
30 cm).
Gibson adopte donc une position dite écologique où seules les situa-
tions naturelles permettent de réellement comprendre le système visuel.
Dans cette psychologie gibsonienne, l’environnement nous fournit non
seulement spontanément des stimulations physiques précises, mais aussi une
information quant à la fonction de ce qui est observé (quand il s’agit d’un
objet par exemple). Voir une chaise active aussi dans le cerveau de l’obser-
vateur ce à quoi sert une chaise, s’asseoir. Dans la terminologie gibsonienne,
cette idée que percevoir est indissociable de la fonction est appelée affordance
(c’est-à-dire, ce que nous fournit ce qui est observé).
7.3 Les illusions

Les systèmes perceptifs sont généralement très fiables et permettent
d’être adaptés aux exigences de l’environnement et à ses caractéristiques.
Malgré l’efficacité de ces systèmes, il arrive que l’observateur soit induit en
erreur lorsque ces caractéristiques sont particulières. Dans le domaine de la

perception visuelle, de telles erreurs d’interprétation ont des conséquences
passablement étonnantes, voire spectaculaires. Ces erreurs d’interprétation
sont causées non pas par une défaillance du système comme l’incapacité de
maintenir la constance perceptive, mais par les caractéristiques objectives de
l’environnement.
Ces erreurs sont appelées illusions d’optique, ou illusions optico-
géométriques, et on les observe à différentes magnitudes et aux différents
âges de la vie. Comme elles relèvent d’un fonctionnement normal du
système visuel, elles constituent une occasion de nous informer sur la nature
des processus perceptifs. Il ne faut donc pas les confondre avec les hallucina-
tions, qui sont carrément des perceptions sans objet perceptif (sans stimuli)
ou avec les mirages, qui sont un phénomène physique causé par des réflexions
de rayons lumineux particulières.
Variété d’illusions
Il existe bien entendu des effets visuels très forts comme ceux causés
par les contours subjectifs décrits au chapitre précédent. En plus de ces effets,
il y a quelques centaines d’illusions qu’un lecteur intéressé peut découvrir en
consultant des ouvrages plus anciens (Coren et Girgus, 1978 ; Shepard,
1990) ou simplement en allant sur certains sites accessibles par Internet.
Nous ne nous attarderons ici qu’à présenter les plus classiques ou certaines
des plus spectaculaires. Plusieurs de ces illusions ont été dévoilées au
XIXe siècle et portent le nom de la personne qui les a fait connaître.
La classification de ces illusions en nombre restreint de catégories
demeure un exercice difficile à faire (Coren, Girgus, Ehrlichman et
Hakstian, 1976). Certaines classifications comme celle de Gregory (1997)
peuvent en fait comporter de nombreuses nuances. Celle de Piaget est plus
simple. Bien qu’il soit davantage reconnu pour ses travaux sur le dévelop-
pement de l’intelligence, Jean Piaget s’est penché en profondeur sur le rôle
de la perception dans la connaissance. Certains de ses travaux, notamment
regroupés dans un ouvrage intitulé Les mécanismes perceptifs (Piaget, 1961),
portent en particulier sur les illusions et sur les variations de leur ampleur
avec l’âge. Inspiré par Alfred Binet, qui distingue les illusions optico-géomé-
triques innées et acquises, Piaget parle plutôt d’illusions primaires et
d’illusions secondaires. Une illusion primaire, aussi appelée effet de champ, a
pour propriété fondamentale de ne pas varier qualitativement avec l’âge.
Cependant, l’aspect quantitatif, c’est-à-dire la force d’une illusion de ce type,
variera avec l’âge. Aussi, Piaget ne va pas jusqu’à dire comme Binet qu’il
s’agit d’un effet inné. Les illusions secondaires sont plutôt celles découlant
d’activités perceptives. Ces activités provoquent une diminution de certaines
illusions primaires et l’apparition de nouvelles illusions.
La figure 7.9 permet de faire connaissance avec les illusions basées sur
des effets d’angle. Cette catégorie d’illusions est très puissante. On compte
parmi celles-ci la spectaculaire illusion de Sanders où les barres obliques
traversant un des parallélogrammes sont étonnamment de la même
longueur. Parmi les autres illusions de ce type, il y a celles de Zöllner,
d’Hering et de Poggendorff.
Figure 7.9 – Dans l’illusion de Sanders (en haut à gauche), les barres obliques traversant un des
parallélogrammes sont de même longueur ; dans l’illusion de Poggendorff (en bas à gauche), on a
l’impression que, des deux segments à la droite du rectangle gris, c’est celui du haut qui est en conti-
nuité avec celui qui se trouve à la gauche du rectangle ; dans l’illusion de Zöllner (en haut à droite),
les lignes verticales sont parallèles ; de même, dans l’illusion d’Hering (en bas à droite), les lignes
horizontales sont parallèles.
Un autre exemple d’effet d’angle, peut-être le plus connu, est

l’illusion de Müller-Lyer (figure 7.10). Cette illusion pourrait aussi être
expliquée par un effet d’assimilation ou un effet de tendance centrale. Selon
ce point de vue, les distances EF et GH sont prises en considération dans
l’estimation du segment AB (figure 7.10, à droite). Or, les distances EF et
GH étant en moyenne plus courtes que les distances IJ et KL, il s’ensuit que
le segment AB est perçu comme étant plus court que le segment CD.
Figure 7.10 – Illusion de Müller-Lyer (à gauche), où la ligne horizontale du bas semble plus longue
que celle du haut ; les lettres sur l’illustration de droite servent une explication donnée dans le texte.
Certains auteurs expliquent la tendance à considérer le segment AB

comme étant plus court que le segment CD (figure 7.10, à droite) par le fait
que ces segments génèrent automatiquement des indices de profondeur
observés sur une base quotidienne (figure 7.11). D’ailleurs, l’illusion serait
moins forte auprès de populations moins habituées à une architecture faite
de nombreux angles et carrés, comme celle qu’on voit si souvent dans les
pays occidentaux.
Figure 7.11 – Ces armoires comportent des indices qui rappellent l’illusion de Müller-Lyer. Les deux
longues lignes verticales noires paraissent d’égale longueur. Pourtant, celle de droite est plus courte
d’environ 15 %. Les deux lignes verticales ne sont pas placées dans le même contexte. Même en inté-
grant les parties en bois juste en-dessous et juste au-dessus de cette ligne de droite, celle-ci demeure
plus courte que la ligne noire de gauche.
D’autres illusions sont essentiellement fondées sur des effets de

perspective. Un cas très simple est celui de l’illusion de Ponzo (figure 7.12).
Aussi, une variante de cette illusion consiste à reprendre la voie ferrée
illustrée plus tôt et à y placer des segments de même taille. Si la taille de
ceux-ci n’est pas ajustée en fonction de la perspective, le segment le plus
haut paraît plus long et le segment le plus bas paraît plus court.
Figure 7.12 – Illustration de l’illusion de Ponzo.
Un cas spectaculaire dans lequel est engagé un effet de perspective est

celui de la chambre d’Ames. Une telle chambre n’est pas carrée comme le
laisse entendre notre connaissance de ce qu’est une chambre normale. Elle
comporte plutôt un côté (la photo sur la figure 7.13) plus profond et plus
haut que l’autre. Une distorsion visuelle majeure peut être causée quand on
regarde ceux qui se trouvent dans une telle chambre. Si nous regardons la
taille relative de deux personnes, l’une à gauche et l’autre à droite, et si nous
les croyons dans un environnement normal, c’est-à-dire dans lequel on les
croirait à une même distance de nous comme le laisseraient supposer sponta-
nément les mécanismes de constance de la taille, la personne de droite paraît
immense par rapport à celle de gauche. Aussi, si une seule personne devait se
déplacer en longeant le mur du fond, cette personne aurait l’air de se trans-
former (rapetisser en allant vers la gauche ou grandir en allant vers la droite).
Figure 7.13 – Effet créé lorsque deux personnes se trouvent dans une chambre d’Ames (photo du
dessus). En dessous, une vue en plongée de cette chambre. Si l’observateur (point noir) croit que la
personne 2 se trouve à la position 3, c’est-à-dire à une même distance que la personne 1, comme le
laissent croire les indices de profondeur de cette chambre, alors il croira que la personne 2 est beau-
coup plus petite, car la grandeur rétinienne de cette dernière est beaucoup plus petite que celle de la
personne 1.
Il existe d’autres manières fortes de générer des illusions. L’une

d’entre elles consiste à mettre en relation des images de différentes
grandeurs. Parmi les illusions de ce type, on note celles de Delboeuf et de
Titchener (figure 7.14). Parmi les autres illusions classiques, on trouve
l’Oppel-Kundt qui révèle qu’un segment divisé en plusieurs parties est
perçu comme étant plus long qu’un segment d’égale longueur, mais non
divisé.
Figure 7.14 – Illustration des illusions de Delboeuf (en haut) et de Titchener (en bas).
La longueur d’un segment dépend également de son orientation.

Ainsi, un segment d’une longueur donnée paraîtra plus long sur la verticale
que sur l’horizontale (figure 7.15). Selon Künnapas, qui a écrit une série
d’articles à ce sujet dans les années 1950 (voir Prinzmetal et Gettleman,
1993), cette illusion serait causée par un effet de cadre. Parce que le champ
visuel est elliptique, un segment à la verticale serait plus près du cadre,
c’est-à-dire des extrémités du champ visuel, que le même segment à l’hori-
zontale. Girgus et Coren (1978) posent plutôt l’hypothèse que la verticale
paraît plus grande, car elle implique un indice de profondeur. Si on doit

couper en deux parties égales une ligne placée à la verticale, on devrait
tracer le point milieu un peu plus haut que le point milieu réel puisque
plus haut signifie plus loin (plus de distance).
Figure 7.15 – Illustrations de l’illusion de la verticale. Le chapeau de magicien (à gauche) est-il plus
large que haut, ou plus haut que large ? Cela semble-t-il à peu près d’égale longueur ? Il faut le mesu-
rer ! À droite, les lignes horizontale et verticale ont-elles la même longueur ?
L’illusion de la lune
En raison de son omniprésence, il convient de s’attarder un peu au

cas de l’illusion de la lune. Cette illusion, connue depuis longtemps des
philosophes et des scientifiques, est si forte que l’on oublie, ou même que
l’on doute qu’il puisse s’agir d’une illusion. Cette illusion est d’autant plus
intéressante qu’une explication plausible exige de bien intégrer la notion
fondamentale de constance perceptive. Mais de quoi s’agit-il ? Il s’agit du
fait que la lune est perçue comme étant plus grosse quand elle est à
l’horizon que lorsqu’elle est au zénith. Cette différence est estimée à
environ 30 %, mais elle peut être un peu plus petite, et parfois beaucoup
plus grande, chez certains observateurs.
Puisque la distance qui nous sépare de la lune reste à peu de choses
près équivalente, peu importe où cette dernière se trouve, sa grandeur
projective demeure la même, qu’elle soit au zénith ou à l’horizon. Or, selon
Irvin Rock et Lloyd Kaufman (Kaufman et Rock, 1962 ; Rock et Kaufman,
1962), l’illusion n’est pas causée parce que l’angle du regard de l’obser-
vateur change, comme le croyaient certains chercheurs à l’époque, mais en
raison de la présence ou de l’absence d’objets (le terrain) entre l’observateur
et la lune. Ils posent plutôt l’hypothèse de l’importance de la distance
apparente, qu’on désigne aussi comme étant l’hypothèse de l’invariance
taille-distance.
Pour bien saisir cette explication, il faut se rappeler l’idée de

constance perceptive : si deux objets sont de même grandeur rétinienne,
celui qui semble plus loin est perçu comme plus grand. Qu’arriverait-il si le
cerveau croyait que la lune est plus éloignée quand elle est à l’horizon que
lorsqu’elle est au zénith ? Parce que l’on sait que l’image rétinienne est la
même dans les deux cas, le cerveau serait amené à conclure que la lune est
plus grosse à l’horizon. Autrement dit, on croit que la lune est très grosse
parce qu’on la pense loin. Cela peut sembler contre-intuitif si l’on conclut
que la lune a l’air tout près parce qu’elle est tellement grosse. Pour s’en
sortir, il ne faut pas perdre de vue ( !) qu’il est ici question des mécanismes
de perception enclenchés automatiquement, ou inconsciemment, par le
cerveau.
La question critique à ce point-ci devient donc la suivante : y a-t-il
au moins des raisons de croire que la lune semble plus éloignée à l’horizon
qu’au zénith ? La réponse est oui, si l’on en croit Kaufman et Rock. Soit
l’expérience suivante où l’on demande à des observateurs de pointer du
doigt le point milieu entre le zénith, 90 degrés, et l’horizon, 0 degré. Plutôt
que de pointer le point milieu, situé à 45 degrés, ces observateurs tendent
plutôt à pointer une direction un peu plus près de l’horizon que du zénith.
Comme l’indique la figure 7.16, ce qui est pointé, ce serait le point milieu
d’une voûte céleste qui serait perçue non pas comme étant semi-circulaire,
mais plutôt comme étant aplatie. Si la voûte céleste est perçue comme
étant aplatie, la lune se trouve forcément perçue comme étant plus éloignée
lorsqu’elle est à l’horizon plutôt qu’au zénith.
Il y a une deuxième raison de croire que la lune semble plus éloignée
à l’horizon qu’au zénith. Il est reconnu que le système perceptif est sensible
au fait qu’il se trouve dans l’environnement des points de repère. Or, plus il
y a de points de repère devant soi, plus on tend à percevoir les distances
comme étant éloignées. Alors qu’en regardant le ciel en direction de la lune
ne se trouve aucun repère près de nous, la terre offre le plus souvent un
horizon rempli de repères tels les arbres, les autos ou les maisons. Ces
repères contribuent à l’impression qu’a le cerveau que la lune à l’horizon est
loin de soi.
Figure 7.16 – Si l’on demande à des observateurs de montrer le point milieu entre l’horizon et le
zénith, ils ne montrent pas le point B (un angle de 45 degrés, indiqué avec le chiffre 1 sur la figure) ;
ils pointent plutôt vers le point D (angle 2). Le point B est le point milieu entre A et C, C (le gros
point blanc) étant là où se situe réellement la lune ; et D est le point milieu entre A et E, E (le petit
point noir) étant là où l’observateur croit que la lune se trouve). Pour un observateur, montrer le
point milieu correspond à viser le point D si l’on pose l’hypothèse qu’il perçoit la voûte céleste comme
étant aplatie. La lune est donc jugée plus rapprochée (E) lorsqu’elle est au zénith que lorsqu’elle est à
l’horizon (le gros point noir) (Kaufman et Rock, 1962).
Bref, la lune serait perçue comme étant plus grosse à l’horizon qu’au
zénith, car le cerveau la croirait plus éloignée à l’horizon. Cette explication
n’a de sens que si l’on comprend bien l’idée de constance perceptive, c’est-
à-dire le principe stipulant que la distance perçue et la grandeur projective
sont intimement liées lors de l’estimation de la taille des objets. De plus
nombreuses explications et descriptions relativement à l’illusion de la lune
se trouvent chez Hersherson (1989) ou Ross et Plug (2002).
L’impression que les repères contribuent à l’impression de distance a mené
à une règle de base de la sécurité aquatique. Si vous chavirez d’une embar-
cation après vous être considérablement éloigné de la rive sur un lac, il faut
faire attention avant de décider de retourner à la nage plutôt que de
chercher à s’agripper à l’embarcation. Parce que sur l’eau il n’y a généra-
lement pas de repères (parfois une île, parfois d’autres embarcations), vous
pourriez avoir l’impression trompeuse d’être toujours près de la terre. Une
évaluation inadéquate de la distance pourrait provoquer un épuisement
avant d’avoir regagné la rive.
8
PERCEPTION ET ATTENTION
Ce dernier chapitre est consacré à l’étude de l’attention, car la perception

ne saurait se résumer à la seule détection de stimuli. Il est dans l’ordre des
choses de tenter de comprendre comment ce qui est déjà en place dans le
cerveau détermine ce qui est perçu. À de nombreuses occasions dans les
chapitres précédents, il a été fait allusion à une telle influence. C’était le cas
chaque fois qu’il était question, par exemple, de l’hypothèse de Helmholtz
sur les inférences inconscientes, de la reconnaissance de la forme ou des
principes d’organisation de la Gestalt dans la perception visuelle ou dans la
perception auditive.
Pour donner une idée de l’importance de l’étude de l’attention sur
la perception, considérons l’anecdote suivante. Il existe une société de
psychologie expérimentale appelée Psychonomic Society, fondée aux
États-Unis en 1959. Elle est responsable de la publication de quelques
revues scientifiques. L’une de celles-ci, Perception & Psychophysics, a vu le
jour dans les années 1960. Consacrée à l’étude de la perception et de la
psychophysique, elle a gardé le même titre jusqu’au tout premier numéro
de 2008. Elle s’appelle maintenant Attention, Perception, & Psychophysics.
En fait, en 1988, 5 % des articles de la revue portaient sur l’attention.
Vingt ans plus tard, c’était près de 50 % des articles qui portaient, de
quelque manière, sur l’attention. Comme aucune revue importante ne
portait le mot attention dans son titre, les responsables de la revue ont
décidé qu’il serait à propos d’en changer le titre afin de mieux en refléter le
contenu. En fait, cette situation illustre à quel point les processus liés à
l’attention sont déterminants dans la perception.
Pour faire l’étude de l’attention, il faut regarder ses principales
propriétés. Toute tentative de présentation des propriétés de l’attention
risque fort d’être incomplète tellement les études à ce sujet sont
147
nombreuses. Bien que l’étude des mécanismes d’attention fondée sur des
approches neuroscientifiques s’est grandement accrue depuis 30 ans (voir
Gazzaniga, Ivry et Mangun, 2009), le présent chapitre ne visera qu’à faire
un survol des principaux concepts liés à l’étude de l’attention que
fournissent les études comportementales provenant de la psychologie
cognitive depuis près de 60 ans.
8.1 Qu’est-ce que l’attention ?

L’attention, c’est le processus qui permet de prendre conscience de
certaines choses et de saisir une partie, nettement limitée, de ce qui se
passe. En fait, il est extrêmement difficile de définir précisément l’attention,
bien que l’on sache probablement déjà ce qu’elle est. L’on sait qu’en se
concentrant sur une source sonore à travers le bruit, on peut augmenter ses
chances de capter le signal voulu. Aussi, même en conduisant une
automobile avec facilité, on sait qu’il faut, par souci d’attention, baisser
l’intensité sonore de la radio pour mobiliser toutes ses ressources si la
situation se corse soudainement (beaucoup de circulation, incertitude sur
le chemin à prendre dans une nouvelle ville…).
Lecteurs : « À quoi portez-vous attention immédiatement ? »
Certainement au texte sous vos yeux. Pourtant, il y a probablement de
nombreuses choses dans votre environnement susceptibles de capter votre
attention. Il y a probablement un peu de bruit, certainement une pression
de votre chaise sur vous si vous lisez assis et peut-être même une odeur
émanant de la cuisine. Avant de lire la dernière phrase, rien de cela ne vous
avait frappé, n’avait retenu votre attention. Pourtant, dès qu’il en a été
question, vous vous êtes posé la question à savoir s’il y a des bruits dans
l’environnement et peut-être en avez-vous identifié quelques-uns. De
même, il ne vous était pas venu à l’idée de penser à un fer à repasser ou à
une souris, mais en faisant la lecture, l’un ou l’autre est probablement à
votre esprit. Ainsi va l’attention. Il y a continuellement une quantité
énorme d’information à la portée de l’esprit, soit parce que nos systèmes
sensoriels y donnent accès, soit parce que l’information est déjà là, présente
en mémoire.
Parfois, ce sont des stimuli de l’environnement qui saisissent
l’attention ; on parle dans ce cas d’un traitement de bas en haut (ou dirigé
par les données). Parfois, on porte volontairement l’attention sur quelque
chose, ce que l’on appelle un traitement de haut en bas (ou dirigé par les
concepts).
8 – Perception et attention 149
Cécités
L’importance des processus de haut en bas est notamment révélée à

travers deux types d’erreurs devenues classiques en psychologie, erreurs que
l’on qualifie de cécités. D’une part, il existe une cécité au changement. Elle
désigne la difficulté qu’ont parfois les gens à détecter un changement
pourtant important sur un objet faisant partie d’une scène qu’ils sont en
train d’observer. En fait, la difficulté de détecter un changement, par
exemple, d’une image à une autre semblable lorsque ces images sont
présentées en alternance, dépend de l’importance du changement dans le
contexte de l’image présentée (Rensink, 2002 ; Rensink, O’Regan et Clark,
1997).
Dans la même veine, il est parfois difficile de noter la présence de
nouveaux objets, ou de nouveaux stimuli, apparaissant dans une scène. Ce
dernier cas est appelé la cécité attentionnelle. Comme pour la cécité au
changement, la cécité attentionnelle est causée par le fait de trop porter son
attention sur une partie de la scène. Un exemple devenu classique est celui où
il faut compter le nombre d’échanges d’un ballon entre équipiers : près de la
moitié des personnes appelées à faire cette tâche n’arrivent pas à observer
l’arrivée d’un important stimulus, un gorille, au milieu de cette scène à
quelque moment à travers les échanges entre équipiers. Cette démonstration
classique est disponible sur le site suivant : http ://www.simonslab.com/
videos.html.
Un phénomène comme celui-ci donne à croire que la perception
consciente du monde n’est possible qu’avec la contribution de l’attention.
Dans la même veine, il existe de récents résultats qui montrent l’existence
d’une surdité attentionnelle, c.-à-d. une difficulté à détecter la présence d’un
stimulus auditif à travers d’autres stimuli auditifs dynamiques (Dalton et
Fraenkel, 2012). Notons également que de soumettre des participants à une
tâche de discrimination visuelle difficile est susceptible d’empêcher de réaliser
qu’un son pourtant facilement détectable a été présenté durant la tâche
visuelle (Macdonald et Lavie, 2011). Il est donc possible d’induire un effet de
surdité attentionnelle en manipulant la difficulté d’une tâche visuelle.
Les trois sections suivantes sont consacrées à trois grandes propriétés
des processus d’attention. Il s’agit de la capacité de préparer son attention
dans l’espace et dans le temps, pour mieux saisir l’information à venir ; de la
capacité d’opérer une sélection à travers toute l’information disponible,
qu’elle soit livrée de façon visuelle ou auditive ; et de la capacité de rechercher
une information spécifique dans le champ visuel.
8.2 Préparation et orientation

Typiquement, l’étude de l’attention est fondée sur une analyse du
temps que l’on met à donner une réponse (temps de réaction) dans des
situations particulières (Posner, 1978). Les participants à des expériences
sont ainsi exposés à des situations à partir desquelles il sera possible de faire
des inférences sur les mécanismes en jeu.
Préparation spatiale
Une stratégie classique permettant d’étudier le déploiement des

mécanismes d’attention consiste par exemple à demander à un participant
de diriger son regard vers un point au centre d’un écran en face de lui ou
d’elle. La tâche consiste à appuyer le plus rapidement possible sur la touche
du clavier appropriée lors de l’apparition d’un stimulus qui sera situé à la
gauche ou à la droite du point de fixation central. On peut ainsi déter-
miner combien de temps prend une telle tâche de détection. Dans une
étape suivante, apparaît au point de fixation un indice (par exemple, une
petite flèche vers la gauche ou vers la droite), indiquant où sera présenté le
stimulus. On parle ici d’un indice spatial. Généralement, on crée des
conditions où l’indice est valide dans 80 % des cas ; dans 20 % des cas,
l’indice est trompeur. Avec une telle manipulation expérimentale, on
s’aperçoit que l’indice valide permet de réduire le temps de réaction, mais
qu’à l’opposé, un indice non valide a pour conséquence d’augmenter ce
temps de réaction. Par ailleurs, on note aussi que si l’on présente le stimulus
et l’indice en même temps, il n’y a pas d’effet ; aussi, plus on allonge la
durée entre la présentation de l’indice et celle du stimulus (stimulus onset
asynchrony), plus l’effet d’indiçage augmente, et ce, jusqu’à ce que cet allon-
gement soit de 150 ms.
De telles expériences démontrent qu’il est possible de préparer les
mécanismes de l’attention de manière à augmenter l’efficacité lors d’une
tâche de détection d’un stimulus dans l’espace. C’est comme s’il était
possible de déplacer l’attention d’un endroit à un autre, comme on déplace
un faisceau de lumière. On parle parfois du faisceau attentionnel et d’un
déplacement attentionnel. En réalité, on ne sait pas vraiment s’il s’agit à
proprement parler d’un faisceau qui se déplace. On pourrait imaginer qu’il
s’agit d’une lentille avec laquelle on fait la mise au point, sur le point de
fixation, mais qui permettrait un élargissement du champ de manière à
inclure aussi les stimuli à gauche ou à droite.
Par ailleurs, il existe un phénomène appelé l’effet consécutif d’inhi-

bition (inhibition of return –IOR en anglais). Le fait d’anticiper la présence
d’un événement à un certain endroit permet de le détecter plus rapidement
et avec plus de précision. Or, ledit effet consécutif d’inhibition désigne la
difficulté d’envoyer de nouveau son attention à l’endroit dans l’espace où
elle venait d’être maintenue durant une brève période (Klein, 2000). Plus
spécifiquement, la démonstration originale de cet effet, par Posner et
Cohen (1984), va comme suit.
Soit un ensemble visuel avec un point central de fixation et un autre
point situé de chaque côté où peut apparaître un signal auquel doit réagir
le plus rapidement possible un participant. Si un indice est d’abord donné,
en illuminant un des deux points de chaque côté, pour indiquer où
apparaîtra le signal, le participant met moins de temps à réagir à l’appa-
rition du signal s’il survient à l’endroit prévu que s’il arrive de l’autre côté.
Il s’agit d’un effet de facilitation. Notez que dans la séquence d’essais, il
existe des essais pièges où l’indice est trompeur. Ainsi, le participant ne
peut pas anticiper, car cela risque d’entraîner de fausses alarmes, donc de
diminuer son niveau de précision.
L’effet de facilitation, mesuré par la différence de temps de réaction
au signal cible selon qu’il arrive à l’endroit où était l’indice ou qu’il arrive
du côté opposé, n’est cependant observé que si la différence de temps entre
l’arrivée de l’indice et l’arrivée du signal cible est très brève (de 0 à 100 ms).
Avec une différence de 200 ms, les temps de réaction sont à peu de choses
près les mêmes, que le stimulus cible soit présenté du même côté que
l’indice ou du côté opposé (figure 8.1). Là où ça devient intrigant, c’est
lorsque cette durée est encore plus allongée. Avec une durée de 300 à
500 ms entre indice et cible, ça prend moins de temps à réagir au signal
cible s’il est présenté du côté opposé de l’indice. On attribue ces résultats
au fait que l’attention avait été orientée vers un endroit précis et ensuite
désengagée de cet endroit. Cette orientation, puis ce désengagement ont
pour effet d’empêcher un nouvel engagement de l’attention à l’endroit
d’origine. Certains chercheurs attribuent cet effet consécutif d’inhibition à
la mise en marche des mécanismes responsables du mouvement des yeux
(Rafal, Calabresi, Brennan et Sciolto, 1989).
Préparation temporelle
De la même manière que l’on peut se préparer à déplacer son attention

en fonction de l’arrivée d’un stimulus dans l’espace, on peut se préparer à
l’arrivée d’un stimulus dans le temps. Ainsi apprenons-nous à lire les liens
entre les événements de manière à être prêts au moment où quelque chose

survient. La lecture de signes avant-coureurs permet d’augmenter l’efficacité
de la réponse qu’il faut rendre. Par exemple, l’apparition d’un feu de circu-
lation jaune signifie qu’il faut se préparer à arrêter.
Encore une fois, on peut utiliser le temps de réaction pour étudier
comment on se prépare dans le temps. Il faut voir qu’une tâche aussi simple
que de répondre à l’arrivée d’un signal requiert la contribution d’une série
d’étapes de traitement. Il faut détecter le stimulus, l’identifier, choisir la
réponse appropriée et enclencher la programmation motrice que requiert la
réponse. Dans ce contexte, la préparation consiste à tenter de faire à l’avance
ce qui précède la réponse. Dans la description qui suit, nous nous en
tiendrons au cas des temps de réaction simples (Niemi et Näätänen, 1981).
Figure 8.1 – Résultats de Posner et Cohen (1984) pour démontrer l’effet consécutif d’inhibition
(inhibition-of-return) ; points noirs : cible avec indice ; points blancs : cible sans indice.
Ainsi, une expérience typique pour étudier cette préparation consiste

à utiliser un signal avertisseur avant la présentation d’un stimulus cible
auquel un participant doit réagir le plus rapidement possible. Ce signal
permet de réduire l’incertitude relativement au moment d’occurrence du
stimulus cible. Après l’apparition du signal avertissement, plus le temps
passe, plus l’arrivée du stimulus cible devient probable. Cette seule infor-
mation a pour effet de réduire le temps de réaction lorsque survient le
stimulus. L’intervalle entre le signal avertisseur et le stimulus cible est appelé

la période préparatoire. Cette période permet de s’orienter dans le temps.
L’effet de la préparation temporelle dépend des conditions expéri-
mentales spécifiques dans lesquelles se trouve un participant. On peut
procéder à des blocs d’essais où la période préparatoire demeure la même
(condition constante) ou varier la durée de cette période d’essai en essai
(condition variable), en utilisant des durées identiques à ce qui est utilisé
dans la condition constante. Dans la condition constante, plus la période
préparatoire est longue, plus lent est le temps de réaction (Bausenhart,
Rolke et Ulrich, 2008). À l’opposé, dans la condition variable, plus longue
est la période préparatoire, plus court est le temps de réaction. Cette obser-
vation vaut pour toutes sortes de durées de périodes préparatoires.
Cet effet, en condition variable, s’explique par le principe suivant :
plus le temps passe, plus probable devient l’arrivée du stimulus cible et,
conséquemment, on tend à augmenter sa préparation en fonction de cette
probabilité. Dans la condition constante, cette probabilité est fixe ; il n’y a
donc pas de changement de probabilité en cours d’essai. Il faut proba-
blement s’en remettre au simple calcul de la durée qui précède le stimulus,
après l’arrivée du signal, ce calcul comportant plus de variabilité à mesure
que cette durée augmente.
8.3 Sélectivité
Puisqu’une multitude de stimuli de l’environnement atteignent
constamment nos récepteurs sensoriels, il y a là présente, à notre portée,
une multitude de renseignements. Ce qui est amené à la conscience dépend
de ce vers quoi l’attention est portée. Il n’est pas possible de tout entendre
ou de tout voir en même temps. Il faut en quelque sorte choisir et ce choix
s’opère grâce à la sélectivité attentionnelle. Il est possible de faire la mise au
point sur une source spécifique d’information. Par exemple, tous les
étudiants savent que l’on peut très bien avoir l’air d’écouter en classe mais
être en fait en train de regarder du coin l’œil (de diriger son attention vers)
une autre personne de la classe ! De même, ce n’est pas parce que la
personne en face de vous vous regarde dans les yeux lors d’un souper au
restaurant qu’elle n’est pas en train de suivre la conversation de la table
voisine ! Dans les paragraphes suivants, nous décrirons comment se fait
l’étude de la sélectivité dans les modalités sensorielles visuelle et auditive.
Sélectivité visuelle
Les stimuli atteignant la rétine sont non seulement nombreux, mais

ils se succèdent parfois à une grande vitesse, lors de la lecture par exemple,
ou lorsque l’on regarde par la fenêtre de côté en se déplaçant en auto. Aussi,
nous l’avons vu en étudiant la perception de la forme, la trace laissée par les
stimuli sur la rétine persiste durant un certain temps. En jouant avec la
sélectivité des processus d’attention, on peut faire une investigation de la
durée et des propriétés de cette information sur la rétine.
La technique du rapport partiel, mise au point par George Sperling,
permet de connaître ces propriétés. Soit la situation suivante. On présente
simultanément à des participants, sur un écran, une série de 12 lettres, et
ce, durant 50 ms. Ces lettres sont disposées en trois rangées de quatre. Lors
de certains essais, on peut demander aux participants de rapporter le plus
de lettres qu’ils le peuvent. En général, dans de telles conditions (rapport
complet), les participants en rapporteront quatre ou cinq. La question qui
se pose est la suivante : pourquoi n’y a-t-il que quatre ou cinq des douze
lettres qui soient rappelées ? Une réponse à cette question réside peut-être
dans le fait qu’on ne peut capter plus de quatre ou cinq lettres en même
temps, ce qui révélerait une certaine limite perceptive dans la manière de
saisir l’information. Une autre explication pourrait être la suivante.
Peut-être que toute l’information (les douze lettres) est là, disponible
durant une courte période, mais pendant que l’on nomme les premières
lettres, les autres s’effacent.
C’est dans le but de tester cette deuxième explication que Sperling
(1960) a mis au point son ingénieuse stratégie, le rapport partiel. Cette
technique est basée sur l’idée d’un appariement entre un son et une rangée
de lettres. Ainsi, des sons de fréquences haute, moyenne et basse sont
associés respectivement aux rangées de quatre lettres du haut, du milieu et
du bas qui constituent l’ensemble de douze lettres à l’écran. Dès après la
brève présentation des lettres, un son est présenté au participant. Ce son
indique quelles lettres, spécifiquement, il faut rapporter. Si le son est le plus
aigu (haute fréquence), il faut rapporter les lettres disposées sur la rangée
du haut. Si le fait de ne pouvoir rapporter que quatre ou cinq lettres, en
moyenne, lors d’un rapport global, est lié à une limite sur le nombre de
lettres perçues, on devrait ne rapporter qu’une ou deux lettres par rangée,
en moyenne, lors du rapport partiel. Par contre, si toute l’information est
là, disponible, durant une brève période avant que l’information ne s’efface,
on devrait rapporter plus qu’une ou deux lettres par rangée, en moyenne.
Il ressort que lors du rapport partiel, les participants sont bien

meilleurs. Ils peuvent rapporter en moyenne au moins trois lettres par
rangée. Autrement dit, l’information est là pour une brève période et si l’on
dirige tout de suite son attention vers l’information, nous y avons accès. Il
est important de spécifier que le son n’est présenté qu’une fois que la
présentation des lettres est terminée. Cela signifie que le participant ne
peut pas projeter d’avance son attention sur une rangée.
C’est lorsque le signal sonore est présenté immédiatement à la fin de
la présentation visuelle que le rapport partiel montre le plus de bénéfices
(plus de lettres rappelées en moyenne). En fait, Sperling a démontré que
l’introduction d’un intervalle entre la fin de la présentation des lettres et le
son avait éventuellement pour effet d’annuler les bénéfices associés au
rapport partiel. Avec un intervalle de 150 ou même de 300 ms, on rappelle
plus de lettres en moyenne qu’avec un rapport global, mais cet effet
disparaît complètement si le délai dure une seconde. Bref, l’information est
vraiment là, disponible, mais seulement pour une courte période.
Dans les termes de la psychologie cognitive, on appelle registre
sensoriel – une sorte de mémoire à très court terme – cette étape initiale du
traitement de l’information où celle-ci persiste durant une brève période
après la disparition du stimulus physique. L’activité neurale ne s’arrête pas
avec la fin d’un stimulus ; elle s’étire un peu dans le temps (Di Lollo et
Bischof, 1995 ; Loftus et Irwin, 1998 ; Nisly et Wasserman, 1989). On
parle parfois de mémoire iconique pour désigner le registre sensoriel dans la
modalité visuelle (par opposition à la mémoire échoïque en modalité
auditive).
Par ailleurs, une autre propriété des processus attentionnels suscep-
tible d’affecter la capacité de percevoir est appelée le clignotement
attentionnel (Dux et Marois, 2009 ; Martensa et Wybleb, 2010). On peut
démontrer cet effet en utilisant une procédure où l’on présente successi-
vement, à un même endroit, une série de stimuli visuels plutôt que de
déployer des stimuli à différents endroits sur la rétine. Si l’on demande à
une personne de rapporter la présence d’un chiffre à travers une série de
lettres présentées rapidement, elle y arrivera sans difficulté si les stimuli ne
sont pas présentés trop rapidement. Par exemple, si on lui présente de 8 à
10 items par seconde, elle y arrivera sans trop de mal. Si on lui demande de
détecter une lettre d’une couleur donnée, plutôt qu’un chiffre, elle y
arrivera également sans difficulté. Par contre, si on lui demande de détecter
deux cibles, par exemple une lettre d’une couleur donnée et un chiffre, sa
capacité de détecter la deuxième cible dépendra du fait que la première
cible a été présentée plus ou moins longtemps auparavant. Si la deuxième
cible arrive entre 200 et 500 ms après la présentation de la première cible,

la performance est affectée. En fait, cette diminution ne survient que si la
première cible a été détectée. La performance sera surtout affectée si la
deuxième cible arrive de 200 à 300 ms après la première. C’est cette diffi-
culté à détecter la deuxième cible, après avoir porté son attention à une
première cible, qui constitue le phénomène de clignotement attentionnel.
L’attention requise pour faire le traitement de la première cible ne serait
plus disponible pour procéder à celui de la deuxième.
C’est important de noter que si la deuxième cible survient environ
100 ms après la première, il n’y aura pas de diminution de la capacité à
saisir la deuxième, comme si les deux cibles pouvaient être saisies ensemble,
avant le clignotement. Bref, ce phénomène de clignotement attentionnel
renseigne sur le déploiement dans le temps des processus liés à l’attention
sélective.
Sélectivité auditive
Quand on porte attention à une source précise d’information, que

peut-on saisir des autres renseignements disponibles dans l’environ-
nement ? Pouvons-nous en tirer quelque chose quand même ? Probablement
que oui. Par exemple, dans un lieu où, durant des célébrations, il y a de
nombreuses conversations en même temps, il est généralement possible de
bien suivre la conversation vers laquelle l’attention est dirigée. Or, même si
l’on ne parvient pas à suivre une autre conversation, on risque de réagir si
quelqu’un dans l’entourage prononce notre prénom.
Les chercheurs intéressés à la sélectivité de l’attention ont beaucoup
utilisé une procédure expérimentale appelée l’écoute dichotique. Une tâche
d’écoute dichotique consiste à faire entendre, au moyen d’un casque
d’écoute, deux messages différents en même temps, un dans chaque oreille.
L’expérimentateur demande au participant de suivre spécifiquement le
message envoyé dans une oreille, celle de gauche ou celle de droite, et
d’ignorer l’autre. On demande au participant de répéter à haute voix le
message suivi. On s’assure ainsi que le message soit effectivement suivi.
Les travaux de Cherry (1953) indiquent qu’il y a bien un minimum
d’information qui demeure disponible en provenance de l’oreille qui ne
reçoit pas d’attention. Ainsi, le participant arrive à déterminer si, dans cette
oreille, on entend une voix et, le cas échéant, il peut extraire certaines
caractéristiques physiques de celle-ci (est-ce une voix grave ou aiguë), mais
n’arrive pas à saisir la signification du message. Par ailleurs, si on fait
entendre dans chaque oreille des séries de chiffres et qu’aucune priorité
n’est imposée (pour l’oreille gauche ou pour l’oreille droite), les partici-
pants rapporteront des informations des deux oreilles, non pas dans l’ordre
chronologique dans lequel les chiffres sont arrivés, mais oreille par oreille.
Ce genre de travaux amène à poser la question à savoir à quel niveau
agit l’attention dans la séquence de traitement de l’information. Broadbent
(1958) a émis l’idée qu’il existe un filtre attentionnel, une espèce de goulot
qui ne peut laisser passer qu’une quantité limitée d’information. En fait,
selon ce chercheur, un système central de traitement de l’information est
chargé de recevoir l’information des différents canaux sensoriels pour
éventuellement déterminer leur signification sur la base de ce qui est
entreposé en mémoire. Le filtre servirait à éviter une surcharge de travail à
ce système central en ne laissant entrer que les stimuli ayant certaines
caractéristiques. Le filtre ne permet pas d’aller d’un canal sensoriel à l’autre.
Si c’était le cas, il deviendrait possible d’écouter plus d’une conversation à
la fois. La sélectivité s’opérerait donc rapidement, c’est-à-dire au niveau des
caractéristiques acoustiques. Ainsi, la sélection de l’information aurait lieu
à un bas niveau, avant qu’une analyse sémantique ne soit faite.
À la suite des travaux de Broadbent, des études comme celle de
Gray et Wedderburn (1960) ont montré que le filtre attentionnel opérerait
plutôt une sélection tardive. Dans cette étude, on fait entendre simulta-
nément à chaque oreille, par exemple, des messages comme les suivants :
Dans l’oreille gauche : Hy – 2 – gène

Dans l’oreille droite : 6 – dro – 9
Ainsi, on entend simultanément « Hy 6 », « 2 dro » et « gène 9 ». Si

on demande au participant de suivre ce qui est rapporté à l’oreille gauche,
d’ignorer ce qui est rapporté à l’oreille droite et ensuite de rapporter ce qui
a été entendu, il rapporte « Hy-dro-gène ». Autrement dit, l’attention du
participant se déplace d’un canal à un autre, et ce, en fonction du sens des
mots. Bref, si on avait pensé que la sélection attentionnelle se faisait
rapidement dans la séquence de traitement de l’information, on était
dorénavant forcé de croire que la sélection se produisait à une étape
ultérieure puisqu’il devait forcément y avoir eu une compréhension du sens
pour expliquer le passage d’une oreille à l’autre dans l’étude de Gray et
Wedderburn.
Anne Treisman a également utilisé l’écoute dichotique, mais en
présentant cette fois des bouts de phrases dans chaque oreille. Encore une
fois, les résultats montrent que le participant suit le sens du message d’une
oreille à l’autre plutôt que de s’en tenir à la tâche consistant à suivre ce qui
arrive à une oreille spécifiquement. Ces résultats appuient l’idée d’un filtre
tardif (voir Deutsch et Deutsch, 1963) ou, dans les termes de Treisman
(1960), l’idée qu’il s’agirait d’un atténuateur plutôt que d’un filtre.
Plutôt que de chercher où se situe le filtre ou l’atténuateur dans la
séquence de traitement de l’information, les théoriciens du domaine de
l’attention ont éventuellement mis l’accent sur une distinction entre processus
automatiques et processus d’attention contrôlée (Johnston et Dark, 1986).
De façon plus générale, cette approche montre une préoccupation pour les
capacités attentionnelles, c’est-à-dire pour la distribution des ressources atten-
tionnelles dans différentes tâches. Cette approche dépasse le cadre du présent
ouvrage qui porte sur la perception. Les ressources en attention étant limitées,
les chercheurs dans ce domaine d’étude désirent connaître la charge mentale
de différentes tâches cognitives, jusqu’à quel point ces dernières sollicitent ou
non les mêmes ressources et comment des tâches peuvent s’automatiser. À
une époque où l’on cherche à gagner du temps au point d’utiliser le téléphone
cellulaire durant la conduite automobile, on comprend l’importance de bien
connaître les charges attentionnelles imposées par les tâches (Strayer et
Johnston, 2001).
Afin d’avoir rapidement une idée de ce à quoi peut ressembler une
activation automatique d’un processus, il suffit de s’exposer à l’effet Stroop
(Stroop, 1935 ; MacLeod, 1991). Cet effet apparaît lorsqu’on essaie de
nommer la couleur avec laquelle est écrit chacun des mots d’une série de mots
désignant justement une couleur. Il est très difficile de faire abstraction de la
signification du mot (la couleur désignée par la lecture) lorsqu’on cherche à
nommer la couleur avec laquelle un mot donné est écrit. La lecture n’est pas
une exigence de la tâche, mais elle s’impose automatiquement et cause ainsi
une interférence. Pour vous en convaincre, utilisez la figure 8.2. Essayez de
voir combien de temps il vous faut pour nommer chaque couleur dans la
série du bas (couleurs sans lettres). Ensuite, essayez de voir combien de temps
il vous faut pour nommer chaque couleur dans la série du haut (mots). Il
devrait y avoir une différence de plusieurs secondes. Vous pouvez aussi essayer
de simplement lire chaque mot dans la série de mots. Encore une fois, vous
constaterez que ça prend beaucoup moins de temps pour lire que pour
nommer les couleurs de cette même série.
Figure 8.2 – Exemple d’un effet Stroop. Nommez la couleur (en bas) de chacun des 20 rectangles
(5 rangées de 4 couleurs) prend beaucoup moins de temps que de nommer la couleur (en haut) dans
laquelle est écrit chacun des mots. Cette démonstration illustre un effet d’interférence causé par
l’activation automatique de la lecture des mots.
8.4 Recherche visuelle

Les tâches utilisées dans la section précédente sur la sélectivité atten-
tionnelle sont un peu artificielles. Notamment, dans le cas de la sélectivité
visuelle, les participants se font dire d’avance où regarder. Or, dans la vie de
tous les jours, il faut plutôt chercher activement quelque chose dans un
ensemble de stimuli. En fait, pouvoir extraire visuellement quelque chose de
l’environnement ne repose pas que sur la seule stimulation de la rétine.
Quand il y a de nombreux éléments à la portée de la vue, il faut chercher un
item pour le voir (Wolfe et Horowitz, 2004).
Il existe un champ de l’étude des mécanismes d’attention consacré à

la recherche visuelle. Les tâches typiques à compléter dans ce champ
d’études consistent à présenter une série d’items à un participant et à lui
demander de trouver un item en particulier (une cible).
Dans une expérience où il faut chercher une lettre parmi plusieurs
autres, les caractéristiques spécifiques de celles-ci déterminent la facilité ou
la difficulté avec laquelle est repérée la lettre cible. La figure 8.3 illustre un
ensemble visuel utilisé par Neisser (1964). Il est beaucoup plus facile de
détecter la lettre Z dans l’ensemble de gauche que dans l’ensemble de
droite en raison des caractéristiques nombreuses que partagent le Z avec les
lettres de droite.
Figure 8.3 – Exemple d’ensembles visuels utilisés par Neisser (1964).

Il existe des cas où le nombre d’items détermine le temps nécessaire

pour détecter une cible, et des cas où ce nombre est sans effet. Par exemple,
à la figure 8.4, on peut détecter rapidement, dans l’ensemble du haut
(5 lettres), la lettre Z ou même les deux lettres O. Par contre, la facilité avec
laquelle on peut repérer le Z dans l’ensemble du bas, à gauche, est très
grande, si on la compare à la facilité avec laquelle on peut repérer le O dans
l’ensemble du bas, à droite. En fait, plus le nombre d’items dans des condi-
tions comme celles de l’ensemble de droite est augmenté, plus long est le
temps de détection de la lettre cible (O). Par contre, même en augmentant
le nombre de d’items (O ou Q) dans l’ensemble de gauche, le temps néces-
saire pour détecter le Z ne changerait pas : la cible émerge spontanément
du lot (pop-out, en anglais). Autrement dit, cela saute aux yeux. C’est le fait
qu’une cible partage plus ou moins de caractéristiques avec les autres items
qui détermine la possibilité que la cible émerge spontanément ou non.
Figure 8.4 – Si l’on cherche un Z dans l’ensemble de stimuli en bas, à gauche, la taille de l’ensemble
visuel est sans importance ; par contre, si l’on cherche un O dans l’ensemble de stimuli en bas, à
droite, la taille de l’ensemble visuel devient importante. Dans le premier cas, le Z émerge spontané-
ment (pop-out).
Les chercheurs se sont aussi intéressés à la recherche visuelle de

caractéristiques en dehors du strict cadre des lettres. Différentes caractéris-
tiques ont été utilisées, comme des rectangles qui peuvent être présentés
soit à la verticale, soit à l’horizontale, ou qui peuvent être présentés dans
différentes couleurs. Souvent, on demande aux participants de détecter une
cible sur la base d’un seul attribut. Parfois, la tâche se complique quand on
demande de détecter une cible comportant aux moins deux attributs. On

parle dans ce cas de recherche de conjonctions.
Afin d’expliquer comment se fait la recherche visuelle, on se réfère
souvent à la théorie de l’intégration des conjonctions (Treisman et Gelade,
1980). Cette théorie de l’attention visuelle est fondée sur l’idée que le
traitement d’un objet ou d’une scène visuelle se fait en deux étapes. En
premier lieu, c’est-à-dire au stade préattentif, un objet est traité en fonction
de ses caractéristiques. Ainsi, est-il possible de procéder à l’analyse d’un
certain nombre de caractéristiques de base puisque le traitement se fait en
parallèle, c’est-à-dire de façon automatique, sans le recours à des ressources
attentionnelles. La théorie comporte un deuxième stade, celui où il est néces-
saire de lier les caractéristiques aux objets (en anglais, on parle du problème
de binding : Treisman, 1996). Cette étape de traitement requiert le concours
de ressources attentionnelles, l’attention étant dirigée vers un item à la fois.
L’idée qu’il existe deux étapes de traitement, c.-à-d. qu’il y a bien, d’une part,
des caractéristiques en soi qui constituent un objet et que, d’autre part, il
faille lier celles-ci, est appuyée par ce qui arrive quand on place des partici-
pants dans des conditions difficiles. Ces conditions sont celles où sont
générées des conjonctions illusoires (Treisman et Schmidt, 1982). Ces
dernières sont des erreurs qui surviennent quand on rapporte avoir vu, dans
un ensemble visuel, une lettre d’une certaine couleur. Cette lettre était bien
présente et la couleur rapportée aussi, mais cette même lettre exactement
dans cette couleur ne l’était pas.

Il existe différents troubles de l’attention susceptibles d’entraver la
perception. Un de ceux-là est appelé l’héminégligence. Un patient souffrant
d’un dommage au cortex pariétal est susceptible d’éprouver des problèmes
d’attention visuelle. Plus spécifiquement, si la lésion est à droite, le patient
ne peut pas porter attention à tout ce qui se trouve du côté controlatéral
(opposé), c’est-à-dire à tout ce qui est à gauche d’un point de fixation. Un
cas particulier d’héminégligence est appelé l’extinction. Un patient qui en
souffre pourrait voir un objet du côté controlatéral, mais à la condition
qu’un objet ne se trouve pas à un endroit correspondant dans l’autre
hémichamp visuel (c’est-à-dire du côté ipsilatéral).
Parfois, les lésions pariétales peuvent être bilatérales. Dans ces rares
cas, le patient souffre d’un problème appelé le syndrome de Balint.
Différents symptômes peuvent résulter de ce trouble. Notamment, le
patient ne semble capable de voir qu’un seul objet à la fois. C’est comme si
le fait de porter attention à un objet faisait en sorte que tout ce qui se

trouve autour n’existe plus. On parle parfois de simultagnosie pour
désigner l’incapacité de percevoir plus d’une chose à la fois.
Par ailleurs, il existe des cas où, à la suite de lésions cérébrales, des
patients se disent incapables de voir un certain objet (Weiskrantz, 1986).
Pourtant, ils arrivent à « deviner correctement » leur localisation si l’on
insiste pour qu’ils désignent en pointant où il se trouve. Ce phénomène,
appelé la « vision aveugle » (blindsight en anglais), met en relief le fait qu’il
ne semble pas nécessaire de prendre conscience d’avoir vu quelque chose
pour agir relativement à cette chose.
Appendice A
COURBES ROC
Les courbes ROC (pour Receiver Operating Characteristics) permettent de

visualiser en un coup d’œil à la fois le niveau de discrimination (d') et le
critère décisionnel (ß). On obtient une courbe ROC en rapportant sur une
même figure (figure A.1) les probabilités d’une détection correcte, en
ordonnée, et les probabilités d’une fausse alarme, en abscisse.
La sensibilité de l’observateur sera révélée par l’éloignement de la
courbe de la diagonale qui représente les cas où d' = 0. Par ailleurs, le biais de
réponse de l’observateur est révélé par la localisation d’un point sur une
courbe donnée. L’observateur audacieux, c’est-à-dire celui qui a à la fois
plusieurs détections correctes et fausses alarmes, voit sa performance être
représentée par un point en haut à droite tandis que l’observateur conser-
vateur se situe plus en bas, à gauche.
165
Figure A.1 – Sur cette courbe ROC (Receiver Operating Characteristics), la sensibilité (d') est la même
partout. C désigne un observateur conservateur et A un observateur audacieux. C et A auraient donc
différents critères décisionnels (ß).
Il existe des manières concrètes de déplacer le critère décisionnel

d’un observateur, c’est-à-dire de faire varier un point sur une courbe ROC
donnée. Une de ces manières consiste à attribuer des récompenses (donner
de l’argent par exemple) pour chaque détection correcte et à administrer
une punition (réclamer de l’argent) pour chaque fausse alarme. Selon la
valeur des récompenses et des punitions, l’observateur ajustera son critère
décisionnel. Si l’observateur peut obtenir plus d’argent d’une détection
correcte qu’il ne devrait en verser pour une fausse alarme, il deviendra
audacieux (son point se déplacera vers le haut et vers la droite sur la courbe
ROC). À l’inverse, payer davantage pour une fausse alarme que ce que l’on
peut obtenir d’une détection correcte incitera un observateur normal à être
beaucoup plus conservateur dans sa manière de prendre des décisions. Les
déplacements du critère décisionnel d’un observateur se font sans pour
autant affecter la sensibilité.
Notons en terminant que ces courbes ROC permettent également
de tester certains postulats de la Théorie sur la détection du signal. Par
exemple, en transformant les proportions en scores Z il devient possible de
déterminer si les distributions bruit et signal + bruit sont normales et si
leur variance est la même. Dans le premier cas, pour une courbe donnée
transformée en scores Z, les points devraient tomber sur, ou tout près, de la
fonction linéaire ; et dans le deuxième cas, la pente devrait être de 1.
Appendice B
LOI DE FECHNER
Fondateur de la psychophysique, Gustav Fechner s’est intéressé à la nature

de la relation entre la magnitude d’un stimulus et la magnitude de la sensa-
tion. Fechner pensait que cette relation devait forcément être logarith-
mique. En fait, pour établir la relation, il postulait que la magnitude de la
sensation pouvait être décrite par une unité appelée la différence juste
perceptible (DJP), qui pouvait elle-même être quantifiée indirectement sur
la base de la fraction de Weber. Le point 0 de son échelle psychologique
correspond au seuil absolu.
Ainsi, pour un continuum sensoriel pour lequel le seuil absolu est
égal à 10 (unités fictives) et la fraction de Weber à 0,3, le calcul de l’échelle
va comme suit :
DJP Valeur (en log)

1 = 10 + (10 × 0,3) = 13 (1,114)
2 = 13 + (13 × 0,3) = 16,9 (1,228)
3 = 16.9 + (16,9 × 0,3) = 21,97 (1,342)
4 = 21,97 + (21,97 × 0,3) = 28,56 (1,456)
5 = 28,56 + (28,56 × 0,3) = 37,13 (1,570)
6 = 37,13 + (37,13 × 0,3) = 48,27 (1,684)
et ainsi de suite.
Bref, pour atteindre une DJP, le stimulus dans cet exemple doit
avoir une valeur de 13. La prochaine DJP survient lorsque l’intensité est de
16,9. Rapportées sous forme graphique, ces valeurs montrent que la
relation entre les DJP, sur l’axe des y, et la valeur des stimuli, croît de façon
logarithmique (figure B.1, en haut). Si c’est plutôt la valeur logarithmique
167
des stimuli qui est utilisée sur l’axe des x, la relation devient linéaire
(figure B.2, en bas).
Figure B.1 – Relation entre la valeur d’une « différence juste perceptible » (DJP) et l’intensité des
stimuli sur une échelle linéaire (en haut) et sur une échelle logarithmique (en bas).
Appendices 169
Cette relation logarithmique peut être synthétisée par l’équation

suivante :
DJP = K log f
où la DJP est la magnitude de la sensation, K est une constante multiplica-

tive dont la valeur est reliée une modalité donnée et à une dimension
sensorielle donnée ; et f est l’intensité du stimulus au-dessus du seuil
absolu.
Dans l’esprit de Fechner, la quatrième DJP correspond à quelque
chose qui est psychologiquement deux fois plus élevé que la deuxième DJP.
Cette manière indirecte d’établir le lien entre la sensation et la magnitude
sur le plan physique allait difficilement pouvoir tenir la route, notamment
en raison du fait que la fraction de Weber n’est pas constante, étant plus
élevée pour de faibles magnitudes sur le plan physique. La manière directe
avec laquelle Stevens a abordé la question du lien entre la magnitude d’un
stimulus et la magnitude sensorielle s’est révélée plus fructueuse.
Appendice C
LE SYSTÈME NERVEUX
L’étude du système nerveux comporte de très nombreuses nuances.

Néanmoins, la lecture de quelques grandes lignes de l’anatomie du système
nerveux permet de s’y retrouver, ou du moins, de lier l’activité périphérique
observée au niveau des récepteurs sensoriels à celle des étages supérieurs,
c’est-à-dire à ce qui mène jusqu’au cerveau.
Le système nerveux se divise en un système nerveux central et en un
système nerveux périphérique. Les principales parties du système nerveux
central sont décrites ci-dessous. Le système nerveux périphérique comprend
le système nerveux autonome (fait des systèmes sympathique et parasym-
pathique) et le système nerveux somatique. Ce dernier nous intéresse
particulièrement puisqu’il inclut les nerfs.
1. Les nerfs
Les neurones sont les unités fondamentales du système nerveux, car
ils permettent de faire circuler l’influx nerveux, donc de transmettre l’infor-
mation à travers le corps. Les nerfs sont des regroupements d’axones dans
le système nerveux périphérique, un axone étant la partie du neurone
constituant le prolongement du corps cellulaire jusqu’à de nombreuses
ramifications.
La transmission de l’influx nerveux des récepteurs à la moelle
épinière se fait par la voie des nerfs. Le système nerveux périphérique est
notamment composé de 12 paires de nerfs crâniens et de 31 paires de nerfs
rachidiens. Les nerfs crâniens, que l’on désigne par les chiffres I à XII,
portent aussi un nom qui renseigne sur leur fonction. Certains nerfs sont
strictement efférents, d’autres strictement afférents, et d’autres, comme le
171
trijumeau (V), ont les deux fonctions. Dans le cadre de l’étude de la

sensation et de la perception, il convient de souligner que les nerfs I, II et
VIII sont associés respectivement à l’olfaction, à la vision et à l’audition.
Dans ce dernier cas, il s’agit en fait du nerf vestibulo-cochléaire, une
branche de ce nerf étant affectée à l’appareil vestibulaire situé dans l’oreille
interne.
Les nerfs rachidiens (ou spinaux) sont déterminés en fonction de la
hauteur où ils se trouvent sur la colonne vertébrale : nerfs cervicaux (de
1 à 8), thoraciques (de 1 à 12), lombaires (de 1 à 5), sacrés (de 1 à 5) et
coccygien (1). Chacun de ces nerfs innerve une bande (ou territoire
segmenté) de la peau, appelée dermatome.
2. Le système nerveux central
Les grandes divisions
Le système nerveux central comprend l’encéphale et la moelle

épinière. L’encéphale est le vocable général qui regroupe le cerveau, le tronc
cérébral et le cervelet. Qu’il suffise ici de rappeler que le cerveau comprend le
cortex cérébral (ou télencéphale), en plus de structures importantes (système
limbique, thalamus et hypothalamus). Sous le cerveau se trouve le tronc
cérébral qui comprend, de haut en bas, le mésencéphale, le pont et le bulbe.
À peu près à la hauteur du tronc se trouve, vers l’arrière, le cervelet ; et sous le
tronc cérébral, se trouve la moelle épinière. Le tableau C.1 permet de résumer
les principales divisions du système nerveux central.
Le cortex cérébral
Les différentes aires du cortex cérébral sont spécialisées dans certaines

fonctions. Pour repérer facilement les aires, il est utile d’identifier, sur la
figure C.1, les scissures (ou fissures) centrale et latérale du cortex, de même
que les quatre lobes : frontal, occipital, pariétal et temporal. Tout juste
devant la scissure centrale se trouvent les cortex moteur et pré-moteur. À
l’arrière de la scissure centrale, on trouve le cortex somesthésique lui-même
divisé en deux zones, dites primaire et secondaire. Le cortex somesthésique
primaire reçoit de l’information directement des organes récepteurs alors
que le cortex somesthésique secondaire ne reçoit que de l’information
ayant préalablement reçu un traitement ailleurs dans l’encéphale, y compris
dans le cortex somesthésique primaire. Le cortex auditif se trouve au
Appendices 173
niveau du lobe temporal tandis que les différentes divisions du cortex

visuel se trouvent à l’arrière, dans le lobe occipital.
Tableau C.1
Divisions du système nerveux central et divers termes qui y sont associés
Encéphale = Cerveau + Tronc cérébral + Cervelet

Cerveau = Cortex cérébral + Système limbique + Thalamus + Hypothalamus
Tronc cérébral = Mésencéphale + Pont + Bulbe
Télencéphale (ou cortex cérébral)
Diencéphale (Thalamus + Hypothalamus)
Mésencéphale
Métencéphale (Pont)
Myélencéphale (Bulbe)
Cerveau antérieur = Télencéphale + Diencéphale
Cerveau moyen = Mésencéphale
Cerveau postérieur = Pont + Bulbe + Cervelet
Figure C.1 – Principales aires fonctionnelles du cortex cérébral.

La moelle épinière et les voies sensorielles
La moelle épinière est cette partie du système nerveux central,

protégée par la colonne vertébrale, qui assure la communication (c’est-à-
dire, la transmission de l’influx nerveux) entre le système nerveux
périphérique et le cerveau, et entre le cerveau et les effecteurs (les muscles).
Si l’on fait une coupe transversale de la moelle épinière, on aperçoit une
série de faisceaux qui sont en fait des regroupements de nombreux axones
(dans le système nerveux central). Ces faisceaux sont dits ascendants (ou
afférents) lorsqu’ils sont affectés à la transmission de l’information de la
périphérie au cerveau ; et descendants (ou efférents) lorsqu’ils sont affectés
à la transmission de l’influx nerveux du cerveau aux effecteurs (les muscles).
La figure C.2 permet de distinguer une partie ventrale (ou
antérieure), vers l’avant, et une partie dorsale (ou postérieure), vers l’arrière.
Ce qui se trouve sur les côtés est appelé latéral. On distingue aussi sur la
moelle épinière la substance grise, où on retrouve les cornes dorsales,
ventrales ou latérales, de la substance blanche contenant les cordons
dorsaux, ventraux ou latéraux.
Figure C.2 – Coupe transversale de la moelle épinière.

Appendices 175
On distingue deux grandes voies chargées de transmettre l’infor-

mation sensorielle. Ces deux systèmes se distinguent par l’endroit exact où
circule l’influx nerveux et par le type d’information qui y est transportée.
Pour comprendre aisément le trajet de l’influx nerveux des récepteurs au
cerveau, il faut se rappeler que l’information reçue d’un côté du corps,
gauche ou droit, est acheminée dans la partie, droite ou gauche, opposée
du cerveau. Or, le transfert d’un hémicorps à un autre se fait parfois au
niveau de la moelle épinière, c’est-à-dire immédiatement au niveau où se
produit la sensation. C’est le cas du système spinothalamique (ou système
extralemniscal) : l’information change d’hémicorps (l’information est
croisée) dès son entrée dans la moelle épinière (spino) et est acheminée
directement au thalamus où il y a un relai (synapse) avec un autre neurone.
De là, l’influx nerveux est acheminé à une aire du cortex cérébral spécia-
lisée dans la somesthésie. Au niveau de la moelle épinière, l’influx circule
dans la partie antérolatérale.
Certaines informations sensorielles empruntent une voie différente
pour atteindre le cortex somesthésique. Cette autre voie est caractérisée par
le fait que le transfert de l’influx nerveux d’un hémicorps à l’autre ne
s’effectue pas au niveau de la moelle épinière, mais beaucoup plus haut
dans le système nerveux, soit au niveau du bulbe. Après le croisement au
niveau du bulbe, il y a aussi synapse, avant la projection dans l’aire somes-
thésique, au niveau du thalamus. Cette voie est appelée le système des
colonnes dorsales (ou système lemniscal) et se situe, au niveau de la moelle
épinière, dans la partie postérieure. Le tableau C.2 rapporte par quelles
voies différentes sensations sont acheminées vers le cerveau.
Tableau C.2.
Voies centrales de transmission de diverses informations sensorielles
Voie spinothalamique Système lemniscal

Chatouillement et démangeaisons Sensations causées par des vibrations
Douleur Sensations de frottement contre la peau
Sensations diffuses de tact ou de pression Sensations de la position du corps dans l’espace
Sensations sexuelles Sensations tactiles fines
Sensations thermiques
Méthodes d’étude du cerveau

Bien que cela dépasse un peu les cadres du présent ouvrage, il convient
de rappeler les principales techniques utilisées afin de connaître les liens entre
les structures cérébrales et les différentes fonctions sensorielles, perceptives ou
cognitives.
Déjà au XIXe siècle, des liens étaient établis entre des lésions cérébrales,
ou l’ablation de certains groupes de neurones, et la fonction affectée. On peut
maintenant faire des lésions, chez l’animal, afin de tester des hypothèses
relativement au rôle d’aires cérébrales précises que l’on endommage. De
même, il existe depuis environ le milieu du XXe siècle des techniques en
neurophysiologie qui permettent d’implanter des microélectrodes pour
connaître l’activité de simples neurones et leur rôle dans la physiologie senso-
rielle.
Il existe maintenant de nombreuses techniques qui permettent dans
leur ensemble de dresser un portrait, ou une image, de l’activité cérébrale.
Généralement, elles permettent ou bien d’avoir une juste idée de la locali-
sation d’une structure impliquée dans la fonction testée, ou une juste idée du
moment où survient une contribution cérébrale. Ainsi, depuis près de 50 ans,
on peut utiliser des électrodes de surfaces (sur le cuir chevelu) pour mesurer
l’activité électrique du cerveau. Ce procédé, l’électroencéphalographie (ÉEG),
reflète l’activité moyenne de certaines parties du cerveau et comment cette
activité se transforme sur une période donnée. Une forme particulière de
cette activité ÉEG est appelée potentiels évoqués. Il s’agit d’analyses
permettant de lier assez précisément dans le temps un changement d’activité
électrique et des stimuli sensoriels. L’activité électrique du cerveau produit
également de petits champs magnétiques. Ainsi, une technique assez récente,
la magnétoencéphalographie (MEG), permet de saisir cette activité magné-
tique et d’offrir, en plus d’une bonne résolution temporelle comme l’ÉEG,
une meilleure résolution spatiale, car l’activité magnétique est moins vulné-
rable que l’activité électrique saisie par les électrodes de surface aux distorsions
causées, par exemple, par le crâne.
Parmi les outils qu’offre la technologie aux chercheurs en neuros-
cience, il y a la tomographie par émission de positrons. Cette technique,
disponible depuis une cinquantaine d’années, consiste à mesurer l’activité
métabolique du cerveau à l’aide de traceurs radioactifs. Elle permet de
localiser certaines fonctions, mais offre une pauvre résolution temporelle. Les
années 1990 ont vu l’émergence d’une technique appelée l’imagerie par
résonance magnétique fonctionnelle. Cette technique qui ne requiert pas
l’usage de substances radioactives est fondée sur les changements métabo-
Appendices 177
liques à l’intérieur du cerveau. On peut ainsi lier le flux sanguin, de même

que la quantité d’oxygène requise par les neurones lors d’une activité
perceptive ou cognitive. Cette technique permet d’avoir une très grande
résolution spatiale.
On peut maintenant compter sur des techniques de neuromodu-
lation pour mieux connaître les propriétés du cerveau. Depuis le milieu des
années 1990, la stimulation magnétique transcrânienne est disponible. Il
s’agit d’une technique où l’on peut créer pour une brève période, avec de
petites impulsions magnétiques, un changement dans l’activité du cerveau.
On peut, par exemple, créer une incapacité temporaire d’utiliser une
certaine partie du cerveau et voir comment cela se répercute sur une
habileté perceptive ou cognitive. Encore plus récemment, il est devenu
possible de procéder par stimulation transcrânienne par courant (trans-
cranial direct current stimulation – tDCS), une technique non invasive où
l’application d’un faible courant passe à travers deux électrodes : anode et
cathode. L’efficacité de la tDCS dépend de la position de l’électrode et la
force du courant. La stimulation anodique permettrait d’augmenter la
transmission synaptique alors que la stimulation cathodique aurait pour
effet de l’inhiber.
BIBLIOGRAPHIE
Bagot, J.-D. (1996). Information, sensation et perception. Paris, Armand Colin.

Bausenhart, K. M., B. Rolke et R. Ulrich (2008). « Temporal preparation improves
temporal resolution : Evidence from constant foreperiods ». Perception &
Psychophysics, 70, p. 1504-1514.
Biederman, I. (1987). « Recognition-by-components : A theory of human image
understanding ». Psychological Review, 94, 115-147.
Bonnet, C. (1986). Manuel pratique de psychophysique. Paris, Armand Colin.
Bowmaker, J. K. et H. J. A. Dartnell (1980). « Visual pigments of rods and cones in a
human retina ». Journal of Physiology, 298, p. 501-511.
Bowmaker, J. K., H. J. A. Dartnell et J. D. Mollon (1980). « Microspectrophotometric
demonstration of four classes of photoreceptor in an old world primate, Macaca
fascicularis ». Journal of Physiology, 298, p. 131-143.
Bregman, A. S. (1990). Auditory scene analysis (The perceptual organization of sound).
Cambridge, MA, MIT Press.
Broadbent, D. (1958). Perception and Communication. London, Pergamon Press.
Bruce, V., P. R. Green et M. A. Georgeson (1996). Visual perception (physiology, psycho-
logy, and ecology (3e éd.). Sussex, UK, Psychology Press.
Brungart, D. S., N. I. Durlach et W. M. Rabinowitz (1999). « Auditory localization of
nearby sources. II. Localization of a broadband source ». Journal of the Acoustical
Society of America 106, p. 1956-1968.
Butler, R. A., E. T. Levy et W. D. Neff (1980). « Apparent distance of sounds recorded
in echoic and anechoic chambers ». Journal of Experimental Psychology : Human
Perception and Performance, 6, p. 745-750.
179
Calvert, G., C. Spence et B. E. Stein (2004). The handbook of multisensory processes.

Cambridge, MA, MIT Press.
Campbell, F. W. et J. G. Robson (1968). « Application of Fourier analysis to the visibi-
lity of gratings ». Journal of Physiology, 197, p. 551-566.
Chaudhuri, A. (2011). Fundamentals of sensory perception. New York, Oxford.
Coren, S. et J. S. Girgus (1978). Seeing is deceiving : The psychology of visual illusions.
Hillsdale, NJ, Lawrence Erlbaum Associates.
Coren, S., J. S. Girgus, H. Ehrlichman et A. R. Hakstian (1976). « An empirical taxo-
nomy of visual illusions ». Perception and Psychophysics, 20, p. 129-137.
Coren, S., L. M. Ward et J. Enns (2004). Sensation and perception (6e éd.). Toronto,
HBJ.
Cowan, N. (1995). Attention and memory : An integrated framework. New York, Oxford
University Press.
Dalton, P. et N. Fraenkel (2012). « Gorillas we have missed : sustained inattentional
deafness for dynamic events ». Cognition, 124, p. 367-372.
Delorme, A. (1982). Psychologie de la perception. Montréal : Études Vivantes.
Delorme, A. Flückiger, M. (2003). Perception et réalité (Une introduction à la psycho-
logie des perceptions). Boucherville, Qc, Gaëtan Morin.
Desrochers, A. (1990). Langage et processus cognitifs. Manuel pour l’éducation à
distance. Université Laurentienne, Sudbury, Canada.
Deutsch, D. (2010). « The paradox of pitch circularity ». Acoustics Today, juillet,
p. 8-15.
Deutsch, J. A. et D. Deutsch (1963). « Attention : Some theoretical considerations ».
Psychological Review, 70, p. 80-90.
De Valois, R. L., J. Abramovet et G. H. Jacobs (1966). Analysis of response patterns of
LGN cells. Journal of Optical Society of America, 56, 966-977.
DeValois, R. L. et K.K. DeValois (1988). Spatial vision (Oxford Psychology Series). New
York, Oxford University Series.
Diehl, R. L., A. J. Lotto et L. L. Holt (2004). Speech Perception. Annual Review of
Psychology, 55, p. 149-179.
Di Lollo, V. et W. F. Bischof (1995). « The inverse intensity effect in duration of visible
persistence ». Psychological Bulletin, 118, p. 223-237.
Dowling, J. E., et B. B. Boycott (1966). Organization of the Primate Retina : Electron
Microscopy. Proceedings of the Royal Society of London. Series B, Biological Sciences,
166, p. 80-111.
Dux, P. E. et R. Marois (2009). « The attentional blink : A review of data and theory ».
Attention, Perception, & Psychophysics, 71, p. 1683-1700.
Eimas, P. D. et J. D. Corbit (1973). « Selective adaptation of linguistic feature detec-
tors ». Cognitive Psychology, 4, p. 99-109.
Bibliographie 181
Eisler, H. (1976). « Experiments on subjective duration 1878-1975 : A collection of

power function exponents ». Psychological Bulletin, 83, p. 185-200.
Epstein, W. (1977) (éd.). Perceptual stability and constancy : Mechanisms and processes.
New York, John Wiley & Sons
Fechner, G. (1860). Elements of psychophysics. Trad. par H. E. Adler, D. H. Howes et E.
G. Boring (1966). New York, Holt, Rinehart & Winston.
Fletcher, H. et W. A. Munson. (1933). « Loudness, its definition, measurement and
calculation ». Journal of the Acoustical Society of America, 6, 5 p. 82-108.
Foley, H. J. et M. W. Matlin (2010). Sensation and perception (5e éd.). Toronto, Allyn
and Bacon.
Galantucci, B., C.A. Fowler et M. T. Turvey (2006). The motor theory of speech
perception reviewed. Psychonomic Bulletin & Review, 13, p. 361–377.
Gazzaniga, M. S., R. B. Ivry et G. R. Mangun (2009). Cognitive neuroscience – The
biology of the mind (3e éd.) New York, Norton.
Gescheider, G. A. (1997). Psychophysics : Method, theory, and applications (3e éd.).
Hillsdale, NJ, Lawrence Erlbaum.
Gibson, E. J., F. Schapiro et A. Yonas (1968). « Confusion matrices for graphic patterns
obtained with a latency measure ». The analysis of reading skill : A program of basic
and applied research. (Final report, project No.5-1213. Ithaca, NY,Cornell
University and U.S. Office of Education).
Gibson, J. J. (1966). The senses considered as perceptual systems. Boston, Houghton
Mifflin.
Gibson, J. J. (1979). The ecological approach to visual perception. Boston, Houghton
Mifflin.
Ginsburg, A. P., D. W. Evans, R. Sekuler et S. A. Harp (1982). Contrast sensitivity
predicts performance in aircraft simulators. American Journal of Optometry and
Physiological Optics, 59, p. 105-109.
Girgus, J. S., et S. Coren (1975). « Depth cues and constancy scaling in the horizontal-
vertical illusion : The bisection error ». Canadian Journal of Psychology, 29,
p. 59-65.
Goldstein, E. B. (2010). Sensation and perception (8e éd.). Belmont, Wadsworth.
Gray, J. A. et A. A.I. Wedderburn (1960). « Grouping strategies with simultaneous
stimuli ». Quarterly Journal of Experimental Psychology, 12, p. 180-184.
Gregory, R. L. (1997). « Knowledge in perception and illusion ». Philosophical
Transactions of the Royal Society of London, 352, p. 1121-1128.
Grondin, S. (2001). « From physical time to the first and second moments of psycho-
logical time ». Psychological Bulletin, 127, p. 22-44.
Grondin, S. (2008). « Methods for studying psychological time ». Dans S. Grondin
(éd.), Psychology of time (p. 51-74). Bingley, UK, Emerald Group Publishing.
Grondin, S. (2010). « Timing and time perception : A review of recent behavioral and
neuroscience findings and theoretical directions ». Attention, Perception &
Grondin, S. (2012). « Violation of the scalar property for time perception between 1 and
2 seconds : Evidence from interval discrimination, reproduction, and categoriza-
tion ». Journal of Experimental Psychology : Human Perception and Performance, 38,
p. 880-890.
Grondin, S. et P. R. Killeen (2009). « Tracking time with song and count : Different
Weber functions for musicians and non-musicians ». Attention, Perception &
Grondin, S. et M. Laforest (2004). « Discriminating slow tempo variations in a musical
context ». Acoustical Science & Technology, 25, p. 159-162.
Gulick, W. L., G. A. Gescheider et R. D. Frisina (1989). Hearing : Physiological acous-
tics, neural coding, and psychophysics. New York, Oxford University Press.
Harmon, L. D. et B. Julesz (1973). Masking in visual recognition : Effects of two-
dimensional filtered noise. Science, 180, p. 1194-1197.
Hartline, H. K. (1940). « The receptive fields of optic nerve fibers ». American Journal of
Physiology, 130, p. 690-699.
Hartline, H. K. et F. Ratliff (1957). « Inhibitory interaction of receptor units in the eye of
limulus ». Journal of General Physiolology, 40, p. 357-376.
Hartmann, W. M. (1996). « Pitch, periodicity, and auditory organization ». Journal of
the Acoustical Society of America, 100, p. 3491-3502.
Hellström, Å. (1985). « The time-order error and its relatives : Mirrors of cognitive
processes in comparing ». Psychological Bulletin, 97, p. 35-61.
Hershenson, M. (éd.) (1989). The moon illusion. Hillsdale, NJ, Lawrence Erlbaum.
Holway, A. H. et E. G. Boring (1941). « Determinants of apparent visual size with
distance variant ». American Journal of Psychology, 54, p. 21-37.
Honegger, M. (1976) (éd.). Science de la musique (Vol. 1 : A-K ; Vol. 2 : L-Z). Paris :
Bordas.
Hubel, D. H. et T. N. Wiesel (1959). « Receptive fields of single neurones in the cat‘s
striate cortex ». Journal of Physiology, 148, p. 574-591.
Hubel, D. H. et T. N. Wiesel (1962). « Receptive fields, binocular interaction and
functional architecture in the cat’s visual cortex ». Journal of Physiology, 160,
p. 106-154.
Hubel, D. H. et T. N. Wiesel (1968). « Receptive fields, binocular interaction, and
functional architecture in monkey striate cortex ». Journal of Physiology, 168,
p. 215-243.
Jesse, A. et D. W. Massaro (2010). « Seeing a singer helps comprehension of the song’s
lyrics ». Psychonomic Bulletin & Review, 17, p. 323-328.
Johnston, W. A. et V. J. Dark (1986). « Selective attention ». Annual Review of
Psychology, 37, p. 43-75.
Bibliographie 183
Kaufman, L.et I. Rock (1962). « The moon illusion ». Scientific American, 207,
p. 120-132.
Kilpatrick, F. P. et W. H. Ittelson, W. H. (1953). « The size-distance invariance hypo-
thesis ». Psychological Review, 60, p. 223-231.
Klein, R. M. (2000). « Inhibition of return ». Trends in Cognitive Sciences, 4,
p. 138-147.
Kluender, K. L., R. L. Diehl et P. R. Killeen (1987). « Japanese quail can learn phonetic
categories ». Science, 237, p. 1195-1197.
Kuffler, S. W. (1953). « Discharge patterns and functional organization of mammalian
retina ». Journal of Neurophysiology, 16, 37–68.
Kuroda, T., Y. Nakajima, S. Tsunashima et T. Yasutake (2009). « Effects of spectra and
sound pressure levels on the occurrence of the gap transfer illusion. Perception, 38,
p. 411-428.
Larsen, E., N. Iyer, C. R. Lansing et A. S. Feng (2008). « On the minimum audible
difference in direct-to-reverberant energy ratio ». Journal of the Acoustical Society of
America, 124, p. 450-461.
Livingstone, M. S. et D. H. Hubel (1987). « Psychophysical evidence for separate
channels for the perception of form, color, movement, and depth ». Journal of
Neuroscience, 7, p. 3416-3468.
Loftus, G. R. et D. E. Irwin (1998). « On the relations among different measures of
visible and informational persistence ». Cognitive Psychology, 35, p. 135-199.
Lortie, J.-Y. et G. Parent (1989). Psychologie de la perception – Notes de cours. Sainte-Foy,
Université Laval.
Macdonald, J. S. P. et N. Lavie (2011). « Visual perceptual load induces inattentional
deafness ». Attention, Perception, & Psychophysics, 73, p. 1780-1789.
Mack, A. et I. Rock, I. (1998). Inattentional blindness. Cambridge, MIT Press.
MacLeod, C. M. (1991). « Half a century of research on the Stroop effect : An integra-
tive review ». Psychological Bulletin, 109, p. 163-203.
Macmillan, N. A. et C. D. Creelman (1991). Detection theory : A user’s guide.
New York, Cambridge University Press.
Marr, D. (1982). Vision : A computational investigation into the human representation
and processing of visual information. New York, Freeman.
Marr, D. et H. K. Nishihara (1978). « Representation and recognition of the spatial
organization of three-dimensional shapes ». Proceedings of the Royal Society of
London B, 200, p. 269-294.
Martensa, S. et B. Wybleb (2010). « The attentional blink : Past, present, and future of
a blind spot in perceptual awareness ». Neuroscience and Biobehavioral Reviews, 34,
p. 947-957.
McCollough, C. (1965). « Adaptation of edge-detectors in the human visual system ».
Science, 149, p. 1115-1116.
McGurk, H. et J. MacDonald (1976). « Hearing lips and seeing voices ». Nature, 264,
p. 746-748.
Michael. C. R. (1978). « Color vision mechanisms in monkey striate cortex : dual-
opponent cells with concentric receptive fields ». Journal of Neurophysiology, 41,
p. 572-588.
Miller, G. A. (1947). The masking of speech. Psychological Bulletin, 44, p. 105-129.
Miller, G. A. et J. C. R. Licklider (1950). « The intelligibility of interrupted speech ».
Journal of the Acoustical Society of America, 22, p. 167-173.
Musicant, A. D. et R. A. Butler (1984). The influence of pinnae-based spectral cues on
sound localization. Journal of the Acoustical Society of America, 75, p. 1195-1200.
Nakajima, Y., T. Sasaki, K. Kanafuka, A. Miyamoto, G. Remijn et G. ten Hoopen
(2000). « Illusory recouplings of onsets and terminations of glide tone compo-
nents ». Perception and Psychophysics, 62, p. 1413-1425.
Neisser, U. (1964). « Visual search ». Scientific American 210(6), p. 94-102.
Niemi, P. et R. Näätänen (1981). « Foreperiod and simple reaction time ». Psychological
Bulletin, 89, p. 133-162.
Nisly, S. J. et G. S. Wasserman (1989). « Intensity dependence of perceived duration :
Data, theories, and neural integration ». Psychological Bulletin, 106, p. 483-496.
Palmer, S. E. (1992). « Common regions : A new principle of perceptual grouping ».
Cognitive Psychology, 24, p. 436-447.
Patel, A. D. (2008). Music, language, and the brain. Oxford, University Press.
Penrose, L. S. et R. Penrose (1958). « Impossible objects : a special type of visual illu-
sion ». British Journal of Psychology, 49, p. 31-33.
Peretz, I. et K. L. Hyde (2003). « What is specific to music processing ? Insights from
congenital amusia ». Trends in Cognitive Sciences, 7, p. 362-367.
Piaget, J. (1961). Les mécanismes perceptifs. Paris, PUF.
Posner, M. I. et Y. Cohen (1984). « Components of visual orienting ». Dans H. Bouma
et D. Bouwhuis (éd.). Attention & Performance X (p. 531-556). Hillsdale, NJ,
Erlbaum.
Prinzmetal, W. et L. Gettleman (1993). « Vertical-horizontal illusion : One eye is better
than two ». Perception & Psychophysics, 53, p. 81-88.
Rafal, R. D., P. A. Calabresi, C. W. Brennan et T. K. Sciolto (1989). « Saccade prepara-
tion inhibits reorienting to recently attended locations ». Journal of Experimental
Psychology : Human Perception and Performance, 15, p. 673-685.
Reed, S. K. (1982). Cognition : Theory and Applications. Monterrey, Ca, Brooks/Cole.
Rensink, R. A. (2002). « Change detection ». Annual Review of Psychology, 53,
p. 245-277.
Rensink, R. A, J. K. O’Regan et J. J. Clark (1997). « To see or not to see : The need for
attention to perceive changes in scenes ». Psychological Science, 8, p. 368-373.
Bibliographie 185
Rock, I. et L. Kaufman (1962). The moon illusion, II : The moon’s apparent size is a
function of the presence or absence of terrain. Science, 136, p. 1023-1031.
Rosenzweig, M. R., A. L. Leiman et S. M. Breedlove (1998). Psychobiologie. New York,
Random House.
Ross, H. et C. Plug (2002). The mystery of the moon illusion : Exploring size perception.
Oxford, Oxford University Press.
Sasaki, T. (1980). « Sound restoration and temporal localization of noise in speech and
music sounds ». Tohoku Psychologica Folia, 39, p. 79-88.
Schiffman, H. R. (2001). Sensation and perception : An integrated approach (5e éd.).
New York, John Wiley.
Sekuler, R. et R. Blake, R. (1990). Perception (2e éd.). Toronto, McGraw-Hill.
Selfridge, O. G. (1959). « Pandemonium : A paradigm of learning ». Dans D. V. Blake
et A. M. Uttley (éd.), The mechanization of thought processes (p. 523-526).
London.
Shen, Y. (2013). « Comparing adaptive procedures for estimating the psychometric
function for an auditory gap detection task », Attention, Perception and
Shen, Y. et V. M. Richards (2012). « A maximum-likelihood procedure for estimating
psychometric functions : Thresholds, slopes, and lapses of attention ». Journal of
Acoustical Society of America, 132, p. 957-967.
Shepard, R. N. (1964). « Circularity in judgments of relative pitch ». Journal of the
Acoustical Society of America, 36, p. 2346-2353.
Shepard, R. N. (1990). Mind sight. New York, Freeman.
Simons, D. J. et C. F. Chabris (1999). « Gorillas in our midst : Sustained inattentional
blindness for dynamic events ». Perception, 28, p. 1059-1074.
Snyder, J. S. et C. Alain (2007). « Toward a neurophysiology theory of auditory stream
segregation ». Psychological Bulletin, 133, p. 780-799.
Stevens, S. S. (1961). « The psychophysics of sensory functions ». Dans A. W. Rosenblith
(éd.), Sensory communication (p. 1-33). Cambridge, MA, MIT Press.
Stevens, S. S. (1975). Psychophysics : Introduction to its perceptual, neural and social pros-
pects. New York, Wiley.
Strayer, D. L. et W. A.Johnston (2001). « Driven to distraction : Dual-task studies of
simulated driving and conversing on a cellular phone ». Psychological Science, 12,
p. 462-466.
Stroop, J. R. (1935). « Studies of interference in serial verbal reactions ». Journal of
Experimental Psychology, 18, p. 643-662.
Thompson, W.F., R. A. Russo et S. Livingstone (2010). « Facial expressions of pitch
structure in music performance ». Psychonomic Bulletin & Review, 17, p. 317-322.
Treisman, A. M. (1960). « Contextual cues in selective listening ». Quarterly Journal of
Experimental Psychology, 12, p. 242-248.
Treisman, A. M. (1996). « The binding problem ». Current Opinion in Neurobiology 6,

p. 171-l78.
Treisman, A. M. et G. Gelade (1980). « A feature-integration theory of attention ».
Cognitive Psychology, 12, p. 97-136.
Treisman, A. M. et H. Schmidt (1982). « Illusory conjunctions in the perception of
objects ». Cognitive Psychology, 14, p. 107-141.
Tsao, D. Y. et M. S. Livingstone (2008). « Mechanisms of face perception ». Annual
Review of Neuroscience, 31, p. 411-437.
Tsunada, J., J. H. Lee et Y. E. Cohen (2011). « Representation of speech categories in
the primate auditory cortex ». Journal of Neurophysiology, 105, p. 2634-2646.
van Noorden, L. P. A. S. (1975). Temporal Coherence in the Perception of Tone Sequences.
Unpublished doctoral dissertation, Eindhoven University of Technology,
Eindhoven, the Netherlands.
Warren, R. M. (1970). « Perceptual restoration of missing speech sounds ». Science,
167, p. 392-393.
Weiskrantz, L. (1986). Blindsight : A Case Study and Implications. Oxford, Oxford
University Press.
Werner, H. (1935). « Studies on contour : I. Quantitative analysis ». American Journal
of Psychology, 47, p. 40-64.
Wever, E. G. et C. W. Bray (1937). « The perception of low tones and the resonance-
volley theory ». Journal of Psychology, 3, p. 101-114.
Wightman, F. L. et D. J. Kistler (1992). « The dominant role of low-frequency inte-
raural time differences in sound localization ». Journal of the Acoustical Society of
America, 91, p. 648-1661.
Wolfe, J. M. et T. S. Horowitz (2004). « What attributes guide the deployment of
visual attention and how do they do it ? », Nature Reviews Neuroscience, 5, p. 1-7.
Wolfe, J. M., K. R. Kluender, D. M. Levi, L. M. Bartoshuk, R. S. Herz, R. L. Klatzky
et S. J. Lederman (2006). Sensation and perception. Sunderland, Ma, Sinauer.
Yost, W. A. (2009). « Pitch Perception ». Attention, Perception and Psychophysics, 71,
p. 1701-1716.
Ce livre est destiné principalement aux étudiants du
premier cycle universitaire inscrits dans un programme
en psychologie. Il offre une introduction à l’étude de
la psychophysique, de la perception auditive, de
la perception visuelle et de l’attention. Il permet à
l’étudiant de se familiariser avec la terminologie du
domaine de la sensation et de la perception et de
se sensibiliser au caractère relatif de la perception.
De plus, l’ouvrage fournit à l’étudiant l’occasion de
comprendre de nombreux concepts et mécanismes
fondamentaux qui lui permettront d’interpréter diffé
rents phénomènes perceptifs.
Simon Grondin est professeur à l’École de psychologie de

l’Université Laval. Détenteur d’une maîtrise en sciences de
l’activité physique et d’un doctorat en psychologie expéri
mentale, il est spécialiste de la cognition et des neuro
sciences. Récemment, il a été Rédacteur en chef de la Revue
canadienne de psychologie expérimentale. Il est également
un passionné de hockey dont il connaît la grande et la petite
histoire.
Psychologie

Psychologie de La Perception-2013

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Psychologie de La Perception-2013

Transféré par

Droits d'auteur :

Formats disponibles

Simon Grondin

Mise en pages : Diane Trottier

© Presses de l’Université Laval. Tous droits réservés.

Les Presses de l’Université Laval

Toute reproduction ou diffusion en tout ou en partie de ce livre par quelque moyen

2 – BASES PHYSIQUES ET BIOLOGIQUES DE L’AUDITION................... 21

2.4 Bases biologiques....................................................................... 31

4 – BASES BIOLOGIQUES DE LA PERCEPTION VISUELLE.................... 63

5 – PERCEPTION DES COULEURS............................................................. 79

7 – PERCEPTION DE LA PROFONDEUR................................................... 121

7.2 La constance perceptive.............................................................. 131

8 – PERCEPTION ET ATTENTION.............................................................. 147

Ce livre porte le même nom qu’un cours offert à l’École de psychologie de

Simon Grondin, professeur

Un champ de la psychologie, la psychophysique, a pour principale préoccu-

Seuil absolu et méthode des stimuli constants

Pour mesurer un seuil absolu avec la méthode des stimuli constants,

correspond à une capacité de percevoir lors de 50 % des essais. Cette valeur,

Théorie sur la détection du signal

Malgré toute la rigueur utilisée pour estimer la capacité de détecter

Pour comprendre la TDS, il faut d’abord connaître deux concepts

quatre situations, deux sont reliées à la présence du signal et deux à

Certaines personnes attendent plus que d’autres d’être sûres avant de

Il existe différents indices associés à la TDS qui permettent de

On peut calculer facilement d' sur la base des détections correctes et

d' = Z(détection correcte) – Z(fausse alarme)

Soit l’exemple suivant : Un observateur détecte correctement la

Il importe de souligner que cette transformation de pourcentages en

A' = ½ + (p(DC) – p(FA)) × (1 + p(DC) – p(FA))

où p(DC) est la probabilité de faire une détection correcte et p(FA) la

En ce qui concerne le critère décisionnel, il peut être estimé à l’aide

ordonnée de la distribution S+B

Ainsi, dans l’exemple précédent, le critère ß aurait une valeur de 0,552 :

ordonnée de 90 % = 0,176 et l’ordonnée de 25 % = 0,319 ; donc,

Une valeur élevée de l’indicateur ß signifie que l’observateur est très

Seuil différentiel et méthode des stimuli constants

Afin d’estimer un seuil différentiel avec la méthode des stimuli

comparaison sont présentés à de nombreuses reprises conjointement ou

Cette fonction permet d’identifier deux variables qui peuvent être

La loi de discrimination de Weber et sa forme généralisée

Il n’existe pas une seule valeur de seuil différentiel pour une

l’intensité des stimuli à l’étude. Cette loi stipule que la différence de

1.3 Autres méthodes d’estimation des seuils

Avec la méthode de l’ajustement, l’observateur a une participation

Point d’égalité subjective de l’observateur A : 99,6 ; celui de l’observateur B : 99,1

La méthode des limites

Valeur du seuil : (7 + 5 + 9 + 11 + 7 + 9)/6 = 8

Pour chaque série, il y a donc deux points de transition. Ces points

Les méthodes adaptatives

Même si nous ne ferons qu’effleurer le sujet, il convient de signaler

estimation des seuils en un nombre moindre d’essais, notamment en

Point d’égalité subjective : (14 + 8,5)/2 = 11,25

magnitude d’un stimulus physique et la magnitude psychologique est

Les démonstrations empiriques de Stevens reposent sur de

présentation d’un stimulus, l’observateur doit lui attribuer une valeur

Ainsi, une autre question fondamentale en psychophysique consiste

donnée. Cette loi est appelée la loi de puissance ou la loi de Stevens, et

Autres contributions de Stevens

Stevens (1975) apporte une nuance fondamentale à propos des

Ainsi, avec un continuum prothétique, il est logique de tenter de

L’audition se rapporte au sens qui a pour principale fonction de traduire

2.1 Caractéristiques physiques d’une onde sonore simple

Une chose fondamentale à considérer dans l’analyse du son concerne

reproduire les variations de pression transmises par l’étrier. Dans cette

r econnaissance des sons du langage feraient intervenir de façon inconsciente,