Vous êtes sur la page 1sur 22

La Psychoacoustique

INTRODUCTION

La psychoacoustique tente d'étudier les rapports entre les phénomènes observés par
les acousticiens et la perception de l'auditeur. Désormais quand nous parlerons de
Son, il s'agira de son perçus.

1 Anatomie de l’oreille : la physiologie de l'audition


On connait beaucoup de choses en ce qui concerne la structure physiologique de
l'oreille, les mécanismes neuronaux et les voies nerveuses transportant l'information
de l'oreille au cerveau.

Cependant l'étage neuronal supérieur de la perception auditive, c'est-à-dire l'audition


elle-même est encore mal connue car elle n'est pas indépendante des autres sens.

L'appareil auditif se divise en trois parties.

L'oreille externe

L’oreille externe comprend le pavillon et le conduit auditif. Elle cumule les fonctions
de protection, d’amplification et de filtrage.

On s'aperçoit tout d'abord que le pavillon, qui est la partie la plus visible de l’oreille,
est asymétrique et a une forme compliquée. Présentant l’allure d’un cornet
acoustique orienté latéralement, il permet de collecter les sons en canalisant les
ondes sonores vers le conduit auditif et joue même le rôle d’amplificateur dans la
zone d’intelligibilité correspondant à la voix humaine (environ 10 dB pour les
fréquences comprises entre 2 kHz et 3,5 kHz).
Mais son rôle ne se réduit pas à cela comme on a pu longtemps le penser. Depuis la
deuxième moitié du XXe siècle, les recherches sur l’audition directionnelle ont
accordé une attention toute particulière à la fonction de l’oreille externe dans
l’évaluation directionnelle du son. Et ainsi en 1967 le scientifique Wayne Batteau
montra son rôle dans la localisation des sons.

« La forme du pavillon participe à la localisation par un jeu complexe de


réflexions et d'interférences. »

Son expérience consistait à remplir les convolutions du pavillon d'un sujet avec de la
cire. Celui-ci, après qu’on lui ait bandé les yeux, ne pouvait plus distinguer à quelle
hauteur (en bas, devant ou au-dessus de sa tête) tintait le cliquetis d'un jeu de clefs.
Plus récemment, Jens Blauert explique dans “Spatial Hearing – The Psychophysics
of Human Sound Localization” :

« Acoustiquement, le pavillon de l’oreille fonctionne comme un filtre


linéaire dont la fonction de transfert dépend à la fois de la direction et de la
distance de la source sonore. En apportant des modifications linéaires aux
signaux sonores incidents, variant selon la direction et la distance, le
pavillon encode les caractéristiques spatiales du champ sonore en
caractéristiques temporelles et spectrales. »

1. Hélix
2. Fosse triangulaire
3. Anthélix
4. Branche de l'anthélix
5. Conque
6. Antitragus
7. Lobule
8. Tragus
9. Branche de l'hélix

Schéma de l’oreille externe

Le conduit auditif mesure environ 2.5 cm et il a une forme incurvée en S. Ce


conduit a une impédance de transfert directe et reverse. Il est assimilable à un
résonateur accordé pour les fréquences allant de 2000 à 5000 Hz.

A l'extrémité du conduit auditif se trouve la membrane tympanique (ou tympan).


C'est une membrane vibrante (excitée par les ondes aériennes) d'environ 1cm de
long et 0.1cm d'épaisseur. Elle transmet des vibrations acoustiques provenant du
conduit auditif à la chaine des osselets. Le tympan reçoit aussi les vibrations
osseuses de la tête par son pourtour.
L'oreille moyenne

L'oreille moyenne est séparée de l'oreille externe par le tympan, et est protégée dans
une cavité osseuse appelée caisse du tympan. Elle est chargée de transformer
mécaniquement les vibrations aériennes en vibrations solidiennes.

A. Tenseur du tympan
B. Marteau
C. Enclume
D. Muscle de l'étrier
E. Nerf facial
F. Platine du muscle de l'étrier
G. Membrane du tympan

Schéma de l’oreille moyenne

Elle comprend la chaine des osselets, décrits par Leipp comme des leviers articulés
qui a pour rôle premier de transmettre les vibrations du tympan à la fenêtre ovale,
porte d'entrée de l'oreille interne. Nous distinguons le marteau, solidaire du tympan,
dont le muscle est régulateur des sons graves, puis l'enclume, elle-même articulée à
l’étrier, dont le muscle est un extenseur et un régulateur des sons aigus et qui est
en contact avec la membrane de la fenêtre ovale qui permet la communication avec
l’oreille interne. La mécanique résultante produit une amplification des mouvements
du tympan. La chaine des osselets et les muscles en assurant la tension (tenseur
tympanique ou muscle stapédien) servent aussi à protéger temporairement le
système auditif contre les fortes intensités (en modifiant la raideur du système lors de
variations fortes d'intensité (c’est une boucle nerveuse de contre réaction). La
paralysie ou le relâchement de ces muscles rendent le sujet intolérant au bruit.
Notons que les osselets reliés par des ligaments aux os de la tête transmettent aussi
les vibrations osseuses de celle-ci.

La trompe d'Eustache assure l'égalisation moyenne des pressions de part et d'autre


de la membrane tympanique (déglutir ou bailler ou mastiquer provoque cette
égalisation).

L'oreille interne

L'oreille interne ou labyrinthe, séparée de l'oreille moyenne par la fenêtre ovale, est
un ensemble complexe de cavités osseuses, creusées dans l'os mastoïde et
remplies de divers liquides. Elle est le siège de l'organe transducteur de l'audition
Son mécanisme est si complexe qu’on n’en connaît pas le fonctionnement exact et il
est toujours un sujet d'études.
Les canaux semi-circulaires et le limaçon avec ses deux fenêtres

La cochlée ou limaçon est une cavité spiralée contenant des liquides qui vont
transmettre les vibrations provenant du tympan. Elle contient l'organe transducteur
mécanique-neuronal : l'organe de Corti, fixé sur la membrane basilaire, est constitué
d'environ 16 000 cellules, appelées cellules ciliées ; ces capteurs essentiels ont la
propriété d’être sensibles aux micromouvements mécaniques de la membrane
tectoriale par le moyen d’un cil (d’où leur nom) et transmettent ainsi l’information
sonore sous forme d’impulsions électriques au nerf auditif. Elles sont disposées sur
quatre rangées le long de toute la membrane basilaire.

Schéma de la cochlée et de l’organe de Corti

Les cellules internes transmettent une information électrochimique aux fibres


nerveuses du nerf auditif rejoignant le cerveau. Elles sont dites afférentes par rapport
au cerveau : privées de ces cellules, tout en conservant les externes, par exemple
lors des traumatismes sonores qui détruisent les cils de ces cellules, nous devenons
sourds. Celles-ci ont donc une valeur essentiellement sensorielle.
Photo des 4 rangées de cellules ciliées

Les cellules externes sont liées à des fibres descendantes venant du cerveau.
Contractiles et adaptatrices, elles font partie du système efférent du cerveau. Leur
altération par l’âge compromet l’intelligibilité du langage. Situées en plusieurs
rangées, leur rôle est de se contracter en fonction d’une fréquence reçue, c’est à dire
que pour telle zone de la membrane basilaire, tel ensemble de fibres est activé.
Celles-ci, représentant 5% de fibres non myélinisées, sont donc en nombre infime
mais elles ont un rôle considérable, c’est à dire un rôle adaptateur, à la manière d'un
pré-ampli vis-à-vis du son plus ou moins organisé, qui a subi un premier
acheminement via le cerveau. Elles peuvent aussi affaiblir un son, l’amortir, si celui-
ci est d’une intensité trop forte ou s’il se situe dans des fréquences trop graves. Cette
mobilisation répond à une fréquence particulière selon le lieu de la membrane
basilaire envisagé (tonotopie). Les fréquences aigues feraient plutôt réagir les
cellules ciliées placées à la base de la membrane basilaire, c’est-à-dire près de la
fenêtre ovale, tandis que les fréquences aigues exciteraient plutôt les cellules
placées au bout.

1. Les cellules ciliées internes


2. Les trois rangées de cellules
ciliées externes
3. Fibres nerveuses

Schéma de la cochlée montrant, sur la partie gauche les cellules ciliées internes (1) sur une
seule rangée et sur la partie droite, les cellules ciliées externes (2) sur trois rangées. Les
autres cellules sont des cellules de soutien

Ce qui circule sur les fibres du nerf optique ne ressemble pas du tout aux
vibrations....
Sans en dire plus, les axones auditifs rejoignent les premières aires auditives du
cerveau dans lesquels il y a concurrence avec des axones venant de nombreuses
autres régions...
Les canaux semi-circulaires renseignent le cerveau sur l'orientation de la tête par
rapport au sol c'est à dire par rapport a la pesanteur et jouent donc un rôle dans
l'équilibre du corps et dans la spatialisation visuelle et auditive. De petits organes
donnent en plus des informations sur les composantes des accélérations que la tête
subit.

2 Le son interne ou la psychoacoustique


2.1 Généralités

Le son s'apprend au cours du temps :

1er temps : le son n'existe pas.


2ème temps : le son est entendu. Il peut-être corrélé à d'autres sensations (visuelles
? etc.)
3ème temps : le son est mémorisé (nous pouvons le réentendre en pensée)
4ème temps : le son est réentendu et identifié (il n'est plus nouveau, il est catégorisé
avec le son entendu la première fois et nous le percevons, remémoré avec
l'environnement sensoriel du 2ème temps.

Pour comprendre le "premier temps" : Réfléchissez au sifflet à ultra-son qui n'a pas
de sens pour vous mais qui est reconnu et identifié par un chien.

Pour comprendre le reste il faut et il suffit de le vivre. (expérience de mémorisation)

Les caractéristiques du son interne :


Toutes les caractéristiques du son s'inscrivent dans le temps :
Selon la situation notre temps psychologique passe plus ou moins vite (tension
nerveuse). Notre perception des sons est modifiée. Elle est personnelle bien que
largement partagée dans l'espèce
(Arrête cette sono cela m'exaspère!... Mon cher le Rap ce n'est pas de la musique
!...
Stéphane tu fais trop de bruit....)

Naturellement on attribue au son les adjectifs d'autres sensations (un son brillant,
doux, chaud, acide, pointu, sourd, coloré, liquide etc.)

2.2 La Hauteur (ou Tonie)

On dit qu'un son est plus grave ou plus aigu qu'un autre. Cette sensation varie avec
différents paramètres acoustiques
- La hauteur d'un son croit comme la fréquence acoustique.
N.B. : Nous pouvons percevoir des fréquences sinusoïdales allant théoriquement de
20 Hz à 20000 Hz. Le seuil supérieur baisse avec l'âge dès 20 ans : à 80 ans
entendre 10000Hz est une belle performance... Notre seuil de sensibilité en
fréquence (discrimination) dépend de la fréquence mais est de l'ordre de 12 pour
1000. A titre indicatif nous sommes plus sensibles pour des fréquences autour de
1000 Hz.
- La hauteur varie avec l'intensité acoustique. Lorsque l'on augmente l'intensité d'un
son sa tonie est accentuée.

- La hauteur varie avec la durée du signal. La hauteur du son semble baisser si le


temps d'émission est écourté.

- La hauteur varie avec le timbre: les sons brillants semblent plus aigus que les sons
sourds.

Nous ne percevons pas de "phases" entre deux sons simultanés sans doute par
absence de références mais nous détectons des différences de "début " très
courtes - 20 microsecondes !

Nous sommes très Hi-fi par "définition".

2.3 Le Timbre

On identifie le timbre à une catégorie de sources. Par exemple : une voix féminine,
le tonnerre, un violon, une trompette, un son nouveau... Comme toute les catégories
humaines les timbres ont des frontières floues bien que parfaitement identifiables par
chaque individus.

Nous relions ensemble les sensations de même timbre : dans un son complexe nous
ressentons la continuité d'une voix - ou d'un instrument- dûment identifié.

Au cours du temps pour un son donné on définit l'enveloppe dynamique du son.


Cette caractéristique participe grandement au timbre. Elle est généralement décrite-
pour les instruments en particulier - comme constituée d'une phase d'attaque, de
décroissance, de tenue et de relâchement.

Nous ressentons une " coloration " du timbre. Cela participe à l'identification.

Les acousticiens du siècle dernier ont tenté d'expliquer le timbre par une répartition
d'amplitudes de fréquences sinusoïdales :
Le fondamental responsable de la Hauteur, les harmoniques responsables du
Timbre...
Le timbre semble lié au centre de gravité de la répartition des fréquences
acoustiques des harmoniques, et la "couleur" du timbre à l'extension des
harmoniques.
Ces résultats intéressants découlent de la description du son physique par
l'utilisation des transformées de Fourier et de mesures statistiques des sensations de
nombreux sujets.

Cela n'explique pas pourquoi un timbre fortement altéré par diverses distorsions (cf.
walkman de mauvaise qualité) peut-être tout de même reconnu bien que ses
composés harmoniques sont très différents.

C'est en outre contradictoire avec l'expérience de retournement temporel qui


maintient la composition harmonique mais change le timbre.

2.4 L'intensité (ou Sonie)

On dit qu'un son est plus fort ou plus faible qu'un autre.
Cette sensation est fortement liée à la puissance acoustique et semble mesurable
par comparaison à un étalon. Mais cependant d'autres paramètres interviennent de
façon notable (hauteur, auditeur, l'environnement sonore).

- Hauteur : Les niveaux d'égale sensation d'intensité auditive varient en fonction de la


fréquence (voir les courbes de Fletcher et Munson établies en 1933).

Courbes isosonique d’après Fletcher et Munson.

- Auditeur : chaque personne à un audiogramme diffèrent, bien qu'identique en


moyenne.

- L'environnement sonore : Il influe largement sur la sensation d'intensité. On


comprend aisément que le Hard-Rockeur n'a pas la mime référence d'intensité
sonore que les Esquimaux.

Quelques mots sur la mesure de l'intensité :


L'étendue de puissance accessible à l'oreille humaine est extrêmement grande :
Le rapport de puissance acoustique entre le seuil d'audibilité (pression sonore de
l'ordre de 20 micro Pascals) et le seuil de la douleur auditive (pression sonore de
l'ordre de 100 000 000 micro Pascal) est considérable.
Vers 1870 Graham Bell, physicien (inventeur du téléphone), a établi empiriquement
une mesure d'intensité auditive relative à une référence (le Bell, le décibel ou dB). Le
Bell fait correspondre à peu près l'intensité auditive au logarithme (plus précisément
au logarithme à base 10) de la puissance acoustique.
Il justifia cette règle de mesure par l'opinion du philosophe Fechner (vers 1860) qui
lui-même se basait sur les écrits d'un physiologiste du 18ème siècle (Weber) qui
pensait que toutes les sensations Étaient proportionnelles au logarithme des
excitations...

De cette méthode de mesure découlent les unités de mesure normalisées dans le


domaine audio.
Toutes les mesures sont relatives (il y a toutes sortes de dB)
La référence prise pour mesurer les niveaux sonores est une pression de 20 micro
Pascals ou une puissance de 10exp(-12) Watts par mètre carré.

2.5 La localisation

2.5.1 Localisation binaurale dans le plan frontal

La localisation latérale est un des principaux critères entrant en considération dans la


perception de l’espace sonore. Nous emploierons ici le terme localisation pour
désigner la faculté d’évaluer la position d’une source sonore dans l’espace d’un point
de vue angulaire, sans prendre en compte l’impression de distance. La précision de
la localisation sonore est remarquable : dans le plan frontal, l’angle minimum audible
est de 2° (Mills 1958), et ce, particulièrement pour des sons brefs ou présents dans
un environnement bruyant ou très réverbérant.
Les paramètres les plus significatifs pour la localisation de sons dans le plan
horizontal dépendent de la comparaison des signaux arrivant aux deux oreilles. On
parle alors de localisation binaurale. Considérons une source sonore placée d’un
côté de la tête. Le son parvenant à l’oreille la plus éloignée arrivera plus tard et avec
une intensité moindre que celui arrivant à l’oreille la plus proche. Cette constatation
simple permet d’ores et déjà de distinguer les deux principales façons que nous
avons de localiser une source sonore :

-la différence interaurale de temps (ITD)


-la différence interaurale d’intensité (ILD)
Fig.1 : Si l’on assimile la tête à une sphère de rayon r et que l’on
considère une source sonore suffisamment éloignée et son angle
d’incidence, on peut définir la différence de temps d’arrivée entre les
signaux gauche et droit par : Δt = r (θ + sinθ ) / c, où rθ + r sinθ est la
distance supplémentaire parcourue par l’onde de contournement (c est la
vitesse du son et θ est exprimé en radian).

Cependant du fait de la nature ondulatoire des sons, ces deux moyens ne sont pas
d’une égale efficacité pour toutes les fréquences. En effet, les sons basses
fréquences ont une longueur d’onde grande par rapport à la taille de la tête qui ne
représente donc pas un obstacle à la progression du son. Au contraire, dans les
hautes fréquences, là où la longueur d’onde est très petite, la tête constituera un
écran.
En 1907, John Strutt, plus connu sous le nom de Lord Rayleigh, développe sur ces
bases sa « duplex théorie », confirmée et affinée par la suite par Mills et Woodworth.
Cette théorie met en évidence l’importance des disparités binaurales en précisant le
rôle des différences de temps (ITD) et d’intensité (ILD) en fonction d’une échelle
fréquentielle. L’idée de cette théorie est que ILD et ITD sont complémentaires ; les
différences de temps ne procurent des résultats utilisables que pour des fréquences
inférieures à 1500 Hz (ce qui correspond à une longueur d’onde d’environ 23 cm,
proche de la distance interaurale), alors que les différences d’intensité sont les plus
importantes dans les hautes fréquences, au-dessus de 1500 Hz et peuvent atteindre
jusqu’à 20 dB (fig. 2).
Fig.2 : Évolution de la différence interaurale d’intensité en fonction de la position de
la source sonore pour 4 fréquences d’après Federson, Sandel, Teas et Jefress.

2.5.2 Localisation monaurale dans le plan médian

Alors que les principaux indices de la localisation dans le plan horizontal sont
binauraux, ceux concernant la sensation d’élévation sont souvent dits monauraux.
En effet, dans le plan médian, les différences interaurales sont inexistantes et le
repérage spatial s’en voit considérablement affecté ; l’incertitude de localisation peut
aller jusqu’à 20° (Damaske 1969) dans le cas d’une source sonore placée juste au-
dessus de la tête. De plus la direction perçue ne correspond pas forcément avec
l’incidence réelle de la source.
En réalité Blauert en 1970 et Château en 1995 ont remarqué que le système auditif
semblait localiser la source émise dans une direction imposée par le spectre de son
signal. Ainsi « la sensation de direction dans le plan vertical est déterminée par les
zones spectrales ou le signal possède le maximum de son énergie ; s’il se trouve que
le signal est un son pur, ou à spectre étroit, il peut être localisé dans une direction
tout autre que sa direction réelle » (Canévet).

Fig.3 : Probabilité relative de réponses « devant » (v), « dessus » (o), « derrière » (h)
en fonction de la fréquence centrale du signal p110 (Blauert).

2.5.3 Théorie des HRTFs

La localisation hors du plan horizontal est en fait basé en grande partie sur le codage
induit par la géométrie de l’oreille externe, la tête et le torse qui provoquent un
filtrage lié à des phénomènes de diffraction et d’interférences permettant au cerveau
de localiser le son en soustrayant la fonction de transfert de la dégradation au
message sonore. Cela suppose évidemment que le son est déjà connu et mémorisé
par le cerveau. Ce filtrage qui dépend à la fois de la direction et de la distance de la
source est appelé HRTF pour Head Related Transfert Fonction et son équivalent
dans l’échelle temporelle est nommé HRIR pour Head Related Impulse Response.

L’effet acoustique du pavillon est basé sur des phénomènes variés tels que
réflexions, masquage, dispersion, diffraction, interférences et résonances. En fait, il
fonctionne exactement comme un filtre car il est constitué comme un système de
réflecteurs multiples. La combinaison résultante des ondes directes et réfléchies va
dépendre des différentes valeurs de retard induit par le pavillon, et donc, de
l’incidence primaire de l’onde sonore. Pour des retards faibles, le signal retardé
introduit une atténuation des hautes fréquences, tandis que pour les retards plus
grands on observe un filtrage en peigne. Ces déformations spectrales ne sont pas
perçues par le système auditif comme des modifications de timbre, mais bien comme
des changements de direction d’un même signal.

La figure ci-dessous (fig. 4) montre les mesures de réponses fréquentielles pour


deux incidences d’arrivée. Dans chaque cas sont représentés deux trajets de la
source au canal auditif : un chemin direct et un autre, plus long, obtenu par réflexion
sur le pavillon.
Aux basses fréquences les signaux arrivent en phase alors qu’aux hautes
fréquences le signal retardé par la réflexion est déphasé par rapport au signal direct,
ce qui engendre des interférences destructives. Lorsque la différence de marche est
égale à la moitié de la longueur d’onde, l’interférence est maximale et provoque un
« décrochage » fréquentiel (trou visible vers 10 kHz sur la fig. 6) compris
généralement entre 6 et 16 kHz.
D’autre part, le pavillon est un meilleur réflecteur pour les sons venant de devant que
pour ceux venant de l’arrière, du fait même de leur forme et de leur position tournée
vers l’avant. C’est pourquoi le « trou » est plus prononcé pour des sons venant de
l’avant.

Fig. 4 : réponses en fréquence pour une source placée au-dessus ou de face [20]

De plus, la différence de marche change avec l’élévation donc la taille et la


fréquence centrale du « trou » changent selon le placement de la source.
À tout cela s’ajoutent encore les diffractions sur le torse et la tête.

Ainsi les indices de localisation permettant de percevoir l’azimut et l’élévation d’une


source sonore sont contenus dans une paire de HRTFs correspondante. À chaque
HRTF correspond une incidence que l’auditeur a acquise au cours de ses
expériences.
Par conséquent chaque individu possède une carte unique et personnelle de toutes
les fonctions de transfert. Les nombreuses mesures effectuées jusqu’à aujourd’hui
montrent que les différences entre individus sont plus prononcées pour les autre que
pour les différences interaurales de temps : en effet les morphologies de l’oreille
notamment peuvent être très différentes alors que la distance interaurale reste
presque constante. Il est amusant de noter que, suite à des expériences, on a pu
constater que chez les sujets possédants des grandes oreilles, les variations du
« décrochage » se situaient plus bas fréquentiellement que chez les autres sujets.

Fig. 5 : autre de deux sujets pour une source à 0°d’azimut et d’élévation. Notons les
différences considérables dans les hautes fréquences (Begault, 1991)

2.5.4 Précision directionnelle du système auditif

La performance dans la précision directionnelle de notre système auditif dépend


généralement de la largeur de la bande spectrale de la source sonore. Plus cette
bande sera étendue, plus la direction de l'évènement auditif, c'est-à-dire notre
interprétation perceptuelle de la source sonore, correspondra à la direction réelle de
la source sonore. Ainsi, les sons complexes couvrant plusieurs octaves, et ayant des
enveloppes aux attaques rapides, seront toujours aisément localisables. Par leurs
caractéristiques, ces sons font appel à la différence interaurale de temps, la
différence interaurale d'intensité et aux modifications du pavillon de l'oreille pour
permettre la localisation. Cette conjugaison des mécanismes apporte une
redondance des indices de localisation et crée un évènement auditif dont la
correspondance spatiale avec la source sonore originale est très élevée. Par contre,
pour les sons simples comme une onde sinusoïdale sans attaque précise, un seul
mécanisme de localisation sera sollicité. L'absence de redondance dans les indices
de localisation contribuera à augmenter l'impression résiduelle de localisation, le flou
de localisation, de l'évènement auditif par rapport à la source originale.

Le flou de localisation n'est pas uniforme sur toute la sphère de perception et varie
en fonction des mécanismes de localisation qui sont sollicités. La localisation dans le
plan horizontal fait appel à la différence interaurale de temps et à la différence
interaurale d'intensité. Mesuré avec des impulsions de bruit blanc de durée 100 ms,
le flou de localisation dans le plan horizontal est de 8° pour une source placée
devant l'auditeur, de 20° pour une source face aux oreilles et de 11° pour une source
placée derrière l'auditeur. Le flou de localisation variera de façon graduelle et
continue entre ces azimuts.

On peut s'attendre à ce que le flou de localisation dans le plan médian, où seules les
modifications apportées par les fonctions de transfert donnent l'information
nécessaire, soit plus grand que dans le plan horizontal. Comme le mentionne
Blauert, l'expérience auditive préalable des sujets devrait alors jouer un rôle
important dans la diminution du flou de localisation dans le plan médian. Cela a
effectivement été vérifié. Mesuré avec la voix d'une personne connue comme source
sonore, le flou de localisation dans le plan médian est, pour la partie se situant
devant la tête, de 18° pour une source à 0° d'élévation, de 20° pour une source à 30°
d'élévation et de 26° pour une source à 75° d'élévation. Pour la partie du plan
médian se situant derrière la tête, le flou de localisation est de 30° pour une source à
27° d'élévation et de 44° pour une source à 68° d'élévation. Toutefois, même la
connaissance de la source sonore ne peut contrer les situations où cette source
présente une largeur de bande spectrale trop étroite : à moins de 2/3 d'octave,
l'évaluation de la direction dans le plan médian devient impossible.
Quoi qu’il en soit, la zone critique de fréquences où le flou de localisation est le plus
grand, et ce, peu importe l'azimut ou l'élévation de la source, est aux alentours de
2000 Hz. Puisque la différence interaurale de phase diminue graduellement
d'efficacité à partir de 800 Hz et que la différence interaurale d'intensité n'est pas
vraiment fonctionnelle avant 2000 Hz, il y a un manque de chevauchement des
zones couvertes efficacement par ces mécanismes de localisation. Notre manque de
discrimination directionnelle autour de 2000 Hz explique aussi, en partie, que notre
plus grande sensibilité à l'amplitude acoustique se situe dans ce secteur de
fréquences, tel que confirmé par les courbes d'isosonie (fig.17).

2.5.5 Cône de confusion, importance des mouvements de la tête

Les mouvements de la tête, conscients ou inconscients, apportent des informations


complémentaires sur la localisation des sources. Ils sont même indispensables pour
lever les incertitudes ou les ambiguïtés entre les différents secteurs avant-arrière,
dessus-dessous.
Si on considère le cas simple d’une source sonore définie par une différence
interaurale de temps ∆t et d’intensité ∆i, on se rend compte que cette source peut
être située sur n’importe quel point d’un cône appelé cône de confusion (Von
Hornbostel et Wertheimer 1920). Si l’auditeur ne possède pas d’autres informations,
il n’aura jamais la possibilité de lever ces ambiguïtés. Si l’auditeur peut tourner la
tête, il aura alors à sa disposition une seconde série de coordonnées ∆t’ et ∆i’.
L’association de ces deux couples de coordonnées permet au cerveau, en les
associant à la même source, de lever toutes les ambiguïtés possibles (Van Soest
1929).
Selon le modèle de von Hornbostel et Wertheimer l’ensemble des points se trouvant
à égale distance des oreilles gauche et droite est une hyperbole dans le plan
horizontal (a) et la surface d’un cône pour les plus grandes distances dans l’espace
tridimensionnel (b)

2.5.6 Perception de la distance et de la profondeur

La capacité à percevoir la distance et la profondeur d’une image sonore détermine


de façon cruciale notre appréciation subjective de la qualité sonore. Il existe
différents indices interdépendants responsables de la sensation de distance.

Les HRTFs

Theile insiste sur le fait que les HRTFs sont indispensables pour externaliser les
sons. De fait les variations de transfert interaurale et plus particulièrement les
différences interaurales d’intensité peuvent être importantes lorsque la distance tête-
source varie : plus la source est proche plus la différence interaurale d’intensité sera
importante. Cela est très significatif pour des distances inférieures à un mètre.

L’intensité

L’énergie varie avec l’inverse du carré de la distance. La variation d’intensité perçue


pour une source émettant à un niveau constant donne donc un indice sur
l’éloignement ou le rapprochement de cette source. Mais le niveau du son direct
dépend bien évidemment de la puissance de la source et peut être partiellement
modifié dans une salle par l’apport des réflexions précoces provenant d’un horizon
spatio-temporel proche (direction voisine et retard inférieur à quelques dizaines de
millisecondes). Il ne peut donc pas constituer un indice fiable. De plus, l’utilisation du
niveau comme indice repose le plus souvent sur la connaissance que l’auditeur
possède a priori du message : l’estimation de la distance sera alors plus précise pour
les signaux connus, comme la voix humaine pour laquelle chacun de nous, par sa
propre expérience, connaît les différentes caractéristiques (murmures, cris) ou des
instruments de musique, que pour les sons inouïs.

Les mouvements parallaxes

Lorsque l’auditeur bouge sa tête de façon perpendiculaire à l’incidence de la source,


un changement de perspective s’opère. Pour des sources très proches un petit
déplacement occure un changement radical de l’azimut alors que pour une source
lointaine l’azimut ne subira pratiquement aucun changement.
La différence de timbre

La densité spectrale d’un signal acoustique varie spectralement au cours de sa


propagation, et ce, de façon totalement inhomogène. Cela est dû à l’absorption de
l’air dans les hautes fréquences.

Le rapport champ direct-champ réverbéré

Le rapport champ direct-champ réverbéré varie avec l’éloignement de la source : il


dépend de la géométrie et de l’absorption de la salle, de la directivité de la source et
de sa position dans la salle. Ce principe, employé très efficacement en
postproduction pour créer des plans sonores, est cependant discutable car il peut
s’accompagner d’effets secondaires comme la perte de définition et de précision
dans la localisation azimutale.

2.6 Effet Haas, effet de précédence, loi du premier front d’onde


Dans un environnement d’écoute normal le son produit par une source arrive à nos
oreilles via un grand nombre de trajets différents. Une partie du son arrive par un
chemin direct, mais une grande partie nous arrive après avoir subit une ou plusieurs
réflexions sur des murs par exemple. . Cela devrait perturber notre sens de
localisation. Pourtant il n'en est rien, nous ne sommes pas conscients de ces
réflexions ou échos très précoces, mais il semble qu’ils aient une réelle influence sur
notre perception de la localisation.

Lorsque deux sons brefs sont émis dans un intervalle très court, ils sont perçus
comme un seul son : c’est l’effet de fusion (Wallach 1949). L’intervalle maximum pour
que cet effet fonctionne et appelé temps de fusion, il est de l’ordre de 5 ms pour des
transitoires (clic) et de 40 ms pour les sons plus complexes. Lorsqu’il y a fusion, nous
interprétons ce mélange comme le timbre apparent, c'est pour cela que la nature des
premières réflexions (dues à l'acoustique de la pièce) change en grande partie le
timbre. De plus, la localisation du son résultant est déterminée par l’incidence du
premier : c’est l’effet de précédence, appelé également loi du premier front d’onde
par Blauert (1983) ou « effet Haas » d’après Haas (1951). Le scientifique allemand,
lors d’expérience sur les échos montra que pour que le son délayé soit perçu au
même niveau que le premier émis, il faut qu’il soit jusqu’à une dizaine de dB plus fort.

Niveaux relatifs requis pour une source secondaire en fonction de son retard par
rapport à sa source primaire afin que les deux paraissent de niveau égal.
S’il y a une trop importante décorrélation entre les deux signaux l’effet de
précédence ne pourra bien sûr fonctionner. À l’opposé si l’intervalle d’arrivée des
signaux est inférieur à 1 ms alors l’effet de précédence ne fonctionne plus (Blauert
1974).
Il est clair que l’effet de précédence joue un rôle très important dans notre perception
quotidienne du son. Il nous permet de localiser, d’interpréter et d’identifier les sons
malgré les transformations qu’ils peuvent subir dans les conditions acoustiques très
différentes que nous rencontrons. Mais parfois cet effet peut devenir un
inconvénient ; il suffit de constater le décalage de l’image stéréo lorsque l’on ne se
situe pas au milieu des deux enceintes.
Cependant on notera que les aveugles développent une écoute fine distinguant plus
précisément les premiers échos (dus aux obstacles) des sons directs. En frappant le
sol avec leur canne ils peuvent appréhender un obstacle avec l'Echos qu'il provoque.

2.7 L'Effet de masque


On a tous fait l'expérience d'élever le ton de notre voix, de la rendre plus aigue, afin
de poursuivre une conversation lorsque l'on passe près d'un chantier ou lorsque le
gérant du café décide de pousser violemment le son de la musique.
Notre voix est masquée par un son ou bruit plus fort (le son masquant) : nous venons
de subir l'effet de masque.
Les scientifiques Wegel et Lane élaborèrent (en 1924 au laboratoire BELL) un
protocole expérimental permettant d'établir des courbes de relation entre les
fréquences des sons masquant, leurs niveaux et les seuils d'audibilités résultants.

Un son masquant de hauteur donné augmente l'intensité que doit avoir un son pour
être perçu. Son effet sera maximum pour des sons de hauteur proche ou plus aigus.

On conçoit qu'un bruit ayant une large répartition de fréquence masquera presque
tous les sons. Réfléchissez à l'utilisation du "chut!" pour masquer une conversation.

Remarquons que dans l'harmonie et l'orchestration ces notions sont connues depuis
longtemps.

2.8 Effet cocktail-party, modèle du masquage binaural


Bien que nos facultés binaurales soient déterminantes pour la localisation précise
des sons, ce n’est pas là leur unique fonction. Le fait d’utiliser deux oreilles nous
permet une attention sélective vers des sons provenant d’une direction particulière
en excluant le reste de l’environnement sonore. Cette faculté est souvent connue
sous le nom d’ « effet cocktail-party ».
Le système auditif est capable de percevoir et de distinguer des sons dans un
environnement masquant, que cet environnement soit constitué d’autres sources
sonores ou de bruits. C’est le principe du masquage binaural : il nous est plus facile
de détecter et d’identifier une source sonore particulière dans un environnement
bruyant si la relation de phase entre les deux oreilles concernant ce signal est
différente de la relation de phase concernant le bruit masquant. L’expérimentation a
prouvé que cette faculté de détection est bien moins grande dans le cas où les
relations de phase concernant le bruit et le signal masqué sont les mêmes. Cette
meilleure capacité de détection s’exprime en termes de MLD (Masking Level
Difference), ce qui peut se traduire par « différence de seuil de masquage » (Moore
[2]). Cette différence dans le cas d’un son pur masqué par un bruit peut atteindre 15
dB pour un son basse fréquence dont la relation de phase est l’inverse de celle du
bruit. Il est intéressant de noter que cette MLD ne variera pas si le bruit masquant
couvre un spectre plus large. En effet il semble que les résultats restent ceux que
l’on peut obtenir avec un bruit limité à la bande critique centrée autour du signal
masqué.

2.9 L'Ancrage visuel ou l'Imagerie auditive


Nous relions constamment ce que nous entendons à ce que nous voyons ou/et
faisons. De sorte que lorsque nous entendons un son sans voir la source (situation
acousmatique) nous avons une idée plus ou moins précise de l'image qui y serait
associée : c'est l'imagerie auditive.
Exemple d'imagerie auditive : toute la richesse d'information contenu dans un bruit
de pas.

Réciproquement nous attribuons un son à l'image la plus vraisemblable que nous


voyons (ex: la ventriloquie) : c'est l'ancrage visuel.
Exemple d'ancrage visuel : le cinéma sonore classique : nous attribuons les sons aux
images censées les produire alors que le son sort toujours du système de
reproduction...
De nombreuses expériences de tous les jours mettent en évidence que la localisation
d’une source sonore peut être considérablement influencée par des indices visuels,
contradictoires ou non. Si les hypothèses dérivées des deux types de perception,
visuelle et auditive, ne coïncident pas, la perception visuelle l’emporte dans un grand
nombre de cas sans difficulté et sans perte de cohérence de la perception globale.
Par exemple la vision d’un haut-parleur attire inexorablement l’évènement auditif vers
lui. Au contraire, au cinéma les voix pourtant diffusées en mono sur une enceinte
centrale cachée derrière l’écran, semblent venir de la bouche des personnages
répartis indifféremment sur tout l’écran. Dans les situations de retransmission de
concert, le choix du cadrage focalise l’attention auditive sur certains éléments de
l’écriture et permet de compenser l’absence de discrimination spatiale induite par le
caractère monophonique de la sonorisation.

2.10 La familiarité du signal


L’expérience auditive préalable du sujet joue également un rôle important dans la
diminution du flou de localisation. Une écoute orientée va modifier la perception par
effet de focalisation. On observe l’augmentation importante des inversions avant-
arrière lorsque l’auditeur n’est pas familier au sujet (d’après Plenge et Brunschen
1971).

2.11 L’effet Doppler


L’effet Doppler est une variation de la perception de la hauteur du son en fonction de
la vitesse de déplacement de la source par rapport à l’auditeur.

2.12 Le rythme
Nous éprouvons une sensation vaguement agréable lorsque nous reconnaissons
quelque chose de sonore, et à l’opposé, lorsqu’une nouveauté absolue apparait cela
nous interpelle.
Peut être cela est-il lié au travail interne diffèrent entre mémorisation et
remotorisation

La périodicité de la reconnaissance de sensations auditives est ressentie comme


rythme.

Il ne faut pas confondre la périodicité des sensations avec la structure interne du


rythme.
Il y a un aspect biologique à la perception de certains rythmes : notre respiration est
à deux temps, notre cœur bat à trois temps, etc.
Il y a un aspect culturel dans la reconnaissance d'un rythme:
Notre civilisation " occidentale " apprécie fort les rythmes simples - périodicité deux
ou trois
Nous passons facilement ‡ coté des rythmes subtils orientaux (13 temps ..?.)

2.13 Principe de l’attention auditive

2.13.1 Principes généraux de l’attention auditive

Le traitement auditif peut se schématiser en trois étapes successives : l’étape


sensorielle, l’étape figurative et l’étape cognitive.
L’étape sensorielle est l’étape de captation et d’analyse du stimulus sonore. Les sons
qui parviennent à nos oreilles forme un tout perceptif constituant un flux sonore.
L’étape figurative consiste à structurer les différents flux sonores et à reconnaître les
objets sonores en les comparant avec les représentations auditives déjà acquises en
mémoire. L’étape cognitive enfin traite ces représentations, les confronte entre elles,
en faisant appel à des mécanismes et presets complexes liés au savoir, au passé et
affects de l’auditeur.
L’oreille a un pouvoir séparateur qui lui permet de trier et sélectionner parmi les flux
sonores celui qui nous intéresse, appelé la cible. Les autres flux, considérés comme
distracteurs, sont sous-échantillonnés, le nombre de décharges nerveuses étant
diminué. L’élément cible mobilise une grande partie des ressources dont nous
disposons, aussi les distracteurs, ne bénéficiant que de très peu de ressources, ne
subissent pas de traitement profond. La réaction de l’orientation a lieu lorsque le
distracteur devient la cible de l’attention auditive par le jeu de stimuli sonores.

2.13.2 Les causes de la réaction de l’orientation, réflexe de l’attention

Les stimuli qui provoquent une réaction de l’attention auditive sont de trois sortes :
-stimulus présentant une saillance physique (dynamique ou fréquentielle),
-stimulus à caractère nouveau : nouveauté spectrale, temporelle ou cognitive.
-stimulus présentant une saillance cognitive mettant en jeu les automatismes
et réflexes attentionnels,

La saillance physique

Le premier paramètre stimulant à considérer est de façon évidente la dynamique du


son et sa forme d’onde. Ainsi les sons ayant une forme d’onde abrupte ou des
transitoires marqués sont susceptibles de provoquer une réaction de l’orientation de
l’attention.
Celle-ci peut être également forcée par les caractéristiques fréquentielles du son
alertant. En effet, dans la zone sensible de l’oreille (bande de fréquences s’étendant
entre 1500 Hz et 3500 Hz), les sons ayant des fréquences élevées s’avèrent plus
alertant que ceux restant dans les basses fréquences (à mettre en rapport avec les
courbes isosoniques de Fletcher). De plus la présence de fréquences aiguës est
souvent synonyme de proximité car chacun sait que l’éloignement s’accompagne
d’une perte d’aigus. Un son comportant des fréquences élevées sera donc analysé
comme étant proche. Or dans les réflexes d’animaux dont l’homme n’est pas
dépourvu, une telle proximité peut être synonyme de danger et donc attire de
manière quasi systématique l’attention.

Stimulus à caractère nouveau

On appelle stimulus à caractère nouveau tout simplement un stimulus sonore


apparaissant pour la première fois. La nouveauté peut être dynamique, fréquentielle,
spatiale, cognitive ou même sémantique.
La compréhension du fonctionnement de ce stimulus fait appel à la notion de
mémoire sensorielle. D’un point de vue cognitif, lorsqu’un son est entendu, il est
identifié et traité par un module de traitement qui lui est propre. Si l’on provoque à
nouveau ce module par un son identique ou très proche au sens cognitif, le module
sera directement accessible puisque fraîchement appelé en mémoire, sans
provoquer l’attention de l’auditeur. En effet, la nouveauté cognitive d’un son
provoque une réaction de l’attention car elle nécessite l’élaboration d’un processus
de traitement ou le rappel d’un module lointain. Et ces constructions sont très
coûteuses en traitements attentionnels car ce sont des tâches qui touchent très
profondément l’architecture mentale. Ainsi un son de même localisation que le
précédent éveillera moins l’attention. Il en va de même pour les timbres, les
fréquences…
Selon la durée qui sépare les apparitions d’un même son ou le nombre de ses
répétitions, le cerveau peut ou non effacer de sa mémoire un son déjà entendu ou
n’en conserver que son caractère alertant pour une prochaine stimulation. De plus
lorsqu’un stimulus sonore est répété plusieurs fois, le système s’adapte, et les
symptômes de la réaction d’orientation de l’attention s’affaiblissent jusqu’à
disparaître. Au fur et à mesure des répétitions, le traitement cognitif consomme de
moins en moins de ressources, les sons soumis à l’habituation étant traités de façon
parallèle, ce qui permet une remise à disposition des ressources et donc une
réorientation de l’attention auditive.

La saillance cognitive

Parmi le flux de représentations qui occupent continuellement notre vie mentale,


certaines sont susceptibles d’être activées sans que leur évocation ait fait l’objet
d’une intention préalable ou d’une attention particulière. Les stimuli concernés par
ces automatismes ou réflexes n’empruntent pas le chemin habituel de l’attention.
Un traitement automatique ne consomme pas, par définition, de ressources. C’est
pourquoi il est considéré comme un traitement parallèle, il n’interfère pas avec les
autres traitements et ne perturbe pas leur déroulement. Ces traitements ne peuvent
donc pas faire l’objet de masquages attentionnels, ils ne sont pas commandés par le
réservoir unique de ressources. Ils sont d’autant plus dangereux pour la réaction
d’orientation qu‘ils échappent aux filtrages attentionnels. L’absence de contrôle
intentionnel est caractérisée par le fait que ces traitements se déclenchent sans
intention de l’auditeur. L’arrêt de leur déroulement est uniquement conditionné par
l’intervention de l’attention, et pour provoquer cet arrêt devra dépenser beaucoup de
ressources au détriment des autres traitements en cours. Si un automatisme cognitif
est déclenché par certains sons, soit il sera totalement effectué, soit l’auditeur
l’interrompra en mobilisant bon nombre de ressources, ce qui nuira aux traitements
d’autres stimuli auditifs.

2.14 La Parole, le Langage, La Musique


Nous associons les sons aux sensations des autres sens et aux actions que nous
menons - c'est cette impression de cohérence qui donne un SENS à nos sensations
; et notre mécanisme de reconnaissance construit en fin de compte ce que nous
sentons comme "catégorie». (vent, cri, doux, dur, cuivre etc.)
L'extrême richesse de timbre que nous sommes capables d'émettre - notre voix est
une merveille d'acoustique -est depuis des dizaines de millénaires un moyen
d'associer un son que nous émettons à une catégorie que nous éprouvons. (- elle
est "nommée").
C'est la Parole formée selon les cultures avec plus ou moins de phonèmes (sons
élémentaires dont sont constituées les paroles d'un groupe ethnique).
Couplée avec l'intentionnalité (les verbes ?) produite par un mécanisme voisin autour
de nos besoins vitaux, cela donne le Langage.
Il en découle une extrême richesse commune de transfert d'information précise au
sein de notre Espèce par cette catégorie de sons.
Et les sons du langage deviennent ainsi des vecteurs de satisfaction ou de déplaisir.
Couplés avec les sensations plaisantes ou non dues aux rythmes, et en dépassant
(by-passing) la signification "directe», les sons, dits musicaux, accèdent à la fois à
des rappels d'images mentales et à des sensations de plaisir/déplaisir.

L'ensemble " images ressemblant au monde, paroles et bruits riches de sens


direct, musique puissant vecteur d'émotions diffuses «, c'est l'audiovisuel.

Mais nos capacités audiovisuelles sont encore plus fortes


Notre apprentissage du langage et de la musique se fait en présence des
mécanismes d'association entre les sens auditifs, visuels, tactiles etc.
Bien que musique et paroles soient les conséquences de ces mécanismes ils y
sont aussi soumis. L'histoire de chacun est indissolublement liée à ses gouts
relatifs aux choses sonores.