Vous êtes sur la page 1sur 394

Chapitre 8 : psychoacoustique

1 Introduction
La psychophysique (ou sensorimétrie) consiste en l’étude expérimentale du fonctionnement
de l'appareil sensoriel considéré comme une « boîte noire » ; elle cherche à mesurer les
rapports entre les phénomènes physiques (en particulier les stimuli nerveux) et les réactions,
les sensations qu'ils provoquent.

La psychoacoustique est la branche de la psychophysique qui étudie le sens de l'ouïe, définit,


qualifie et quantifie les sensations auditives, mises en rapport avec les propriétés physiques
des stimuli (les sons) qui les provoquent.

De cette étude on déduit que la perception des caractéristiques d'un son n'a pas de valeurs
de mesure objectives. Les attributs subjectifs du son sont le résultat d’un mécanisme de
décision au niveau neurophysiologique.

La psychoacoustique se situe donc à la frontière entre l'acoustique, la physiologie et la


psychologie.
2 Notions de psychophysique
2.1 Stimulus, sensation et perception
Le monde extérieur nous est connu par l’intermédiaire de nos sens. Un phénomène physique
comme l’onde acoustique provoque :
 un stimulus physique (excitation d’un des cinq sens, décrite par une grandeur
d’excitation, et qui est à l’origine de la perception d’un phénomène physique)

 une sensation (provenant de l’information reçue par le système nerveux central, en


réaction à un stimulus externe capté par le sens concerné)

 une perception du phénomène physique en question, nécessitant l’intervention du


cerveau, de la mémoire, de l’intelligence qui adapte la sensation au stimulus et permet
ainsi l’identification du phénomène par la reconnaissance d’une ou de plusieurs
sensations).
En résumé :

Phénomène physique Stimulus physique sensation perception

quantité de sucre sensation sucrée chocolat

Onde acoustique sensation de force bruit de


sonore tondeuse
Quelques définitions :

stimulus : agent, externe ou interne, capable de provoquer la réaction d’un système


excitable. En psychoacoustique, le stimulus est le son.

grandeurs d’excitation du stimulus (variable physique externe Φ) : paramètres


indépendants et mesurables définissant le stimulus. Elles s’expriment par des chiffres et des
unités physiques. Exemples: 90 dB, 1000 Hz, 300 ms, ...

sensation : phénomène psychologique par lequel une stimulation externe ou interne a un


effet modificateur spécifique sur l’être vivant et conscient; état ou changement d’état à
prédominance affective (plaisir, douleur) ou représentative (perception). La sensation est la
réponse du sujet à un stimulus.

grandeurs de sensation ou de perception (variable psychologique interne Ψ) :


composantes de la sensation que le sujet peut décrire plus ou moins précisément et qu’on
peut relier à l’une ou l’autre des grandeurs d’excitation du stimulus. Elles s’expriment par
des chiffres et des « unités psychoacoustiques ». Exemples : 4 sones, 500 mels, ...
2.2 Perception de l’environnement sensoriel
Il est rare qu’un phénomène physique n’influence qu’un seul de nos sens ; en général, tout
phénomène physique entraîne un certain nombre de stimuli qui créent un certain nombre de
sensations qui sont amenées au cerveau où s’en opère la synthèse, ce qui engendre une
perception.
Bien que physiologiquement les cinq sens soient égaux, culturellement les sens de la vue et de
l’ouïe sont privilégiés.

A tout moment, une multitude de stimuli sont captés par nos sens ; comme il est impossible
de tous les percevoir en même temps, une sélection s’opère, en fonction de notre intérêt, de
notre humeur, de notre origine culturelle, etc.

Certaines caractéristiques d’un stimulus font en sorte qu’il attire plus l’attention que d’autres
stimuli, comme par exemple :
 l’intensité du stimulus : une intensité plus élevée que le fond ambiant sera plus
facilement perçue (cf. utilisation en télé ou radio pour la publicité).
 la nouveauté du stimulus : dans un environnement stéréotypé ou banal, un
stimulus étrange facilite la sélection.
 la répétition du stimulus dans un laps de temps assez court (sans pour autant
aller jusqu’à la lassitude).
 l’attente du stimulus (une personne préparée à percevoir un stimulus la
percevra plus qu’une autre)
 l’effet de constance (un stimulus connu est reconnu même dans des conditions
très différentes, par exemple la couleur d’un objet familier est constante malgré
des conditions d’éclairage très différentes).
2.3 Mesurer des sensations
La psychoacoustique étudie donc les rapports entre les stimuli acoustiques et les dimensions
qualitative et quantitative de la sensation auditive.

Quand nous disons qu'un sujet entend, cela signifie qu'il manifeste, par une riposte
comportementale appropriée, qu'il a perçu le stimulus et modifié son comportement en
conséquence.

Les psychoacousticiens cherchent donc à définir une relation générale du type :


Q = f (S )
où Q est une mesure de la réponse comportementale, S et une propriété physique (p.ex. la
fréquence) du stimulus acoustique et f() une relation fonctionnelle qui lie les deux
paramètres.
La psychophysique est née avec les travaux de Fechner au XIXème siècle. Fechner est
(notamment) célèbre pour avoir inventé le terme psychophysique.
La psychophysique a soulevé immédiatement l'objection, développée par Bergson, James,
Külpe, que la sensation, pas plus que n'importe quel autre élément de la vie psychologique,
n'est pas quantifiable, mesurable. Cette dernière est un flux continu, indivis : quand on croit
pouvoir le dissocier, c'est qu'en réalité on substitue au monde interne de la conscience le
monde externe qui, lui, est analysable, décomposable. Dans cette perspective, la
psychophysique n'est pas une mesure de la sensation, mais seulement une mesure du
stimulus.

Fechner croit en la validité de l'introspection comme méthode d'étude des phénomènes


psychologiques. Il ne pense certes pas, lui non plus, que l'on puisse mesurer directement
l'intensité de la sensation, qui est une grandeur mentale. Mais il croit que l'on peut mesurer
indirectement cette intensité.

Nous pouvons observer en nous si une sensation est présente ou absente, si une sensation est
plus grande, plus petite ou égale à une autre sensation (ce que refusera d'admettre Bergson).

Nous pouvons, d'autre part, mesurer le stimulus et donc déterminer quelle augmentation
d'intensité est nécessaire pour engendrer une différence juste perceptible au niveau de la
sensation. Cela est suffisant pour développer une mesure indirecte de la sensation.
Quand un stimulus acoustique (= stimulus physique) correspond à un son audible (=
phénomène physique), il engendre une sensation sonore.

Le phénomène physique est caractérisé par des grandeurs physiques d’excitation (pression
acoustique, fréquence).

La sensation possède des caractéristiques, qui sont les grandeurs physiques de sensation.

La sensation de force sonore d’un stimulus avec laquelle on entend un son est mesurée par sa
sonie (dont l’unité est le sone).

La sensation de hauteur d’un stimulus engendrée par un son est sa tonie (dont l’unité est le
mel).
Les principales grandeurs perceptives et leurs correspondants physiques (lorsqu'ils existent)
sont regroupées dans le tableau ci-dessous :

Ces associations ne sont pas rigoureuses : on constate expérimentalement que la sonie


(intensité subjective) dépend du niveau SPL mais aussi de la (ou les) fréquence(s), du timbre et
de la durée du son. Il en va de même pour les autres grandeurs perceptives.

Notons encore que malgré l'existence d'un vocabulaire spécialisé certains abus de langage
courants peuvent favoriser les confusions ; ainsi on parle souvent d'intensité perçue plutôt
que de sonie. Cette « intensité » là n'est PAS l'intensité acoustique NI le niveau d'intensité
acoustique !
2.4 Procédures de la psycho physique

D'une manière générale, chaque grandeur de sensation est influencée par toutes les
grandeurs d'excitation, mais dans des proportions différentes.

Ainsi, la sonie est surtout influencée par l'intensité du stimulus, mais aussi par sa fréquence
(voir courbes d'isosonie de Fletcher et Munson) et éventuellement par sa durée (voir effets
d'intégration temporelle et de fatigue auditive).

La psychoacoustique s'est beaucoup préoccupée de relations relativement simples entre un


paramètre du stimulus et la grandeur de sensation ou grandeur sensorielle qui en résulte
comme par exemple, la relation entre fréquence et hauteur tonale. Le langage courant ne
décrit que très imparfaitement les grandeurs sensorielles (faible, fort, intense, strident,
chuintant...) et confond souvent les termes décrivant le paramètre physique du stimulus avec
la sensation évoquée.

Le travail des psychoacousticiens a donc consisté en l'établissement de relations


fonctionnelles, descriptibles par des courbes ou des équations, entre la grandeur du stimulus
et celle de sa sensation.

Les descriptions ont surtout porté sur la détection, la discrimination, l'identification et le


classement par ordre de grandeur (scaling) de l'intensité, de la fréquence et des aspects
temporels des stimuli acoustiques. Les sons purs, dont on peut parfaitement contrôler la
variation d'un seul paramètre à la fois constituent des stimuli idéaux à cet égard.
Les psychoacousticiens ont abondamment utilisé deux types de procédures psychophysiques
de base :

les procédures de classement par ordre de grandeur

les procédures de détection/discrimination


2.5 Stimulus et sensation : établissement de la relation fonctionnelle qui lie les grandeurs

Les psychoacousticiens établissent la relation fonctionnelle entre les grandeurs d'excitation et


de sensation par une procédure de classement par ordre de grandeur.

Par exemple, pour établir la correspondance intensité-sonie,


l'expérimentateur choisit un son pur dont il va faire varier
l'intensité uniquement, maintenant constantes durée et
fréquence (par exemple, 1 sec et 1000 Hz). Partant d'une
intensité clairement supraliminaire, le sujet mémorise la
grandeur sensorielle qui y correspond et qui devient valeur de
référence. On demande ensuite au sujet d'indiquer la valeur de
la grandeur d'excitation qui engendre une grandeur sensorielle
double de la précédente. On répète ensuite cette procédure
jusqu'à ce que par doublements ou divisions par deux, toute la
dynamique de la grandeur sensorielle ait été explorée. Par
interpolations entre les valeurs effectivement relevées, on peut
construire ou calculer (curve-fitting) une fonction continue
reliant la grandeur de sensation à la grandeur d’excitation.
La même procédure de classement par ordre de grandeur peut être employée pour établir la
relation fonctionnelle entre fréquence et hauteur tonale (ou tonie). Dans cette dimension, la
référence arbitraire consiste en la hauteur tonale évoquée par un son pur de 80 dB SPL, d'une
durée d'une seconde à la fréquence de 131 Hertz, soit 131 mels.
2.6 Seuil absolu, seuil différentiel et seuil différentiel relatif des grandeurs d’excitation
2.6.1 Seuil absolu
On appelle seuil absolu ou valeur limite d’une
grandeur d’excitation la valeur de la grandeur
d’excitation à laquelle correspond une
grandeur de sensation juste perceptible.

Théoriquement, le seuil est la limite qui


sépare le perceptible de l'imperceptible.

En dessous du seuil (infraliminaire) on


ne perçoit pas.
Au dessus du seuil (supraliminaire) on
perçoit.

Exemples:

seuil de détection
seuil de discrimination (détection d'une
différence).
On obtient cette valeur limite en déterminant avec
quelle probabilité un stimulus est perçu lorsqu'il
possède une valeur donnée.

Cette mesure est relativement aisée à réaliser.


Déterminée par la méthode des stimuli constants,
elle correspond à une valeur statistiquement vérifiée
pour 50% d’une population.

Lorsque le stimulus est présenté seul, on définit


une valeur limite absolue. Si la tâche consiste à
détecter l'émergence d'un stimulus par rapport à
un bruit de fond (ou tout autre stimulus
interférant), on obtient une valeur limite masquée.
Il existe un troisième type de valeurs limites, celles
qui sont constituées par les variations juste
audibles du stimulus.
La procédure dite des stimuli constants (méthode non-adaptative) est la suivante :

On sélectionne au minimum dix intensités recouvrant la région du seuil, puis on les présente
chacune au moins dix fois, en ordre aléatoire. Pour chaque intensité, on compte combien de
fois le stimulus donne lieu à une sensation. On détermine ainsi le pourcentage de détection du
stimulus à l'intensité donnée. Il est évident que lorsque le stimulus est franchement
infraliminaire, le pourcentage d'identification est nul, mais passe à 100% pour les stimuli
franchement supraliminaires. Pour les valeurs intermédiaires, on obtient une fonction comme
celle illustrée par la figure ci-dessous qui montre bien évidemment qu'entre détectabilités
nulle et totale, le taux de détection est d'autant plus élevé que la grandeur d'excitation est
grande.

Devant une telle fonction, on choisit en général la


probabilité de 50% comme valeur limite d'excitation.
Le seuil d'excitation correspond ainsi à la valeur de
grandeur d'excitation qui conduit à une détection une
fois sur deux en moyenne.

Cette procédure est très précise, mais aussi très


longue, puisqu'il convient de présenter au moins 100
stimuli élémentaires.

En outre, il faut posséder une information préalable


sur la région du seuil pour l'encadrer correctement
avec la série de stimuli.
Les seuils absolus dépendent des caractéristiques physiques des sons ou des bruits,
principalement de l’intensité acoustique et de la fréquence.

Par exemple, un son de pression acoustique trop faible n’est pas perçu (pas de sensation
associée au stimulus), tandis qu’un son de pression acoustique trop forte (au-delà de 120 dB)
provoque une douleur.

De la même manière, la sensation sonore n’est pas identique pour toutes les fréquences.

L’oreille n’entend pas les sons dont les fréquences sont inférieures à 16 Hz (ce sont les
infrasons) ni les sons dont les fréquences sont supérieures à une limite située vers les 16 000
Hz (ce sont les ultrasons).
2.6.2 Seuil différentiel

Lorsqu'on fait varier très légèrement un seul paramètre du stimulus, la sensation


correspondante ne se modifie pas forcément : ce n'est que lorsque la modification du
paramètre du stimulus dépasse une certaine valeur que la sensation se modifie.

Le seuil différentiel d’une grandeur d’excitation I est la variation de la grandeur physique ∆I


qui entraîne une variation de la sensation physiologique.

La détermination expérimentale du seuil différentiel revient donc à la recherche de la


variation juste audible du stimulus.
La figure ci-dessous illustre la relation entre une grandeur
de stimulation A et une grandeur sensorielle B obtenue
selon la procédure décrite plus haut (doublements,
divisions par 2, interpolations).

Si l'on remplace le stimulus défini par la grandeur A par un


stimulus correspondant à (A+∆A), la grandeur sensorielle B
reste inchangée jusqu'à ce que l'augmentation ∆A de la
grandeur du stimulus atteigne une valeur As.
La procédure expérimentale la plus simple pour le déterminer consiste à moduler dans le
temps la grandeur d’excitation.

Si, dans l'intervalle A à (A+ ∆A), on fait varier sinusoïdalement à la fréquence de 3 ou 4 Hz la


grandeur du stimulus, le sujet ne percevra aucune sensation de modulation tant que ∆A sera
inférieur à As. Il aura par contre une sensation de modulation temporelle lorsque ∆ A sera
supérieur à As. As est donc la variation de grandeur du stimulus juste audible est appelée seuil
différentiel.

Pour une modulation trop faible, le sujet ne perçoit rien. Pour une modulation plus importante,
le sujet a la sensation du rythme de la modulation (on module en général à une fréquence de 4
Hz).

La frontière entre la sensation uniforme et la sensation modulée représente la valeur du seuil


différentiel.
2.6.3 Seuil différentiel relatif

Le seuil différentiel relatif d’une grandeur d’excitation I est le rapport entre le seuil
différentiel et la valeur de la grandeur physique (∆I/I).

Contrairement au seuil différentiel et au seuil absolu qui possèdent des unités, le seuil
différentiel relatif est un nombre pur, sans unité.
2.7 Lois fondamentales de la psychophysique
La relation stimulus/perception n’est en général pas linéaire (un doublement de la grandeur
d’excitation n’implique pas un doublement de la grandeur de sensation).
2.7.1 Loi proportionnelle de Weber (1829)

Weber (1795-1878) est un physiologiste allemand qui s'est intéressé à la sensibilité


différentielle et en particulier, en ce qui concerne la perception de la masse et du poids. Ses
expériences visaient à montrer que le seuil différentiel change en fonction de la grandeur de
référence.

Par exemple, si une personne peut percevoir tout juste la différence entre une masse de 100
grammes et une masse 105 grammes (5 grammes étant le seuil différentiel, donc la plus
petite différence qu'elle puisse détecter), il n'est pas évident qu'elle pourra aussi percevoir la
différence entre 200 et 205 grammes.

Selon Weber, les seuils différentiels relatifs de perception sont constants


Soit P une grandeur de sensation associée à une grandeur d’excitation S.

Weber mit au point le concept de différence tout juste perceptible appelée - « JND » en
anglais (just noticeable difference).

D'après Weber, le plus petit changement détectable ∆P vaut approximativement une fraction
constante de la grandeur du stimulus ∆S/S.

Ainsi, selon Weber, la relation stimulus/perception n'est en général pas linéaire et varie plutôt
selon une proportion fixe : il faut qu'un stimulus varie dans la même proportion pour que la
perception de la différence reste égale, par exemple, de 10 %, et cela peu importe la valeur de
départ. La loi de Weber est donc proportionnelle.

La fraction de Weber (K) est une constante correspondant au rapport du seuil différentiel
(∆Smin) et de la grandeur du stimulus (S) :
∆S min
=K
S
Si la fraction de Weber est connue pour une modalité, on peut déduire le seuil différentiel
∆Smin pour une valeur donnée de stimulus S. ∆Smin = JND = K .S
La loi de Weber affirme donc que le seuil différentiel relatif est plus ou moins constant et égal
à la fraction de Weber.
Par exemple, nous voyons que K=1/12 pour la sonie d’un son à 1 000 Hz et K=1/60 pour la
brillance visuelle.

Plus précisément, lorsqu’une grandeur d’excitation associée à un stimulus varie dans une
certaine proportion (par exemple 10%), quelle que soit la valeur de départ de cette grandeur,
la constance de la fraction de Weber implique que le seuil différentiel varie linéairement dans
les mêmes proportions.
2.7.2 La loi de Weber généralisée
Dans la pratique, la loi de Weber n'est pas valable pour toutes les valeurs de la stimulation.
Pour les valeurs près des seuils de détection (petites valeurs du stimulus) et pour les très
fortes valeurs, la loi de Weber est limitée par la capacité des récepteurs.

On l'a adaptée comme suit afin de tenir compte de ces effets de seuil :

où So est la valeur de stimulation au seuil de détection. Cette transformation n'affecte que


peu les valeurs intermédiaires par rapport aux valeurs proches du seuil.
2.7.3 Hypothèse de Fechner et loi logarithmique de Weber-Fechner (1860)
Fechner, quant à lui, a introduit le concept d'échelle de perception, dont l'unité est liée au
seuil différentiel (JND).

Plus précisément, Fechner suppose que pour chaque variation ∆S du stimulus (quelle que soit
la valeur de S), la grandeur de perception varie d’une quantité ∆P constante :

En d’autres termes, augmenter la grandeur d’excitation d’une valeur égale au seuil différentiel
correspond à l’ajout d’une unité perceptive ; comme le seuil différentiel relatif est
approximativement constant selon Weber, on en déduit :

On voit alors le seuil différentiel relatif correspond à une unité d’échelon de la grandeur de
sensation et que tous les échelons sont égaux.
Mathématiquement, pour une grandeur d’excitation S quelconque, l’hypothèse de Fechner
implique que le changement de perception ∆P est relié à un changement ∆S de la grandeur
d’excitation par une relation du type :
∆S
∆P = K
S
Si l’on associe par convention une grandeur de perception nulle au seuil absolu d’excitation S0,
cette loi différentielle peut s’intégrer pour donner la loi de Weber-Fechner :
P S
dS
∫ dP = K ∫
0 S0
S
S S
P = K ln = 2,303.K log
S0 S0
P = k .log S + constante
Cette loi implique donc que la réponse est proportionnelle au logarithme de l’excitation.

La variation de la perception ∆P associée à un changement d’excitation de S1 à S2 vaut donc :


S2
∆P = k log où k est une constante de proportionnalité
S1

La sensation physiologique (le gain) varie comme le logarithme décimal de l’excitation à


partir d’un seuil physique.
La loi de Fechner valait, pensait-il, pour toutes les sensations, moyennant la constante de
proportionnalité qui convient.
2.7.4 Loi de puissance de Stevens (1930)
Par la suite, de nombreux chercheurs, et en particulier Stanley Smith Stevens,
psychophysicien américain qui a beaucoup innové dans les méthodes de recherche en
psychophysique, et l'école de Harvard qu'il a fondée, ont recherché les différentes échelles
psychophysiques et modifié la relation de Fechner.

Stevens considérait les processus psychophysiques comme une chaîne :

Il cherchait à déterminer les mécanismes du transfert entre stimulation et sensation (entrée et


sortie du système de communication constituant le système auditif). Sa méthode était directe
et empirique : il demandait au sujet d'exprimer directement, à l'aide de nombres, l'intensité du
stimulus telle qu'il la ressentait.

Sur la base de ces expériences, Stevens a établit que la relation perception-stimulus n'était pas
logarithmique, mais prenait plutôt la forme d'une loi de puissance :

La perception varie comme le rapport des grandeurs physiques élevé à une puissance n.

Mathématiquement :

où l'exposant n est une constante propre à chaque perception sensorielle et le facteur K est une
constante reliée à l'unité de mesure.
Remarque :

Un exposant n = 1 signifie que la perception varie proportionnellement la grandeur du stimulus.


Un exposant n < 1 signifie que la perception croît moins vite que la grandeur du stimulus.
Un exposant n > 1 signifie que la perception croît plus vite que la grandeur du stimulus.

http://psych.hanover.edu/JavaTest/Media/Chapter10/MedFig.Power.html
Le point de vue de Stevens diffère de celui de Fechner par un point simple mais crucial.
Stevens ne considère plus que la variation de perception ∆S est constante le long du
continuum sensoriel mais qu’il est proportionnelle à la grandeur de sensation S autour de
laquelle il est perçu. Il propose donc la relation suivante :
∆S = h.S
où h est une constante.

Il rapproche ensuite cette relation de la loi proportionnelle de Weber :

où I représente ici la grandeur d’excitation et α est une constante valant h/K. En intégrant les
deux parties de cette équation, nous obtenons :

soit finalement :

où α est une constante. Nous passons donc d’une loi logarithmique avec Fechner à une
fonction de puissance avec Stevens. Cette relation prend une allure de ligne droite de pente α
sur un graphique logarithmique.
2.8 Le code neural primaire.

De nos jours, les psychoacousticiens ont encore élargi leurs sujets de recherche en étudiant,
en collaboration avec les physiologistes, les mécanismes de codage neural des paramètres
physiques des stimuli et la manière dont ces mécanismes peuvent se révéler dans les
performances de détection, discrimination...

Rappelons ici que le code neural primaire, présent dans les axones du nerf cochléaire contient
nécessairement l'entièreté de la représentation neurale des paramètres physiques du stimulus
acoustique. Le code neural primaire est établi par le couple fonctionnel Cellule Ciliée Interne
(CCI) / afférent auditif primaire. Les unités sensorielles primaires le mettent ainsi, dès le noyau
cochléaire, à la disposition du Système Nerveux Central.
Les figures ci-dessus à gauche illustrent le schéma de l'innervation cochléaire et ci-dessus à
droite, en cartouche, le couple fonctionnel CCI-afférents primaires.

Le schéma de l'innervation indique clairement le contraste entre la riche (10 à 30 fibres


primaires de type I convergeant vers une seule cellule) innervation des CCI et celle, très
pauvre (une fibre de type II divergeant entre une dizaine de cellules) des Cellules Ciliées
Externes (CCE).

En réalité, personne n'a, jusqu'à présent, enregistré de réponse nerveuse à une stimulation
acoustique dans les fibres de type II. Seules les fibres de type I (donc les CCI) semblent
assurer la transmission des paramètres du stimulus vers le Système Nerveux Central (SNC).
Représentation schématique de l'innervation afférente des cellules ciliées

Les neurones de type I, de grosse taille et


myélinisés (95% des neurones ganglionnaires)
ont une branche périphérique unique
connectée aux CCIs (10 type-I par CCI en
moyenne).

Les neurones de type II, plus petits et non


myélinisés, suivent une route spirale, vers la
base de la cochlée, pour aller connecter une
dizaine de CCEs, généralement de la même
rangée.
3 Conditions expérimentales en psycho-acoustique : champs
acoustiques
Lorsqu’une source sonore émet un son, elle s’entoure d’un champ acoustique. La perception
du son est fonction des conditions d’écoute.

 On parle de champ libre si les ondes acoustiques se propagent librement dans l’espace
sonore (pas ou peu de réflexion).

Ce champ a une structure simple : sphérique (créé par une sphère pulsante), cylindrique ou
plane (créé par une paroi vibrante).

Ce type de champ est très rare, il peut apparaître en altitude, ou sur une prairie ou sur un
champ de neige.

Le champ libre plan est le champ idéal pour toutes les expériences et mesures acoustiques.

Malheureusement, il est impossible à réaliser aux basses fréquences car les dimensions de la
paroi vibrante doivent être supérieures à la longueur d’onde (par exemple, la longueur
d’onde d’un son de 100 Hz vaut 3,4m).

Cependant, on peut considérer être en présence d’une onde plane si l’on se trouve à une
distance de quelques longueurs d’onde d’une source quelconque dont les dimensions sont
petites par rapport à la longueur d’onde, pour autant que les réflexions parasites des ondes
sur les parois du local soient éliminées (chambre sourde ou anéchoïque).
 On appelle champ diffus (ou réverbéré) : le champ acoustique formé par des ondes
directes mais aussi par des ondes réfléchies sur les parois.

Les ondes arrivent donc de toutes les directions au point de mesure. Ces réflexions
entraînent une augmentation du chemin acoustique et donc un allongement de la durée
de perception d’un son qui ne s’arrête pas en même temps que la source.

Cette prolongation temporelle est perçue comme une réverbération et est définie par un
temps de réverbération (T) caractéristique du local d’écoute. Par définition, le temps de
réverbération est le temps nécessaire pour que le niveau d’intensité acoustique diminue de
60 dB après la coupure du son. Il peut se calculer théoriquement à l’aide de formules
empiriques comme la formule de Sabine et est fonction des caractéristiques du local :
volume, surface de chaque paroi et nature des revêtements, etc.

 Le champ acoustique dans une pièce normale ne ressemble ni au champ libre, ni au


champ réverbéré.

Le temps de réverbération y est trop grand pour qu’un champ acoustique plan puisse se
propager sans distorsion et trop court pour qu’un champ diffus puisse réellement
s’installer. Ce champ a donc une structure complexe ; de plus, la présence de la tête de
l’observateur modifie aussi le champ.
Par conséquent, la détermination des caractéristiques intrinsèques d’un son doit avoir lieu
en champ libre.
Remarque : plans proche et lointain

Si une source se trouve dans une salle normale, un auditeur va être soumis au son direct émis
par la source (champ libre) et au son réverbéré provenant de réflexions multiples (champ
diffus).

Le niveau d’intensité du premier diminue de 6 dB chaque fois que l’on double la distance,
tandis que le niveau du second est constant, fixé par les caractéristiques géométriques et
d’absorption de la salle.

La proportion de l’un ou l’autre est donc fonction de la distance auditeur-source. Si l’auditeur


est proche de la source, l’intensité du son direct sera plus importante que celle du son
réverbéré.

La mesure du niveau d’intensité sonore dans une


salle normale donne toujours le même genre de
résultat : on perçoit d’abord le champ libre, et à
partir d’une certaine distance (dite critique), on entre
dans le champ réverbéré.
La connaissance de cette distance critique est
importante, car elle conditionne le type d’écoute ou
de prise de son.
On parle de plan proche lorsque le champ direct est plus élevé que le champ réverbéré et de
plan lointain si le champ réverbéré domine.
4 Perception de l’espace auditif et localisation des sons
4.1 Introduction

Chez l'Homme, l'audition revêt une valeur particulièrement importante, parce qu'elle
représente le seul sens à nous informer de manière performante sur des événements
survenant en dehors de notre champ de vision.

Contrairement à l’espace visuel, l’espace auditif se caractérise par son évanescence (le son
disparaît rapidement) et par l’aspect évolutif des éléments sonores dans le temps : c’est un
espace spatio-temporel.

Un aspect important de cette performance est lié à la capacité de localiser une source sonore
dans l'espace.

La localisation spatiale de l’origine des sons est possible grâce à la présence des deux oreilles,
qui perçoivent les sons avec des écarts de temps, de phase, ou d’intensité selon leur position
par rapport à la source.

Si les performances les plus précises dépendent de la comparaison entre les informations
parvenant à chacune des deux oreilles, il existe des mécanismes strictement monauraux qui
participent à la perception de l'espace auditif.
L’audition binaurale permet donc la localisation en champ libre des sources primaires mais,
suite au doublement de la surface des capteurs tympaniques, elle améliore aussi l’audition
en abaissant le seuil d’audition de 3 dB par rapport à l’audition monaurale.

L'audition binaurale contribue également à nous permettre de focaliser notre attention


auditive sur une source particulière, ce qui contribue à l'amélioration de nos performances
en milieu bruyant ou lorsque plusieurs sources sont en compétition.
Le terme « localisation » se rapporte à la perception de la direction et de la distance d'une
source sonore.

Dans beaucoup de conditions d'exploration fonctionnelle, les effets binauraux sont créés par
des signaux dichotiques appliqués à l'aide d'un casque. La source sonore apparente est alors
latéralisée dans la tête, et l'on parle de « latéralisation ».

Les performances de localisation sonore incluent également une estimation de la distance de


la source. Cette capacité est souvent particulièrement développée chez les personnes
aveugles.

De nombreuses expériences ont permis


d’établir que la perception objective de
l’espace sonore en écoute binaurale naturelle
est influencée par la latéralité (ou azimut),
l’élévation (ou la hauteur) et la profondeur
d’origine du son.

En d’autres mots, notre perception d’un son


dépend aussi de sa localisation dans l’espace
auditif.
La localisation d’un événement dans l’espace auditif est conditionnée par des paramètres
physiques (distance à l’objet, rotation de la tête dans la direction du son sélectionné, …) mais
aussi par l’intérêt subjectif accordé à l’événement sonore.

Par exemple, lorsqu’on écoute la radio en lisant un livre, quelle que soit la place réelle de la
source sonore, en cas d’écoute attentive, le son est ressenti devant l’auditeur, alors qu’un bruit
d’ambiance est rejeté derrière lui.
Les indices qui nous permettent de localiser les sources sonores peuvent varier en fonction
de la nature des sons rencontrés. Nous envisagerons d'abord les sons sinusoïdaux stables,
puis les sons discontinus ou transitoires tels qu'on les rencontre dans la vie quotidienne.
4.2 Facteurs jouant sur la perception de la latéralité

La perception dans un plan horizontal de l’angle d’incidence d’une onde sonore est
nettement améliorée par l’écoute binaurale, grâce aux légères différences du même
message sonore, capté par chaque oreille lorsque la source n’est pas située sur l’axe de
symétrie de la tête.

Ces différences peuvent être :

 une différence de niveau entre les pressions acoustiques reçues, due à la


différence de distances à parcourir ;

 une différence de niveau provenant du phénomène de diffraction du son par


la tête (effet d’ombre) ;

 une différence de temps d’arrivée des signaux aux deux oreilles, qui se traduit
par une différence de phase.
4.2.1 Influence de la différence de niveau de pression acoustique sur la latéralité
Pour une source placée latéralement par rapport à la tête, le trajet de l’onde acoustique est
plus long pour atteindre l’oreille placée du côté opposé à la source.

Comme pour une onde sphérique, la pression acoustique est inversement proportionnelle à
la distance source-récepteur, on peut observer une atténuation du niveau provoquée par la
distance supplémentaire à parcourir.

Cependant, cette différence de niveau est très faible (inférieure à 1 dB) et donc quasiment
imperceptible, sauf si la source est très proche de l’auditeur.

En effet, nous verrons que le seuil différentiel de sonie se situe aux environs de 1dB.

Par conséquent, on peut conclure que la différence des pressions acoustiques entre les deux
oreilles n’est vraiment significative que lorsque la source est très proche de l’auditeur.
Par exemple, pour une source S1 placée à 2m,
perpendiculairement à l’axe de la tête, le niveau
relatif des pressions acoustique observées entre
deux points séparés de 20cm (c’est-à-dire la
distance séparant les deux oreilles) vaut :
2, 0
2 0 lo g = − 0 , 8 3d B
2, 2

Si la source s’éloigne, plus la différence relative


entre les deux chemins parcourus par l’onde pour
atteindre chaque oreille diminue. Par exemple, si la
source est située à 3m, le niveau relatif des
pressions devient :
3, 0
2 0 lo g = − 0, 56dB
3, 2
De la même manière, si la même source est située à 2m de la tête, suivant un angle de 30°
avec l’axe de symétrie, la différence de chemin n’est plus que de 0,2.sin(30°)=0,1 et le
niveau relatif des pressions acoustiques observées entre ces deux points vaut alors :

2, 0
20 log = −0, 42dB
2,1
4.2.2 Influence de la diffraction (effet d’ombre) sur la latéralité
Chaque point d’un obstacle (ou d’un diaphragme) atteint par une onde devient une source
secondaire qui réémet une ondelette identique (principe d’Huygens-Fresnel).

Toutes ces ondelettes interfèrent entre elles, constructivement ou destructivement selon le


point test de l’espace choisi. L’obstacle (ou le diaphragme) diffracte l’onde.

Certaines portions de l’espace au-delà de l’obstacle contiendront donc l’onde renforcée (les
ventres du phénomène de diffraction), tandis que d’autres (les nœuds du phénomène de
diffraction) en seront vides.

De plus, on montre grâce au principe de Huygens-Fresnel qu’une onde de petite longueur


d’onde par rapport aux dimensions de l’obstacle (du diaphragme) est essentiellement
réfléchie (transmise) par celui-ci, tandis qu’une onde de grande longueur d’onde par rapport
aux dimensions de l’obstacle sera diffractée et le contournera.
La tête et le tronc de l’auditeur constituent des obstacles pour les ondes acoustiques.

Les longueurs d’onde des ondes acoustiques audibles sont comprises entre environ 20 m et 2
cm.

Pour les sons graves (de petites fréquences, donc de grandes longueurs d’onde), l’obstacle
est plus petit que la longueur d’onde, et il y a diffraction, alors que pour les sons aigus,
l’obstacle est plus grand que la longueur d’onde, et il y a réflexion.

Les ondes correspondant aux sons graves contourneront donc facilement l’obstacle formé par
la tête et le tronc par diffraction, et atteindront les deux oreilles, alors que les ondes
correspondant aux sons aigus se réfléchiront sur l’obstacle et n’atteindront donc pas l’autre
oreille.

En conséquence, à cause de cette différence de comportement, et suivant l’orientation de la


source par rapport à l’axe de la tête, la pression acoustique au niveau des deux oreilles n’est
pas identique pour les fréquences aiguës et pour les fréquences graves. Le différentiel de
pression entre les deux oreilles est important pour les sons aigus.

Il y a donc effet d’ombre du tronc et de la tête à partir d’une certaine fréquence critique.
En pratique, la fréquence critique à partir de laquelle l’absence de diffraction commence à
produire ses effets correspond à une longueur d’onde bien supérieure aux dimensions de la
tête.

Les mesures montrent que l’effet d’atténuation dû à l’ombre n’est tout à fait négligeable que
pour des fréquences très graves (moins de 200 Hz , soit une longueur d’onde de λ=1,7m) ;
l’atténuation devient importante à partir de 3 ou 4 kHz (λ≈10 cm) et atteint une valeur de
12dB à 15dB à 10 kHz (λ=3,4cm).
Plus le son est aigu, plus il y a une différence de niveau entre les deux oreilles, lorsque la
source est située d’un côté de la tête (par exemple à 90°), car les sons aigus contournent moins
la tête (ils ne sont pas diffractés) mais sont plutôt réfléchis par l’obstacle.
4.2.3 Influence de la différence de temps d’arrivée du son aux deux oreilles, se traduisant par
une différence de phase
Pour une source située en dehors de l’axe de symétrie de la tête, la différence de chemin
acoustique se traduit par une différence ∆t dans le temps d’arrivée du même message sonore
au niveau des deux oreilles.
Pour une source située dans une direction faisant un angle θ avec l’axe de symétrie de la tête,
et en assimilant la tête à une sphère, on peut estimer facilement le retard en fonction de
l’angle.

La distance supplémentaire d à parcourir pour


l’onde qui doit contourner la tête est la somme
d’un segment de droite de longueur d1 et d’un arc
de cercle de longueur d2.

Elle vaut donc :


d = d1 + d 2 = R(sin θ + θ )

La différence de temps d’arrivée entre les deux


oreilles vaut donc:
R
∆t = (sin θ + θ )
c
On voit sur cette formule que le retard maximum sera atteint pour θ=90° (source dans l’axe
d’une ou l’autre oreille).
Dans ce cas, si la célérité du son vaut 344 m/s et si la distance interauriculaire est égale à
17,5cm (R=0,0875m), le retard vaut :
0,0875
∆t= (1 + π / 2) = 0, 65ms
344
Ce retard entre les deux oreilles, même s’il reste très faible en terme de décalage temporel
(de l’ordre du pouvoir séparateur de l’oreille), peut devenir important en terme de
déphasage.
Le déphasage ∆ϕ est fonction de la différence de marche ∆m et de la longueur d’onde λ.

Précisément, il vaut : 2π 2π . f
∆ϕ = ∆m = .c.∆t = 360°. f .∆t
λ c
Pour une onde de fréquence f=125 Hz, dans le cas d’un retard de 0,65ms (onde venant à
90°), le déphasage vaut donc:

∆ϕ = 360°.125.0, 65.10−3 = 29°


De la même manière, on trouve :

Lorsque la fréquence du signal dépasse 1 500 Hz, la différence de phase est supérieure à
360°, et il n’est plus possible de savoir quelle oreille est atteinte la première.
En résumé, la perception de la latéralité du son dépend :

 très peu de la différence de pression due aux distances de la source aux deux oreilles mais
beaucoup plus de la différence de pression créée par l’effet d’ombre dû à l’absence de
diffraction des ondes par la tête ; cette différence apparaît donc surtout pour des fréquences
élevées (à partir de 3-4 kHz).

de la perception de la différence de phase ; cette perception n’est possible que pour les
fréquences inférieures à 1,5 kHz. Au-dessus de cette fréquence, il y a confusion.

à l’intérieur de la plage de fréquences comprises entre 1,5 et 4 kHz, la perception de la


latéralité est plus difficile car les fréquences sont trop hautes pour que la différence de
phase joue, et trop basses pour que l’effet d’ombre soit encore plus efficace que la
diffraction.
4.2.4 Précision de la localisation de latéralité
Le seuil minimum de discrimination angulaire audible dans l’axe de la tête est de 1 à 2°.

Comme le montre la figure ci-dessous, la précision de localisation dépend également de


l’angle d’incidence de la source.

La précision de localisation d’une source qui se déplace autour d’un observateur décroît
largement lorsqu’elle se trouve sur le côté de la tête.

La source positionnée à 90° est localisée autour de 80° avec une incertitude de l’ordre de
20°.
4.2.5 La théorie duplex de la localisation des sources sonores.
Le double mécanisme auquel il vient d'être fait allusion pour expliquer les performances de
localisation des sources sonores est souvent désigné dans la littérature sous le terme de
théorie duplex de la localisation pour insister sur la double utilisation (avec un poids différent
selon les fréquences concernées) d'indices temporels et d'intensité dans la comparaison
binaurale.

4.2.5.a Un module perceptif spécialisé pour la localisation sonore.


Il est intéressant de noter que la perception de la localisation des sources sonores selon la
théorie duplex, est organisée comme un module perceptif spécialisé. En psychologie de la
perception, les modules perceptifs spécialisés correspondent à des entités robustes,
automatiques, qui très tôt dans la chaîne de traitement de l'information afférente
convertissent des paramètres du stimulus (grandeur de stimulation) en une grandeur
perceptive hétéromorphique, c’est-à-dire appartenant à une dimension différente de celle de
la grandeur de stimulation.

L'intérêt de tels modules spécialisés est de décharger l'étage cognitif de toute une série de
tâches fréquentes, automatisables en assurant le traitement spécifique de l'information à un
stade aussi périphérique que possible.

Dans l'exemple présent, la différence de temps entre l'arrivée d'un même signal aux deux
oreilles est automatiquement transformée en code neural de l'angle sous lequel la source est
perçue.
Pour une distance de 23 cm entre les deux oreilles, le délai maximum qui correspond à une
source située à angle droit par rapport à la tête est de 690 µsec. On constate que le module
s'enclenche automatiquement pour imposer la perception d'une source latéralisée chaque
fois qu'un même stimulus est présenté aux deux oreilles avec un décalage compris entre 0 et
690 µsec.

Dès que le délai est supérieur, il ne peut plus correspondre à un effet de latéralisation et le
module ne s'enclenche plus : il fait place au mécanisme général qui conduit à la perception
de deux sons distincts décalés dans le temps.

Illustration de la théorie « duplex » de


localisation des sources sonores.
Une source sonore située à un azimut de
45°produit une onde sonore qui atteint
l'oreille droite un peu avant l'oreille gauche.
En outre, si la longueur d'onde n'est pas
trop grande, la tête joue le rôle d'écran
sonore et atténue l'intensité du signal reçu à
l'oreille gauche par rapport à la droite.
4.2.6 Mécanismes monauraux de localisation des sources sonores.
Outre les mécanismes binauraux décrits plus haut, il existe également des mécanismes
monauraux de localisation des sources sonores.

En général, les performances monaurales sont nettement moindres que les binaurales pour les
sons purs, mais s'en rapprochent pour les sons complexes et en particulier les bruits à large
bande.

C'est le pavillon de l'oreille externe qui joue un rôle prépondérant dans les mécanismes
monauraux. La forme complexe du pavillon impose des modifications importantes au signal
incident.

4.2.6.a Orientation du pavillon.


L'implantation du pavillon qui joue un rôle d' « entonnoir à sons » légèrement dirigé vers
l'avant permet de distinguer les sons issus d'une source située droit devant de ceux issus d'une
source située droit derrière, distinction que les mécanismes binauraux de la théorie duplex
sont incapables de réaliser !
4.2.6.b Duplications multiples du signal.
Le relief complexe du pavillon transforme le signal incident en lui ajoutant une série de
duplications décalées les unes des autres par des délais variant entre 10 et 300 µsec, du
moins pour les fréquences suffisamment élevées que pour interagir avec la taille des reliefs
du pavillon (> 6 kHz).

Le pattern temporel de ces duplications varie en fonction de l'angle d'incidence du signal.


Lorsqu'on enregistre un signal complexe à l'aide d'un micro placé dans la conque d'un moule
d'une oreille externe et que l'on fait ensuite entendre l'enregistrement via un casque, les
performances de localisation sont reproduites. Elles sont abolies par contre si
l'enregistrement est réalisé en l'absence du moule de l'oreille externe.

4.2.6.c Modifications du spectre du signal.


Un autre effet dû au pavillon et à ses reliefs consiste en une modification du spectre du signal.
Cette modification est opérationnelle sur une gamme de fréquences bien plus large (500
Hz - 16 kHz) que l'effet précédent.

Ce mécanisme nécessite une connaissance préalable du spectre du signal, de manière à


pouvoir en déceler les modifications liées à l'angle de présentation. Non seulement le spectre
du signal doit être connu, mais il faut encore tenir compte, dans bien des situations, d'effets
comme l'acoustique du local...

Plusieurs investigations ont montré que quelques secondes d'apprentissage suffisaient pour
localiser un signal nouveau dans un environnement acoustique nouveau.
4.2.6.d Rôle des mouvements de la tête.
D'une manière générale, le fait de laisser le sujet libre de faire des mouvements de tête
exploratoires améliore les performances de localisation monaurale.

Par ces mouvements exploratoires, le sujet contrôle la modification de l'angle d'incidence et


mesure les modifications qui en résultent, ce qui permet en quelque sorte de réaliser une
« calibration » immédiate du système.
4.2.7 L'effet de précédence.
Dans notre environnement naturel, la plupart des sons nous arrivent par des voies multiples :
la voie directe qui est la plus courte entre la source sonore et notre tympan, mais aussi des
voies indirectes liées aux effets de réverbération crées par les obstacles ou les parois situés
dans le champ acoustique.

Ainsi dans une pièce, le son direct sera suivi de multiples répliques ou échos liés à la
réverbération sur le plancher, le plafond, les murs...

Malgré l'existence physique de ces réverbérations, nous n'en sommes normalement pas
conscients, et leur existence ne perturbe pas nos performances de localisation des sources
sonores.

Plusieurs études ont été dévolues à ce sujet. L'une d'elle a utilisé une paire de clics appliquée
par écouteur dans chaque oreille. Le délai entre les deux clics d'une paire était légèrement
différent afin de créer une image de localisation différente entre la paire appliquée à gauche
et celle appliquée à droite. La différence gauche-droite entre le moment d'arrivée du premier
clic de la paire pouvait être variée de manière à simuler un effet de réverbération.
Les résultats de ce type d'expérience peuvent être résumés comme suit :
- Deux sons brefs qui atteignent les oreilles d'un auditeur normal en succession
rapide sont perçus comme un seul son si l'intervalle qui les sépare est
suffisamment bref. La limite supérieure de cet intervalle dépend du type de
son : elle peut aller jusqu'à 5 msec pour des clics et jusqu'à 40 msec pour des
sons complexes comme ceux du langage ou de la musique.

Quand deux sons brefs en succession rapide sont perçus comme un seul son fusionné, la
localisation du son fusionné est déterminée par la localisation du premier des deux sons.

C'est ce que l'on appelle l'effet de précédence ou effet d'antériorité ou de préséance ou


encore effet de Haas.

- L'effet n'existe que pour des sons brefs ou discontinus, riches en transitoires.

Si la localisation du deuxième son est de plus en plus éloignée de celle du premier son, il va
entraîner la localisation du son fusionné dans sa direction jusqu'à un biais maximum
d'environ 7°, puis son influence va se réduire progressivement.
Si l'intervalle entre les moments d'arrivée des deux sons est de moins d'une msec, l'effet de
précédence ne s'applique pas et la localisation perçue est intermédiaire entre celle des deux
sources réelles.
Si le second stimulus possède un avantage d'intensité de plus de 15 dB sur le premier, l'effet
de précédence disparaît.
L'effet de précédence est d'autant plus net que les deux stimuli sont similaires. Si l'écho
diffère trop du son direct, l'effet s'effondre.
L'effet de précédence est essentiellement binaural : c'est la disparité temporelle interaurale
du premier son qui impose la localisation perçue.

Il nous permet de localiser et d'interpréter les sons dans des conditions variées, même si les
effets de réverbération sont importants.
Application 1 : nous avons 2 HP pour sonoriser la salle, HP1 sur scène et HP2 suspendu :
Si on envoie la même modulation aux 2 HP, l’origine du son
pour l’auditeur A vient du HP2 qui lui est le plus proche.
Ensuite c’est le son du HP1 qui arrive, créant une répétition.
En appliquant un retard (délai) à l’ampli du HP2
correspondant à la différence de distance entre HP1 et HP2,
on va virtuellement l’amener en HP2*, sur le même plan que
HP1. (ex. pour D = 10m ; le retard sera 10 x 3, soit 30 ms).
L’auditeur entend les 2 HP en même temps et localise une source imaginaire quelque part
entre les 2 enceintes.
En augmentant de quelques ms le retard appliqué au HP2, l’image se déplace vers le bas
(HP2**) : c’est maintenant le HP1 qui arrive en premier aux oreilles de l’auditeur.
Application 2 : nous sonorisons le piano dans nos enceintes G (gauche) et D (droite), avec un
gain inférieur à 10 dB par rapport au son acoustique.
Sans retard, la localisation du son est donnée par les HP qui sont
plus proches des auditeurs et dont le son arrive en premier.

Lorsque nous leur appliquons un retard correspondant à 5 m x 3


ms, soit 15 ms ou légèrement davantage, c’est le son direct du
piano suivi de celui des HP qui arrivera sur les auditeurs. L’origine
du son vient du piano et les HP semblent disparaître.
La sonorisation devient très discrète et le rendu final est plus
naturel.
4.3 Facteurs jouant sur la perception de l’élévation
Pour une source se déplaçant dans un plan vertical, en particulier le plan médian, la
différence entre les signaux sonores arrivant aux deux oreilles est très peu significative.

Elle ne devient significative que pour des sons aigus (fréquence supérieure à 5 kHz), grâce à
la diffraction au niveau de l’oreille externe (sur le pavillon). Par exemple, on observe une
amplification de 6dB si une source de 5 kHz s’élève de 60°.

La localisation dans le plan vertical (de l’élévation donc) est donc beaucoup plus difficile et
plus imprécise que la localisation dans le plan horizontal (de la latéralité).

L’incertitude de localisation atteint 15 à 20° pour une source située au-dessus de la tête.

L’expérience montre cependant que pour une source grave placée à la même hauteur
qu’une source aiguë, la source aiguë sera perçue subjectivement comme étant plus élevée
que la source grave.
Perception de l’élévation dans le plan médian
L’expérimentation décrite par la figure suivante met en évidence le rôle déterminant du
spectre dans la localisation devant, dessus, ou derrière. On observe que la direction apparente
est imposée par la fréquence centrale de certaines zones spectrales.
- les sons de 8 kHz semblent venir du haut
- les sons de 700 Hz à 2kHz et les sons aigus (de 10 à 15 kHz) semblent venir de l’arrière
- les sons de 250 à 500 Hz (basses fréquences) et de 2 à 6 kHz semblent venir de devant.

Cette notion peut être utilisée directement en sonorisation. Un effet d’élévation sonore peut
être créé en introduisant une accentuation vers 8 kHz.
4.4 Facteurs jouant sur la perception de la profondeur
La perception de la distance qui sépare une source des oreilles provient de différents facteurs
qui se renforcent mutuellement :

 l’éloignement réel de l’auditeur à la source.

Mais la dépendance en la distance n’est pas linéaire. On a toujours tendance a sous-


estimer les distances des sources. Il est généralement admis que pour donner la
sensation de doublement de la distance (qui normalement correspond à une baisse de
niveau de 6 dB), il faut diminuer le niveau d’intensité de 20 dB.

 la proportion de champ libre et de champ réverbéré qui définit la notion de plan


proche, moyen, ou lointain.

Lorsqu’un auditeur s’éloigne d’une source sonore, le rapport du son direct au son
réverbéré (cf. acoustique architecturale) diminue. Cette décroissance relative constitue
un indice de localisation en profondeur supérieur à celui de la seule décroissance
directe du son direct.

 le temps d’arrivée à l’auditeur, qui permet de percevoir l’étalement spatial des


sources (par exemple, l’écoute d’un ensemble de cordes donne une sensation
d’occupation de l’espace, par opposition à l’écoute d’un soliste, perçu comme une
source ponctuelle).
l’enveloppe spectrale du signal sonore.
La densité spectrale d’un signal sonore varie lors de sa propagation en fonction d’une
absorption inégale des fréquences graves et aiguës : les aigus étant plus absorbés par l’air, une
source lointaine contiendra moins d’aigus qu’une source proche.

Des expériences ont montré notamment qu’en champ libre, des sons dont le contenu
fréquentiel est inférieur à 2 kHz semblent plus éloignés que les sons de fréquence supérieure.
La figure ci-contre présente les
résultats de l’estimation (en
champ libre) de la distance d’une
voix parlée masculine chuchotée (à
spectre essentiellement aigu)
comparée à celle d’une voix
masculine parlée normalement à
large spectre (c’est-à-dire avec
aussi des graves).

On constate que la perception de


la distance d’une voix chuchotée
est sous-estimée : l’aigu paraît
plus proche.

On en déduit que la sensation d’une source sonore proche ou lointaine pourra être créée
artificiellement par un filtrage approprié.
5 Force des sons : de l’intensité acoustique à la sonie
5.1 Définition de la sonie
La sonie est la grandeur de sensation reliée a la perception des intensités acoustiques
(grandeur d’excitation associée à la force du son). Autrement dit, la sonie est le corrélat
sensoriel de l'intensité. Elle réfère donc à l‘évaluation et à la description subjective de
l'intensité telle que perçue par un auditeur.

« Subjective » est ici entendu dans le sens que :

 l'auditeur est un sujet humain ;

 il n'y a pas de réponse exacte ou vraie ou universelle (on ne peut pas dire à une
personne que sa réponse est « erronée »);

 la sonie ne varie pas exclusivement en fonction du niveau d'intensité mais dépend aussi
de la fréquence.

L'aspect « subjectif » ne veut donc pas dire que les jugements varient de façon extrême,
comme une opinion politique par exemple.

En fait, les variations inter-individuelles pour la sonie sont habituellement assez faibles.
5.2 Seuil absolu de sonie
Le seuil absolu de sonie est la valeur de la grandeur d'excitation (donc du niveau d'intensité ou
de pression en dB) pour laquelle la sonie d'un son est juste perçue.

On obtient cette valeur limite en cherchant avec quelle probabilité un stimulus est perçu
lorsqu'il a une grandeur donnée.

Par exemple, on stimule l'oreille 100 fois et l'on compte combien de fois le stimulus donne
lieu a une sensation. Si le stimulus croît, la probabilité que celui-ci soit perçu, augmente. On
prend pour valeur limite d'excitation, la valeur correspondant a une probabilité de 0,5.
Autrement dit, la valeur limite est celle pour laquelle le sujet détecte le signal dans 50% des
cas.
La valeur du seuil absolu de sonie n'est pas la même pour l'ensemble des fréquences. En
effet, la sensation de sonie varie considérablement selon la région spectrale étudiée.
L'oreille est en effet beaucoup plus sensible aux fréquences qui se situent autour de 3400 Hz
alors qu'elle l'est beaucoup moins aux fréquences graves et très aiguës.

La valeur normalisée du seuil absolu de pression acoustique, à la fréquence de 1 000 Hz, en


écoute binaurale et en champ libre est de :
p0 = 2.10−5 Pa
À 1 000 Hz, le seuil absolu d’intensité, aussi appelé seuil d’audibilité est donc de :

I 0 = 10−12 W/m 2
Ces deux grandeurs sont liées par l’impédance de l’air, Z=400 Pa.s.m-1:

p02
I0 =
Z
Remarque : pour l’acoustique sous-marine (Z=1,5.106 Pa.s.m-1), les seuils d’intensité et de
pression acoustique sont différents et valent :

2 −18
I 0 = 10 W/m 2 et p0 = 10−6 Pa
3
Pour chaque fréquence, il existe une pression acoustique et une intensité acoustique
minimum où l’on commence à entendre quelque chose. C’est le seuil absolu de perception en
pression et en intensité :

Ainsi, entre les fréquences 1 000 et 3 000 Hz, une pression acoustique de 2 × 10-5 Pa (ou une
intensité sonore de 10-12 W/m2) suffit à provoquer une sensation sonore, tandis qu'à la
fréquence 50 Hz, il faut 2 × 10-3 Pa (100 fois plus) pour provoquer la sensation sonore.

Si on augmente graduellement le niveau du son, il vient un moment où il devient


insupportable, où il fait mal, c’est le seuil de douleur.
5.3 Champ audible ou aire d’audition

La présence de ces seuils absolus délimite dans le plan harmonique le champ audible ou aire
d’audition.

Le champ audible est délimité inférieurement par les seuils auditifs, supérieurement par les
seuils maximums de confort ou les seuils de douleur. Ces derniers sont rarement mesurés car
la mesure implique un risque pour l'oreille ; aussi la limite (en pointillés) est-elle définie de
manière moins précise.

Champ audible, champs de la musique et de la parole (abscisses : fréquences en


Hz, ordonnées : niveaux sonores en dB).
Cette aire n’est pas absolue, elle varie en fonction de l’âge, du sexe, et d’un être humain à
l’autre, et même d’une oreille à l’autre chez un seul individu.

En fréquences, le champ audible s'étend environ de 20 à 20 000 Hz. En pratique ces limites,
surtout vers les hautes fréquences, sont valables que pour des sujets jeunes et en bonne santé.

Avec l'âge, notre sensibilité auditive décroît, particulièrement dans les aigus. La perte auditive
courante chez les sujets âgés s'appelle la presbyacousie.

Seuils absolus et aire d’audition


Une région de sensibilité maximum, associée a la résonance du canal auditif, se situe autour
de 3 500 Hz. La perte de sensibilité décline a un taux d'environ 6 dB par octave (c'est-à-dire
pour chaque doublement de fréquence) en-dessous de 1 000 Hz et elle décline a un taux
d'environ 24 dB par octave au-dessus de 4 000 Hz.

Les seuils d'inconfort et de douleur varient peu en fonction de la fréquence et valent autour de
120 ou 130 dB. La différence de niveaux entre le seuil absolu et le seuil d'inconfort ou de
douleur est appelée l‘étendue dynamique ou simplement la dynamique (variant avec la
fréquence). L‘étendue dynamique est la plus grande entre 1 000 et 4 000 Hz.

Les ultrasons (au-dessus de 20 000 Hz) sont inaudibles pour nous mais audibles pour certains
animaux (chiens, chats, dauphins, chauve-souris, etc.). Les ultrasons sont utilises dans les
télécommunications, et dans certaines technologies médicales (par exemple, pour les
échographies).

Les infrasons (en dessous de 20 Hz) sont omniprésents. De très basses fréquences peuvent
être produites dans les bâtiments par les longs conduits de conditionnement d'air (vibrations
de ventilateurs), par les secousses sismiques et aussi par l'action du vent. En général, il est
utile d'avoir une sensibilité réduite aux basses fréquences, ce qui diminue la gêne qui leur est
associée.
Mais les sons subsoniques agissent sur l'oreille interne et l'organe d‘équilibre en particulier,
pouvant causer des vertiges, ainsi que des troubles digestifs et de la vue, similaires aux
symptômes du mal de mer. Les infrasons sont encore bien mal connus, de même que leurs
effets à long terme.
Remarque : dynamique de l’oreille
Si on définit la dynamique de l’audition comme étant la différence entre le niveau d’intensité
supérieur audible et le niveau inférieur audible, on constate sur le graphique précédent que
celle-ci varie avec la fréquence :

 à 1 000 Hz, la dynamique de l’oreille s’étend de 0 dB à 120 dB, soit 120 dB ; cela
signifie que nous sommes capables d'entendre des sons dans un rapport de
puissances de 1 à 1012 (soit 1 000 milliards) !

À 50 Hz, la dynamique de l’oreille s’étend de 40 dB à 130 dB, soit 90 dB


Lorsque l'on descend vers les graves (au dessous de 16-20 Hz), la sensation sonore est
progressivement remplacée par une perception tactile des vibrations, dont nous pouvons
quasiment suivre la forme d'onde. La période devient trop grande pour que le son soit
intégré comme tel par l'oreille, dont la « constante de temps » est de l'ordre de 50 ms.

Dans certains cas il est possible que ces sons graves soient également détectés par les
produits de distorsion (harmoniques) fabriqués par l'oreille moyenne, dont la réponse n'est
pas parfaitement linéaire.

Le champ de la musique s'étend de 50 à 10 000 Hz environ, le champ de la parole est plus


restreint : l'essentiel de l'énergie est entre 200 à 5000 Hz, et la restriction à la bande [300,
3400] Hz qui est celle du téléphone altère peu l'intelligibilité pour un sujet qui entend
normalement.
Mise en évidence de la forme générale de la courbe du seuil d’audibilité

Réponse fréquentielle de l’oreille, calibration

Réponse fréquentielle de l’oreille, démonstration

La suite des fréquences proposées est celles des octaves du si1, de fréquence 123 Hz.
Elles correspondent ici à peu près à 123 Hz, 246 Hz, 496 Hz, 990 Hz, 1984 Hz, 4022 Hz,
7935 Hz.
Remarque : retour sur la physiologie de l’oreille externe et de l’oreille moyenne
Nous avons signalé que le conduit auditif de l’oreille était assimilable à un tube acoustique,
ouvert du côté pavillon et fermé par le tympan, d’environ L=2,7 cm.

Les fréquences de résonance d’un tuyau ouvert-fermé sont données par la formule :
c
f n = (2n + 1) avec n = 0,1, 2,...
4L
On obtient donc, pour les premières résonances, les valeurs :

Valeur de n Fréquence
0 f0=3 148 Hz
1 f1=9444 Hz
2 f2=15740 Hz

Les fréquences de résonance dépassent ensuite la capacité de traitement de notre système


auditif.

Sur la courbe du seuil de perception, on remarque que l’oreille est en effet la plus sensible
autour de 3 000 Hz. Ceci s’explique par le fait que l'ensemble pavillon et conduit auditif, en
amont du tympan, est un canal de transmission acoustique qui possède une fréquence de
résonance vers 3 kHz, ce qui accroît globalement la sensibilité de 1 à 5 kHz. La sensibilité est
aussi très bonne autour de 10 000 Hz, deuxième fréquence de résonance.
Les caractéristiques de transmission de l'oreille moyenne et la répartition des neurones dans
la cochlée (un plus grand nombre de neurones sont associés aux fréquences moyennes
entre 50 et 5000 Hz) expliquent aussi la meilleure sensibilité globale à ces fréquences, liée
au nombre moyen de décharges nerveuses.

L’allure de la courbe de seuils de sensibilité auditive (ici chez l’homme en trait plein) est
comparable à celle de la fonction de transfert globale de l’oreille externe et de l ’oreille
moyenne (en pointillés). Ceci est valable pour tous les mammifères.
Deux conclusions s'imposent :

- ce sont l’oreille externe et l’oreille moyenne qui, en fonction de la quantité d’énergie


acoustique transmise pour chaque fréquence, « modèlent » la courbe des seuils de sensibilité
auditive.
-
- l’oreille interne est un détecteur dont le seuil est constant en fonction de la fréquence dans
la quasi totalité de la gamme audible.
5.4 Mesure et variations du seuil d’audibilité
5.4.1 Mesure

Deux méthodes peuvent être utilisées pour mesurer le niveau minimum audible des sons
purs, en fonction de leur fréquence (et généralement sur une seule oreille) :

au casque, et on mesure alors la « Minimum Audible Pressure » ou MAP, la pression


acoustique reçue étant contrôlée après étalonnage à l'aide d'un micro-sonde placé au niveau
du tympan du sujet.

en chambre anéchoïque (i.e. une salle aux parois totalement absorbantes) et en champ
libre : on mesure alors le « Minimum Audible Field » ou MAF, et la pression est contrôlée
ensuite en plaçant à l'emplacement de la tête du sujet, des microphones portés par une tête
artificielle.

On observe que les seuils sont meilleurs (plus bas) dans ce second cas, car au casque le bruit
de la circulation sanguine du sujet est amplifié et masque le son qu'on cherche à détecter.

Les variations du seuil d'audition avec la fréquence constituent donc la courbe des seuils
auditifs, qui se confond avec ce que nous appelons plus loin l'isosonique 0 dB.

http://psych.hanover.edu/JavaTest/Media/Chapter10/MedFig.FrequencyResponse.html
Les seuils d’audition se mesurent facilement expérimentalement, en procédant par fréquence
montante ou descendante.

Il sont généralement différents pour les oreilles droite et gauche (même chez les personnes
jeunes et en bonne santé).

Il s’agit de valeurs statistiques, caractérisées par un écart type (rarement donné).

Des statistiques effectuées sur 10% ou 90% de la population peuvent varier de 10 dB.

Au dessus de 1 000 Hz, les seuils d’audition fluctuent beaucoup selon les individus et sont un
signe distinctif de chacun.
5.4.2 Variabilité liée à l’âge et au sexe

L’ouïe se dégrade aussi avec l’âge, c’est le phénomène de presbyacousie. La presbyacousie est
plus marquée chez les hommes que chez les femmes.

Jusqu’à 60 ans, le seuil d’audition, et donc la sensibilité de l’ouïe, ne varient pratiquement pas
pour les fréquences graves, inférieures à 2 000 Hz (Cf. graphiques ci-dessous).

Par contre, pour les fréquences aiguës, le seuil d’audition à 10 000 Hz s’élève déjà de ±15 dB
(l’intensité seuil est multipliée par 25=32) entre 20 et 40 ans, et de ± 25 dB (intensité seuil
multipliée par un facteur compris entre 28=256 et 29=512) entre 20 et 60 ans.
Notons qu’une perte de 25 dB provoque déjà une dégradation importante de l’intelligibilité
d’une conversation.

« Quel dommage qu'on ne sache guère écouter qu'à l’âge où l’on commence à ne plus
entendre. » Comte Gérard de Rohan-Chabot
5.4.3 Fatigue auditive et pertes temporaire ou définitive d’audition

Une exposition prolongée au bruit provoque aussi une fatigue auditive et une perte
d’audition.

La durée d’exposition supportable est fonction du niveau de bruit. Par exemple, une longue
exposition à un bruit relativement intense pourra être plus traumatisante qu’une exposition
de plus courte durée à un bruit d’intensité supérieure. Cette situation est d’autant plus grave
qu’un son de 115 dB ne provoque aucune gêne et peut endommager irrémédiablement
l’oreille en quelques minutes alors qu’une oreille normale n’est sensible à la douleur qu’à
partir de 120 dB.

Il est généralement admis qu’à chaque niveau sonore correspond une durée maximale
journalière d’exposition tolérable :
En cas d’exposition supérieure à cette durée tolérable, mais qui resterait non destructrice pour
l’oreille, on constate une élévation du seuil d’audibilité plus ou moins importante, mais qui
peut dépasser 30 dB suite à une exposition de quelques heures à 110 dB.

En général, après quelques heures de récupération au calme, on retrouve sa capacité auditive


antérieure, pour autant que l’exposition ne se renouvelle pas régulièrement. On parle alors e
fatigue auditive.

Réversibilité de la perte d’audition (d’après Stevens). Le seuil d’audition revient à sa valeur


normale après un temps plus ou moins important de récupération si le traumatisme est bénin.
Si l’exposition se renouvelle souvent, la détérioration devient irréversible. C’est pourquoi la
législation impose une intensité maximale de 100 dB aux baladeurs.
Dégradations progressives de l’organe de Corti illustrant le degré de gravité des lésions
permanentes induites par un excès de bruit.
5.4.4 Sommation binaurale au seuil

Lorsqu'ils sont mesurés en condition binaurale au casque,


les seuils absolus sont inférieurs d'environ 3 dB aux seuils
monauraux correspondants.

La comparaison des fonctions psychométriques monaurales


et binaurales chez les mêmes sujets, comme illustré par la
figure ci-contre montre rapidement que cet avantage ne
provient pas d'une simple sommation des probabilités
monaurales de détecter le stimulus.

On constate en effet que l'ensemble de la fonction


binaurale est décalé de 3 dB par rapport à la fonction
monaurale. Comme il faut moins de 3 dB pour passer d'un
taux de détection de 0 à 100 %, le maximum (100%) de
détection est atteint en binaural, pour des intensités où elle
est toujours nulle en monaural. L'effet résulte donc bien
d'un mécanisme de sommation binaurale dans le système
nerveux auditif. Il s'agirait d'une amélioration du rapport
Signal/Bruit due à la présence d'un signal cohérent entre les
deux oreilles et d'un bruit (interne) incohérent.
Fonctions psychométriques pour le seuil
absolu en conditions monaurale et
binaurale chez deux sujets normaux
5.5 Niveaux physiologiques ou niveaux d’isosonie
5.5.1 Définition
On constate que lorsqu’on fait varier la fréquence d’un son sans changer son intensité
physique, l’oreille ne le perçoit pas de la même manière.

La sensation subjective d’intensité acoustique dépend donc de la fréquence.

L’oreille est surtout sensible aux sons de fréquences comprises entre 1 000 et 5 000 Hz. Ce fait
résulte des résonances dans le conduit auditif externe et dans le système vibratoire tympan-
osselets. Le seuil d’audibilité qui, à ces fréquences, est voisin de 10-12 W/m2, remonte
lorsqu’on s’en écarte vers les basses ou les hautes fréquences.

Pour intégrer la constatation que la sensation de force sonore (la sonie) associée à un son
dépend de sa fréquence, les acousticiens ont défini des niveaux d’égale sensation (qui
donnent la même sensation subjective d’intensité acoustique), dits niveaux d’isosonie.

L'isosonie est comme la sonie légèrement différente selon la méthode de mesure (casque ou
champ libre).

http://psych.hanover.edu/JavaTest/Media/Chapter10/MedFig.EqualLoudnessContour.html
Le diagramme de Fletcher donne les courbes « d’isosonie », qui décrivent le niveau d’intensité
respectif de chaque fréquence pour obtenir une sensation sonore d’intensité égale c’est-à-dire
de même sonie.

Les courbes d‘isosonie répondent a la question :

« Considérant des sons purs a différentes fréquences, quelles intensités sonores doivent-ils
avoir pour être perçus avec la même sonie ? ».

En anglais, on les nomme les Fletcher-Munson Equal Loudness Curves.

Pour obtenir une courbe d'isosonie, on prend un son pur de référence à 1 000 Hz, à un niveau
donné en dB SPL, par exemple 40 dB. Le sujet doit ajuster le niveau d'un son de comparaison,
par exemple un son pur de 1300 Hz, de façon à ce que ce son procure la même sensation
d’intensité que le son de référence. Autrement dit, le son de comparaison est ajusté de façon
à ce qu’il sonne aussi fort (ou aussi doux) que le son de référence. Notons que ce n’est pas
une tâche évidente étant donné que dans ce cas-ci les fréquences diffèrent. On refait la
même procédure pour un grand nombre de fréquences et on obtient une courbe pour un
niveau donné (40 dB SPL). Tous les points reliés par une même courbe représentent des sons
qui ont une même intensité subjective (une même sonie), équivalente à celle du son de
référence.
Le seuil absolu d’audition correspond par définition des niveaux absolus au niveau d’isosonie
valant 0 dB.

Comme nous l’avons dit, les seuils absolus varient suivant les fréquences. Par exemple, le seuil
d’apparition d’un son à 100 Hz est 40 dB plus élevé que celui d’un son à 1 000 Hz.

Ce diagramme met en évidence une zone de plus grande sensibilité de l’oreille entre 500 et 5
000Hz, ce qui explique qu’un piccolo ou un triangle émerge sans difficulté d’un tutti
d’orchestre.
La figure ci-dessous donne les courbes de Fletcher et Munson qui, devenues normes
internationales, donnent les niveaux d’isosonie avec des sons purs à 1 000 Hz.

Ces niveaux d’isosonie ont été obtenus après de nombreuses expériences, en écoute
binaurale, en champ libre et en incidence normale.
On remarque que ces courbes sont plus concaves à niveau faible, plus plates à fort niveau :
autrement dit, la relation entre le niveau en dB et la sensation provoquée dépend moins de la
fréquence pour les niveaux élevés.

Une conséquence de ce fait est la réduction de la dynamique de l'oreille dans les registres
graves et très aigus : l'augmentation du niveau sonore y fait passer plus rapidement d'un
niveau « faible » à un niveau « fort », puis au seuil de douleur (limite supérieure du champ
audible)
5.5.2 Unité de mesure du niveau d’isosonie : le phone
Le phone est une échelle semi-objective, semi-subjective de mesure du niveau d'isosonie.
C’est une unité sans dimension.
Le niveau d’isosonie d’un son pur est dit de n phones lorsque sa sonie est jugée, par
l’auditeur, équivalente à celle d’un son pur de 1 000 Hz dont le niveau d’intensité
acoustique est de n dB.
En fait, à partir des courbes d'isosonie (mesures subjectives), Barkhausen a attribué à un son
pur de 1 kHz un nombre de phones correspondant à son niveau en dB (mesures objectives).

Autrement dit, à 1 000 Hz, le phone est équivalent au dB et tous les points sur une même
courbe d'isosonie ont donc un niveau en phones équivalent au niveau en dB du son de
référence à 1 000 Hz. En quelque sorte, le phone donne une étiquette a chacune des courbes
isosoniques.

Suivant ce principe, un son pur de 1 kHz, d'un niveau d'intensité acoustique de 60 dB, aura
une sonie de 60 phones. Pour être ressenti avec la même sonie, un son de fréquence 100 Hz
devra se situer sur la même courbe isosonique de 60 phones, ce qui correspond à une
intensité acoustique d'environ 68 dB (en champ libre).
Par exemple, un son de 125 Hz doit avoir une intensité de 40dB pour présenter la même
sensation de force auditive qu’un son de 1 000 Hz émis à une intensité de 30dB. Ces sons
auront donc un niveau d’isosonie de 30 phones.

De la même manière, un son de 50 Hz doit avoir une intensité de 51 dB pour présenter la


même sensation de force auditive qu’un son de 1 000 Hz émis à une intensité de 20 dB. Ces
sons auront donc un niveau d’isosonie de 20 phones.

Par définition, il y a donc égalité entre phones et décibels absolus à 1 000 Hz.

Pour les autres fréquences, les courbes d’isosonie définissent le nombre de phones du
niveau acoustique.
Ordre de grandeur des bruits

De bons bouchons d’oreille permettent une atténuation de 25 à 30 phones.


5.6 Mesure de la sonie d’un stimulus : le sonomètre
5.6.1 Définition et caractéristiques générales

Le sonomètre est un appareil qui permet de déterminer les niveaux globaux de pression
acoustique.

Il permet :

 lorsqu’il est utilisé globalement une mesure globale pondérée ou linéaire

 lorsqu’il est associé à un jeu de filtres, une mesure linéaire par bandes d’octave ou 1/3
d’octave.

Il comporte :

 un microphone omnidirectionnel électrostatique

 un amplificateur à plusieurs étages et un atténuateur qui permet de rester dans le


domaine de linéarité de l’amplificateur (60dB) en réduisant le niveau de 10 en 10 dB
jusqu’à une valeur de 70 dB afin de couvrir tout le spectre sonore (jusqu’à 140dB).
Sonomètre CESVA Sc310
 un sélecteur de fonctions intercalé entre les étages de l’amplificateur, consistant en
une batterie de filtres de pondération standardisés A, B, C et D qui tiennent compte de
la variation de la sensibilité de l’oreille selon la fréquence et le niveau sonore.

 les dB(A) correspondent à un niveau d’isosonie faible (40 phones);


 les dB(B) tiennent compte d’un niveau d’isosonie moyen (70 phones);
 les dB(C) sont utilisés pour les niveaux forts (supérieurs à 85 phones).

Il existe une pondération D utilisée pour la mesure des bruits d’avion. Celle-ci ressemble
à la courbe A avec une accentuation de 10 dB à 5000 Hz.
Remarque : le passage d’une valeur exprimée en dBspl à son équivalent exprimé en dB(A) se
fait par addition d’une valeur logarithmique issue d’une « courbe de pondération
normalisée » dont l’évolution est évidemment liée à la fréquence.

On a :
Courbes Psophométriques

Courbes qui permettent de pondérer, sur l'ensemble des fréquences audibles, la mesure
de l'intensité acoustique d'un son, en dB, en fonction de la courbe de réponse de l'oreille
dans certaines situations spécifiées. Les unités sont alors les dB(A) ou dB(B), ou dB(C) ou
dB(D) ; c'est le dB(A) qui est le plus souvent employé car il s’approche le plus de la
sensibilité humaine (moins sensible dans les basses fréquences que dans les hautes
fréquences).
 un redresseur quadratique qui rend le signal affiché proportionnel à la pression
efficace du bruit

 un système de lecture qui possède deux dynamiques de réponses : une réponse


lente correspondant à un amortissement de 16dB/s et une réponse rapide,
correspondant à un amortissement de 100dB/s. La réponse rapide est conçue pour
ressembler aux caractéristiques de l’oreille.

Les trois pondérations ont été conçues à l’origine pour que le sonomètre donne une
réponse fréquentielle semblable à celle de l’oreille, mais l’expérience montre que le
niveau en dB(A) donne un assez bon classement des bruits, même forts, alors que la
pondération ne devrait être utilisée que pour des niveaux faibles.

Ceci explique l’utilisation des seuls dB(A) dans les normes et lois actuelles.
5.6.2 Filtres associés au sonomètre
Si on veut faire des mesures de niveau dans une bande de fréquences donnée, on doit
adjoindre au sonomètre un jeu de filtres.

On trouve des filtres d’octave et de tiers d’octave.

Les filtres au 1/3 d’octave sont les plus courants car ils correspondent bien aux bandes
critiques de l’audition au-delà de la fréquence de 400 Hz.

Pour les fréquences inférieures à 400 Hz, il faut prendre en compte les niveaux de plusieurs
bandes pour correspondre aux bandes critiques.

Les filtres utilisés en acoustique sont surtout à largeur de bande relative constante.

Dans ce type de filtre :

La fréquence centrale fc de la bande est la moyenne géométrique des fréquences


extrêmes de la bande :
fc = fi . f f
La largeur de la bande ∆f est obtenue par différence entre les fréquences finale ff et
initiale fi :
∆f = f f − f i
La largeur de bande relative est constante :
∆f
= cste
fc
Pour les filtres d’octave, les fréquences délimitant les bandes sont telles que : f f = 2 fi
2 −1
la largeur de bande relative est de : = 1/ 2 = 2 / 2 = 0, 707
2
et les fréquences centrales sont données par :

Pour les filtres 1/3 d’octave, les fréquences délimitant les bandes sont telles que :
f f = 21/ 3 fi

la largeur de bande relative est de : 21/ 3 − 1 1/ 6 −1/ 6


1/ 6
= 2 − 2 = 0, 2316
2
et les fréquences centrales sont données par :
Octaves et 1/3 d’octaves
5.6.3 Les courbes de Noise Rating (NR)
Pour imposer un niveau de confort, la première idée consiste à imposer un niveau de bruit
maximal, un seuil en décibel à ne pas dépasser.

Mais la sensibilité de l'oreille humaine est variable suivant la fréquence : pour notre oreille,
60 dB à 1 000 Hz est plus dérangeant que 60 dB à 250 Hz (la sensibilité est optimum entre 2 et
5 kHz).

Pour déterminer les différents critères du confort acoustique d'un local, on s'est dès lors basé
sur l'allure générale des courbes de niveau d'isosonie de l'oreille.

L'Organisation Internationale de Normalisation (ISO) a proposé plusieurs courbes qui


correspondent toutes à un certain degré de confort acoustique (ou de gêne) : courbes
d'évaluation du bruit, ou courbes NR (Noise Rating).

Grâce à ces courbes, il est possible de déterminer au moyen d'un seul chiffre le niveau de
pression acoustique maximum autorisé dans chaque bande d'octave : par exemple, l'indice
NR 40.
Pour obtenir le degré de nuisance d'un bruit, il suffit de tracer le spectre de ce bruit par bandes
d'octave sur le réseau de courbes NR et de prendre l'indice de la courbe NR de rang le plus
élevé atteint par le spectre. On verra alors immédiatement sur quelles fréquences il faudra
porter l'attention afin de diminuer la gêne.

Le bruit dont on repère le spectre ci-dessus est de niveau NR 66.


On retrouve parfois dans les catalogues de fournisseur de matériel de ventilation la notion de
« NC », tout à fait semblable à « NR ». Ces deux grandeurs sont reliées par la relation :
5.6.4 Le décibel musical dB(M)

Cette pondération musicale par rapport aux bruits musicaux s’effectue à partir de la courbe de
pondération A par ajout :

- de 5dB pour les basses et moyennes fréquences dû au caractère aléatoire et impulsionnel du


signal musical.

- de 10dB pour les hautes fréquences dû au caractère aléatoire et impulsionnel ainsi qu’à la
sursensibilité à partir de 1500Hz.

On définit le dB musical à partir du dB(A) pour 2 raisons :

 c’est l’unité la plus répandue pour toutes les mesures de bâtiments.


 la courbe A est définie pour des niveaux acoustiques faibles(<50dB), or s’agissant de bruits
musicaux transmis dans un immeuble, les niveaux résiduels restent inférieurs à 50dB.
5.6.5 L'évaluation des niveaux sonores des bruits non permanents

Les grandeurs précédemment décrites : niveau global en dB ou en dB(A), analyse par bande
d'octave, etc. sont utilisées pour caractériser les bruits permanents (bruits dont les niveaux
sont constants en fonction du temps) ou les bruits stables, c'est-à-dire des bruits dont les
niveaux ne présentent que des variations négligeables au cours de la période d'observation
(Norme NF S 30-105).

Ces grandeurs peuvent encore être utilisées pour des bruits fluctuants, c'est-à-dire pour des
bruits dont le niveau varie de façon continue et nettement perceptible entre deux limites au
cours d'une période d'observation (Norme NF S 30-105). Dans ce cas, on gagnera à donner la
valeur moyenne du niveau de bruit encadrée par les limites hautes et basses de fluctuation : L =
83 dB(A) (82 -85).

Mais de nombreux bruits ne sont pas permanents, ce sont :

les bruits évolutifs (passage d'un avion) ;


les bruits intermittents (bruit de circulation) ;
les bruits fluctuants dans un large intervalle (bruit d'atelier) ;
les bruits ayant un caractère impulsif (bruit de presse, coup de feu) ;
les bruits uniques ou courts (Klaxon, sirènes)*.

* Les bruits uniques ou courts, s'ils se reproduisent, deviennent des bruits intermittents.
[La norme NF S 30-105 définit les bruits intermittents comme des bruits dont le niveau
émerge de temps en temps de façon nettement perceptible du niveau de bruit au cours de la
période d'observation.
Elle définit également les bruits impulsionnels comme des émissions sonores brusques et de
courte durée.].

5.6.5.a Le niveau sonore équivalent Leq

Le niveau sonore continu équivalent à un niveau de bruit fluctuant est égal au niveau sonore
d'un bruit permanent qui transporterait la même énergie pendant le même temps.

On peut l'obtenir de deux façons :

soit par intégration en fonction du temps.

soit par analyse statistique des niveaux sonores.


Le niveau sonore continu équivalent par intégration en fonction du temps :

Considérons un bruit non permanent dont on mesure le niveau sonore en fonction du


temps Lt = f (t).

L'intensité instantanée correspondante est :

Pendant le temps t, l'énergie totale émise est :

L'intensité moyenne pondérée est définie par :

On en tire le niveau sonore continu équivalent :


Le niveau sonore continu équivalent par analyse statistique des niveaux sonores :
Pour ce faire, il faut d'abord mesurer, à intervalles réguliers, le niveau sonore. Il faut effectuer
cette mesure sur un temps d'observation suffisamment long pour être représentatif du bruit
fluctuant étudié. On obtiendra une série statistique de type L1 - Lj du temps T1 au temps Tj (Lj
est le niveau de pression sonore au temps Tj).

Ensuite, on regroupe ces mesures en classes de niveau. On peut choisir des classes de 5 dB de
largeur centrées sur 70 dB, 75 dB, etc. par exemple. Ces données peuvent être traduites sous
la forme d'un histogramme de fréquence d'apparition d'un niveau de pression sonore dans
une classe donnée :

On a alors :

La norme NF S 31-013 propose que cette formule soit représentée sous la forme :
5.6.5.b Le niveau LN
Le niveau LN désigne le niveau sonore qui a été dépassé pendant N % du temps. Pour l'évaluer,
on tracera l'histogramme des fréquences cumulées. On notera les fréquences d'apparition des
niveaux sonores de la classe Li et des classes de niveau supérieur à Li. On pourra aussi tracer la
courbe de fréquence cumulée en rejoignant les points des centres de classe.

Dans cet exemple :

Le bruit de fond correspond au LN90, soit 70 -75 dB ;


Le niveau médian (~ Leq) correspond au LN50, soit 80 -85 dB ;
Le niveau des crêtes correspond au LN10, soit 95 dB.

Un tel bruit, selon la réglementation actuelle, serait considéré comme dangereux pour les
personnes exposées.
5.7 Seuil différentiel de sonie pour les sons purs et le bruit blanc
Le seuil différentiel de sonie correspond a la différence d’intensité acoustique « tout juste
audible ». Il est souvent noté SDI (Seuil Différentiel d’Intensité) ou JND (Just Noticeable
difference).

Pour déterminer le seuil différentiel de sonie, diverses méthodes peuvent être employées, par
exemple :

les sons modulés en amplitude : on mesure la variation d’intensité acoustique juste audible
d’un stimulus sonore, en modulant sinusoïdalement dans le temps l’intensité du son et en
évaluant à partir de quel valeur de l’amplitude de modulation la perception de la modulation
apparaît.

La modulation utilisée a une fréquence de 4Hz ; il s’agit de la modulation optimale car pour
une modulation plus lente, la comparaison directe n’est plus aussi facile car la mémoire à
court terme doit intervenir. Pour une modulation plus rapide, l’ouïe n’est plus capable de
suivre et perçoit une rudesse du son ; c'est aussi la fréquence de modulation la plus
importante dans l'enveloppe de la parole ;

les sons successifs séparés par des silences (sons de 500 ms et silences de 100 à 300 ms en
général) ;

la détection d'un incrément d'intensité dans un son continu ;


la discrimination du son le plus fort dans une séquence fort/faible d'ordre aléatoire
(méthode dite « deux alternatives à choix forcé » ou 2AFC, seuil à 75%).

Les résultats diffèrent :

suivant les méthodes ; par exemple, la méthode de présentation successive de sons


séparés par des silences donne de moins bons résultats que celle des sons modulés, car elle
mobilise plus la mémoire ;

suivant les sons utilisés, suivant par exemple qu'il s'agit de sons purs ou de bruits large
bande.

Toutes les expériences montrent que la valeur de l’écart d’intensité juste audible ∆I dépend de
la fréquence et du niveau en intensité du son étudié, mais aucune relation simple ne se
dégage.

Pour trouver des relations simples, il faut passer à l’étude du seuil différentiel relatif en
intensité ∆I /I.
5.8 Seuil différentiel relatif de sonie pour les sons purs et le bruit blanc
Par définition, le seuil différentiel relatif d’intensité est le rapport du seuil différentiel en
intensité sur l’intensité initiale ∆I /I.

C’est un nombre pur (c’est-à-dire sans dimension) aussi appelé taux de modulation en
intensité.

Comme pour le seuil différentiel en intensité, il est fonction de la fréquence de modulation


utilisée pour le mesurer ; elle est fixée habituellement à 4Hz.
Le SDI relatif ou JND relatif mesuré peut être exprimé en dB, relativement à l'intensité
absolue du signal, par :
I + ∆I
SDI dB = 10 log
I
Les résultats principaux sont les suivants :

pour les bandes de bruit, la loi de Weber est vérifiée : « ∆I / I = constante » ; autrement dit,
le SDI en dB est constant, légèrement inférieur à 1 dB.

pour les sons purs, la loi de Weber ne s'applique plus : la fonction ∆I = f (I) présente une
pente de l'ordre de 0,9. Ainsi la discriminabilité des sons purs augmente avec le niveau.

On a trouvé, pour un son de 100Hz :

∆I= 1,5dB à 20 dBSPL,


∆I= 0,7 dB à 40 dBSPL,
∆I= 0,3 dB à 80 dBSPL

L'ordre de grandeur de ces résultats est à retenir : le SDI est de l'ordre de 1 dB.
Seuil différentiel relatif de sonie pour les sons purs en fonction du niveau d’intensité
acoustique (échelle linéaire)

Seuils différentiels relatifs d’intensité mesurés sous différentes conditions


Pour un signal sonore, on peut considérer en première approximation que le seuil différentiel
relatif en intensité reste constant quelle que soit la valeur de l’intensité et de la fréquence et
vaut environ ∆I /I =15%, ce qui correspond à une variation de niveau en intensité légèrement
inférieure à 1dB :
I1 1,15
∆L = 10 log = 10 log = 0, 6 dB
I2 1
De façon générale, quelle que soit l’intensité et la fréquence du son, on peut considérer en
première approximation qu’il faut modifier l’intensité acoustique d’un peu moins de 1 dB
pour ressentir la variation d’intensité (variation de ∆I /I = 20% = 1/5).

I1 1, 20
∆L = 10 log = 10 log = 0,8 dB
I2 1
Pour comparer, seuil différentiel relatif en luminance de l’œil (loi de Bouguer-Masson)

On constate :
- que ce seuil différentiel relatif est à peu près constant (0,01=1%) dans un large domaine de
luminance : 5 ordres de grandeur
- qu’il existe une cassure aux faibles luminances qui traduit la dualité des récepteurs (cônes
et bâtonnets).
En fait, le seuil différentiel de sonie augmente quand on se rapproche du seuil d'audibilité et
diminue lorsqu’on s’approche du seuil d'audition intolérable :

5.8.1 Dépendance du seuil différentiel relatif de sonie vis-à-vis de l’intensité acoustique des
sons purs
Le seuil différentiel relatif en intensité n’est pas rigoureusement indépendant de l’intensité.

Une étude plus approfondie montre l’évolution du seuil différentiel relatif en fonction de
l’intensité du son pur :

Pour un niveau d’intensité absolu faible (au voisinage du seuil d’audition I0), le
seuil différentiel relatif augmente et est d’environ 50% (ce qui correspond à une
variation de niveau d’environ 2dB) :

∆I I1 − I 0 I 1,5I 0
si = = 0,5, alors ∆L = 10 log 1 = 10 log = 10 log1,5 = 1, 77dB
I0 I0 I0 I0

Pour un niveau d’intensité absolu fort, situé autour de I1=90dB, c’est-à-dire une
intensité I1=10-3 W.m-2, le seuil différentiel relatif diminue et atteint moins de 10%
(soit une variation de niveau inférieure à 0,4dB)

∆I I 2 − I1 I 1,1I1
si = = 0,1, alors ∆L = 10 log 2 = 10 log = 10 log1,1 = 0, 41dB
I1 I1 I1 I1
Seuil différentiel relatif de sonie vis-à-vis de l’intensité acoustique des sons
purs (de fréquence égale à 1 000 Hz)
5.8.2 Dépendance du seuil différentiel relatif de sonie vis-à-vis de l’intensité acoustique des
bruits blancs
Les tests montrent qu’au-delà d’une intensité de 10-9W/m2 (30dB) le seuil différentiel relatif
de sonie reste constant en fonction de l’intensité du bruit blanc et vaut ±5% (soit une
variation ≈ 0,2dB).

On trouve ainsi une loi beaucoup plus simple pour le bruit blanc que pour les sons purs.
5.8.3 Dépendance du seuil différentiel relatif de sonie vis-à-vis de la fréquence des sons purs

Les travaux de Zwicker et de Feldtkeller montrent que le seuil différentiel relatif de sonie est
raisonnablement constant dans un large domaine de fréquence compris entre 500 Hz et 5 000
Hz.

Valeurs constantes du seuil différentiel relatif en intensité en fonction du


niveau d’intensité.
La sensibilité différentielle relative à la sonie du système auditif humain est donc à peu près
constante c’est-à-dire indépendante de la fréquence dans une grande étendue de fréquences :
5.9 Loi de Weber-Fechner et de Stevens pour la sonie
5.9.1 Loi de Weber-Fechner
Dans le domaine de fréquences où le seuil différentiel relatif d’intensité est pratiquement
constant, la variation de la sensation (la variation de sonie) tout juste perceptible ∆s est
égale à la plus petite variation relative perceptible en intensité ∆I/I , et correspond à
l’échelon perceptif, c’est-à-dire, sous forme différentielle :
∆I
∆s =
I
Si l’on suppose qu’à l’intensité du seuil absolu correspond une sensation nulle s=0, on
obtient, en intégrant cette relation la loi de Weber-Fechner :
s I
dI
∫ ds = ∫
0 I0
I
I I
s = ln = 2,303.k log
I0 I0
s = k .log I + constante
Cette loi s’énonce donc comme suit :
La sensation physiologique (le gain) varie comme le logarithme décimal de l’excitation
(l’intensité acoustique) à partir d’un seuil physique.
Vu l’estimation du seuil différentiel relatif de sonie précédente, on peut écrire :

Remarques :

 Cette loi a une valeur très relative, et possède uniquement un caractère indicatif.

En effet, si on peut mesurer des excitations, il n’en est pas de même des sensations
(on peut juger si deux sensations sont égales, mais il est plus difficile de comparer
entre elles deux sensations différentes et d’estimer qu’une sensation est deux fois plus
importante qu’une autre).

 Cette loi est générale pour tous les sens.

Pour des valeurs moyennes d’excitation, il faut par exemple pour percevoir un
changement de sensation visuelle une variation de quelques pourcents de l’intensité
lumineuse ; pour les sensations olfactives et gustatives, la variation doit être de
quelques dizaines de pourcents (seuil différentiel relatif).
5.9.2 Test de sonie par estimation d'amplitude

Afin de construire une échelle de sonie, Stevens a demande a un ensemble de participants de


choisir des nombres proportionnels a la sonie des sons qui leur sont présentés à la suite d'un
son de référence.

Le test de sonie « par estimation d'amplitude » a été décrit par Stevens en 1971. Il consiste à
présenter en alternance :

un son de référence, qui est un bruit large bande ;


des sons de niveaux relatifs variables par rapport à la référence.

La séquence de présentation de chaque couple de sons peut être la suivante :

son de référence durant 1s,


silence durant 0,25 s,
son comparé 1 s,
silence 2,25 s (durant lequel le sujet peut noter son estimation d'intensités relatives).

Au total une vingtaine de paires de sons peuvent être présentées pour construire une échelle
de sonie. Ces paires sont présentées dans un ordre aléatoire. On sait que sans cela l'ordre de
présentation aurait une influence sur les résultats.

Il est également utile de présenter au préalable les niveaux extrêmes (le plus fort et le plus
faible) utilisés durant le test ; cela aide le sujet à ajuster son échelle de notations.
Les instructions données sont les suivantes : si l'amplitude du son de référence se voit
arbitrairement attribuer la valeur 100, quelle est l'amplitude relative du deuxième son de
chaque paire ? Si le son est jugé 2 fois plus fort, on devra noter 200, s'il est 4 fois plus fort :
400, 2 fois moins fort : 50, etc.

On peut alors tracer la loi psychophysique : variation de la sonie (i.e. des réponses données)
en fonction de l'intensité relative au son de référence, en dB.

Dans le cas où le test a été réalisé avec des sons purs de fréquence fixe, les résultats
suggèrent que la loi de variation de la sonie S en fonction de la pression acoustique p,
pourrait être assez bien approchée par une loi puissance.

On recherche alors l'exposant a de celle-ci : si S = k.pa, alors log S = log k + a log p : on trace
donc log S en fonction du niveau en dB, qui est proportionnel à log p.

On trouve en mesurant la pente de la droit obtenue : a = 0,6 ; c'est la loi de Stevens pour la
sonie.
5.9.3 Loi de puissance de Stevens pour la sonie
Déduite de ces expérimentations, la loi de puissance de Stevens pour la sonie d'un son (à des
niveaux supérieurs a 30 dB SPL) stipule que l'intensité perçue (la sonie) augmente comme
l'intensité physique I élevée a la puissance 0,3 (ou à la pression p élevée a une puissance de
0,6) : 0,3 0,6
I  p 
∆s =  2  = 2 
 I1   p1 
Comme la puissance n de la loi de puissance de Stevens est inférieure à 1, cette loi exprime
que la perception évolue plus lentement que les rapports de grandeurs physiques
correspondants (comme l'exposant est inférieur à 1, la courbe correspondante est convexe).
Il existe cependant une relation équivalente à cette loi, plus facile à retenir : chaque fois que
l'intensité est multipliée par 10 (soit une augmentation de 10 dB), on obtient une sonie
doublée, donc la sonie double tous les 10 dB. En effet,
0,3
 I2 
  = 100,3 ≅ 10log 2 = 2
 I1 
Autrement dit, 10 violonistes jouant au même niveau sonnent seulement 2 fois plus fort
qu'un violoniste jouant seul.

Par exemple : à 1 kHz et à 60 dB, on a une sonie de ... 4 sones. (il faut se souvenir que par
définition, à 40 dB on a 1 sone).

Ainsi, sur une échelle de 100 dB, on a un rapport d'intensités subjectives de 210 soit environ
1000 entre les niveaux extrêmes.
Exercice : détermination du coefficient k de la relation S= k. p0,6 ; à partir du choix arbitraire
qui a été fait (on a 1 sone pour 40 phones), on a : à 1 kHz et à 40 dB : p = 100.po = 2.10-3 Pa.
Donc 1 (sone) = k.(2.10-3)0,6 d'où : k= 41,6.

En réalité, une étude plus fine montre que l'approximation de la loi de Stevens n'est pas
bonne pour les niveaux faibles (inférieurs à 30 dB environ), où la sonie réelle est inférieure à
celle prédite ; la courbe de la sonie en fonction du niveau en dB s'infléchit alors vers le bas,
comme le montre la figure :

Loi de Stevens (sonie ou intensité perçue en fonction du niveau sonore en dB) à la


fréquence de 1000 Hz
Pour les niveaux plus faibles, elle peut être corrigée en la loi suivante, proposée par Scharf
(1978): 0,6
S = k ( p − pr )

L'introduction de pr dans la formule restitue l'inflexion de la courbe de sonie aux bas


niveaux.

A 1 kHz, la pression de correction pr vaut 45 µPa (attention : il ne faut pas confondre celle-ci
avec la pression acoustique po qui sert de référence dans la définition du niveau sonore en
dB !)
5.10 Justification physiologique des niveaux physiques en décibels
Nous avons vu que l’utilisation des unités d’intensité acoustique (W/m2) ou de pression
acoustique (Pa) n’est pas très pratique en raison de l’étendue énorme de la plage couverte
par notre ouïe.

Pour comprimer cette échelle, il est très pratique d’employer des logarithmes.

Par ailleurs, la loi de Weber-Fechner ou la loi de Stevens montrent que la sensation


auditive croît lentement (logarithmiquement ou comme une puissance inférieure à 1) avec
l’intensité acoustique.

L’introduction du bel (B) ou plutôt du décibel (dB), unités logarithmiques, pour mesurer
l’intensité d’un son ou d’un bruit revient donc à mesurer les sensations acoustiques.

Rappelons que le niveau d’intensité acoustique en décibels relatifs est défini comme étant
10 fois le logarithme en base 10 du rapport de deux intensités acoustiques :

I1
L = 10 log
I2
5.11 Mesure de la sonie : échelle des sones
5.11.1 Introduction

Le décibel est une unité physique, logarithmique, par application de la loi de Weber-
Fechner.

Le phone est défini par comparaison subjective avec un son de fréquence 1 000 Hz par
égalité de sensation.

L’échelle des phones est donc partiellement subjective. De plus, cette loi présente de
sérieux écarts hors de la zone des fréquences et des niveaux moyens.

Devant ces difficultés, Fletcher, Robinson et Stevens ont imaginé une nouvelle échelle de
sonie totalement subjective : l’échelle des sones.

Cette échelle se base sur la mesure de la sonie selon la loi de puissance de Stevens.

Elle a été définie en demandant à des sujets d’établir une véritable évolution de
l’intensité subjective des sons purs.

Des travaux dus en particulier à Stevens (The Measurement of loudness, 1955) et à


D. W. Robinson (The Subjective Loudness Scale, 1956), ont conduit la Commission
internationale de l'acoustique à publier un projet de recommandation I.S.O. sur l'échelle
de sonie.
5.11.2 Echelle de sonie
L'objet principal de l'échelle des sones est de fournir une désignation numérique de la force
des sons qui soit proportionnelle à leur intensité subjective résultant de l'estimation de
l'auditeur médian d'un groupe d'observateurs normaux.

L’échelle des intensités subjectives de Fletcher, Robinson, Stevens se base sur les remarques
suivantes :

 En premier lieu, l'audition d'un même son avec les deux oreilles (normales et également
sensibles) provoque une sensation S deux fois plus forte que l'audition du même son par une
seule oreille. Partant ainsi de la sensation S correspondant à l'intensité physique Ia1, on peut
définir la sensation 2S. En réglant physiquement l'intensité du son à une valeur Ia2
correspondant à la sensation S2 = 2S pour une oreille, on peut de même définir la sensation
4S pour les deux oreilles et ainsi de suite...

 En second lieu, deux sons, situés dans des bandes de fréquences suffisamment éloignées
pour affecter des voies nerveuses différentes et pour éviter tout phénomène de battements
ou d'interférence, étant réglés pour provoquer une même sensation S quand ils sont entendus
séparément, provoquent la sensation 2S quand ils sont perçus ensemble. On règle ensuite
l'intensité acoustique de chaque son, de manière que chacun d'eux provoque la sensation 2S ;
perçus simultanément, ils provoquent la sensation 4S, etc. On a ainsi la possibilité d'établir
une échelle de sensation subjective des intensités acoustiques, et de tracer une courbe de
corrélation entre les phones (unités physiologiques) et les sones (unités subjectives).
Par convention, un millisone (0,001 sone) correspond au seuil d’audition et 1 sone
correspond à 40 phones.

Un son pur d’une fréquence de 1 000 Hz et de niveau 40 dB a donc une sonie d’un sone.

L’échelle de la sonie est caractérisée par le fait qu’un son ressenti comme deux fois plus fort
possède aussi une valeur en sones deux fois plus élevée (du moins autour de 1 000 Hz).

Selon la loi de puissance de Stevens, l'intensité perçue (la sonie) double a chaque fois qu'on
augmente l’intensité de 10 dB (qu'on multiplie l’intensité par 10), pour des valeurs au-delà
de 30 dB, ce qui donne pour des sons purs a 1 kHz :

1 sone = 40 dB = 40 phones
2 sones = 50 dB = 50 phones
4 sones = 60 dB = 60 phones
8 sones = 70 dB = 70 phones
16 sones = 80 dB = 80 phones, etc.

http://psych.hanover.edu/JavaTest/Media/Chapter10/MedFig.HalfAsLoud.html
5.11.3 Fonction de transfert de sonie
L’expression mathématique qui lie la sonie S (unité : le sone) au niveau L d’isosonie (unité : le
phone) est appelée fonction de transfert de sonie et est donnée par une relation exponentielle
ou logarithmique :
L − 40
S =2 10
ou log S = 0,03 L - 1,2
Cette formule peut être inversée pour calculer le niveau d’isosonie L en fonction de la sonie S ;
on obtient :
L = 40 + 33,33.log S
De la relation entre le phone et le sone, on peut déduire que la sonie double
à chaque fois que l'on passe d'une courbe d'isosonie a la suivante, c’est-à-
dire à chaque augmentation de 10 dB (au-delà de 30 dB).

Ainsi, à 1 000 Hz, la sonie double par sauts de 10 dB, mais a 100 Hz et à bas niveaux, la sonie
double par sauts plus petits.

Sur le graphique des niveaux d’isosonie, on peut voir qu'a 100 Hz, en partant de 40 phones, la
sonie est doublée par une amplification de 8 dB seulement.
En effet, en partant de la loi de puissance de Stevens :
S = 41, 6. p 0,6
Un calcul direct donne :
log S = log 41, 6 + 0, 6 log p
p
= log 41, 6 + 0, 6 log + 0, 6 log p0
p0
0, 6 p
= log 41, 6 + 20 log + 0, 6 log p0
20 p0
= log 41, 6 + 0, 03LSPL + 0, 6 log 2.10−5
= 1, 6 + 0, 03L ph + 0, 6.0,3 − 0, 6.5
= (1, 6 + 0,18 − 3) + 0, 03Lph
≈ 0, 03Lph − 1, 2
Ces relations entre sonie S et niveau d’isosonie L ne sont vérifiées que dans une large partie
centrale de l’aire d’audition.

Elles deviennent fausses pour les niveaux d’isosonie inférieurs à 30 phones et pour les
fréquences trop basses ou trop hautes.
Pour les niveaux d’isosonie inférieurs à 30 phones (c’est-à-dire pour une sonie inférieure à
1 sone), on peut corriger la deuxième formule comme suit :
0,35
L = 40 ( S + 0, 0005 )
La fonction de transfert de sonie
représente l’évolution de la sonie (en
sones) en fonction des niveaux
d’isosonie (exprimés en phones).
Relation exponentielle entre les sonies (en sones) et les niveaux d’isosonie (en
phones) : la sonie double si le niveau d’isosonie augmente de 10 phones
(recommandation ISO R. 131. 1959).
Remarque :

En supposant la non-interférence des sons entre eux (sans effet de masque, donc) et dans
un large domaine de fréquence, généralement, la sonie (en sones) d’un son double lorsque
son niveau d’isosonie augmente de 10 phones.
5.12 Facteurs de variation de la sonie

5.12.1 Effet du niveau et de la fréquence sur la sonie des sons purs

La description générale de la fonction sonie-intensité est celle d'un doublement de la sonie


lorsque l'intensité croît de 10 dB. Nous avons cependant déjà vu que cette relation n'est pas
vraie aux faibles intensités, elle ne l'est pas non plus, comme illustré par la figure ci-dessous
pour les sons purs de fréquence inférieure à 1 000 Hz.

Pour les fréquences inférieures à 1000 Hz, la


fonction de sonie commence à un niveau plus
élevé, puisque le seuil absolu est plus élevé à
ces fréquences. Ensuite la sonie croît plus
rapidement en fonction du niveau que pour
un son de 1 000 Hz jusqu'aux niveaux
intenses où les fonctions se rejoignent.

Aux faibles niveaux, pour toutes les


fréquences, la fonction de sonie suit une loi
similaire à la loi de Scharf, mais les
paramètres k et pr sont différents.

Fonctions de sonie de sons purs de différentes


fréquences
En effet, la non linéarité des courbes de Fletcher et Munson a pour conséquence que la
multiplication de l’énergie acoustique dans un domaine restreint de fréquences n’a pas le
même effet pour tous les domaines de fréquences.

L’effet est plus marqué là où les niveaux d’isosonie sont plus proches les uns des autres,
c’est-à-dire dans le grave et l’aigu, et moins marqué là où les niveaux d’isosonie sont plus
distants les uns des autres, c’est-à-dire autour de 1 000 Hz.

Ainsi :

 Autour de 1 000 Hz, un son pur de 30 phones (30dB) ou 0,5 sone, dont on
décuple l’intensité acoustique (+10dB) devient un son de 40 phones (40dB)
ou 1 sone.

La sonie est donc multipliée par 2 si l’on décuple l’intensité acoustique.

 Autour de 50 Hz, un son pur de 30 phones (58dB) ou 0,5 sone, dont on


décuple l’énergie acoustique (+10dB) devient un son de 47 phones (68dB)
ou 1,62 sones.

La sonie est donc multipliée par 3,2 si l’on décuple l’intensité acoustique.
5.12.2 Nature du signal
Nous venons de voir les fonctions de sonie de sons purs. Dans le cas d'un bruit large bande,
les résultats expérimentaux montrent que :

la sonie n'obéit plus à une loi de puissance


la sonie augmente plus rapidement aux faibles niveaux
la sonie d'un bruit est toujours supérieure à celle d'un son pur, à intensité physique égale

Comparaison des fonctions de sonie de sons purs et


de bruits large bande
L'étude de l'influence de la composition spectrale sur la sonie des bruits, abordée plus loin,
débouchera sur la notion essentielle de bandes critiques.
5.12.3 Forme et mode de présentation des stimuli

Les résultats des tests de sonie varient également :

suivant que les stimuli sont présentés en ordre aléatoire, croissant, ou décroissant ; dans
ce dernier cas ils dépendront également du niveau initial, par un phénomène similaire à
l’« adaptation de la sonie », décrite plus loin.

Variations de la fonction de sonie avec l'ordre de présentation des stimuli ; exemple


de présentations par valeurs décroissantes à partir de différents points de départ.
suivant la forme des stimuli, par exemple s'il s'agit de sons pulsés ou de sons continus.

Variations de la fonction de sonie avec la forme et le mode de présentation des stimuli : sons
pulsés présentés en ordre aléatoire, ou sons continus présentés par valeurs décroissantes.

les résultats varient encore avec la gamme des stimulations présentées (son amplitude) , la
première stimulation présentée, les instructions données, la symétrie de la gamme des
réponses demandées...
5.12.4 Effet de la durée du signal sur la sonie

L'expérience montre qu’aux durées courtes,


inférieures à une seconde, la sonie augmente
avec la durée du signal présenté selon une
fonction exponentielle dont la constante de
temps est de 80 msec, jusqu'à atteindre un
plateau pour une durée d'environ 180 à 200 ms ;
au-delà, on peut observer une légère
décroissance.

En fait, la durée d'intégration, au bout de laquelle la sonie maximale est atteinte, varie avec la
fréquence du stimulus : elle est ainsi d'environ 375 ms à 250 Hz, mais descend lorsque la
fréquence s'élève, jusqu'à valoir 150 ms à 8000 Hz.

La diminution de sonie qui accompagne le raccourcissement des sons purs est d'autant plus
forte que la fréquence est plus élevée.
L'étude de la variation de la sonie sur des durées longues (supérieures à 500 ms ou quelques
secondes) met en évidence un autre phénomène, illustré par la petite décroissance au-delà
du plateau sur la figure ci-dessus.

Les résultats sont les suivants :

la sonie ne varie généralement pas, sauf aux faibles niveaux (inférieurs à 30 dB SPL), où elle
décroît légèrement avec le temps ; c'est ce qu'on appelle l'adaptation simple de la sonie.
cette adaptation est maximale pour des sons purs de haute fréquence.
elle reste controversée et inexpliquée ; elle est sujette à de grandes variations
interindividuelles.
d'un sujet à l'autre.

Adaptation simple de la sonie


5.12.5 Effet de l'attention
L'expérience a montré que la focalisation de l'attention sur certains paramètres améliore les
performances. Par exemple, la performance de détection d'une sinusoïde dans le bruit est
meilleure si la fréquence de la sinusoïde est connue a priori : le sujet focalise alors son écoute
sur la fréquence qu'il cherche à entendre.

Enfin l'expérience, la motivation et l'entraînement des sujets ont aussi une influence sur les
résultats. Ces facteurs doivent être soigneusement pris en compte pour ne pas biaiser les
résultats d'un test.
5.12.6 Effet de la composition spectrale

Zwicker a eu l'idée d'étudier les variations de la sonie avec la largeur de bande du signal.

Pour cela, il a constitué des bruits de bande variable en additionnant des sons purs de
fréquences proches, autour d'une fréquence de référence, en maintenant le niveau SPL
constant.

Par exemple, on a : un son d'origine à la fréquence 1000 Hz, de largeur de bande de 15%
(930 - 1075 Hz), puis une augmentation de la largeur de bande par 7 pas de 15%, l'amplitude
décroissant de manière à maintenir 1 énergie totale constante.

On observe les résultats suivants :

au début, un changement dans la qualité du son, mais pas de changement de sonie
à partir d'une certaine largeur de bande (160 Hz autour de 1 kHz), la sonie commence à
augmenter.
Cette augmentation suit les courbes représentées ci-dessous :

Variations de la sonie avec la largeur de bande du signal, pour différents


niveaux d'intensité sonore
Les résultats de ce test mettent en évidence l’existences de bandes de fréquences appelées
bandes critiques au sein desquelles l’oreille « somme » les sensations d’intensités:

un signal de largeur de bande inférieure ou égale à 160 Hz excite toujours une zone
identique de la cochlée, et donc un même nombre de fibres nerveuses.

au-delà de cette largeur, d'autres zones de la cochlée, et de nouvelles fibres nerveuses, sont
touchées par l'excitation, ce qui explique que la sensation d'intensité croît.

Ainsi il semble que la cochlée réagit comme un filtre, centré sur l'excitation, de largeur 160 Hz
pour la fréquence centrale de 1 000 Hz qui était testée.

La répétition de l'expérience à différentes fréquences, confirme cette idée que le système


auditif se comporte, vis-à-vis de la sensation d'intensité, comme un jeu de filtres de fréquence
centrale variable, de manière à être toujours centrée sur l'excitation.
5.13 Bandes critiques
5.13.1 Définition
L'oreille, capable de percevoir d'infimes différences de tonie et de sonie entre deux sons
présentés successivement, possède en fait aussi la faculté d'intégrer l'information spectrale et
l’information de sonie sur de larges zones de fréquences lorsque plusieurs sons simples sont
émis simultanément, formant un son complexe.

Autrement dit, au niveau des intensités perçues, lorsqu’il s’agit de sons simples de fréquences
voisines (appartenant à une même bande de fréquences, appelée bande critique), l’oreille
« somme » les sensations d’intensités (c’est-à-dire les sonies).

De la même manière, au niveau de la perception de l’information spectrale, suivant la loi


d'Ohm, l'oreille est capable de séparer toutes les harmoniques d'un son complexe.

Pourtant les expériences prouvent que seules les 5 à 8 premières harmoniques d'un son
complexe peuvent être identifiées séparément, à condition encore d'être suffisamment
séparées en fréquences.
Le concept de « filtre auditif » développé par Fletcher permet de rendre compte de ces
phénomènes, en les modélisant.

Fletcher a suggéré que le système auditif se comporte comme un banc de filtres qui se
chevauchent et dont les fréquences centrales s'échelonnent continûment.

Il a modélisé cet ensemble par une série de filtres rectangulaires appelés bandes critiques.

En quelque sorte, l'oreille interne (la cochlée) se comporte comme une banque de filtres
passe-bande qui « analysent » les sons complexes faisant vibrer la membrane basilaire et les
décomposent en leurs composantes sinusoïdales.
Exemple 1 :
Si on fait entendre à une même oreille deux sons purs de même intensité et de fréquences
différentes (f1 et f2) mais assez proches (par exemple 950 Hz et 1050 Hz), ces sons écoutés en
même temps engendrent une certaine sensation de force acoustique (une certaine sonie),
par exemple 60 dB ou 60 phones. On peut obtenir la même sonie avec un seul son pur, de
fréquence intermédiaire (fC=1 000 Hz) à condition d’augmenter son niveau d’intensité de 3dB
(c’est-à-dire de le porter à 63 dB ou 63 phones). Cette augmentation correspond à un
doublement de l’intensité acoustique, puisque : 2I
10 log = 10 log 2 = 3dB
Si on prend ce son de fréquence intermédiaire I
comme référence et si on augmente l’écart entre
les fréquences des deux sons purs de départ, on
constate, à partir d’une certaine valeur de l’écart
entre leur fréquence (160 Hz dans l’exemple
choisi), que la sonie de ces deux sons purs
écoutés simultanément devient supérieure à
celle du son de référence.
L’écart de fréquences à partir de laquelle la
variation de sonie est perceptible s’appelle la
largeur de bande critique.
Cette observation indique que l’oreille perçoit les intensités acoustiques dans des bandes où
elle fusionne toutes les informations d’intensité situées dans chaque bande critique.
Cette valeur critique correspond aussi à l'écartement en fréquence nécessaire pour que deux
harmoniques soient discriminées dans le spectre d’un son complexe périodique. Elle doit être
comprise comme une indication assez grossière de la largeur de bande du « filtre auditif ».
Exemple 2 : bandes critiques au seuil d’audition

Deux sons purs simultanés, de fréquences différentes sont détectés à un niveau plus faible
que chacun isolément, à condition que leur écart en fréquence ne dépasse pas une certaine
valeur. Cette valeur critique est difficile à mesurer à partir de deux sons purs, parce que
l'amélioration qu'elle provoque ne dépasse pas 3 dB, le gain d'intensité résultant de l'addition
de deux sons purs de fréquence différente.

Une mesure plus précise peut être obtenue en étudiant un son complexe formé d'un nombre
croissant de son purs à fréquences différentes.

L'idée est de constituer un son complexe par addition progressive d'un nombre croissant de
sons purs séparés par un intervalle de 10 Hz.

A chaque addition, on ajuste, de manière équivalente, l'intensité de chacun des composants de


manière à maintenir le son complexe au seuil de perception du sujet.

Plus on ajoute de composants, plus le spectre du son complexe s'élargit à partir de la


fréquence initiale. Dans cette expérience, elle est fixée à 1000 Hz et les composants
additionnels sont ajoutés aux fréquences inférieures par pas de -10 Hz.
Pour éviter les problèmes liés au relèvement des seuils absolus aux fréquences basses et
élevées (courbe de Wegel), il est nécessaire de sélectionner des sujets qui possèdent une
zone horizontale suffisamment large dans leur courbe des seuils absolus.

La figure ci-dessous illustre une telle courbe : ce sujet particulier présente une courbe de
Wegel horizontale de 700 à 1200 Hz.

Seuils d'audition individuels présentant une zone horizontale autour de 1 kHz et seuils
d'audition masqués par un bruit uniformément masquant.
Le résultat d'une telle expérience montre que chaque fois qu'on ajoute un composant
spectral, on peut réduire un peu l'intensité de chacun des composants tout en restant au
seuil : l'oreille intègre l'intensité sonore à travers toutes les fréquences présentes.

Chaque fois que l'on double le nombre de composants, on doit réduire le niveau de chacun
d'entre eux de 3 dB pour rester au seuil de perception.

Toutefois, ce comportement ne reste vrai que qu'au sein d'une bande de fréquence
relativement étroite (160 Hz en partant d' 1 kHz) au-delà de laquelle l'addition de nouveaux
composants ne permet plus de réduire les niveaux individuels : ces nouveaux composants ne
sont plus intégrés dans le signal complexe.

Intensité des composants spectraux


(sons purs) d'un son juste audible en
fonction du nombre de composants.

L'oreille détermine le seuil d'audition d'un son complexe à


partir de la puissance acoustique mesurée dans bande de
fréquence de largeur bien définie (160 Hz à 1 kHz). Cette
bande de fréquence s'appelle une bande critique.
Mise en évidence de l’effet de bande critique

Bandes critiques par comparaison de sonie


Les bandes critiques se manifestent de différentes manières, notamment dans l'effet de
masque et la sensation d'intensité sonore en cas de sommation de sons purs.

Dans le cas de la sonie de deux sons purs simultanés d'intensité moyenne ou forte et de
fréquences voisines, la sonie reste quasiment la même tant que l‘écart de ces deux
fréquences est inférieur à la largeur de la bande critique. Dès que cet écart dépasse la valeur
critique, la sonie augmente (cf. paragraphe 5.13.4).

Dans le cas de l'effet de masque à faible intensité, un son pur est essentiellement masqué
par les fréquences contenues dans cette bande critique centrée sur sa propre fréquence. Si
le niveau d'intensité s‘élève, la zone masquée s‘étend (cf. paragraphe 5.14).
5.13.2 Mesures des largeurs des bandes critiques
La mesure des largeurs des bandes critiques selon la méthode exposée dans l’exemple 2 ci-
dessus n'est guère satisfaisante : peu de sujets possèdent une zone de seuils d'audition
horizontale, il est impossible d'explorer tout le spectre audible et la notion de microstructure
de l'audiogramme tonal ne facilite pas les choses.

Pour mesurer expérimentalement les largeurs des bandes critiques sur tout le spectre
d'audition on va pouvoir bénéficier de l'effet du bruit uniformément masquant qui élève les
seuils et les horizontalise à travers pratiquement toutes les fréquences audibles (cf.
paragraphe 5.14.3). Les seuils masqués par un bruit uniformément masquant se prêtent donc
particulièrement bien à la mesure des bandes critiques sur une large plage de fréquences et
d'intensités.

Le seuil d'audition d'un son pur masqué par un bruit de largeur de bande variable mais de
niveau global constant commence par augmenter quand la largeur de bande du bruit croît,
puis reste fixe dès que cette largeur de bande dépasse une certaine valeur critique : cette
valeur critique détermine la largeur de la bande critique.
La figure ci-dessous illustre le résultat d'une telle expérience, conduite comme la précédente
avec un nombre croissant de composants spectraux équi-intenses.

Intensité des composants spectraux d'un son


juste audible masqué par un bruit
uniformément masquant de différentes
intensités (10; 30 et 50 dB), en fonction du
nombre de composants.
L'expérience a été réalisée aux environs d'1 kHz. Le profil des résultats indique, comme
précédemment, la présence d'une bande de fréquence au sein de laquelle l'intensité de
chaque composant décroît de 3 dB chaque fois que leur nombre double, et l'absence d'effet
des composants supplémentaires au-delà. En outre, la largeur de la bande critique (160 Hz)
est indépendante de l'intensité à laquelle l'expérience est réalisée.

Quand on mesure, selon la procédure précédente, les largeurs de bande critique pour
l'ensemble des fréquences audibles, en attribuant à ces dernières la valeur de fréquence
centrale des bandes critiques, on obtient le résultat illustré par la figure ci-dessous :

largeur des bandes critiques (∆fG) en


fonction de la fréquence centrale (fm).
La droite en pointillé correspond à une
largeur relative de 20%.

La largeur des bandes critiques vaut 100 Hz jusqu'à 500 Hz et au-delà elle est égale à 20%
environ de la fréquence centrale. Elle est donc assez proche des 1/3 d'octave.
Illustration sonore : Masque d’un son pur par une bande de bruit de largeur croissante
Vous allez entendre un son pur à 2 000 Hz présenté en 10 intensités décroissantes par paliers
de 5 dB. Ce son va être masqué successivement par un bruit blanc, puis des bandes de bruit
de largeur 1 000, 250 et 10 Hz respectivement, toutes centrées sur 2 000 Hz, la fréquence du
son masqué. Comptez le nombre de paliers que vous entendez dans chaque cas.

Bandes critiques par masquage : signal à 2000 Hz

Bandes critiques par masquage : signal à 2000 Hz + bruit blanc à large bande

Bandes critiques par masquage : signal à 2000 Hz + bruit blanc à largeur de bande 1000 Hz

Bandes critiques par masquage : signal à 2000 Hz + bruit blanc à largeur de bande 250 Hz

Bandes critiques par masquage : signal à 2000 Hz + bruit blanc à largeur de bande 10 Hz
Conclusions :

En l’absence du son masquant, on peut entendre les 10 paliers.

En présence du bruit blanc et des bandes de bruit larges, on peut seulement entendre 5
paliers environ.

Il n’y a pas de changement lors du passage à des largeurs de 1000 et 250 Hz, alors que le
son masquant est clairement perçu moins intense (à énergie totale égale, la sonie d’un son
complexe à large bande est beaucoup plus grande !).

Lors du passage à 10 Hz de largeur de bande, on peut entendre plus de paliers. Ceci


s’explique par le fait que la bande de bruit est alors plus étroite que le filtre auditif centré à la
fréquence du son masqué, et il y a donc moins d’énergie qui vient perturber le son à 2000 Hz
dans cette zone.
Il existe plusieurs autres méthodes qui permettent de déterminer la largeur des bandes
critiques.
La figure ci-dessous montre la grande cohérence des mesures de bandes critiques obtenues
par ces différentes méthodes.

Valeurs des largeurs des bandes


critiques en fonction de la
fréquence. Résultats superposés
de six méthodes de mesure.
5.13.3 Structure des bandes critiques

On constate qu’en-dessous de 500 Hz, la largeur des bandes de fréquences est constante et
qu’au-delà de 500 Hz, la largeur relative des bandes est constante.

En-dessous de 500 Hz, la largeur des bandes critiques est donc indépendante de la fréquence
et vaut environ 100 Hz.

Au-dessus de 500 Hz, c’est la largeur relative des bandes qui est constante et la largeur des
bandes augmente donc proportionnellement à la fréquence centrale de la bande ; la largeur
relative ∆f/f vaut environ 20%. La largeur de bande vaut donc par exemple 160 Hz à 1 000 Hz
et 700 Hz à 4 000 Hz :

On peut bien sûr trouver une fonction analytique qui rende plus finement compte des
données expérimentales. Par exemple :
0,69
∆f = 25 + 75 (1 + 1, 4 f 2 )
Largeur de la bande critique en fonction de la fréquence
(d'après Zwicker et Feldtkeller, 1981).
La décomposition du spectre des fréquences en bandes critiques permet de mettre en
évidence 24 bandes adjacentes qui divisent la zone audible de l’oreille.

L’origine des bandes critiques se situe dans le comportement de la membrane basilaire et


des vibrocils des cellules ciliées suite à l’excitation par un stimulus.

Les bandes critiques ne sont pas des tranches fixes de l’échelle des fréquences car elles
peuvent se former de façon continue, autour de la fréquence du stimulus et leur largeur
dépend du positionnement tonotopique sur la cochlée. Les valeurs du tableau ci-dessous
sont donc indicatives de la largeur de la bande critique, aux environs de la fréquence
excitatrice :
5.13.4 Conséquences des bandes critiques sur la sonie et le timbre d’un son complexe
Les bandes critiques permettent d'expliquer les comportements variables de notre système
auditif pour la perception de l'intensité selon que les composantes du son perçu sont proches
ou éloignées, stimulant une bande critique unique ou plusieurs bandes critiques adjacentes.

Ainsi, si la largeur d'une bande de bruit est inferieure a la bande critique, il y a une
sommation de l‘énergie (et donc des intensités acoustiques).

Appliquant la loi de puissance de Stevens, on obtient :


0,3
sonie totale = k ( I1 + I 2 + ... + I n )
où I1, I2, …In sont les intensités des composantes fréquentielles du signal.

Par contre, si la largeur de bande de bruit est supérieure à la bande critique, il y a une
sommation de sonie :
sonie totale=sonie1 + ... + sonie24 = kI10,3 + ... + kI 240,3
où sonien est la sonie dans la bande critique numéro n.

Dans ce cas, la sonie totale obtenue est plus élevée que dans le cas de la sommation d‘énergie.
5.13.4.a Sonie du bruit blanc
On a vu (paragraphe 5.12.2) que la sonie d’un bruit large bande était supérieure à la sonie
d’un son pur. Ceci s’explique par l’existence des bandes critiques.

Par définition, pour un son pur à 1 000 Hz, dB et phones correspondent et le niveau
d’isosonie en phones est égal au niveau d’intensité acoustique en dB.

Par exemple, on peut déterminer (par calcul ou en consultant le tableau de correspondance)


que pour un son pur dont le niveau acoustique est de 60 dB à 1 000 Hz (ce qui correspond à
une sonie de 60 phones), la sonie est de 4 sones et que pour un niveau de 80 dB à 1 000 Hz,
la sonie est de 16 sones.

 La sonie d’un bruit blanc se détermine de la même façon que celle d’un son pur dans le cas
d’une bande de bruit blanc centrée sur une fréquence f, pour autant que la largeur de bande
soit inférieure à la bande critique autour de cette fréquence (rappelons que la largeur de
bande critique centrée autour de 1 000 Hz vaut 160 Hz).

 Par contre, lorsqu’on augmente la


largeur de bande de bruit blanc jusqu’à
dépasser la largeur de la bande critique,
la sonie augmente jusqu’à valoir 11
sones pour le bruit blanc de 60 dB et 35
sones pour le bruit blanc de 80 dB.
Application :

La largeur de la bande de fréquence qui contient la parole est relativement étroite par
rapport à la bande qui contient une musique orchestrale. Si, dans un film ou une émission
radio, on module au même maximum objectif la parole et la musique, on observe pour la
musique une sensation auditive plus forte que celle observée pour la parole, ce qui
conduit à une erreur de modulation évidente. L’écart observé est d’environ 5dB. Cet écart
oblige l’ingénieur du son à faire une balance des différents sons à mélanger.

La balance dépend aussi de la nature du local où sont produits les sons ainsi que du lieu
d’écoute (salle de spectacle, salle de séjour).

Pour diminuer l’effet de masque, certains récepteurs radio ou TV ont un correcteur de


présence, qui augmente l’intensité de la bande correspondant à la parole (généralement
centrée sur la fréquence de 2600 Hz ) par rapport au reste du spectre.

Il ne faut pas confondre ce correcteur de présence avec le correcteur de loudness qui


relève de quelques dB le niveau des fréquences extrêmes (aux environs de 80 Hz et de 8
kHz) pour compenser la perte de sensibilité auditive aux basses et aux hautes fréquences
lorsque le niveau global est faible.
5.13.4.b Addition des sonies de deux sons purs
À cause de l’effet de masque, et de l’existence des bandes critiques, les sonies des sons purs
ne s’ajoutent pas toujours simplement.
Trois cas sont à considérer, selon que la différence entre les fréquences des deux sons purs
est inférieure, légèrement supérieure ou largement supérieure à la largeur de la bande
critique ∆fc (rappel : autour de 1 000 Hz, ∆fc=160 Hz) :
 si ∆f=f2-f1≤ ∆fc
Par exemple, ajoutons deux signaux de 1 kHz et 1,1 kHz dont les niveaux sont tous deux de
70 phones, c’est-à-dire 8 sones. Lorsqu’on mesure simultanément les deux signaux, l’intensité
acoustique globale est double, et le niveau d’isosonie augmente de 10 log 2 = 3 phones. Le
niveau global des deux sons entendus simultanément est donc de 73 phones. Comme la
sonie correspondant à 73 phones vaut 9,85 sones, l’ensemble des deux signaux semble donc
9,85/8=1,23 fois plus fort que chacun pris séparément. La sonie du son composé est
beaucoup plus petite que la somme des deux sonies, à cause d’un effet de masque complet.

 si ∆f=f2-f1> ∆fc et ∆f∼∆fc

Par exemple, ajoutons deux signaux de 1 kHz et de 1,25 kHz dont les niveaux sont tous deux
de 70 phones, c’est-à-dire 8 sones. Si les deux signaux sont simultanés, le niveau d’isosonie
augmente toujours de 3 phones, mais la sonie évolue de façon différente. En effet, si on
demande à un jury de situer la sonie des deux sons simultanés dans l’échelle d’intensité
subjective, cette sonie est évaluée à 13,5 sones, donc 1,7 fois plus fort que chacun pris
séparément. La sonie de ce son composé est donc plus petite que la somme des deux sonies,
à cause d’un effet de masque partiel.
 si ∆f=f2-f1> ∆fc

Par exemple, on ajoute deux signaux de 200 Hz et de 4kHz dont les sonies sont chacune de
8 sones. Comme les fréquences sont suffisamment éloignées (elles n’appartiennent pas à
la même bande critique), il n’y a plus d’effet de masque et la sonie totale est la somme des
sonies partielles.

La sonie totale vaut ici 16 sones, donc 2 fois plus fort que chaque son pris séparément.

Mais il ne faut pas oublier qu’une sonie de 8 sones à 200 Hz représente un niveau
d’isosonie de 70 phones et un niveau acoustique de 68 dB et qu’une sonie de 8 sones à 4
kHz correspond à un niveau d’isosonie de 70 phones et d’intensité acoustique de 62 dB.
5.13.4.c Résolution des harmoniques d'un son complexe

Comme d'une part, les harmoniques d'un son complexe sont réparties linéairement le long
de l'axe des fréquences (puisqu'elles sont séparées par des intervalles exprimés en Hz
constants) et que d'autre part, la largeur absolue des bandes critiques augmente avec la
fréquence, on peut en déduire que les bandes critiques comprennent de plus en plus
d'harmoniques vers les hautes fréquences.

Les premières harmoniques sont donc facilement discriminées, mais les harmoniques
d'ordre plus élevé ont tendance a fusionner en un objet auditif unique.

On dit qu'elles ne sont pas « résolues » indépendamment par l’oreille.


5.14 Effet de masque
5.14.1 Introduction

Les seuils d'audition absolus (ou de repos) sont mesurés en l'absence de tout autre son
compétiteur ou parasite, ce qui n'est guère un reflet réaliste de nos expériences
quotidiennes.

Il y a donc un intérêt évident à investiguer les performances de détection du seuil de sons purs
en présence de sons parasites ou masquant de natures diverses (autres son purs, séries
harmoniques, bruits....).

On obtient alors de nouvelles valeurs de seuil, plus élevées que les seuils absolus
correspondants et qui déterminent les seuils masqués dont l'ensemble permet de tracer la
courbe d'effet de masque.

L'allure des courbes d'effet de masque dépend de la nature du son masquant.


L'effet de masque ou le masquage désigne le phénomène par lequel la présence d'un son
peut empêcher la perception d'un autre son qui autrement serait audible.

Autrement dit, le seuil d'audibilité d'un son, appelé « son test » (ou « signal »), est élevé par
la présence d'un autre son, appelé « son masquant » (ou « masque »).

L'effet masquant d'un son est représenté par la déformation de la courbe des seuils
d'audition mesurés en présence de ce son masquant ; plus précisément, le seuil d’audibilité
du son masqué est plus élevé en présence du son masquant que s’il est produit seul (la
courbe donnant le seuil d’audibilité s’élève).
La courbe d'effet de masque (masking pattern) ou seuil masqué est une courbe similaire à la
courbe de seuil d'audition (courbe de plus bas niveau parmi les courbes d'isosonie). Elle
s'obtient de la même manière et représente en abscisse la fréquence du signal (son masqué),
et en ordonnée l'intensité qu'il doit avoir pour être tout juste perceptible, avec la différence
que le signal est entendu en même temps qu'un son masquant dont les caractéristiques
doivent être décrites avec précision.
Cet effet de masque, qui peut être total ou partiel, dépend des intensités et fréquences
relatives des deux sons appelés son masqué et son masquant.

Nous devons noter également que le masquage existe encore, sous certaines conditions,
entre deux sons non simultanés mais séparés par un bref intervalle de temps. On parle alors
de masquage séquentiel ou de masquage temporel par opposition au cas courant du
masquage simultané (cf. section 7).
5.14.2 Seuils d’audition dans le cas du masquage d’un son pur par un bruit blanc
Le bruit blanc est défini comme un bruit qui possède les mêmes propriétés dans tous les
intervalles de temps et de fréquence.

Un bruit blanc peut être obtenu en additionnant un très grand nombre de sons purs de même
amplitude, aux fréquences très proches les unes des autres et finissant, par leur nombre, à
couvrir tout le spectre audible.

Il faut aussi que la distribution des angles de phase au départ (exprimés en radians) soit
statistiquement uniforme entre 0 et 2π.

L'intensité globale est alors la somme de chacune des intensités acoustiques élémentaires
présentes.
Niveau de densité acoustique d’un bruit : définition

On quantifie souvent l'intensité des bruits en décrivant leur densité spectrale qui est définie
par :

De manière à utiliser l'échelle logarithmique habituelle, il faut définir une valeur de référence
que l'on obtient en calculant le quotient :

qui comporte, au numérateur, l'intensité de référence Io = 10-12 W/m2 et au dénominateur, la


bande de fréquence élémentaire posée égale à un Hertz.

On a donc :

Cette valeur de référence permet d'obtenir le niveau de densité d'intensité acoustique d'un
bruit :

On caractérise ainsi les bruits blancs par leur niveau de densité spectrale, c'est-à-dire
l'intensité présente dans une largeur de bande de 1 Hz.
Si le son masquant est un bruit blanc (bruit caractérisé par une densité énergétique spectrale
constante sur tout le spectre audible), le seuil d’audition d’un son pur s’élève selon les
courbes ci-dessous, qui traduisent l’effet de masquage de bruits blancs de différentes
intensités (IWR) exprimées en termes de densité spectrale :

Seuils d’audition dans le cas d’un masquage par des bruits blancs de différents niveaux.
Par exemple, pour un niveau de bruit de 10 dB, le seuil d’audition d’un son pur à 2 000 Hz
passe de 0 dB à 30 dB.
Constatations :

On note une disparition du relief caractéristique de la courbe des seuils absolus ; les
fluctuations individuelles des seuils d’audition absolus (c’est-à-dire en l’absence de bruit
masquant) disparaissent quasiment (les courbes sont beaucoup plus uniformes qu’en
l’absence de bruit masquant). Plus précisément,

 En dessous de 500 Hz, ces courbes de seuil masqué sont toutefois quasiment
horizontales et semblables au spectre du bruit blanc. Toutefois, ces seuils ne sont pas
tout à fait horizontaux, pour un bruit blanc masquant, alors que le niveau de densité
spectrale de puissance acoustique d’un bruit blanc est indépendant de la fréquence et
que son spectre énergétique est tout à fait horizontal.

 Au-dessus de 500 Hz, le seuil masqué s‘élève en fonction de la fréquence avec une
pente légèrement ascendante. Sur cette portion ascendante, les seuils masqués
s'élèvent d'environ 10 dB chaque fois que la fréquence est multipliée par 10. Sur une
échelle logarithmique de fréquence, la relation est quasi linéaire comme le montre,
superposée à la courbe de 40 dB, la droite en pointillé tracée avec une pente de 10 dB
par décade de fréquence.

 Aux très basses fréquences, le seuil masqué rejoint le seuil absolu.

Tout se passe donc comme si en relevant les seuils masqués par un bruit blanc, on se
transposait dans un mode de détection supraliminaire qui n'est plus influencé par les
fonctions de transfert périphériques.
Explication :

On peut expliquer l’allure de ces courbes à l’aide des bandes critiques : l'oreille intègre la
puissance du bruit blanc non pas globalement dans toute la gamme des fréquences audibles
(de 16 à 20 000 Hz), mais dans des bandes de fréquences relativement étroites, les bandes
critiques, et le son test est en fait masqué par la zone de fréquences du bruit blanc qui se
trouve dans la même bande critique que le son test.

Tout se passe comme si, au-dessus de 500 Hz, l'oreille rassemblait, pour masquer le son test,
la puissance de zones de fréquences de plus en plus grandes. Ceci est d'ailleurs confirmé par
toutes les autres expériences de masque.

Il faut se souvenir ici que puisque l'intensité du bruit blanc est définie en terme de densité
spectrale, plus on considère une bande de bruit large, plus son intensité est élevée.

Sous 500 Hz, ces bandes de fréquences doivent toutes avoir la même largeur, puisque les
courbes de seuil masqué sont horizontales.

Au-delà de 500 Hz, les courbes de seuil masqué augmentent régulièrement car dans cette
région, la largeur des bandes augmente proportionnellement à la fréquence centrale.
Il est parfaitement possible, à partir de la figure précédente, de calculer une estimation de la
largeur des bandes de fréquence dans lesquelles l'oreille intègre la puissance sonore. Voici le
raisonnement :

Postulons que le son test devient audible dès que son intensité correspond à celle du bruit
blanc dans la bande de fréquence correspondante.

La figure nous indique que sous 500 Hz, le son test devient audible dès qu'il atteint 17 dB au-
dessus du niveau de densité spectrale du bruit blanc. Ceci signifie que la bande de bruit
intégrée par l'oreille pour masquer le son test possède une largeur de bande telle que la
puissance sonore comprise dans cette bande est de 17 dB supérieure à la puissance unitaire
(puissance par bande de 1 Hz).

Un rapport de 17 dB correspond à un rapport de puissance de 50 fois car 17 = 10.log(50).

Ceci signifie que la largeur de bande recherchée est d'environ 50 Hz. Nous avons ainsi
déterminé la valeur de la largeur des bandes de fréquence dans lesquelles l'oreille mesure la
puissance du bruit blanc en dessous de 500 Hz.
5.14.3 Seuils d’audition dans le cas du masquage d’un son pur par un bruit uniformément
masquant
Beaucoup d’expériences de psychoacoustique utilisent des courbes d’effet de masque
horizontales dans toute la zone audible.

De telles courbes peuvent être obtenues à l’aide d’un bruit dont la densité spectrale d’intensité
acoustique est indépendante de la fréquence jusqu’à 500 Hz et diminue au-delà de 500 Hz,
proportionnellement à la fréquence. Ce type de bruit est appelé bruit uniformément masquant.

On l’obtient en faisant passer un bruit blanc à travers un quadripôle qui présente ce type
d’atténuation en fonction de la fréquence :

Fonction d’atténuation permettant de transformer un bruit


blanc en un bruit uniformément masquant
Un bruit uniformément masquant est donc plus pauvre en hautes fréquences qu’un bruit blanc.
Par définition, si on mesure les seuils d’audition en présence de bruits uniformément
masquant de différents niveaux, on obtient un graphe ou les courbes d’effet de masque sont
horizontales tout au long de l’échelle des fréquences : pour être perçu, n’importe quel son
pur doit posséder un certain niveau d’intensité acoustique, indépendant de la fréquence de
ce son pur.

Seuils d’audition dans le cas d’un masquage par des bruits uniformément
masquant de différents niveaux.
5.14.4 Seuils d’audition dans le cas du masquage tonal (d’un son pur par un autre son pur)
Le masquage tonal (masque d'un son pur par un son pur) consiste à masquer un son pur par
un autre son pur.

Plus le masque doit être fort (resp. faible) pour couvrir le signal, moins (resp. plus) le masque
est efficace.

L’allure des seuils d’audition de sons purs masqués ou des sons purs n’est pas aussi simple
qu’en cas de masquage par un bruit blanc ou un bruit uniformément masquant.
Cette figure montre l’allure des courbes d’effet de masque produit par des sons masquants
purs de 1 kHz, et de niveaux d’intensité égaux à 30, 50, 70 et 90 dB.

En-dessous de ces courbes, seul le son masquant est audible.

Au-dessus de ces courbes, qui montrent les non-linéarités de l’oreille, au moins un son
différent, appelé son différentiel (qui est un son dont la fréquence correspond a la différence
des fréquences des deux sons purs en présence f1 -f2) est audible également, et
éventuellement aussi le son masqué, si son niveau est suffisant. On note aussi la présence de
battements dans la région des fréquences harmoniques du son masquant (2f2, 3f2, …).
On observe que pour les faibles intensités du son masquant (30 et 50 dB ici), les courbes sont
symétriques de part et d’autre de la fréquence masquante (1 kHz ici), tandis que pour des
intensités plus fortes (à partir de 60 dB ici), elles deviennent asymétriques, l’effet de masque
affectant donc davantage les hautes fréquences.

Dans les hautes fréquences, on observe que les seuils d’audition chutent en plus vers le seuil
d’audition normal d’autant plus lentement que le niveau du bruit masquant augmente (la
courbe du seuil d’audibilité en présence du son masquant se raccorde de plus en plus tard à la
courbe du seuil d’audibilité normal).

De l’allure de ces courbes, on peut déduire que les sons purs aigus de faible niveau sont
masqués par des sons purs graves intenses, mais ne sont pas masqués par des sons purs plus
aigus, même intenses.

Les fréquences pures graves (basses) sont les plus gênantes (c’est-à-dire les plus masquantes).

Les fréquences pures élevées (aiguës) sont les plus gênées (c’est-à-dire les plus masquées).

C’est la raison pour laquelle on trouve toujours plus de voix de femmes que de voix d’hommes
dans un chœur mixte.
Les figures ci-dessus présentent des courbes d'effet de masque pour des sons purs et pour
differentes valeurs de niveau d'intensité du son masquant. On remarque encore ici
l'asymétrie du masquage (upward spread of masking ou étalement du masquage vers les
hautes fréquences).
La figure ci-dessous montre l’allure schématique de la courbe d’effet de masque produit par
un son masquant pur de 1 kHz de fréquence et de niveau acoustique L=80dB :

 En dessous de 500 Hz, on entend le son masquant et le son test dès que son niveau
acoustique passe au-dessus du seuil d’audition habituel : il n’y a pas d’effet de masquage.
 Entre 500 et 10 000 Hz, effet de masque complexe, qui augmente le seuil d’audibilité du
son pur test. Le son entendu est complexe (voir après).
 Au-delà de 10 000 Hz, l’effet de masque disparaît, on n’entend à nouveau le son test et le
son masquant.
L’effet de masque s’explique physiologiquement en faisant appel au fonctionnement de la
membrane basilaire, qui répond différemment en fonction de la fréquence et de l’intensité
du stimulus sonore ; rappelons que :

 plus la fréquence du stimulus est grave, plus la position du maximum d’amplitude


de l’onde est situé loin de l’étrier, vers l’hélicotrème (cf. tonotopie cochléaire).

 plus l’intensité du stimulus est grande, plus la zone de la membrane basilaire en


mouvement est étendue.

 l’enveloppe des ondes progressives montre que la zone de la membrane basilaire


située entre l’étrier et la position du maximum correspondant à la fréquence du
stimulus est mise en mouvement de manière importante suivant l’intensité du
stimulus, alors que la zone située au-delà de la position correspondant au
maximum bouge beaucoup moins.
Détaillons les différents aspects du phénomène de masquage, selon la fréquence, en
fonction du mouvement de la membrane basilaire :

 En dessous de 500 Hz (son test grave, donc la membrane basilaire bouge près de
l’hélicotrème, là où l’enveloppe du son masquant est nulle), on se trouve dans la situation
IV, il n’y a pas d’effet de masque, on entend le son test et le son masquant.

 Entre 500 Hz et 1 kHz, le son test doit posséder un niveau nettement supérieur au seuil
d’audition normal (entre 30 dB et 50 dB) pour être perçu en plus du son masquant : en effet,
en situation III, ce n’est que si l’intensité du son test est grande que l’enveloppe III pourra se
démarquer clairement de l’enveloppe du son masquant. On dit qu’il y a masquage partiel.

 Dans la zone de fréquences comprises entre 1 et 2 kHz, le masquage est total. On se


trouve dans la situation II. Le niveau du son test doit être augmenté d’au moins 50 dB pour
commencer à être perçu, et ce qu’on entendra ne sera plus le son test à côté du son
masquant, mais un son différentiel.

Ce son différentiel est un nouveau son de fréquence f1-f2 que l’oreille forme par distorsion
différentielle à partir du son masquant et du son test.

Pour entendre en plus du son différentiel et du son masquant le son test, il faut encore
augmenter l’intensité du son test (on est alors sur la courbe en pointillés qui se situe bien au-
dessus du seuil d’audition du son différentiel).
 Pour des fréquences au-delà de 2kHz, il n’y a plus de son différentiel : le son test redevient
audible au-delà d’un seuil déterminé par le niveau du son masquant (le son masquant, plus
grave que le son pur fait bouger la membrane basilaire même près de l’étrier). On se trouve
alors dans une situation intermédiaire entre les situations II et I.

 Quand la fréquence du son test coïncide avec la fréquence du son masquant ou de ses
harmoniques, on entend des battements dans une large dynamique d’intensité (ce sont les
zones hachurées du diagramme).

 Pour les fréquences supérieures à 10 kHZ, le masquage du son disparaît et la courbe


rejoint le seuil d’audition comme pour les basses fréquences (situation I). On entend alors à
nouveau le son test et le son masquant.
Les sons suivants sont obtenus par superposition d'un son pur de 1 000 Hz et d'un son pur
de fréquence 1010Hz et d'un niveau sonore relatif de -40dB, -35dB, -30dB, -25dB, -20dB, -
15dB :

-40 dB -35 dB -30 dB -25 dB -20 dB -15 dB


Même chose pour un son masqué de fréquence 1 100Hz et d'un niveau sonore relatif de -
40dB, -35dB, -30dB, -25dB, -20dB, -15dB

-40 dB -35 dB -30 dB -25 dB -20 dB -15 dB


Même chose pour un son masqué de fréquence 1 500Hz et d'un niveau sonore relatif de -
40dB, -35dB, -30dB, -25dB, -20dB, -15dB

-40 dB -35 dB -30 dB -25 dB -20 dB -15 dB


Même chose pour un son masqué de fréquence 2 500Hz et d'un niveau sonore relatif de -
50dB, -45dB, -40dB, -35dB, -30dB, -25dB

-50 dB -45 dB -40 dB -35 dB -30 dB -25 dB


Remarque : sons différentiels

Si deux sons purs, de fréquence f1 et f2 sont produits en même temps avec des niveaux
proches, la non-linéarité de l’oreille peut produire des sons combinés (différentiels), de
fréquences f correspondant à des combinaisons algébriques des fréquences du type :

f = mf1 ± nf 2
où m et n sont des entiers quelconques. Par exemple, la combinaison :

2 f1 − f 2

est facilement audible, pour certains choix de fréquences.

L’exemple sonore suivant, où l’on superpose un son pur de fréquence fixe (à gauche) et un
son pur de fréquence descendante (à droite) fait clairement apparaître un son différentiel
montant, lorsque les deux canaux sont joués en même temps.
5.14.5 Seuils d’audition dans le cas du masquage d’un son pur par un bruit à bande étroite
On obtient un bruit à bande étroite en branchant un filtre passe bande à pentes raides
derrière un générateur de bruit blanc.

Les courbes d’effet de masque obtenues en masquant un son test avec de tels bruits sont
tout à fait semblables à celles observées dans le cas d’un masquage par des sons purs.

Ces courbes ont été obtenues en masquant avec des bruits à bande étroite, centrés sur la
fréquence de 1 kHz, pour une largeur de bande de 160 Hz, et à des niveaux de 20, 40, 60, 80 et
100 dB.
La figure ci-dessous représente les courbes d'effet de masque de bruit à bande étroite de
fréquence centrale de 250 Hz, 1000 Hz, 1100 Hz et 4000 Hz. Le niveau de bruit masquant est
chaque fois de 60 dB. Aux fréquences inférieures, les courbes sont nettement plus larges
qu'aux fréquences moyennes et élevées.

Courbes d'effet de masque de bruits de bande étroite pour


différentes fréquences centrales.
On observe que ces courbes présentent un maximum à la fréquence centrale du bruit de
bande.

En ce point, où l’efficacité du masquage est maximale, elles atteignent un niveau acoustique


inférieur de 4 dB à celui du bruit de bande.

Cela signifie que le son pur est perçu dès qu’il atteint -4dB par rapport au bruit de bande.

Ceci est notamment dû à la capacité de l’oreille à déceler un son pur dans un bruit.

Comme pour les masquages par des sons purs, les bruits à composantes graves (vibrations,
bruits de roulement, bruits de moteurs, ventilateurs) sont beaucoup plus gênants que les
bruits à composantes aiguës.
5.15 Perception d'intensité et perte auditive
On peut distinguer trois grands types de surdité, ou plutôt de pertes auditives ou
hypoacousies (la surdité étant une perte totale de l'audition) :

les pertes auditives de conduction ou de transmission, sont celles qui sont liées à une
défaillance des mécanismes de transmission mécanique de la vibration, essentiellement dans
l'oreille moyenne.

Par exemple, dans l'otospongiose, une calcification anormale bloque peu à peu la vibration
de l'étrier. Lorsque ces pertes auditives ne peuvent être corrigées par une intervention
chirurgicale, une réhabilitation peut souvent être apportée par une aide auditive à vibrateur
osseux type B.A.H.A.

les pertes auditives neurosensorielles ou de perception sont celles qui affectent la partie
transduction et transmission du signal nerveux vers le cerveau.

Ces pertes sont dites :


endocochléaires, lorsqu'elles ont leur origine dans la cochlée, ou
rétrocochléaires, lorsqu'elles ont leur origine dans le nerf auditif.

les pertes auditives centrales, enfin, sont celles liées à un dysfonctionnement du système
nerveux central.
Les pertes auditives les plus courantes, telles que la presbyacousie, associent généralement
une composante « transmission » et une composante « perception ».

Le degré de perte auditive est évalué et classé suivant une norme du Bureau International
d'Audio Phonologie, en fonction de la perte auditive moyenne aux sons purs, (Pure Tone
Average Hearing Loss ou PTA) en moyennant les seuils en dB HL aux fréquences 500, 1000
et 2000 Hz :

Alors que les pertes auditives de transmission se traduisent par une pure atténuation, les
pertes auditives de perception ont différentes conséquences sur la perception de l'intensité
sonore :
5.15.1 Le recrutement ou rattrapage de la sonie
Dans la plupart des pertes auditives de perception, alors que les seuils de perception sont
relevés, les seuils de douleur restent dans la même zone du plan dynamique, autour de 100 dB.

Par conséquent la sonie croît donc plus vite entre eux. Le niveau sonore passe rapidement de «
pas assez fort » à « trop fort ».

Cela explique la plainte fréquente de nos grands-parents malentendants : « ne criez pas,


j'entends assez fort, mais je ne comprends pas » : alors qu'ils n'entendent pas les sons faibles,
les autres restent audibles mais inintelligibles, pour des raisons liées à l'altération des filtres
auditifs (voir ci-dessous).

Puisque la même variation de sonie correspond chez les malentendants à une gamme
dynamique de sons plus faible, il est logique de supposer que les seuils différentiels d'intensité
(SDI) sont plus faibles ou « meilleurs » que ceux des normo-entendants. C'est sur cette
hypothèse que se fondent certains tests cliniques de détection du recrutement.
Malheureusement ces tests semblent biaisés du fait que l'écart statistique moyen des
réponses est également plus important chez les malentendants, et donc que la mesure des SDI
est moins précise.
Courbes de sonie normale et
pathologiques, avec recrutement. Les
traits horizontaux représentent le gain
nécessaire pour restituer au
malentendant la même sensation
d'intensité que celle du normo-entendant ;
on voit que ce gain varie avec le niveau
d'entrée, d'où la nécessité d'une
amplification avec compression dans les
aides auditives.
5.15.2 L'adaptation pathologique
L'adaptation pathologique, observée chez certains malentendants, est une chute rapide de la
perception d'un stimulus qui se prolonge dans le temps. Elle peut se manifester même alors
que
pour ce sujet et pour le son considéré le seuil auditif était quasiment normal.

L'adaptation pathologique est mesurée comme l'adaptation simple.

Elle apparaît à tous les niveaux sonores, et pas seulement aux niveaux faibles comme c'était
le cas de l'adaptation simple.

Elle s'explique par une plus grande fatigabilité des mécanismes cochléaires ou du nerf auditif
chez le malentendant. Cette fatigabilité peut être liée à son tour à une sollicitation plus
soutenue de certains mécanismes pour compenser une déficience.

Chez certains sujets, on peut observer un écart jusqu'à 20 ou 30 dB entre le seuil de


perception
d'un son pur et le niveau où il reste audible en continu.
5.15.3 L'altération des filtres auditifs

Chez les malentendants, les courbes d'accord psychophysiques (et donc les filtres auditifs)
sont déformées :

essentiellement, les CAP sont plus larges que chez les normo-entendants.
elles changent parfois de forme ; elles peuvent prendre une forme en « W », avec deux
minima,au lieu de la forme normale en « V ».
elles ont parfois un sommet décalé par rapport à la fréquence du signal (cela est rare
cependant, et correspond à des pertes auditives qui varient brutalement avec la fréquence).

élargissement des filtres auditifs avec la perte


auditive
Les différents types de pertes auditives de perception semblent s'expliquer en fonction de
l'atteinte des cellules ciliées :
si les CCE seulement sont altérées : la perte ou la déficience des mécanismes actifs
(amplification à bas niveaux et affinement de la sélectivité) entraînent une élévation des
seuils et un élargissement des filtres auditifs.
si les CCE et les CCI sont altérées : les filtres auditifs sont élargis comme précédemment,
les seuils absolus sont plus élevés.
si les CCI seulement sont altérées (cas rare) : les seuils absolus très élevés, il n'y a qu'une
faible perte de sélectivité fréquentielle.
Les conséquences sur le masquage d'un élargissement des filtres auditifs se font sentir
différemment suivant les situations :
lorsque le spectre du masque recouvre celui du signal, les normo-entendants sont
également gênés, et les performances des malentendants sont seulement un peu moins
bonnes.
lorsque les spectres du masque et du signal utile sont différents, les effets du masquage sont
bien plus importants et handicapants chez les malentendants ; deux exemples l'illustrent :
 le ventilateur (de spectre grave) qui masque la sirène (aiguë) : différence de spectre
moyen, effet de masquage simultané.
le masquage d'un locuteur par un autre : différence de spectre à court terme, effet
de masquage séquentiel ; les malentendants sont moins à même que les normo-
entendants de mettre à profit les « creux » temporels et fréquentiels du masque pour
capter des informations sur le signal.
Les effets du masquage interne entre les différentes composantes d'un son de parole (ici, la
voyelle / i / ), sont illustrés par la figure ci-dessous, où l'on peut comparer l'information
reçue par un normo-entendant et par un malentendant :

Spectrogramme et patterns d'excitation


(calculés par un modèle) de la voyelle /i /; en
haut :spectrogramme de la voyelle (synthétisée
par addition d'harmoniques), et pattern
d'excitation produit chez un normo-entendant ;
en bas : patterns d'excitation produits chez un
malentendant si l'on suppose un élargissement
des filtres auditifs d'un facteur 2 (perte
modérée) ou 4 (perte sévère). L'échelle des
fréquences est une échelle de nombre d'ERBs
5.16 Etudes psychoacoustiques des mécanismes du codage de la sonie

La manière dont l'intensité est codée par le système nerveux auditif n'est encore
qu'imparfaitement connue. La notion de base est que la sonie augmente en fonction du taux
de décharge (nombre de potentiels d'action par unité de temps) de chacun des neurones du
nerf auditif, ainsi qu'en fonction du nombre de neurones qui font partie du groupe des
neurones actifs et de l'extension de ce groupe au sein du nerf auditif.
5.16.1 Le code neural primaire représentant l'intensité
II n'est pas aisé d'expliquer les performances du système auditif dans le domaine de
l'intensité : la dynamique de l'audition humaine atteint plus de 130 dB, or dans les unités
sensorielles primaires, le code neural pour l'intensité qui consiste en leur rythme de
décharge possède une dynamique de 40 dB au maximum.

Par ailleurs, dans la nature, les sources sonores sont rarement isolées et la perception d'une
source donnée (« le signal ») est modifiée par la présence des autres sources en compétition
(« le bruit »). Dans certaines conditions, la présence de bruit élève le seuil de perception du
signal : c'est le phénomène du masquage auquel s'intéressent aussi les psychoacousticiens.

Récemment, la psychoacoustique s'est penchée sur la manière dont nous sommes capables
de juger d'une modification d'intensité dans une région spectrale d'un son complexe par
rapport à d'autres régions spectrales du même son. Il s'agit-là de performances qui
permettent la détermination du profil spectral d'une source sonore. Or, le profil spectral est
souvent, d'une manière indépendante de l'intensité avec laquelle la source émet, une
caractéristique de celle-ci, une sorte de signature sonore. Si cette signature sonore a déjà été
rencontrée, et mise en mémoire avec l'identification de la source, le processus cognitif de
reconnaissance sera grandement facilité. L'étude psychoacoustique de nos capacités
d'analyse du profil spectral a également fait l'objet de beaucoup d'attentions.
5.16.2 Le pattern d'excitation
Une notion importante à ce propos est celle du « pattern d'excitation » dû à un stimulus
donné. Le pattern d'excitation est défini comme la distribution de l'activité neurale évoquée
par le stimulus, en fonction de la fréquence caractéristique des unités nerveuses.

L'activité neurale est mesurée en termes de nombre de décharge de potentiels d'action par
unité de temps. La figure ci-dessous illustre très schématiquement cette notion.

Représentation schématique du pattern d'activation évoqué par un son pur. Le pattern


représente le niveau efficace d'excitation en dB à chaque fréquence caractéristique.
Le pattern d'excitation constitue une forme de représentation interne du spectre du stimulus.
Sa forme asymétrique en faveur d'une extension de l'excitation plus marquée vers les hautes
fréquences s'explique aisément par l'asymétrie intrinsèque des courbes d'accord unitaires
dont la queue dont elles sont pourvues permet à des stimuli de fréquence bien inférieure à la
fréquence caractéristique, d'en recruter la réponse.

Le rythme de décharge des potentiels d'action constitue donc la base du codage de l'intensité.

Ceci ne va pas sans poser quelques questions mal résolues. Alors que l'oreille humaine
normale est capable de coder l'intensité sur une dynamique d'environ 120 dB, on constate
que les unités sensorielles primaires ne possèdent qu'une dynamique beaucoup plus
restreinte : 40 dB environ. A 40 dB au delà de leur seuil, les fibres du nerf auditif sont
saturées : elles ont atteint leur rythme de décharge maximal qui n'augmentera plus avec
l'intensité du stimulus.
Plusieurs observations et théories récentes contribuent à la résolution de ce problème.

D'abord, on a montré chez l'animal, qu'il existait trois groupes de fibres dans le nerf auditif.
Un premier groupe à seuil bas (responsable du profil audiométrique), un deuxième groupe à
seuil moyen et un troisième groupe à seuil élevé, comme l'illustre la figure ci-dessous :

Trois grands groupes de fibres composent


le nerf cochléaire : les fibres à rythme
spontané élevé et à seuil bas (), les
fibres à rythme spontané intermédiaire et
à seuil moyen (x), puis les fibres à rythme
spontané rapide et à seuil élevé ().

Ces trois groupes de fibres pourraient se répartir le codage de l'intensité sur l'entièreté de la
dynamique de l'oreille.
Il semble également qu'il existe un petit nombre de fibres dont le rythme de décharge ne
sature pas aussi vite avec l'intensité du stimulus.
5.16.3 Code « rythme-localisation » vs code « temporel »
Outre ce premier mécanisme basé sur le rythme de décharge des potentiels d'action dans le
nerf auditif, il faut considérer qu'il existe aussi de l'information sur le stimulus dans les aspects
temporels de la décharge des unités sensorielles primaires.

Le codage de l'intensité par le pattern d'activation correspond à un code de type rythme-


localisation, (rate-place code) dont la combinaison constitue le pattern d'activation.

A côté de ce type de code, il en existe un autre, basé sur les détails de la structure temporelle
des décharges de potentiels d'action : c'est le code temporel.

Quand on compare les seuils comportementaux à une fréquence donnée et les seuils
neurophysiologiques d'une unité sensorielle primaire à la même fréquence caractéristique, on
constate toujours que les seuils comportementaux sont inférieurs de 10 à 15 dB aux seuils
unitaires.

Une explication à ce phénomène repose - du moins pour les fréquences basses et moyennes -
sur la théorie du codage temporel.

Dans la théorie du rythme de décharge, le système nerveux est supposé détecter la présence
d'un stimulus à partir de l'élévation de la fréquence des potentiels d'action au-delà du rythme
de repos.
Toutefois, pour les intensités proches du seuil et les fréquences inférieures à 5 kHz, il convient
de tenir compte de l'effet de verrouillage de phase.

Sous 5 kHz, le potentiel récepteur dans les CCI conserve une forme oscillatoire reproduisant la
fréquence du stimulus : c'est le potentiel microphonique. Pour une stimulation par un son pur,
le microphonique dépolarise la CCI durant les phases acoustiques de raréfaction et
l'hyperpolarise durant les phases de condensation. Il en résulte une libération accrue du
neurotransmetteur, donc une accélération des décharges durant la phase de raréfaction et
une rétention du neurotransmetteur, donc un ralentissement du rythme des potentiels sous le
rythme de repos, lors de la phase de condensation.

En moyenne donc, pour des stimuli proches du seuil, le rythme de décharge n'augmente pas,
le ralentissement durant une phase compensant l'accélération durant l'autre.

Il se produit pourtant un événement remarquable que le système nerveux est capable de


détecter : c'est le verrouillage de phase. Suite à ce qui vient d'être décrit, il est évident que les
potentiels d'action se concentrent dans le temps autour des phases de raréfaction, comme
l'illustre la figure ci-dessous :
Verrouillage de phase des potentiels
d'action d'une fibre du nerf cochléaire
(tracé inférieur) en réponse à un son pur
de basse fréquence (600 Hz). Plusieurs
balayages déclenchés sur le potentiel
d'action sont superposés.
Il suffit au système nerveux de détecter la concentration temporelle régulière des potentiels
d'action, même si leur rythme moyen n'augmente pas, pour détecter la présence d'un
stimulus, et en prime, en déterminer la fréquence qui est évidemment déduite de la période
de répétition des décharges groupées.

On assiste ici à un encodage temporel de l'intensité et de la fréquence du stimulus : ce sont


les détails de la séquence des potentiels d'action dans le temps qui encodent les paramètres
du stimulus.

Plus l'intensité d'un stimulus augmente, plus le verrouillage de phase est marqué avec une
forte synchronisation des neurones actifs autour des pics de raréfaction.
5.16.4 Rôle de l'extension du pattern d'excitation dans la fonction de sonie normale
Il existe de nombreuses études psychoacoustiques de masquage qui suggèrent que
l'extension du pattern d'excitation qui résulte de l'élévation de l'intensité du stimulus est
responsable de la croissance de la sonie : quand on masque les fréquences supérieures au
son test pour les empêcher d'être activées par l'extension du pattern, on assiste
effectivement à une réduction de la croissance de la sonie.

La croissance de la sonie n'est cependant pas annulée, et surtout, elle continue à se produire
pour les mêmes intervalles d'intensité qu'en l'absence de masquage. Il faut donc en conclure
que des mécanismes autres que l'extension du pattern d'excitation sont mis en œuvre pour
coder l'intensité et ses variations.
5.16.5 Recrutement de la sonie
Une caractéristique bien connue des atteintes cochléaires consiste en la présence de
recrutement de la sonie qui se définit comme un taux anormalement élevé de croissance de la
sonie en fonction du niveau de stimulation, comme l'illustre la figure ci-dessous :

Graphe supérieur : échelle des sones pour


un son pur de 1000 Hz.
Graphe inférieur : en pointillé, fonction de
sonie chez un sujet présentant du
recrutement. A partir du seuil (élevé à 40
dB), la fonction de sonie est
anormalement raide, puis rejoint la
fonction normale
L'explication classique de ce phénomène repose sur l'extension anormalement rapide du
pattern d'excitation de présence d'une sélectivité fréquentielle amoindrie suite à l'atteinte
cochléaire. La figure ci-dessous illustre cette explication.

Colonne de gauche : situation normale.


La partie supérieure illustre la manière
dont, en fonction de son intensité, un son
pur de fréquence T pénètre
progressivement dans le champ de
réponse des courbes d'accord. La partie
inférieure, construite à partir des points
d'intersection entre le son pur et les
courbes d'accord illustre comment
évolue, en fonction de l'intensité, le
nombre de fibres recrutées par le
stimulus.
Colonne de droite : même construction
schématique fournissant l'explication
classique du recrutement de la sonie. Les
pointes des courbes d'accord ayant
disparu, une fois le seuil atteint,
l'accroissement du nombre de fibres
recrutées est beaucoup plus rapide que
normalement.
Ici non plus, la situation n'est malheureusement pas aussi simple. Des études
psychoacoustiques comparant la fonction de sonie entre les deux oreilles, l'une normale
l'autre souffrant d'une atteinte cochléaire, chez le même sujet ont montré que la présence
d'un masqueur empêchant l'extension du pattern d'excitation ne supprimait pas le
recrutement. Il est donc probable la sonie soit codée par l'activité relative des populations
de fibres ayant des seuils différents.
5.16.6 Indices utilisés dans la discrimination de deux intensités
Etant donné la dynamique réduite du rythme de décharge des unités sensorielles primaires,
les mêmes questions que pour le codage de la sonie se posent pour les performances de
discrimination entre deux intensités.

Comment le seuil différentiel d'intensité se maintient-il aux niveaux élevés, là où en principe,


la variation du taux de décharge en fonction du niveau n'est plus possible en raison de la
saturation ?

Les réponses proposées sont les mêmes : l'indice sur lequel repose la discrimination
d'intensité pourrait être soit le taux de décharge des fibres dont la fréquence caractéristique
les situent aux extrémités du pattern d'excitation, soit le degré d'extension de ce dernier, soit
encore le degré de synchronisation, ou les activités relatives des fibres de seuils différents.

Plusieurs auteurs ont testé l'hypothèse de l'extension du pattern d'activation en utilisant des
masqueurs pour constater que le blocage de l'extension du pattern modifie différemment les
performances de discrimination d'intensité selon les fréquences concernées. Aux basses
fréquences, les performances sont indépendantes de l'extension du pattern, et l'on pense
que le taux de synchronisation pourrait constituer un indice décisif. Pour les hautes
fréquences par contre, l'indice de synchronisation n'étant plus disponible, le seuil de
discrimination s'effondre en présence de masqueurs bloquant l'extension du pattern
d'activation.
Lorsqu'on utilise des stimuli brefs (de l'ordre de 30 msec), on constate que les performances
deviennent dépendantes de l'extension du pattern, même aux basses fréquences ! Ceci
s'expliquerait par le fait que l'utilisation du code temporel (indice de synchronisation)
nécessite l'observation d'une période d'activité suffisamment longue que pour en extraire la
structure temporelle des potentiels d'action.
6 Hauteur des sons : de la fréquence à la tonie
6.1 Hauteur spectrale et hauteur musicale (ou fondamentale)
Lorsqu'on fait évoluer la grandeur d'excitation « fréquence du stimulus », deux grandeurs de
sensation évoluent parallèlement, qui ont reçu des noms différents selon les chercheurs.

En anglais, on désigne ces sensations par les termes « height » et « pitch ».

La première (height), en français hauteur spectrale (ou hauteur brute), correspond en fait à
une composante du timbre et est reliée aux sensations de clarté, de densité et de grosseur du
son.

Sur le plan acoustique, la hauteur spectrale correspond à la position du son sur une échelle
subjective « grave/aigu », indépendante de tout sens musical. Elle est reliée a la perception du
maximum d‘énergie dans la densité spectrale c’est-à-dire à la concentration d'énergie sur l'axe
des fréquences, et est corrélée au centre de gravite spectral, c’est-à-dire une mesure
proportionnelle à la somme des fréquences des partiels du spectre pondérées par leurs
amplitudes.

Densités spectrales de puissance de deux bruits respectivement aigu (à


gauche) et grave (à droite)
La seconde (pitch), que l'on peut dénommer en français hauteur musicale ou encore
hauteur tonale constitue la véritable sensation de hauteur.

Celle-ci exprime la situation du son dans une organisation en intervalles. Une suite
d'intervalles formera une mélodie.

Cette hauteur tonale ne concerne que les sons purs ou périodiques, voire certains sons
complexes non périodiques mais qui s'en rapprochent suffisamment du point de vue
perceptif.

Sur le plan acoustique, la hauteur tonale est déterminée par le rythme de répétition de l'onde
sonore. Pour les sons purs, il s'agit de leur fréquence et pour les sons complexes, de leur
fréquence fondamentale. La hauteur musicale est généralement associée à la fréquence la
plus basse du son (la fréquence fondamentale) exprimée en Hertz ou au maximum de
vibration de la membrane basilaire mais pas toujours (cf. phénomène de la fondamentale
absente dont on fait l’expérience avec le téléphone qui ne transmet les fréquences qu’entre
300 et 3 400 Hz, ce qui ne nous empêche pourtant pas de percevoir la fréquence
fondamentale de la voix.).

La hauteur musicale et la hauteur spectrale sont deux sensations qui cohabitent toujours,
même dans le cas des sons purs.

En effet, on pourrait penser qu’un son pur n’a qu’une hauteur musicale, mais on constate
qu’un son pur de basse fréquence est perçu comme étant grave, sombre et volumineux, alors
qu'un son pur de haute fréquence est perçu comme étant aigu, brillant et mince.
À côté de ces deux grandeurs principales, on peut encore parler :

 des hauteurs spectrales :


Ce sont les différentes hauteurs qu'on peut distinguer dans un son complexe, si l'on pratique
une écoute « analytique », i.e. qui tend à séparer les composantes du son.
Un ensemble de hauteurs spectrales perçues simultanément peut constituer un « accord ».
La perception peut en être analytique (perception distincte des sons simultanés) ou au
contraire synthétique (fusion perceptive des différents sons en un seul percept global).

de la hauteur virtuelle :


C'est la hauteur perçue dans un son complexe que l'oreille réduit sur une échelle
monodimensionnelle (il s'agit donc forcément d'une écoute synthétique).

Nous expliquons plus loin comment quelques idées « intuitives » sont fausses :

cette hauteur virtuelle ne correspond pas forcément à une raie du spectre !


l'oreille a la faculté d'entendre une ou des hauteurs, même dans des sons non
harmoniques.
il peut y avoir plusieurs hauteurs virtuelles dans un son (son de cloche).
6.2 Hauteur tonale, définition

Le concept de hauteur tonale n'est pas aisé à définir d'une manière explicite, générale et tout-
à-fait rigoureuse.

Selon l'American National Standard Institute (ANSI) la hauteur tonale (pitch) d'un son pur ou
complexe est :

« that attribute of auditory sensation in terms of which sounds may be ordered on a scale
extending from low to high, such as a musical scale ».

Selon l'AFNOR (équivalent français de l'ANSI), la hauteur tonale est :

« le caractère de la sensation auditive lié à la fréquence d'un son périodique, qui fait dire que
le son est aigu ou grave selon que cette fréquence est plus ou moins élevée ».

Ces deux définitions ne sont pas entièrement satisfaisantes parce qu'elles reposent sur des
notions (grave, aigu) qui restent elles-mêmes à définir.

Un autre défaut de ces définitions est qu'elles impliquent que deux sons purs (ou complexes)
sont toujours d'autant plus similaires par leur hauteur tonale que leurs fréquence
(fondamentale) est proche. Ceci est en contradiction avec l'observation que deux sons purs ou
complexes formant un intervalle musical d'octave peuvent être perçus comme plus similaires
par leur hauteur tonale que deux sons formant un intervalle plus petit.
Une définition plus correcte, mais limitée aux sons purs est la suivante :

« la hauteur tonale d'un son pur est l'attribut perceptif du son sur la base duquel il est possible
de lui apparier, par ajustement de fréquence, un autre son pur différant par le niveau
d'intensité ».

Il faut compléter cette définition en disant qu'après appariement de leur hauteur tonale, les
deux sons purs ne diffèrent plus que par la sonie ; ce qui implique que deux sons purs
quelconques ne peuvent différer que par la sonie et/ou la hauteur tonale.

Il faut noter qu'un appariement en hauteur tonale de deux sons purs différant par le niveau
d'intensité ne s'obtient pas systématiquement en rendant leur fréquence égale, la hauteur
tonale d'un son pur pouvant être légèrement modifiée par une variation de son niveau.
6.3 Hauteur tonale : tonie et chroma
La hauteur tonale ou musicale aurait elle-même deux composantes (ou dimensions) :

la tonie est la caractéristique subjective sonore associée à la hauteur des sons ; elle permet
de qualifier un son comme étant grave ou aigu.

Cette composante de la sensation auditive n’est pleinement applicable qu’aux sons musicaux,
elle n’est pas claire pour les sons non périodiques ou impulsionnels.

Pour caractériser cette dimension, Stevens a établi l’échelle de tonie, en Mels. C’est une
dimension linéaire.

la chroma (du grec, « couleur ») est une notion liée à la perception de la hauteur qui
tendrait à souligner que les différences significatives se font d'abord à l'intérieur de l'octave
et non sur une échelle étalée sur l'ensemble du spectre fréquentiel audible. La chroma serait
une qualité selon laquelle deux sons purs dont le rapport de fréquence vaut deux (et qui
forment donc un intervalle d'octave) sont similaires ou identiques. La chroma est une
dimension circulaire.
6.4 Seuils absolus, différentiel et différentiel relatif de hauteur tonale pour les sons purs
6.4.1 Seuils absolus de perception des fréquences
La plus petite fréquence perçue (seuil absolu inférieur) se situe entre 16 et 20 Hz, mais ce
seuil (qui dépend de l’intensité du son) varie d’un sujet à l’autre. La plus haute fréquence
audible (seuil absolu supérieur) se situe vers les 16 000 Hz.

On divise habituellement le spectre sonore en catégories dont les limites ne sont pas
nettement définies :
Plage de fréquences Qualification
< 16 Hz Infrason ou infrabasse
16 à 150 Hz extrême grave
de 150 Hz à 250 Hz Basse ou grave
de 250 Hz à 1500 Hz médium
de 1500 Hz à 3500 Hz aigu
de 3500 Hz à 16 000 Hz extrême aigu
> 16 000 Hz ultrason
Les musiciens ont divisé le spectre musical en 120 notes, mais l’expérience montre que l’on
peut établir environ 620 échelons différents dans le spectre sonore.

Plus précisément, on trouve environ 140 degrés de hauteur différentiable en dessous de 500
Hz et environ 480 degrés de hauteurs discernables entre 500 Hz et 16 kHz.
6.4.2 Seuil différentiel en fréquence
Comme pour les autres grandeurs comme l'intensité, la hauteur perçue transmet souvent
plus d'information par ses variations que par sa valeur absolue. Ce sont bien les variations de
hauteur qui constituent une mélodie.

On s'intéresse donc à notre capacité de discrimination des sons en fréquence, par les « Seuils
Différentiels en Fréquence » (ou DLF, Difference Limens in Frequency) qui se mesurent par
diverses méthodes, notamment :

le choix forcé : entre 2 sons A et B de hauteurs légèrement différentes présentés


successivement dans un ordre aléatoire, le sujet doit choisir lequel est le plus haut. Le seuil
est choisi au point de 75% de réponses justes sur la courbe des réponses. La recherche du
seuil différentiel consiste à déterminer la plus petite différence de fréquence que doivent
présenter deux sons purs stables et successifs pour que ces sons soient juste discriminés.
Cette méthode qui implique bien entendu une comparaison en mémoire, semble la plus
précise, tant que l'intervalle entre les deux sons reste compris entre 100 et 1000 msec.

par modulation : on mesure alors les « Frequency Modulation Difference Limens FMDL»
comme la plus petite amplitude de modulation de fréquence perceptible (à un rythme de
modulation donné, en général autour de 4 Hz).
Le seuil différentiel de fréquence (∆f), c’est-à-dire la plus petite variation de fréquence
audible lorsqu’on module temporellement la fréquence d’un son pur dépend :

 de la fréquence de modulation temporelle de la fréquence du son pur (comme


pour le seuil différentiel en intensité, c’est pour une fréquence de modulation
comprise entre 2 et 5 Hz que l’oreille est la plus sensible) ;
 de l’intensité du son pur (le taux de modulation temporel de la fréquence étant fixé
à 4 Hz).
On constate que le seuil différentiel de
fréquence diminue d’abord lorsque le niveau en
intensité augmente, pour se stabiliser à partir
d’un niveau de 40 dB. Il vaut alors environ 3 Hz.
 de la fréquence du son pur (le taux de modulation de la fréquence étant
toujours fixé à 4 Hz et le niveau d’intensité étant fixé, à une valeur supérieure à
40 dB).

Variation des Seuils Différentiels de Fréquence avec la


fréquence de mesure

On constate que le seuil différentiel est constant en dessous de 500 Hz (il vaut
alors à peu près ∆f=1,8 Hz) et augmente avec la fréquence au-delà de 500 Hz.
Mise en évidence de l’ordre de grandeur du seuil différentiel de fréquence

Série de paires de sons à 550 et 560 Hz (3 cas « différent » et 3 cas « pareil »)

Série de paires de sons à 550 et 555 Hz (3 cas « différent » et 3 cas « pareil »)

Série de paires de sons à 550 et 552 Hz (3 cas « différent » et 3 cas « pareil » )

http://psych.hanover.edu/JavaTest/Media/Chapter10/MedFig.FrequencyDiscrimination.html
6.4.3 Seuil différentiel relatif de fréquence
Exprimé en valeur relative (∆f/f), le seuil différentiel de fréquence de deux sons purs
successifs varie avec la fréquence de référence selon une courbe en U dont le minimum se
situe vers 1500 Hz.

De même que le seuil différentiel d’intensité, le seuil différentiel relatif de fréquence (∆f/f)
reste pratiquement constant entre 500 et 8 000 Hz.

Il vaut 0,0035=0,35%.

En dehors de ces limites, il varie selon la courbe :


Pour une fréquence de référence donnée, le seuil varie le seuil diminue systématiquement
entre le niveau d'intensité pour lequel le son est juste détectable et environ 50 dB SL.

En conditions d'écoute monaurale, l'équation qui décrit le mieux les effets de la fréquence de
référence et du niveau sur le seuil différentiel serait :

Cette équation implique qu'à un niveau d'intensité moyen ou fort (SL > 50 dB), le seuil
différentiel relatif est de deux ou trois millièmes pour les fréquences moyennes ; c’est-à-dire
de l’ordre de grandeur du Hz.

Il faut insister sur l'énorme importance de l'entraînement sur les performances de sensibilité
différentielle à la fréquence : cette équation ne vaut que pour des sujets entraînés,
l'expérience a montré que ce n'est qu'après une dizaine d'heures de pratique que la
performance atteint sa valeur optimale.
Seuil différentiel relatif en fréquence

Pour une valeur moyenne de l'intensité acoustique, ∆f/f reste constant dans une certaine
étendue de fréquence, plus exactement varie peu ; on voit que, pour « l'oreille moyenne »,
cette valeur oscille entre 0,2% et 0,3% dans la zone des fréquences 500-8 000 Hz. Ces valeurs
dépendent de l'intensité acoustique ; les chiffres donnés correspondent à une onde
sinusoïdale plane, progressive, d'intensité 10 -6 W/m2 soit environ 60 dB.
Interprétation :

Selon la courbe précédente, le seuil différentiel relatif est quasiment constant (il vaut
0,003=0,3%) pour les fréquences évoluant entre 500 et 8 000 Hz (0,1% pour les accordeurs de
piano).
Application : seuil différentiel de fréquence

À 1 000 Hz, par exemple, le plus petit intervalle perceptible en fréquence et :

∆f = 0, 003.1000 = 3 Hz
Cette valeur peut paraître grande, à première vue ; mais comparons-la à l’intervalle musical
du demi-ton tempéré, pour en avoir une meilleure appréciation.

L’écart fréquentiel entre deux notes séparées par un demi-ton aux alentours de 1 000 Hz
vaut :
1000. ( 12
)
2 − 1 = 59 Hz

Cette valeur montre que notre oreille est en fait très sensible à des écart fréquentiels dans
le registre médium, et tolèrera donc difficilement des écarts aux alentours de cette
fréquence (tout écart de justesse, même petit, sera détecté, puisque l’oreille perçoit de
l’ordre de 3/59≅0,05, soit le 1/20ème de demi-ton).
En dessous-de 100 Hz et au-dessus de 5 000 Hz, les performances de l’oreille en matière de
perception différentielle en fréquence ont tendance à baisser fortement.

À 50 Hz par exemple, le seuil différentiel relatif vaut 0,01, donc le plus petit intervalle
perceptible vaut :
∆f = 0, 01.50 = 0,5 Hz
Cette valeur peut paraître petite.

Mais cette fois, l’écart entre deux notes séparées par un demi-ton aux alentours de 50 Hz
vaut :
50. ( 12
)
2 − 1 = 3 Hz
Un manque de justesse pour un instrument grave (la contrebasse par exemple) ne sera pas
trop mal perçu, puisque l’oreille perçoit 0,5/3 =1/6ème de demi-ton.
Seuil différentiel et seuil différentiel relatif de tonie
Pour comparaison, sensibilité différentielle en longueur d’onde de l’œil

Attention : c’est un graphe de sensibilité différentielle (∆λ) et pas sensibilité différentielle


relative (∆λ / λ).
On constate donc qu’il est plus facile de différencier des couleurs dans la zone du bleu à
l’orange que des violets ou des rouges (zones dans les ellipses en trait fin). L’œil peut
discriminer environ 150 tonalités (à luminance et saturation constantes) dans le spectre. Il
existe néanmoins d’autres couleurs (ou tonalités) que celles de l’arc-en-ciel et que l’œil peut
toutefois distinguer, comme par exemple le rose (rouge + blanc), le pourpre (superposition
rouge + violet), le brun (orange de faible luminance), les gris (blancs de faible luminance).
6.5 Loi de Weber-Fechner pour la perception de la hauteur
La constance approximative du seuil différentiel relatif de fréquence montre que la sensation
sonore de hauteur suit aussi une loi de Weber-Fechner ; pour l’établir, on suppose (hypothèse
de Fechner) que dans le domaine de fréquence où le seuil différentiel relatif de fréquence est
pratiquement constant, la variation de la sensation de hauteur juste perceptible ∆H est égale
au seuil différentiel relatif de fréquence ∆f/f, c’est-à-dire, sous forme différentielle :

∆f
∆H =
f
En intégrant cette relation, et en admettant qu’à la fréquence du seuil correspond une
sensation nulle, on obtient la loi de Weber-Fechner :

H = k .log f + constante
La sensation de hauteur sonore est proportionnelle au logarithme de la fréquence à partir
d’un seuil.

Cette loi implique que la différence des hauteurs perceptibles est proportionnelle au
logarithme du rapport des fréquences :

Cette relation est analogue à la définition des décibels relatifs (il n ’y a pas de fréquence de
référence à laquelle comparer les autres fréquences audibles),
∆H=H1-H2, écart de hauteurs perceptibles est un intervalle.

Un intervalle, défini comme une différence de hauteurs est donc associé à un rapport de
fréquences.
6.6 Unités physiques de hauteur : octave harmonique, intervalles, savart et cent
De la même manière que la loi de Weber-Fechner, observée pour la sensation d’intensité a
conduit à l’introduction d’une unité logarithmique d’intensité, le décibel, l’observation de
cette même loi pour la sensation de hauteur justifie l’existence d’une unité physique
logarithmique de hauteur, l’octave harmonique.
Deux sons de même fréquence sont dits à l’unisson parce que les musiciens ont remarqué
qu’ils se confondent lorsqu’ils sont perçus ensemble.

Un son dont la fréquence est double d’un autre son a aussi tendance à fusionner avec cet
autre son lorsque ces deux sons sont perçus simultanément.

C’est cette constatation qui est la base de la musique occidentale et qui sert de base à la
définition de l’octave comme unité de hauteur harmonique.

Par définition, un son est à l’octave harmonique d’un autre quand sa fréquence est deux fois
plus élevée.

De manière plus générale, on appelle intervalle entre deux sons le rapport de leurs
fréquences.

Certains intervalles définis en musique portent des noms précis : la quinte parfaite est
l’intervalle 3/2, la quarte parfaite est l’intervalle 4/3, la tierce majeure est l’intervalle 5/4.
La hauteur harmonique d’un son (de fréquence f) par rapport à un son de référence (de
fréquence fref) vaut par définition :
f f 1 f 1 f
H h = log 2 = log 2 10.log10 = .log10 ≈ log10
f ref f ref log10 2 f ref 0,301 f ref
Comme les intervalles musicaux correspondent à des rapports de fréquences, chaque
intervalle est donc associé à un changement fixé de hauteur harmonique.

Pour se repérer dans l’échelle des hauteurs harmoniques, les musiciens ont choisi comme
référence le son son do2 dont la fréquence vaut fref=132 Hz et lui ont attribué la hauteur
harmonique Hh=0.

La formule donnant la hauteur harmonique (en octaves harmoniques) d’un son devient donc :
f(en Hz)
H h (en octaves harmoniques) = 3,322.log10
132(en Hz)
Les do audibles sont donc situés à des valeurs entières de la hauteur harmonique comprises
entre -2 et +8. Par exemple, le do0 (32,7Hz) situé deux octaves plus bas que le do2 a une
hauteur harmonique de -2.

Inversement, on calcule la fréquence d'un son musical à partir de sa hauteur harmonique en


octave par :
f = 132.100,301. H h (en octaves)
Il existe d’autres unités de hauteur harmonique (et donc d’intervalle), comme le savart et le
cent.

Ainsi, une hauteur harmonique de note en savart est définie par la formule :

f (en Hz)
H h (en savarts) = 1000.log10
32, 7(en Hz)
On constate qu’une octave harmonique équivaut à 1000/3,322 ≅ 301,03 savarts, que l’on
arrondit souvent à 300 savarts.

De manière plus générale, on peut définir l’intervalle I en savarts (symbole σ) entre deux notes
de fréquences f1 et f2 par la formule :
f1 (en Hz)
I (en savarts σ ) = 1000.log10
f 2 (en Hz)
De la même manière, un intervalle en cent est défini par la formule :

1200 f1 (en Hz)


I (en cent ) = .log10
log10 2 f 2 (en Hz)
Une octave harmonique vaut donc 1200 cents.
6.7 Hauteurs harmoniques et notes de la gamme tempérée

Dans la musique occidentale, seules certaines hauteurs harmoniques sont utilisées et sont
caractérisées par les notes de la gamme.

La gamme la plus utilisée de nos jours est la gamme chromatique tempérée.

Dans cette gamme, chaque octave est divisée en douze notes, séparées par un demi-ton
tempéré.

Un demi-ton tempéré dt est défini en divisant une octave en 12 demi-tons égaux, donc :

f2 f 2 12
dt12 = =2 = 2 = 1,0594
f1
f1

(∆H = 1000 log 12 2 ≅ 25 savart)


Les fréquences de ces notes sont définies mathématiquement par la relation : f n = f 0 .12 2n
où n varie entre 0 et 11 au sein d’une octave et ν0 est la fréquence de la première note de
l’octave (un do).
La suite des notes par octave est :

L’intervalle entre les notes est constant et vaut 1000.log21/12=25 savarts ou 100 cents ou
encore un demi-ton tempéré.

Les fréquences (en Hertz ) des 10 octaves harmoniques de la gamme tempérée


6.8 Tonie

En psychoacoustique, on peut isoler la hauteur tonale en tant que grandeur subjective de la


sensation par une expérience comme celle qui suit :

On utilise un bruit de fréquence centrale 8 kHz et de largeur de bande 250 Hz, qui procure une
sensation de hauteur tonale très précise. On présente ce bruit, via un haut-parleur, pendant
quelques secondes, à un grand nombre de sujets.

Puis, on fait entendre à ces sujets un son pur de fréquence comprise entre 500 Hz et 3 kHz et
on leur demande si la hauteur tonale de ce deuxième son est au-dessus ou en-dessous de la
moitié de la hauteur tonale du premier son présenté.

Si le deuxième son pur est à 500 Hz, tous le sujets le trouveront trop grave; s'il est à 3 kHz, il
sera unanimement jugé trop aigu. En faisant varier la fréquence du deuxième son pur dans le
sens dicté par la majorité des réponses, on finira par déterminer la région de fréquences où se
situe pour les sujets, la hauteur tonale correspondant à la moitié de celle du bruit de 8 kHz. A
la fin de la série d'expériences, on trouve que c'est un son de fréquence de l'ordre de 1,3 à 1,4
kHz qui paraît posséder une hauteur tonale égale à la moitié de celle d'un bruit de bande à 8
kHz !
Si on répète l'expérience pour diverses fréquences du bruit de bande étroite, on définit la
relation illustrée par la figure ci-dessous qui lie la grandeur de sensation « hauteur tonale »
à la fréquence physique du stimulus. Au-delà de 500 Hz, on assiste à une nette dissociation
entre les grandeurs d'excitation et de sensation.

Fréquence f2 d'un son pur dont la hauteur tonale est perçue comme étant la moitié de la
fréquence d'un bruit en bande étroite centré sur f}.
Stevens a été le premier à établir une échelle de tonie.

A cause de la longue tradition de l'acoustique musicale relative aux échelles musicales, cette
échelle a été assez contestée, souvent à cause d'une mauvaise compréhension de l'objet
même de la mesure faite par cette échelle. Certains ont cru que Stevens cherchait à remplacer
les rapports de fréquences traditionnellement acceptés pour la définition des intervalles
musicaux, par de nouveaux rapports, ceux de l'échelle Mel.

Pour Stevens, une tonie doublée ne correspond pas nécessairement à l'octave, qui correspond
pourtant à un doublement de fréquence ! Mais quand Stevens parle de tonie double, il ne
prétend pas définir l'octave car en réalité, il restreint cette échelle à la première dimension de
la hauteur tonale, relative à la différenciation grave-aigu, indépendamment de la seconde
dimension qu'est la chroma.

Le terme « tonie » sera désormais consacré et réservé à la hauteur tonale en tant que
grandeur sensorielle psychoacoustique.

L'échelle Mel a donc pour but de mettre en évidence la « position » des perceptions à
l'intérieur du continuum qui va de l'extrême grave à l'extrême aigu, en dehors de toute
référence avec les intervalles musicaux.

Cette échelle est d'ailleurs tout à fait en accord avec ce qui a été découvert sur la subdivision
de ce continuum en bandes critiques, et sur le mode de vibration de la membrane basilaire en
fonction de la fréquence.
Précisons que l'unité « mel » vient de « mélodie », terme qui après coup est plutôt mal choisi
vu les résultats de l'étude.

L'échelle Mel n'a pas fait l'objet de consensus international comme l'échelle de sonie. Stevens
utilisait comme première référence 1000 mels pour 1000 Hz. Zwicker utilise une référence de
310 mels à 310 Hz. Dans la mesure où l'échelle n'a pas beaucoup d'utilisations pratiques et
sert surtout à démontrer une relation subjective, ces différences ne sont pas importantes.

L'échelle de tonie, mesurée en mel, est construite de la même façon que l'échelle des sones,
par une procédure de classement par ordre de grandeur comme celle décrite plus haut où les
sujets devaient juger si le son test était supérieur ou inférieur à la moitié de la tonie de la
référence. On demande à des participants d'ajuster un son de façon à ce qu'il soit, par
exemple, deux fois moins aigu qu'un son de référence (1000 mels), ou deux fois plus aigu, etc.

La tonie d'un son jugé n fois « plus aigu » qu'un son de un mel possède donc une tonie de n
mels.
La plupart des échelles obtenues avec des sons purs indiquent une perception linéaire de la
fréquence jusque vers 500 Hz, en fonction de la fréquence : un rapport de fréquences de 2,
(l'octave) produit approximativement une sensation de tonie doublée.

En effet, les résultats expérimentaux de la figure précédente montrent qu'en-dessous de 500


Hz, une division par deux de la fréquence correspond à une diminution de moitié de la
hauteur. Il était dès lors logique de faire en sorte que les valeurs numériques de la grandeur
sensorielle correspondent aux valeurs numériques de la grandeur physique.

Mais au-dessus de 500 Hz, la relation fréquence-tonie perd sa linéarité : pour que la tonie soit
doublée, le rapport des fréquences doit être plus grand que l'octave.
Comme on constate que dans le domaine de fréquences situé en-dessous de 500 Hz, la
hauteur harmonique (qui mesure l’excitation physique) est proportionnelle à la hauteur
mélodique (qui mesure la sensation), en d’autres mots, la tonie est proportionnelle à la
fréquence.

Dans cette partie du spectre on identifie donc les échelles (c'est un choix arbitraire !) : ainsi,
de 0 à environ 500Hz, on a : 1 Mel = 1 Hz : les valeurs numériques de la grandeur physique
correspondent aux valeurs numériques de la grandeur physiologique. En d’autres mots, les
mels et les hertz sont égaux en dessous-de 500 Hz.

Pour les sons de fréquence supérieure à


500 Hz, la tonie croît moins vite que la
fréquence et on déduit l’échelle de tonie
(en mel) de la fonction expérimentale de
transfert de tonie.

Fonction de transfert de tonie


(échelles linéaires)
Par définition, un son pur de fréquence f=1 000 Hz et d’une intensité de 40 dB au-dessus du
seuil d’audition a une tonie Z=1 000 mels.
Suivant la convention de Stevens (à 1000 Hz, une son pur d'intensité 40 dB a une tonie de
1000 mels), une formule proposée par O'Shaughnessy établit la relation entre l'échelle de
tonie en mels et la fréquence en Hz ; au dessus de 1 000 Hz, la conversion d’une fréquence f
(en hertz) en une sensation de hauteur ou tonie Z (en mels) peut se faire par les formules
suivantes :
 f 
Z = 2595log10 1 + 
 700 
 2595
Z

ν = 700 10 − 1
 
On voit et on vérifie que 1 000 Hz correspondent bien à 1 000 mels.

L‘échelle de tonie rend compte du fait que la hauteur perçue croît moins vite que la
fréquence. Quand on passe de 1000 Hz a 2000 Hz, on double la fréquence, mais la tonie passe
de 1000 mels à 1521 mels seulement (rapport 3:2). Et autour de 3000 Hz, un rapport de 2:1
en termes d'unités psychologiques (mels) correspond a rapport d'environ 3:1 en termes
d'unités physiques (Hz). On comprend donc qu'une octave dans les hautes fréquences (autour
de 2000 Hz par exemple) va être perçue plus grande qu'une octave dans les basses
fréquences (autour de 250 Hz par exemple).
Alors que la fréquence des sons audibles peut atteindre 16 000 Hz, leur tonie (Z) ne peut
atteindre que 3 500 mels.
Rapport entre l’échelle des mels (linéaire ici) et l’échelle
des fréquences (logarithmique ici)
D’autres échelles de hauteur tonale ont
été développées, comme celle de
Zwicker et Fastl (1999) et sont quelque
peu différentes notamment en raison de
variations méthodologiques. L’échelle de
Zwicker et Fastl a pour référence le son
de 125 Hz qui se voit attribuer une tonie
de 125 mels.
Comme pour les unités d’intensité, après avoir défini une échelle linéaire (celle de la
fréquence, en Hertz) et une échelle logarithmique (celle de la hauteur harmonique, exprimée
en octave harmonique ou ses dérivés, le savart et le cent) comme mesures et unités physiques
d’excitation de la hauteur, on introduit pour mesurer la sensation de hauteur deux échelles de
mesures (une linéaire et une logarithmique) et deux unités physiologiques de la tonie : ces
unités sont le mel et l’octave mélodique.

Comme proposé par Stevens, l'unité de l’échelle linéaire de tonie correspondant à l'unité de
l’échelle linéaire de fréquence (mais cette correspondance n'est vraie qu'en-dessous de 500
Hz !!) est le mel.

De la même manière qu’on a déterminé l’échelle des hauteurs harmoniques (découpée en


octaves harmoniques), on peut définir une échelle logarithmique de la sensation de hauteur ;
elle est mesurée par la hauteur mélodique Hm (exprimée en octaves mélodiques) qui
correspond à une grandeur de sensation mise en évidence dans des expériences qui
parviennent à faire abstraction des relations harmoniques entre les sons musicaux. Lorsque
les sujets doivent juger de l'écart entre deux notes sans plus de référence aux relations
harmoniques, on constate que les notes des octaves supérieures paraissent bien plus
rapprochées entre elles que celles des octaves inférieures. L'échelle des hauteurs mélodiques
est donc « comprimée » dans sa portion supérieure. Elle est définie par la formule :
Z(en mels)
H m (en octaves mélodiques) = 3,322.log10
132(en mels)
On a vu qu’un son de fréquence 1 000 Hz avait aussi une tonie de 1 000 mels.

Comme pour les hauteurs harmoniques, augmenter la hauteur mélodique d’une octave
correspond à doubler la variable mesurant la hauteur, ici la tonie Z.

L'octave mélodique supérieure de ce son est donc à 2 000 mels, ce qui équivaut à environ 3
428Hz.

Un son ayant une fréquence de 3 428Hz sera donc perçu comme étant deux fois plus aigu
qu'un son à 1 000Hz.
Correspondances des quatre échelles de mesure de la hauteur d’un son

Alors que la hauteur harmonique peut atteindre l’octave numéro 8 du do2 (soit une plage de
10 octaves harmoniques), la limite supérieure de la hauteur mélodique se situe un peu au-
delà de la 6ème octave du do2 (soit une plage de 7,3 octaves mélodiques).
6.9 Tonie et bandes critiques.
Il existe une autre échelle de mesure de la tonie, basée sur l’existence des bandes critiques.

Les bandes critiques telles que décrites plus haut sont juxtaposées de manière à couvrir la
gamme des fréquences : la limite supérieure d'une bande correspond à la limite inférieure de
la suivante.

Ces limites ont été définies à partir de grandeurs de sensation elles-mêmes correspondant
aux grandeurs d'excitation « fréquence».

La tonie est également une grandeur de sensation correspondant au paramètre fréquence du


stimulus.

On peut montrer, comme l'illustre la figure ci-après, qu'un accroissement de fréquence d'une
bande critique ∆fG en n'importe quel lieu de l'échelle des fréquences entraîne une
augmentation de la tonie Z correspondante de 100 mels.

Par analogie aux bandes critiques, on appelle intervalle critique cet accroissement de la tonie.

Cet accroissement de 100 mels obtenu lorsqu'on accroît une fréquence f d'une quantité égale
à la bande critique correspondante a donné lieu à une nouvelle unité : le Bark. Un Bark est
donc égal à 100 mels ou une bande critique.

Le terme Bark a été choisi pour rendre hommage à un psychoacousticien nommé


Barkhausen.
Fonction de transfert de tonie et tonie exprimée en bark

Relation de proportionnalité (empirique) des Mels et des Barks (d'après Zwicker).


En effet, curieusement, Zwicker a constaté que la courbe donnant la position en Barks de
ses 24 Bandes Critiques (sur une échelle logarithmique) en fonction de la fréquence (sur
une échelle logarithmique), était superposable à celle de la Tonie en Mels.

Le spectre ses sensations de hauteur tonale est divisé en 24 échelons correspondant aux
24 bandes critiques, chaque échelon ayant une valeur de 1 bark.

Le spectre sonore complet correspond donc à 24 barks ; le passage des fréquences aux
barks s’effectue par la formule :
2
 f (kHz) 
Z (barks) = 13 tan −1 ( 0.76 f (kHz) ) + 3.5 tan −1  
 7.5 
On voit que la tonie d’un son de 20 Hz vaut bien 0 bark et celle d’un son de 16 kHz vaut
24 barks.
Résumé des grandeurs et des unités :

Caractéristique du son Grandeurs d’excitation Grandeurs de sensation


Échelle linéaire Échelle Échelle linéaire Échelle
logarithmique logarithmique
Force du son
Puissance P(W), Niveaux L de Sonie S (sones) Niveau
pression p(Pa), puissance, de d’isosonie L
ou intensité I pression ou (phones)
(W/m2) d’intensité
(dB)
Hauteur du son
Fréquence f Hauteur Tonie Z (mels Hauteur
(Hz) harmonique ou barks)) mélodique Hm
Hh (Octave (Octave
harmonique, mélodique)
ou savart ou
cent)
6.11 Facteurs de variation de la hauteur tonale d’un son pur

De même que la sonie ne dépend pas que du niveau d'intensité acoustique, la hauteur tonale
est déterminée essentiellement par la fréquence, mais pas seulement par celle-ci.

6.11.1 Variation de la tonie avec l'intensité

La hauteur est perçue à partir de 2 ou 3 dB au-dessus du seuil d'audition. Elle varie aussi en
fonction du niveau. Les premiers expérimentateurs ont rapporté une influence substantielle
de l'intensité sur la hauteur perçue à 90 dB. Il semble maintenant que l'effet est petit et varie
d'un sujet à l'autre. En utilisant des sons de longue durée, Stevens (1935) a trouvé que les
sons en-dessous de 2000 Hz décroissent en hauteur apparente avec une augmentation
d'intensité alors que les sons au-dessus de 2000 Hz augmentent en hauteur apparente avec
une augmentation d'intensité.

La hauteur des sons :

décroît avec l'intensité pour des sons de moins de 2000 Hz,


croît avec l'intensité pour des sons de plus de 4000 Hz.

Ces variations peuvent atteindre au maximum 5%, soit presque un demi-ton musical !

Sens des variations de la hauteur tonale avec


l'intensité, pour différentes fréquences.
Les graphiques ci-dessous représentent le changement de tonie en pourcentage de la
fréquence (ou en cent) présentée en fonction de l'intensité, et ce pour différentes
fréquences.
(a) A pure tone of frequency 98Hz has a pitch of G2 when quiet (ppp) and a pitch lower than E2
when loud (fff).
(b), (c), and (d) show the variations of pitch with intensity for pure tones of frequency 392Hz,
784Hz, and 3136Hz respectively.
(Campbell & Greated, 1987; derived from Stevens & Davies, 1939).
6.11.2 Variation de la tonie avec la durée

On constate que la durée d’audition du son influence la sensation d’intensité ou de hauteur


perçue.

Pour mettre en évidence ces effets, on propose à l’auditeur des impulsions sonores de durée
variable.

Saillance de la tonie de sons courts en fonction de leur durée

Pour percevoir la hauteur, le son pur doit avoir une durée minimale. Cette durée varie d’une
fréquence à l’autre.

Von Bekesy a trouvé qu’un son avec une fréquence de moins de 1 000 Hz devait avoir une
durée minimale équivalent à environ 3 à 9 périodes pour avoir une hauteur définie.

Par exemple, à 300 Hz, une période correspond à 1/300 Hz = 0,0033 s = 3,3 ms et il faudra
entre 16,5 et 29,7 ms pour percevoir la hauteur de façon définie.

Au-dessus de 1000 Hz, cette valeur critique de durée est de 10 ms indépendamment de la


fréquence du son.
Plusieurs dizaines de millisecondes sont nécessaires pour que l’oreille identifie la hauteur,
surtout dans l’aigu.
Effet de la durée sur la fréquence de discrimination d’un son pur
6.11.3 Variation de la tonie en présence d'un son masquant simultané

La hauteur tonale d'un son pur est très clairement modifiable par la présentation simultanée,
sur la même oreille, d'un autre son qui le masque partiellement. Le son dit « inducteur»
(c’est-à-dire masquant) peut être un bruit ou un autre son pur.

6.11.3.a Cas d’un bruit masquant


Si le son masquant est un bruit blanc, la hauteur va augmenter. Elle l'élève d'autant plus que
la fréquence du son test est élevée, et que ce dernier est masqué par le bruit. L'effet peut
dépasser un écart de fréquence de 3%. Un effet au moins aussi grand est obtenu en utilisant
un bruit passe-bas dont la fréquence de coupure est légèrement inférieure à la fréquence du
son test.

La hauteur perçue d'un son partiellement masqué est affectée par le bruit masquant :

pour un bruit masquant plus aigu, la hauteur se déplace vers les graves
pour un bruit masquant plus grave, la hauteur se déplace vers les aigus
6.11.3.b Cas d’un son pur masquant

Même un son pur est capable de modifier la hauteur tonale d'un autre son pur, pourvu que la
fréquence du son inducteur soit inférieure à celle du son test. Si le son masquant est un son pur
de fréquence inférieure, la hauteur va augmenter également.

Autrement dit, le déplacement est toujours dans le sens où la hauteur perçue s'éloigne de
celle du masque.

De tels effets peuvent s'obtenir (quoique dans une moindre mesure) lorsque son test et son
inducteur sont présentés de manière dichotique. Ceci suggère que l'origine des effets de
masque simultané sur la hauteur tonale d'un son pur n'est pas exclusivement d'origine
cochléaire.

6.11.4 Effet de sons masquants proactifs.

La hauteur tonale d'un son pur de durée brève se trouve légèrement modifiée par la
présentation préalable, sur la même oreille, d'un autre son pur, de niveau moyen, de longue
durée et de fréquence proche.

L'effet observé est de type « répulsif» : la hauteur tonale du son test s'élève si la hauteur
tonale de l'inducteur est inférieure à celle du son test et baisse dans la cas contraire.
6.11.5 La diplacousie binaurale
Un son pur de fréquence et de niveau d'intensité donnés n'a généralement pas exactement la
même hauteur tonale lorsqu'on l'écoute par l'oreille gauche et par l'oreille droite. C'est ce
qu'on appelle la diplacousie binaurale.

Ce phénomène peut être beaucoup plus marqué chez des sujets à l'audition pathologique. Il
existe cependant à un certain degré chez tout individu normal et peut aller jusqu'à
correspondre à un écart de fréquence de 3%.

Cependant, lorsqu'un son pur donné parvient simultanément aux deux oreilles d'un auditeur
audiométriquement normal, celui-ci le perçoit toujours comme un son pur doté d'une hauteur
tonale unique.

Ceci implique que le système nerveux central est capable de fusionner en une hauteur tonale
unique deux hauteurs tonales monaurales légèrement différentes.

La différence maximale que peuvent présenter les deux hauteurs tonales avant que la fusion
ne se fasse plus excède la diplacousie maximale d'un sujet à l'audition normale.
6.12 Modèles pour la perception de la hauteur des sons
6.12.1 Le code neural primaire pour la fréquence
Les scientifiques de l'audition ont consenti énormément d'efforts pour comprendre le codage
de la fréquence du stimulus. Ceci s'explique par le fait que le contenu fréquentiel du stimulus
représente l'information la plus robuste sur les sources sonores qui sont très souvent
caractérisées par leur profil spectral.

Les notions psychoacoustiques de bande critique et de pattern d'excitation, se combinent avec


celle du codage cochléaire tonotopique pour former une théorie cohérente intégrant les
données physiologiques et psychophysiologiques.

Cette théorie s'est toutefois révélée insuffisante pour expliquer toutes les observations
psychoacoustiques, dont, par exemple, le célèbre phénomène de la perception de la
fondamentale absente. Cet effet consiste en la perception d'une hauteur tonale qui
correspond à la fréquence fondamentale, mais pourtant physiquement absente, d'une série
harmonique.

Les psychoacousticiens font appel à la théorie du codage temporel de la fréquence, dans


laquelle la période (1/F) du stimulus est codée par l'intervalle entre les décharges nerveuses,
pour expliquer des phénomènes comme celui de la perception de la fondamentale absente.

Il existerait donc deux mécanismes, indépendants l'un de l'autre, de codage de la fréquence


dans la périphérie auditive : la tonotopie et le codage temporel de la fréquence.
6.12.2 Le codage tonotopique de la fréquence et les modèles de reconnaissance de formes

Le principe de ce premier modèle est que la hauteur est corrélée à une position bien définie
sur la membrane basilaire. On parle aussi à propos de la tonotopie de théorie de la
localisation.

Cette théorie repose sur deux postulats :

que l' « analyse fréquentielle » du stimulus dans la cochlée est de nature tonotopique : deux
fréquences pures différentes produisent deux patterns d'excitation différents, et l'excitation
de fibres nerveuses différentes ;

que la hauteur du stimulus est directement liée au pattern d'excitation produit.

Codage spatial :
Tonotopie (tonotopy / place coding)
La première hypothèse est assez bien admise et corroborée par l'expérience.

De la membrane basilaire de la cochlée au cortex auditif, le système auditif des mammifères


est basé sur une organisation tonotopique. Ceci signifie qu'à chaque étage de ce système,
l'emplacement du maximum d'activité mécanique ou électrique évoquée par un son pur varie
systématiquement et régulièrement avec la fréquence de ce son.

Chaque fibre du nerf auditif fonctionne comme un filtre passe-bande (voir figure) centré sur
une fréquence caractéristique.

On sait depuis longtemps qu'il existe une relation simple entre la localisation sur la membrane
basilaire de la CCI qu'une fibre innerve et sa fréquence caractéristique.

Un son pur de niveau d'intensité quelconque se trouve représenté, au niveau du nerf auditif,
par un pattern d'excitation dont l'emplacement traduit la fréquence du son. C'est le codage
tonotopique de la fréquence : le codage de la fréquence par l'endroit d'excitation maximale.

http://psych.hanover.edu/JavaTest/Media/Chapter10/MedFig.Ear.html
Champ de réponse d'une fibre du nerf cochléaire dans le plan intensité-fréquence.

En périphérie de l'image, on assiste à la


décharge spontanée de quelques
potentiels d'action isolés représentant
le rythme de base (ou de repos) de la
fibre. C'est clairement lorsque les
fréquences sont voisines de 10 kHz que
la fibre répond aux intensités les plus
faibles. Cet accord étroit de la fibre
autour de 10 kHz persiste du seuil
absolu (-75 dB) à 15 dB soit sur une
dynamique de 60 dB. La fréquence de
10 kHz à laquelle la fibre répond pour
les intensités les plus faibles représente
sa fréquence caractéristique
(Characteristic Frequency : CF). pour
des stimuli plus intenses, la fibre
devient sensible à une large gamme de
fréquences inférieures à CF.
La seconde hypothèse cependant reste controversée.

En effet les sons complexes produisent un pattern d'excitation à maxima multiples, dont le
plus fort ne correspond pas au fondamental, comme le montrent :

l'expérience du fondamental absent,


l'expérience du fondamental masqué par un bruit passe-bas.
La théorie de la tonotopie ne rend donc pas complètement compte de la perception de
hauteur des sons complexes, à moins qu'on n'y ajoute l'idée d'un traitement postérieur au
niveau central. C'est ce que suppose Terhardt lorsqu'il propose (en 1969/70) l'algorithme
suivant :

Traitement de la cochlée :
Analyse spectrale du signal (qu'on peut modéliser par exemple par une sur FFT 800 points,
qui donne l'énergie dans 400 canaux fréquentiels),
Extraction des composantes du son (en ne retenant que les points d'analyse comportant
de l'énergie, on identifie par exemple 50 partiels),
Evaluation de l'effet de masque (connaissant les courbes d'effet de masque des sons purs,
on élimine ceux qui ne sont pas perçus ; il reste par exemple 10 partiels, qui sont autant de
« hauteurs spectrales » possibles).

Traitement du système nerveux central :


Pondération des composantes (par la courbe empirique du « poids spectral » vue plus
haut),
Extraction des hauteurs virtuelles (soit les sous-harmoniques d'un partiel « dominant », de
fréquence proche de l'espacement entre les hauteurs spectrales ; on obtient par exemple 4
hauteurs virtuelles).

Rappelons que suivant le cas, les composantes spectrales solitaires peuvent être entendues
individuellement, tandis que les composantes spectrales en relations harmoniques seront
entendues groupées.
6.12.3 Le codage temporel de la fréquence
Selon cette autre hypothèse la perception de la hauteur dépendrait du rythme et du pattern
de décharges des fibres nerveuses. On parle aussi de la théorie de la périodicité à propos du
codage temporel. Cette théorie se base sur la propriété de « verrouillage de phase ».

Nous avons déjà vu comment le verrouillage de phase des potentiels d'action du nerf auditif
peut contenir une information de nature temporelle sur la période, donc la fréquence du
stimulus.

Il est très important de faire remarquer d'emblée, que le verrouillage de phase ne prend
place que pour des stimuli de basse fréquence en raison de l'effet de filtre passe-bas
qu'exercent les propriétés électriques de la membrane des CCI sur le potentiel
microphonique dont le caractère oscillatoire est indispensable pour déclencher un
verrouillage de phase.

La limite en fréquence du verrouillage de phase varie d'une espèce à l'autre : elle est voisine
de 5 kHz chez le chat, de 3 kHz chez le cochon d'Inde, on ne la connaît pas avec précision
chez l'Homme, elle est observée (seulement jusqu'à 5 kHz ; mais justement, la perception de
hauteur est très déréglée au-delà).
Codage temporel :
synchronisation (phase locking)
La figure ci-dessous illustre cet aspect temporel du codage des fréquences dans le système
auditif.

Codage temporel de l'information fréquentielle :


patterns des réponses des fibres du nerf auditif de
différentes fréquences caractéristiques, à un train
d'impulsions à 200 Hz.
6.12.4 Codage temporel vs codage tonotopique de la fréquence.
Historiquement les deux mécanismes ont souvent été considérés comme mutuellement
exclusifs, et le fait de savoir lequel des deux était responsable du codage de la fréquence a
donné lieu à de violents débats. Nous n'en sommes plus là de nos jours, où l'on admet que le
codage de la fréquence repose plus que probablement sur un mélange des deux mécanismes.

Nous allons passer en revue quelques uns des arguments les plus convaincants en faveur de
l'existence de l'un et de l'autre mécanisme.

Arguments en faveur de la « reconnaissance de formes »

Seul ce modèle permet de proposer une explication à divers phénomènes :


Les sons de Zwicker,
l'expérience du fondamental absent,
la prédominance des harmoniques basses ou « résolvables », dans la perception de hauteur,
la diplacousie, pathologie dans laquelle la perception de hauteur diffère sur les deux oreilles.

Arguments en faveur du codage temporel

Ce modèle permet d'expliquer que des hauteurs peuvent être discernées :


alors que les harmoniques présentes sont de fréquences trop proches pour être résolvables,
ou quand les stimuli n'ont pas de structure spectrale bien définie (comme les bruits modulés,
qui produisent une perception de hauteur correspondant au rythme de la modulation).
6.12.4.1 Un argument en faveur de la tonotopie, les sons de Zwicker

Les sons de Zwicker consistent en un effet consécutif de type « after image » que l'on obtient
en faisant écouter de manière prolongée un bruit dont le spectre présente un trou d'environ
une demie octave dans une région fréquentielle donnée.

Quand on arrête l'exposition au bruit, la sensation consécutive (le son de Zwicker, perçu en
l'absence de tout stimulus externe) est très comparable celle qu'évoque un son pur de
fréquence située dans la région du trou spectral et se modifie avec la fréquence centrale de ce
trou.

Il est possible d'apparier en hauteur tonale un son de Zwicker et un son pur réel (par
ajustement de fréquence de ce dernier) avec une précision de l'ordre de 2%.

Le phénomène mis en évidence par Zwicker étaye fortement la réalité du codage tonotopique
car il n'y a aucune raison de penser que l'activité nerveuse correspondant au son fantôme
possède une structure temporelle fine.

L'interprétation que l'on donne à la perception des sons de Zwicker est la suivante : dans un
ensemble de neurone organisés tonotopiquement, les neurones dont la fréquence
caractéristique se situe dans la région du trou spectral ont, immédiatement après la cessation
du bruit induisant la perception du son-fantôme, une cadence moyenne de décharge
supérieure à celle des autres neurones « fatigués » ou « adaptés » par le bruit.
6.12.4.2 Un argument en faveur du codage temporel, la perception hors fréquence
caractéristique.

Un des arguments les plus convaincants en faveur de la réalité du codage temporel provient
des études de perception de la hauteur tonale de sons purs monauraux chez des patients
présentant des anomalies cochléaires unilatérales élevant le seuil de manière sélective dans les
basses fréquences.

Chez de tels sujets, on peut s'attendre à ce que la détection d'un son de basse fréquence soit
due à l'activation de neurones de fréquence caractéristique supérieure, recrutés par la queue
de leur courbe d'accord.

La réalité de cette hypothèse est démontrable par le relevé des courbes d'accord
psychoacoustiques en utilisant comme son test le stimulus de basse fréquence, comme
démontré par la figure suivante :
Audiogramme et courbes d'accord
psychoacoustiques d'un sujet réalisant une
perception hors fréquence caractéristique. Les
symboles  et indiquent le niveau et la
fréquence du son pur test.

Contrairement au sujet normal, le patient


perçoit les deux stimuli de basse fréquence
grâce à des unités sensorielles de haute
fréquence caractéristique.
Si le mécanisme tonotopique était le seul enjeu, une telle situation devrait conduire à une
perception de hauteur tonale correspondant à la fréquence caractéristique des fibres ayant
réalisé la détection du stimulus. Or, les épreuves d'appariement à un son pur via l'oreille
normale montrent que le stimulus détecté « hors fréquence caractéristique » est perçu avec
une hauteur tonale correcte. Seule l'intervention du codage temporel permet d'expliquer de
telles observations.

Ce type d'observation est l'occasion d'insister sur le fait que si l'audiogramme tonal nous
renseigne correctement sur l'intensité minimale qu'un son d'une fréquence donnée doit
atteindre pour être perçu, il n'est en rien le reflet nécessairement correct de la distribution de
la pathologie le long de l'axe tonotopique de la cochlée. En effet dans l'exemple ci-dessus, le
seuil audiométrique relevé aux basses fréquences ne doit en aucune manière être interprété
comme témoignant d'une élévation modérée des seuils tonotopiques locaux de 250 à 1500
Hz, puisque de toute évidence ces fréquences sont perçues par la base de la cochlée. Le profil
audiométrique ne reflète donc pas fidèlement le profil des lésions le long de l'axe tonotopique
cochléaire : il s'agit d'une technique fréquence-spécifique et non tonotopique-spécifique.
6.12.4.3 Un argument en faveur du codage temporel, harmoniques non résolvables

Resolved harmonics fall into different auditory filters. A different set of harmonics will create
a different activity pattern across auditory filters.
Unresolved harmonics pass through the same auditory filter. Different sets of harmonics could
create the same pattern of activity across auditory filters. So if you hear different virtual
pitches when the harmonics are unresolved, then you can’t be using a pattern to do that
because the pattern is the same. You could be using temporal information because the
combined waveform of the harmonics repeats at the rate of the fundamental frequency.
Remember that auditory filters are wider (in terms of linear Hz) at high frequencies. So
generally unresolved harmonics will occur at high frequencies. So this would be a case where
we are using phase-locking to low-frequency modulations of a high-frequency carrier to
identify sound.
For the resolved harmonics, the neurons will be phase-locked to the fine structure of each
harmonic. For the unresolved harmonics, the neurons will be phase-locked to the envelop of
the sound, which has a periodicity of 200 Hz, the fundamental frequency.
A sinusoidally amplitude modulated noise does not create a spectral “pattern”; it elicits
about the same activity over the whole basilar membrane. But we know that auditory nerve
fibers will phase-lock to the amplitude modulation. But SAM noise has a pitch that
corresponds to the rate of amplitude modulation that is strong enough that people can
identify melodies played with SAM noise.
6.12.4.4 Un double codage de la fréquence associé aux deux dimensions de la sensation de
hauteur ?

La tendance actuelle est très clairement d'admettre, du moins pour les sons de fréquence
inférieure à 5 kHz, l'existence de deux mécanismes concomitants et indépendants pour le
codage de la fréquence.

Cette notion de l'existence de deux mécanismes indépendants du codage de la hauteur tonale


des sons purs pourrait bien correspondre à ce que certains auteurs décrivent comme une
double qualité de hauteur tonale.

Plusieurs auteurs défendent l'idée qu'outre la hauteur tonale d'un son pur qui varie le long de
la dimension « grave - aigu » lorsqu'on modifie sa fréquence, il existe une autre qualité de
hauteur tonale : le chroma.

Le chroma serait une qualité selon laquelle deux sons purs dont le rapport de fréquence est 2 -
et qui forment donc un intervalle d'octave - sont similaires ou identiques..
Comme nous l'avons dit, la hauteur tonale (ou fondamentale) possède la dimension linéaire «
différenciation grave-aigu » (la tonie) et la dimension circulaire « position de la note dans une
octave » (le chroma).

Le psychologue Roger Shepard a proposé de


déformer l‘échelle habituellement rectiligne des
hauteurs en une simple hélice faisant un tour
complet par octave.

La dimension linéaire « grave-aigu » est représentée


par la dimension verticale, et les notes de la gamme
sont représentées par des positions distinctes sur le
cercle des chromas : toutes les fréquences
correspondant a le même chroma (tous les la par
exemple) seront projetées sur le même point d'un
cercle.

Sur cette structure en hélice, un accroissement de


similarité est représenté par une distance de
séparation réduite (par exemple, une octaviation, de
C à C’ sur la figure).
Roger Shepard propose une seconde structure tridimensionnelle en
double hélice combinant l'échelle rectiligne des hauteurs et le cycle
des quintes (cf. échelle de Pythagore).

Cette structure a les propriétés suivantes :

les tons inclus dans une tonalité majeure particulière sont séparés
des tons qui ne le sont pas par un plan vertical passant par l'axe de la
double hélice. Par exemple, le plan passant par B-F (si-fa) sépare les
tons présents dans do majeur et ceux qui ne le sont pas.

la transposition dans les tonalités les plus proches sont obtenues
par les plus petites rotations du plan vertical. Par exemple, les plans
passant par F (fa) et G (sol) sont proches du plan passant par C (do).
Plusieurs arguments plaident en faveur de l'existence de cette dimension perceptive
supplémentaire qu'est le chroma :

Certains sujets s'avèrent capables d'identifier avec une précision presque parfaite, la
hauteur tonale d'un son pur isolé en tant que note musicale. Mais les rares erreurs que
commettent ces sujets sont des confusions d'octave. Ainsi, alors qu'ils ne prendront jamais un
fa2 (174,6 Hz) pour un si2 (246,9 Hz), ils le prendront parfois pour un fa3 (349,2 Hz). Tout se
passe donc comme si dans ces cas de confusion, les sons étaient identifiés sur base de leur
chroma plus que sur base de leur qualité grave/aigu.

Une mélodie familière formée de sons purs reste reconnaissable lorsqu'on augmente d'une
ou deux octaves les intervalles musicaux entre les sons successifs qui la composent. Elle est
plus difficile à reconnaître lorsque les intervalles sont augmentés d'une quantité différente.

Tout bon musicien est parfaitement capable d'identifier l'intervalle mélodique que forment
deux sons purs successifs en tant que tierce, quarte... lorsque les deux sons ont une
fréquence comprise entre 60 et 5000 Hz. Cependant, au-delà de ces limites fréquentielles,
identifier un intervalle devient assez subitement plus difficile, bien que la qualité auditive
évoquée par un son pur continue de changer. L'explication proposée à ces constatations est
que le corrélat perceptif d'un intervalle musical est un intervalle de chromas et que le
domaine fréquentiel d'existence du chroma est plus restreint que celui de la qualité grave
aigu. Alors que le domaine de cette dernière se confondrait avec l'ensemble des fréquences
audibles, seuls les sons de fréquence comprise entre environ 60 et 5000 Hz posséderaient un
chroma.
Selon certains auteurs, le chroma serait codé temporellement et la tonie serait codée
tonotopiquement.

Les patients porteurs d'un implant cochléaire peuvent fournir des observations intéressantes à
ce sujet. Rappelons d'abord que les implants mono-électrodes qui avaient cours dans les
années 80 ne pouvaient évidemment offrir un substitut du codage tonotopique, et que le
codage de la fréquence qu'ils offraient était de nature temporelle, basé sur le rythme de
stimulation des fibres du nerf auditif. Ce type d'implant procurait de nettes sensation de
hauteur tonale en accord avec le code temporel utilisé.

Les implants actuels, multi-électrodes et aux multiples possibilités de programmation


permettent des explorations encore plus fines : on a par exemple montré qu'en excitant le
nerf auditif par des stimuli périodiques qui diffèrent de trois façons possibles (leur période ;
l'emplacement tonotopique des fibres stimulées ; une combinaison des deux variables
précédentes) la variable « période de stimulation » et la variable « emplacement tonotopique
» évoquent des effets perceptifs qualitativement complètement indépendants. Ceci renforce
l'opinion selon laquelle il existerait bien deux qualités de hauteur tonale codées distinctement
par le nerf auditif.
Les auteurs qui attribuent à la tonie un codage tonotopique et au chroma un codage
temporel le font par pure spéculation, mais non sans s'appuyer sur une solide logique.

Le chroma étant défini comme une qualité sensorielle que partagent deux sons purs à
distance d'octave, il est logique que deux sons purs à l'octave aient des codes de chroma
similaires. Or, ce serait bien le cas si le code du chroma était temporel : les intervalles de
temps entre les potentiels d'action qu'induit, dans le nerf auditif, un son pur de fréquence f
correspondent à 1/f, 2/f, 3/f.. Les mêmes intervalles seront également présents pour un son
pur de fréquence f/2, sub-octave de f.

Contrairement au chroma, la tonie (qualité « grave-aigu ») varie de façon monotone avec la


fréquence, ce qui est logique si son code est de nature tonotopique.
Circularité de la perception de la hauteur - Sons de Shepard et Risset

Produit de la synthèse additive, ces sons donnent l'illusion d‘être constamment « montant »
ou « descendant ». Ce sont les équivalents auditifs des peintures d'escaliers de M.C. Escher.

Glissando montant indéfiniment


Pour réaliser ces sons, il faut composer un son complexe par synthèse additive a partir de
partiels séparés par des octaves. Les fréquences composant le spectre de ces sons sont donc
proportionnelles a f; 2f; 4f; 8f; 16f; etc. C'est comme si on enlevait d'un son complexe
harmonique toutes les fréquences harmoniques qui ne sont pas des puissances de 2. Comme
illustre sur la figure ci-dessous, l'amplitude des composantes spectrales doit suivre une
enveloppe spectrale en forme de cloche. Pour produire un son qui semble « monter
indéfiniment », toutes les composantes spectrales montent de demi-tons en demi-tons,
simultanément. Elles s'atténuent progressivement et disparaissent dans les hautes
fréquences et réapparaissent progressivement dans les basses fréquences.
Risset a aussi créé un effet similaire avec des rythmes, dans lequel le tempo semble
décroître ou au contraire croître sans cesse.

Voici un exemple de travaux effectués pas Risset: un son paraissant descendre la gamme et
devenant pourtant plus aigu, avec des battements qui paraissent ralentir mais qui
deviennent cependant plus rapides, et donnant l'impression de tourner dans l'espace (un
peu comme une bille roulant sans cesse).
6.12.5 Échelles naturelles de la membrane basilaire

La membrane basilaire de l'homme adulte a une longueur moyenne de 32 mm. Considérant


que les fréquences audibles se répartissent de l'apex à la base de 20 à 16000 Hz, on peut
postuler que l'échelle qui décrit le lien entre la position de l'excitation maximale et la
fréquence du stimulus est linéaire jusqu'à 500 Hz et logarithmique au-delà.

A partir de cette échelle tonotopique, on peut, sur base de tout ce qui a été discuté dans ce
chapitre, calculer les différentes échelles de tonie, hauteur harmonique, hauteur
mélodique... et dessiner la figure :
Puisque la membrane basilaire peut être considérée comme une batterie de filtres passe-
bandes et que les 620 échelons décelables de tonie se répartissent régulièrement le long
des 32 mm de celle-ci, chaque échelon de tonie correspond :

à 32mm/620, soit ≈52µm


à 3500/620, soit ≈ 6 cellules ciliées
à 2400/620 soit ≈ 3,9 mels
à 24/620 soit ≈0,0039 barks

L’échelle des mels montre comment l’oreille transforme le lieu d’excitation principale sur la
membrane basiliaire en sensation de hauteur sonore.

La distance du lieu d’excitation principale par rapport à l’hélicotrème est divisée par deux
lorsque la tonie en mels décroît de moitié.
6.12.6 Résumé du codage de la fréquence pour les sons purs : un modèle mixte

Aucun des deux mécanismes (tonotopique et temporel) n'est capable, à lui seul, de rendre
compte des performances psychoacoustiques de perception de la hauteur tonale des sons
purs sur l'ensemble du spectre audible. Une série d'arguments expérimentaux suggèrent que
chez l'Homme, si le codage tonotopique est opérationnel sur quasi tout le spectre audible, ce
serait le mécanisme temporel qui contribuerait significativement à l'optimalisation des
performances aux basses fréquences (sous 4-5 kHz). Le mécanisme tonotopique reste le seul
opérationnel aux fréquences supérieures auxquelles le phénomène de verrouillage de phase
n'existe plus.
6.13 Hauteur tonale des sons complexes
En ce qui concerne la perception de la hauteur tonale des sons complexes, il s'avère
rapidement que la théorie tonotopique rencontre beaucoup de difficultés à l'expliquer.

Beaucoup de sons complexes qui pourtant évoquent une claire sensation de hauteur tonale
ne produisent pas de maximum vibratoire localisé à l'endroit tonotopique correspondant !
6.13.1 Les sons complexes harmoniques.
Dans la vie courante, nous sommes peu exposés aux sons purs : l'environnement sonore
naturel est essentiellement composé de sons complexes, dont beaucoup, à haute valeur
éthologique, ont pour caractéristique d'être périodiques.

Un son complexe est dit périodique lorsqu'il sa structure temporelle se répète à une
fréquence donnée, dite fréquence fondamentale. Les voyelles et les sons produits par la
plupart des instruments musicaux ont une telle structure.

Selon le théorème de Fourier, n'importe quel son complexe périodique peut être décomposé
en une somme de sons purs dont chacun a une fréquence de la forme n*f où n est un
nombre entier et f est la fréquence fondamentale égale à 1/p avec p représentant la période
du son.

Un son complexe périodique est dit harmonique lorsque les sons purs constituant ses
composantes spectrales ont des fréquences qui sont des multiples entiers successifs de f :
chaque composante de fréquence n*f (sauf la dernière) est suivie d'une composante de
fréquence (n+l)*f. Tout autre son complexe périodique est dit inharmonique.

Une propriété remarquable des sons complexes harmoniques est qu'ils évoquent, malgré un
spectre de fréquence parfois très riche, une claire sensation de hauteur tonale unitaire,
correspondant à la fréquence fondamentale.
Lorsqu'on demande à un auditeur humain d'apparier la hauteur tonale d'un son pur, de
fréquence ajustable, à celle d'un son complexe périodique harmonique, l'auditeur ajuste la
fréquence du son pur à une valeur très voisine de la fréquence fondamentale. Autrement dit,
le sujet réalise l'ajustement de telle sorte que le son pur ajusté et le son complexe aient des
périodes identiques.

Lorsque des erreurs d'ajustement ont lieu, elles ont tendance à se concentrer sur 2f ou f/2,
c’est-à-dire qu'elles correspondent à des erreurs d'octave.

Lorsqu'apparaissent des difficultés d'appariement de sons complexes, les sujets les attribuent
à la différence de timbre entre le son complexe périodique harmonique et le son pur. Cette
notion de timbre est liée au contenu spectral du son. Le timbre est la qualité d'un son qui
permet de différencier entre eux deux sont qui possèdent par ailleurs la même hauteur
tonale, la même sonie et la même durée. Ainsi, la même note, jouée avec la même intensité
et la même durée sur un violon et un violoncelle sera perçue avec un timbre différent parce
que les deux instruments produisent un son complexe de même période avec un profil
spectral différent : les amplitudes relatives des différents composantes spectrales ne sont
pas les mêmes. Lorsque le profil spectral favorise les harmoniques supérieurs d'un son par
rapport à l'autre, on le trouve plus « brillant ». On utilise également les termes grave et aigu
pour décrire les sensations liées au timbre
6.13.2 L’affaire de la fondamentale absente

Quand on étudie la répartition tonotopique des maxima vibratoires induits par un son
complexe harmonique, on constate souvent qu'il n'y a pas de relation entre la sensation de
hauteur tonale et la localisation des pics vibratoires. Ce paradoxe est particulièrement bien
mis en évidence par ce que l'on connaît dans la littérature comme l'affaire ou le mystère de la
fondamentale absente.

Considérons un son constitué d'une structure spectrale harmonique comportant des raies à
200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000 Hz... Un tel son possède une claire
hauteur tonale à 200 Hz.

Si on le filtre, de manière à élimer complètement la raie spectrale à 200 Hz, le timbre du son
se modifie un peu, mais la hauteur tonale reste inchangée : on continue à l'ajuster en
fréquence à un son pur de 200 Hz, alors qu'il ne possède aucune énergie acoustique à cette
fréquence (voir figure suivante pour l'illustration d'un tel profil spectral).
Représentations temporelles (colonne de gauche) et spectrales ou fréquentielles (colonne de
droite) de deux stimuli : une bouffée tonale, caractérisée par un spectre étroit centré sur la
fréquence nominale de la bouffée sinusoïdale et un son complexe formé des deuxièmes,
troisièmes, quatrièmes et cinquièmes harmoniques d'une fréquence fondamentale (celle de
la bouffée tonale du haut de l'image) qui elle n'est pas présente. Il s'agit d'un stimulus de
structure harmonique, à fréquence fondamentale absente. La hauteur tonale de ce stimulus
est la même que celle de la bouffée tonale.
Si l'on masque, par un bruit en bande étroite, la région tonotopique de 200 Hz, la perception
de hauteur tonale ne se modifie pas, ce qui démontre clairement l'indépendance du
phénomène par rapport au mécanisme de codage tonotopique. La figure ci-dessous illustre
cette expérience

Masquage sélectif par un bruit à bande étroite, de la région tonotopique correspondant à la


fréquence fondamentale absente (en bas) et au son pur qui lui est apparié (en haut). Colonne
de gauche : représentation temporelle du stimulus et du masque, colonne de droite :
représentation spectrale.
En fait, la sensation de hauteur tonale correspondant à la fréquence fondamentale persiste
même si l'on réduit la série harmonique à quelques raies spectrales de moyenne fréquence.

Cette hauteur tonale correspondant à une fréquence fondamentale absente a été appelée
sous divers noms dans la littérature de langue anglaise : residue pitch, virtual pitch, periodicity
pitch, low pitch. En français, on parle parfois de hauteur fondamentale.

6.13.2.1 La discrimination de la hauteur tonale de sons complexes.

Lorsque le rythme de répétition d'un son complexe se modifie, tous les composants spectraux
se modifient en fréquence dans la même proportion et la hauteur tonale perçue se modifie
de même. Les performances de détection d'une telle modification de hauteur tonale se
révèlent supérieures à celles observées pour un son pur à la même fréquence ainsi que pour la
modification de fréquence de chacun des composants spectraux.

Ceci suggère fortement que l'information contenue dans les différents harmoniques est
combinée, intégrée par le système auditif dans la détermination de la hauteur tonale.

Des modifications de période d'environ 0,2% peuvent être détectées pour des fréquences
fondamentales comprises entre 100 et 400 Hz.
6.13.2.2 L'analyse d'un son complexe par la périphérie auditive.
La figure ci-dessous schématise la manière dont un son complexe périodique harmonique est
analysé dans le système auditif périphérique. Le son consiste en une succession de clics qui se
répètent à 200 Hz. Le spectre d'un tel son est un spectre de raies qui contient de nombreux
harmoniques de la fréquence fondamentale à 200 Hz.
Dans cette figure, la périphérie auditive se comporte comme une
série de 17 filtres passe-bande dont les fréquences centrales
sont indiquées à gauche.

Face à chaque fréquence centrale, la sortie du filtre est


représentée dans le domaine temporel.
Aux basses fréquences, les filtres dont la fréquence centrale
correspond à un harmonique (200, 400, 800 Hz) transmettent
cet harmonique, tandis que ceux dont la fréquence centrale est
éloignée des raies spectrales (159, 252, 317, 504 Hz) ne laissent
passer pratiquement aucun signal.

Simulation de la réponse vibratoire de la membrane


basilaire à une série de clics délivrés au rythme de 200 Hz.
Les valeurs à gauche de chaque courbe indiquent la
fréquence de résonance à cet endroit. L'onde vibratoire qui
serait observée à cet endroit identifié par sa fréquence de
résonance est tracée en regard.
Aux basses fréquences, les harmoniques sont donc bien séparés, bien résolus par les filtres
périphériques. Aux fréquences centrales supérieures, comme la largeur des filtres s'élève avec
la fréquence centrale (voir le chapitre sur les bandes critiques), les harmoniques ne sont plus
isolés, plus résolus et la réponse du filtre devient un signal complexe, fait d'un mélange de
deux ou plusieurs harmoniques qui se répètent à la fréquence fondamentale.

Si l'on supprime, par filtrage du stimulus ou par masquage sélectif l'harmonique


correspondant à la fréquence fondamentale, voire les trois ou quatre premiers harmoniques,
l'information sur la fréquence fondamentale reste présente sous forme du rythme de
répétition du signal dans les filtres qui transmettent les harmoniques supérieurs non résolus.

Donc, sur la membrane basilaire, à des localisations tonotopiques où les harmoniques


supérieurs du signal complexe sont incomplètement résolus, la réponse vibratoire est
complexe et présente un rythme de répétition égal à la fréquence fondamental du stimulus.
6.13.2.3 Les théories classiques sur la perception de hauteur tonale des sons complexes.
L'énigme de la perception de la fondamentale absente a fait couler beaucoup d'encre et
suscité bien des théories. Un résumé raisonnable de ces théories est le suivant.

On peut considérer qu'il existe deux grandes classes de théories datant d'avant 1980 : les
théories spectrales et les théories temporelles.

Pour les théories spectrales, la première étape est une analyse fréquentielle qui résout la
fréquence d'au moins quelques composants spectraux du son complexe. L'étape suivante
consiste en une reconnaissance de pattern par le système nerveux qui cherche à quelle série
harmonique (donc à quelle hauteur fondamentale) correspondent le mieux les quelques
composants résolus. Pour cette classe de théories, ce sont donc les harmoniques inférieurs
résolus qui déterminent la hauteur tonale fondamentale.

Pour les théories temporelles, c'est l'inverse qui est soutenu : la hauteur tonale fondamentale
est basée sur le rythme de répétition, le pattern temporel de la réponse à des endroits
tonotopiques élevés où les harmoniques ne sont pas résolus.

Nous verrons plus loin, après avoir précisé certaines notions supplémentaires, qu'il existe des
théories plus récentes de nature mixte.
6.13.2.4 La région d'existence de la hauteur fondamentale

A en croire les théories spectrales, une hauteur fondamentale ne peut être entendue que si
au moins quelques harmoniques sont résolus. Différentes investigations ont montré que la
sensation ne persistait que si l'ordre des harmoniques n'était pas trop élevé (inférieur à 20),
mais que le phénomène restait clairement présent pour des ordres d'harmoniques compris
entre 10 et 20, ce qui correspond à des fréquences suffisamment élevées que pour proscrire
leur résolution. Ceci favorise donc les théories temporelles.

6.13.2.5 Le principe de dominance

Une autre série d'expériences a défini quels étaient les composants du son complexe les plus
importants dans la détermination de la hauteur fondamentale. Les résultats ont montré que
pour des fréquences fondamentales comprises entre 100 et 400 Hz, c'étaient surtout les
troisième, quatrième et cinquième harmoniques qui déterminaient la hauteur fondamentale.
Ces résultats favorisent plutôt les théories spectrales parce que ces harmoniques sont bien
résolus en périphérie. Le concept de dominance nous indique que si de l'information sur la
hauteur fondamentale est disponible sur une grande partie de l'axe tonotopique, le système
auditif n'utilise guère que l'information provenant d'une zone étroite, positionnée sur une
étendue allant de 3 à 5 fois la hauteur fondamentale. Le positionnement précis de cette
bande semble variable d'un sujet à l'autre au point de glisser vers les deux premiers
harmoniques chez certains sujets.
6.13.2.6 La hauteur fondamentale de complexes dichotiques.
Il peut suffire de deux harmoniques d'ordre successifs (par exemple les 4 et 5) pour évoquer
une hauteur tonale à la fréquence de la fondamentale absente. On peut même obtenir l'effet,
quoique très faiblement, en appliquant les deux harmoniques de manière dichotique : l'un
dans l'oreille droite, l'autre dans l'oreille gauche. Ceci suggère l'intervention d'un processeur
central situé en aval de la convergence binaurale dans les vies auditives.

6.13.2.7 La théorie spectro-temporelle la perception de hauteur tonale des sons complexes.


De tout ce qui a été exposé plus haut découle la conclusion que ni les théories spectrales ni les
théories temporelles ne peuvent expliquer complètement les observations sur la perception de
la hauteur tonale des sons complexes. Ceci a conduit à des théories récentes dites spectro-
temporelles dans lesquelles les deux mécanismes jouent un rôle.

Dans les théories spectro-temporelles, l'analyse spectrale, tonotopique initiale est suivie d'une
analyse de pattern temporel à chaque endroit tonotopique.
Pour tenter d'expliquer l'ensemble des propriétés de notre perception de la hauteur, Moore a
proposé une combinaison des deux modèles, qu'on peut représenter schématiquement ainsi :

Modèle de la perception de la hauteur tonale des sons complexes


combinant les modèles de codage tonotopique et temporel . Ce modèle
est souvent appelé le modèle de Moore & van Noorden.
On retrouve dans ce modèle, la série de filtres passe-bandes périphériques ou bandes critiques
dont la réponse à un son complexe harmonique est illustrée par la figure du paragraphe
6.13.2.2, avec résolution des harmoniques inférieurs et signal sinusoïdal et non résolution des
harmoniques supérieurs conduisant à des signaux complexes à la sortie des bandes critiques
de fréquence centrale élevée.

L'étape suivante dans le modèle est la transduction neurale, c’est-à-dire la


transformation du signal vibratoire en décharge de potentiels d'action dans les unités
sensorielles primaires. Le pattern temporel de décharge dans une unité sensorielle donnée
reflète la structure temporelle du stimulus vibratoire à la localisation tonotopique qu'innerve
ce neurone. Prenant comme base de raisonnement les données de la figure du paragraphe
6.13.2.2, on voit que le neurone accordé sur 800 Hz (quatrième harmonique du fondamental)
est piloté par une vibration sinusoïdale correspondant à un harmonique bien résolu. Il répond
donc comme s'il était stimulé par un son pur de 800 Hz. A une telle fréquence de stimulation,
le verrouillage de phase est bien présent et les intervalles entre les potentiels d'action sont
des multiples entiers de la période correspondant à 800 Hz, soit 1,25 ; 2,5 ; 3,75 ; 5,0 ... msec.
Les unités sensorielles de fréquence caractéristiques supérieures, disons 2000 Hz, sont eux
pilotés par une vibration complexe, incomplètement résolue. La structure temporelle de ses
décharges est donc plus complexe : chaque pic de dépolarisation est capable d'évoquer un
potentiel d'action, et donc l'intervalle correspondant à sa fréquence caractéristique (5,0 msec)
est présent mais on observe aussi d'autres intervalles tels que 4,0 ; 4,5 ; 5,5 et 6,0 msec.
L'étape suivante dans le modèle consiste en l'analyse, indépendante pour chaque fréquence
caractéristique, des intervalles entre les potentiels d'action.

Ensuite vient une étape où les intervalles sont comparés entre les différents canaux
fréquentiels à la recherche d'intervalles communs. Un mécanisme décisionnel identifie
l'intervalle commun le plus fréquemment rencontré et en infère la hauteur fondamentale du
stimulus.

Considérons, à titre d'exemple, comment ce modèle traite un son complexe constitué de


quelques harmoniques inférieurs, disons les troisièmes, quatrièmes et cinquièmes d'une
fondamentale absente à 200 Hz.

Dans les neurones centrés sur 600 Hz, l'analyse des intervalles de décharge montrerait des
intervalles de 1,67 ; 3,33 ; 5,0 ; 6,67... msec.

Dans le « canal » centré sur 800 Hz, on trouve des intervalles valant 1,25 ; 2,5 ; 3,75 ; 5,0....
msec.

Dans les neurones centrés sur 1 kHz, on trouve les intervalles 1,0 ; 2,0 ; 3,0 ; 4,0 ; 5,0... msec.

Le seul intervalle commun est 5,0 msec, ce qui correspond bien à 200 Hz, la fréquence de la
fondamentale absente et ce stimulus évoque une claire sensation de hauteur tonale à 200 Hz.
Considérons maintenant un son complexe constitué de trois harmoniques supérieurs,
disons les douzièmes, treizièmes et quatorzièmes harmoniques d'une fondamentale absente
à 200 Hz. Ces harmoniques non résolues produisent des intervalles divers centrés de manière
assez serrée sur 5,0 msec. Il en résulte, en accord avec la perception psychoacoustique une
hauteur fondamentale faible et ambiguë.

Cette théorie explique bien les observations psychoacoustiques selon lesquelles les
harmoniques inférieurs tendent à dominer la perception de hauteur fondamentale :
l'information temporelle qu'ils procurent est très claire, d'autant plus qu'elle peut être
combinée entre différents canaux les résolvant. La hauteur fondamentale associée aux
harmoniques supérieurs peut être rendue plus claire en augmentant le nombre
d'harmoniques pour améliorer la précision grâce à un nombre supérieur de comparaisons
entre plus de canaux.

Le modèle est aussi compatible avec les observations de hauteur fondamentale dichotique si
l'on postule l'existence d'une batterie de filtres, d'un mécanisme de transduction neurale et
d'un analyseur d'intervalles pour chaque oreille suivi d'un comparateur d'intervalles central,
ayant accès aux données de chaque oreille.
7 Dimension temporelle
7.1 Introduction : code neural primaire représentant les aspects temporels

La dimension temporelle des stimuli acoustique est plus complexe que les deux précédentes
(sonie et tonie). Le décours temporel d'un stimulus consiste en des variations, des
modulations d'intensité et/ou de fréquence au cours du temps. En audition, le décours
temporel du signal acoustique revêt un rôle particulièrement important dans le codage de
l'information associée.

Ceci est particulièrement vrai pour le langage dont une part importante de l'information est
codée par des variations spectrales rapides.

Ainsi comme l'illustre la figure ci-contre, la différence entre la


perception d'un /ba/ et celle d'un /da/ peut être causée par la
modification de trajectoire d'une seule transition de formant.

Spectrogramme schématique.
Les formants 1,2 et 4 sont fixes. A partir du son digitalisé, on
peut manipuler de manière très sélective la transition du 3eme
formant et lui faire prendre 10 valeurs. La transition 1
(trajectoire ascendante) conduit à la perception d'un /ba/, la
transition 10 (transition descendante) correspond à la
perception d'un /da/.
Le système auditif possède ses propres contraintes temporelles : assimilable à un filtre dans
plusieurs aspects de son fonctionnement, il possède un temps de réponse qui limite ses
performances. En outre, les éléments nerveux possèdent une période réfractaire qui limite
leur rythme de décharge maximal.

Pour faire face à la grande vitesse de modification des signaux acoustiques, le système
auditif est comparativement plus rapide que les autres systèmes sensoriels. Ainsi, nous
sommes capables de détecter l'interruption périodique d'un bruit à large bande jusqu'à des
fréquences de plusieurs kHz, alors que les performances du système visuel ne nous
permettent plus de détecter l'allumage-extinction d'une lampe (flicker fusion test) dès 50 à
60 Hz.
7.2 Enveloppe et structure fine des sons.
Les sons consistent en de rapides variations de pression autour de la pression atmosphérique
du moment. Ces variations rapides (à la fréquence du son pour un son pur) constituent la
structure fine ou microstructure de l'onde sonore et ne sont pas perçues en tant que
dimension temporelle du signal.

Par contre, la plupart des ondes sonores naturelles connaissent des modulations d'amplitude
et/ou de fréquence au cours du temps. C'est le rythme de variation de ces modulations qui
constitue le paramètre temporel auquel notre système auditif est sensible.
La figure précédente illustrait une rapide variation de fréquence, la figure ci-dessous
démontre une variation sinusoïdale d'amplitude qui permet de distinguer les rapides
variations de pression de la fréquence porteuse (microstructure) de l'enveloppe qui décrit le
décours temporel de la modulation d'amplitude.

Notion d'enveloppe (en pointillés) vs microstructure du signal acoustique, à partir de la


modulation sinusoïdale de l'amplitude d'une fréquence porteuse.
7.3 Résolution temporelle.
7.3.1 Définition.
La résolution temporelle, encore appelée acuité temporelle désigne la capacité du système
auditif à répondre à de rapides modifications de son enveloppe.

Si le système auditif est anormalement lent (sa résolution temporelle est amoindrie), la
représentation du message sonore ne sera plus correcte et l'information contenue dans le
signal acoustique sera brouillée.

7.3.2 Limites de la résolution temporelle.


Dans le système auditif, il y a deux sources majeures de limitation des capacités de résolution
temporelle : une source périphérique (cochlée et nerf auditif) et une source centrale.

Les mécanismes centraux de limitation sont beaucoup moins bien connus que les
périphériques.
7.3.2.a Limitations périphériques.
Les mécanismes périphériques de transduction et d'établissement du code neural primaire
possèdent leurs propres contraintes temporelles qui limitent les possibilités d'encodage de
fluctuation rapide de l'enveloppe.

Au niveau de l'organe de Corti, les filtres périphériques (bandes critiques) ne peuvent


transmettre des fluctuations d'enveloppe correspondant à un rythme plus élevé que leur
largeur de bande. C'est donc aux basses fréquences, pour lesquelles les bandes critiques sont
étroites, que la résolution temporelle sera la plus faible.

Par ailleurs, les mécanismes synaptiques et ceux liés à la production du potentiel d'action
imposent leurs propres limitations en raison de leur adaptation et de leur période réfractaire.

La période réfractaire des fibres nerveuses limite le rythme de décharge maximal à moins de
1000 Hz, il faut cependant immédiatement tempérer ce fait par la constatation que chaque
unité de transduction (chaque CCI) est innervée par une escouade de 20 à 30 fibres qui en
raison du caractère aléatoire de leurs décharges de repos ne sont jamais toutes en même
temps dans leur période réfractaire. La petite population de fibres connectées à la même CCI
peut donc par son activité d'ensemble, transmettre vers le noyau cochléaire, un rythme de
décharge bien plus élevé.

Pour les très basses fréquences où le verrouillage de phase peut considérablement allonger
l'intervalle entre les bouffées de potentiels d'action (10 msec pour 100 Hz), on observe une
limitation supplémentaire de la résolution temporelle.
7.3.2.b Limitations centrales.
La nature du code neural est de type binaire : il y a ou il n'y a pas de potentiel d'action. C'est
donc dans le pattern temporel des potentiels d'action qu'est encodée l'information : sous
forme du rythme moyen de décharge, des intervalles entre les décharges...

Pour extraire ce code neural, le système nerveux doit « observer» l'activité durant un temps
minimum nécessaire à calculer le rythme moyen, l'intervalle moyen... Cet intervalle
d'observation minimal constitue bien entendu une limitation à la résolution temporelle.
7.3.3 Estimations de l'acuité temporelle.
Beaucoup d'épreuves psychoacoustiques destinées à mesurer la résolution temporelle
fournissent un résultat des plus simples : le plus petit intervalle de temps qui permet encore la
détection d'une fluctuation de l'enveloppe.

Le problème n'est malheureusement pas aussi simple parce que les modifications d'enveloppe
s'accompagnent nécessairement de modifications d'amplitude et de spectre, et il faut éviter de
confondre, dans les résultats, l'acuité temporelle avec les performances de discrimination
d'amplitude ou de fréquence.

Ainsi, si l'on souhaite tester l'acuité temporelle en mesurant la durée minimale d'interruption
d'un son pur qui est audible, on introduit inévitablement des fréquences supplémentaires
liées aux transitions d'amplitude. Le sujet peut détecter ces transitions sur base de sa
discrimination fréquentielle plutôt que grâce à son acuité temporelle que l'on est sensé tester.
Il convient dès lors de prendre toute une série de précautions à cet égard.
7.3.3.a La détection d'interruption.
La technique la plus fréquemment utilisée pour mesurer l'acuité temporelle est la détection
d'une interruption (« gap détection»). Les sujets doivent détecter la présence d'une brève
interruption dans un bruit à large bande ou un son pur.

L'avantage du bruit à large bande, c'est que son interruption n'ajoute pas de composants
spectraux détectables en tant que tels. Son désavantage c'est qu'en présence d'un
audiogramme anormal, une source additionnelle de variabilité des performances peut
dépendre de la gamme des fréquences qui restent audibles, rendant ainsi les résultats du test
sensibles à un autre paramètre que celui testé.

L'utilisation de sons purs permet le contrôle de la fréquence à laquelle le test se déroule, mais
il est alors nécessaire de masquer les composants spectraux additionnels introduits par
l'interruption.

Les performances normales en bruit blanc sont de 2 à 3 msec et de 4 à 5 msec pour les sons
purs.
7.3.3.b Le test de fusion de clics.
Un autre test couramment employé est le test de fusion de clics : deux clics de même
intensité sont séparés par un bref intervalle. On cherche l'intervalle minimum qui maintient la
perception des deux clics.

Les valeurs normales sont situées entre 2 et 4 msec pour des clics de 100 µsec à 85 dB nHL.

7.3.3.c La fonction de transfert de modulation temporelle.


Une technique de mesure plus sophistiquée consiste à relever la fonction de transfert de
modulation temporelle (Temporal Modulation Transfer Function : TMTF).

Dans cette méthode, un signal porteur (son pur, bruit blanc ou bruit en bande) est modulé en
amplitude par une fonction sinusoïdale d'amplitude m et de fréquence fm (voir figure ci-
dessous).
On étudie, en fonction de la fréquence de modulation fm,, comment évolue le seuil de
détection de la modulation. Pour mesurer ce seuil à une fréquence de modulation donnée, on
fait comparer au sujet les versions modulée et non modulée du signal porteur, et on
détermine la plus petite valeur de m qui permet une distinction.

Chez les sujets normaux, la fonction de transfert de modulation temporelle typique est une
fonction de type passe-bas, horizontale sous 50 Hz puis s'atténuant, comme illustré par la
figure ci-dessous), avec une pente de 4 à 6 dB/octave. Ceci signifie que plus fm s'élève au-delà
de 50 Hz, plus l'amplitude de modulation doit être élevée pour permettre une détection.

Fonction de transfert de modulation


temporelle obtenue en calculant la
moyenne de 4 sujets normaux La
porteuse est un bruit à large bande. La
fréquence de modulation est en abscisse.
En ordonnée, l'amplitude modulation au
seuil de détection de celle-ci. 100% de
modulation correspond à la mise à zéro
de l'amplitude de la porteuse.
7.4 Pouvoir séparateur de l’oreille et quantum acoustique

Le maximum de sensibilité de l’ouïe aux écarts de hauteur (tonie) et de force (sonie) est atteint
pour une durée des impulsions aux alentours de 250 millisecondes. Ceci explique la raison du
choix de 4 Hz comme fréquence de modulation de l’amplitude ou de la fréquence pour la
détermination des seuils différentiels d’intensité ou de fréquence.

D’autre part, deux impulsions identiques qui parviennent au cerveau dans un intervalle de
durée de moins de 50 ms sont perçues sous forme d’une sensation unique. Cette durée est
appelée pouvoir séparateur de l’oreille. Il s’agit d’une valeur statistique ; le pouvoir séparateur
de l’oreille est meilleur chez les sujets jeunes (40 ms dans 50% des cas vers 20 ans).

Provoqué par les réflexions de l'onde sonore son sur une ou plusieurs parois, l'écho montre
une répétition décroissante en énergie. C'est un phénomène sonore isolé temporellement qui
dépend du pouvoir séparateur de l'oreille et apparaît quand le retard entre le son direct et le
son réfléchi est d'environ 50 ms.
Le quantum acoustique montre les plus petites variations audibles par l’oreille humaine. Il
regroupe donc les notions de seuil différentiel en intensité et de seuil différentiel relatif en
fréquence. La troisième dimension représente la durée moyenne de reconnaissance d’un
son. Il faudrait encore ajouter les notions relatives au timbre et à l’évolution sonore.

Intensité ( dB )
2 à 3 dB

2 à 3 %o 35 à 50 msec

Fréquence ( Hz ) Temps de reconnaissance ( msec )


Constante de temps de l'oreille
7.5 Masquage temporel
Le masquage temporel consiste en un effet d'élévation du seuil du signal en raison de la
présence d'un masqueur qui n'est pas physiquement présent au moment de l'application du
signal.

On parle de :

 masquage postérieur ou proactif (forward masking) lorsque le masqueur précède le signal ;


c'est le cas le plus important. Il met en évidence des mécanismes d'inhibition de l'excitabilité
de la cochlée, par une excitation immédiatement antérieure.

masquage antérieur ou rétroactif (backward masking) lorsque le masqueur est appliqué


juste après le signal. Ce masquage qu'on qualifierait « d'anticausal » en traitement du signal,
ne peut s'expliquer que par l'interférence des intégrations temporelles des deux signaux
concurrents.
Les principales caractéristiques du masquage temporel peuvent être résumées comme suit :

Plus l'intervalle temporel entre le masqueur et le signal est bref, plus importante est
l'élévation du seuil du signal.
La plupart de l'effet tant pro- que rétro- actif se produit dans les 100 msec qui
suivent ou précèdent le masqueur, avec une asymétrie en faveur du masquage
proactif (voir figure ci-dessous).
On peut obtenir de faibles effets de masquage pro- et rétro-actif en utilisant
une présentation dichotique, ce qui démontre l'intervention d'un mécanisme
central.
Pour des intervalles temporels compris entre 1 et 20 msec, l'effet de masque est
directement proportionnel à la durée du masqueur, il en devient indépendant pour des
intervalles plus longs et plus courts. Les deux types de masquage temporel sont
dépendants, comme l'est le masquage simultané, des relations entre le contenu
fréquentiel du signal et celui du masque.
Contrairement au masquage simultané où la détection du signal survient pour
un rapport signal-bruit constant, l'élévation de l'intensité du masque pro- ou
rétro-actif ne produit pas une élévation équivalente du seuil du signal. Ainsi,
une élévation du masque de 10 dB peut n'entraîner une élévation du seuil du
signal que de 3 dB.
Les effets du masquage pro- et rétro- actif ne sont pas linéairement additifs : l'élévation
de seuil d'un son test précédé et suivi de masques est supérieure à la somme des effets
dûs à chaque masqueur isolé.
La figure ci-dessous illustre schématiquement le décours temporel des effets de masque.

Description schématique de l'élévation relative du seuil du signal en fonction de sa position


par rapport au masqueur. On note un surcroît de masquage au moment de l'installation et de
l'arrêt du masqueur. Noter l'asymétrie dans les délais d'efficacité des masquages pro- et rétro-
actifs.
8 La perception du timbre
La notion de timbre prend différents sens dans le langage courant, suivant qu'on l'applique
par exemple à une voix, ou à une voyelle isolée.

A l'échelle d'un son, il est défini selon l'ANSI comme « l'attribut de la sensation auditive qui
permet de différencier deux sons de même hauteur et de même intensité » ; c'est donc le
fourre-tout des propriétés perceptives du son non encore étudiées ; comme il fallait s'y
attendre c'est tout sauf une grandeur monodimensionnelle.

Selon une conception « classique » due à Helmholtz, le timbre résulte principalement de la


composition spectrale de la partie quasi-stationnaire du son.

Cependant cette conception résiste mal aux observations suivantes :

le timbre résiste aux altérations de la transmission


l'attaque joue souvent dans le timbre un rôle fondamental

On étudie donc l'influence sur le timbre, notamment, de la composition spectrale à un instant


donné et de son évolution temporelle.
8.1 Timbre et composition spectrale
La composition spectrale d'un son est complexe ; elle est souvent décomposable en
enveloppe et structure fine (les formants et les harmoniques dans le cas de la voix).

La manière dont l'énergie est concentrée selon l'axe des fréquences peut être mesurée à
travers :

le centre de gravité spectral (CGS) qui influe sur le caractère « rond » ou « brillant » du
son ; le CGS est défini par :

Illustration de la notion de centre de gravité spectral


le rayon de giration spectral (RGS) qui complète cette mesure par une notion de «
compacité » du son ; comme en mécanique, il représente la largeur de l'objet (l'enveloppe
spectrale) autour du centre de gravité :

En ce qui concerne la structure fine, on observe que l'harmonicité n'est pas une règle
absolue : une légère inharmonicité rend le son plus « vivant », « coloré ».
8.2 Timbre et enveloppe temporelle
Mais l'enveloppe temporelle du son ou de ses composantes a aussi une grande importance ;
ainsi :

l'enveloppe de l'attaque est caractéristique du type de son: corde frottée, frappée,


grattée, etc… (retourné, le piano ressemble à un son d'harmonium).
les sons « cuivrés » sont caractérisés notamment par un niveau d'harmoniques élevées
qui croît dans le temps.

Du reste, de manière générale l'oreille n'aime pas la monotonie et se focalise sur tout ce qui
est non-stationnaire : vibrato, effet choral, transitoires, variations du spectre dans le temps.

L'identification d'un timbre est ainsi fonction du caractère périodique (i.e. tonal) ou non du
son, des évolutions (de l'enveloppe, du spectre, de la périodicité) et de la nature des sons
précédents et suivants.

Enfin l'homogénéité des timbres d'instruments est difficilement explicable par un modèle
simple ; en effet :

transposer des hauteurs d'harmoniques ne transpose pas le timbre (notamment des


instruments « à formants »),
le son du basson ou du piano est homogène malgré un « rapport d'harmoniques » (une
enveloppe spectrale) non constant(e) dans les différents registres de l'instrument.
8.3 Vers un espace des timbres
Quels sont les paramètres les plus importants du timbre ? Puisqu'ils ne correspondent pas à
des paramètres physiques simples on commence par essayer de les caractériser en
définissant des attributs verbaux : le son peut être «mat», «velouté», «doux», etc.

Par des tests de similarité (par paires ou par triplets) suivis d'analyses factorielles (Plomp,
1970; Wessel, 1979; McAdams, 1992...) on obtient comme composantes principales :

la brillance, caractérisée principalement par le centre de gravité spectral


le mordant, caractérisée par la durée de l'attaque : de l'ordre de 1 à 2 ms pour le piano,
50 ms pour le violon

Brillance et mordant rendent compte de 85% de l'information caractéristique des timbres.

Un espace des timbres à deux dimensions, la


brillance et le mordant.