Vous êtes sur la page 1sur 73

La Perception Auditive

(cours P.A.M.U.) Alain Goy

Janvier 2002

Dpartement TSI Ecole Nationale Suprieure des Tlcommunications

TABLE

PHYSIOLOGIE ET PERCEPTION DE LINTENSIT SONORE


1. Acoustique et perception auditive 1.1. Rles de la perception auditive dans la vie courante 1.2. Place de la perception auditive dans les domaines scientifique et industriel 1.3. Grandeurs perceptives 2. Physiologie de laudition 2.1. La tte 2.2. L'oreille externe 2.3. L'oreille moyenne 2.4. L'oreille interne 2.5. Le nerf cochlaire (ou nerf auditif) 2.6. Les voies auditives centrales 3. Etude de la sensation dintensit sonore 3.1. Le champ audible 3.2. Echelle de bruit 3.3. Les seuils auditifs 3.4. Les courbes d'isosonie 3.5. L'audiogramme 3.6. La Sonie 3.7. Le Seuil Diffrentiel dIntensit 3.8. Facteurs de variation de la sonie 4. Masquage et Bandes Critiques 4.1. Les Bandes Critiques 4.2. Le Masquage 4.3. Les filtres auditifs 5. Perception dintensit et perte auditive 5.1. Le recrutement ou rattrapage de la sonie 5.2. Ladaptation pathologique 5.3. Laltration des filtres auditifs

3
3 3 4 5 6 6 6 7 9 11 11 12 12 14 14 15 16 17 19 21 26 26 28 30 33 34 35 35

PERCEPTION DE LA HAUTEUR DES SONS


1. Dfinitions 2. Hauteur tonale des sons purs 2.1. L'chelle de tonie : le Mel 2.2. Facteurs de variation de la hauteur tonale 2.3. Seuils diffrentiels de hauteur 3. Hauteur des sons complexes 3.1. Hauteurs virtuelles de sons harmoniques 3.2. Sons non harmoniques 3.3. Ecoute analytique et coute synthtique 4. Modles pour la perception de la hauteur 4.1. La tonotopie et les modles de reconnaissance de formes 4.2. Le codage temporel 4.3. Ncessit dun modle mixte

38
38 39 39 41 42 44 44 45 46 47 47 48 48

PAMU/ACOUS

I-1

5. Intervalles et gammes 5.1. Construction des gammes 5.2. L'oreille absolue 5.3. Prfrences

49 49 51 51

PERCEPTION DU TIMBRE DES SONS


1. Consonance et dissonance 1.1. Consonance des sons purs 1.2. Consonance des sons complexes 2. La notion de timbre 2.1. Timbre et composition spectrale 2.2. Timbre et enveloppe temporelle 3. Vers un espace des timbres

52
52 52 53 55 55 55 56

ECOUTE BINAURALE ET PERCEPTION DE LESPACE SONORE


1. La localisation des sons 2. Autres (in-)capacits binaurales 3. Ltendue subjective des sources

57
57 65 68

ANNEXE : MTHODES POUR LTUDE DES SENSATIONS AUDITIVES

71

PAMU/ACOUS

I-2

Physiologie et perception de lintensit sonore


1. Acoustique et perception auditive
Lacoustique est une science passionnante par son interaction avec une multiplicit de domaines trs varis. Dans certains de ces domaines les problmes poss sont si complexes que l'acoustique ne se dveloppe vritablement avec profit que depuis quelques dizaines d'annes. Cette complexit concerne aussi bien les phnomnes physiques, que les mcanismes du vivant, en particulier ceux de la perception auditive, qui ont videmment une grande importance dans la vie de tous les jours. La branche de l'acoustique qui traite de la perception des sons sappelle la psychoacoustique. Cette science tudie le fonctionnement de lappareil auditif considr comme une bote noire , en recherchant les relations entre les proprits physiques des sons reus et les sensations voques. Evidemment, elle est claire et complte par ltude des mcanismes mis en jeu, dans la physiologie et psychologie. Dans tous ces domaines il nous reste encore beaucoup apprendre.

1.1. Rles de la perception auditive dans la vie courante


La perception auditive remplit un grand nombre de fonctions diverses : - information sur lenvironnement, les objets qui nous entourent : le bruit dun choc sur un objet nous donne des indications sur son matriau, sa structure interne, son lasticit... Par exemple (tir dun article de Stephen McAdams) : une pile de vaisselle glisse d'une table, les assiettes s'entrechoquent dans l'air avant de s'craser sur une surface dure o toutes se cassent, sauf une. A partir des seuls indices sonores, tout auditeur baignant dans une culture utilisant ces objets dans le mme environnement, saura reconnatre sans difficult la nature de l'vnement, les objets intervenant dans celui-ci et la transformation qu'ils y subissent. - alerte, dtection, informations sur la proximit et la direction des sources sonores. La manire dont nous percevons ces sources sont perues diffremment suivant le contexte la situation de l'auditeur, comme le montrent les deux exemples suivants : 1. un coup de klaxon automobile sera gnralement ignor ou peru comme gnant si l'on est chez soi... moins que sa voiture soit mal gare devant la maison. Le mme coup de klaxon prendra une signification diffrente si l'on traverse la rue, ou si l'on est au volant, attendant distraitement au feu rouge. 2. dans une conversation que nous ncoutions pas jusqu'alors, la simple prononciation de notre nom peut focaliser soudain notre attention. - reconnaissance de sources : la caractristique sonore dune source nous permet de la reconnatre parmi de multiples semblables. On parle de signature acoustique de la source. Nous reconnaissons

PAMU/ACOUS

I-3

ainsi les voix, les pas de personnes connues, les cris d'un bb, la sonnerie personnalise de notre tlphone mobile, le bruit du moteur du camion-poubelles... Des spcialistes, les oreilles dor , sont entrans reconnatre la signature acoustique des bateaux et sous-marins. - apprhension d'espaces clos : les sons perus, combins avec la connaissance a priori que nous avons de leur source, nous renseignent sur lespace environnant : son volume, les revtements muraux, sa forme, etc. - la notion de confort acoustique est essentielle dans les lieux vous laudition (amphis, auditoriums) mais prend galement de plus en plus dimportance dans tous les lieux de vie (habitations, habitacles de vhicules, espaces de travail, lieux de runion...) - la communication enfin est un des rles essentiels de l'audition car l'homme est un animal social. La communication sonore passe par: 1. l'intelligibilit proprement dite de la parole, mais aussi: 2. le timbre, qui donne des indications sur le locuteur (ge, sexe, tat de fatigue, identit). 3. l'intonation, qui contribue au sens (interrogation, exclamation... sans parler des langues tonales) mais aussi qui exprime l'humeur ou les sentiments.

1.2. Place de la perception auditive dans les domaines scientifique et industriel


La psychoacoustique trouve des applications dans tous les domaines o intervient le son audible ; on peut citer, sans tre exhaustif : Audiovisuel : enregistrement, diffusion, reproduction sonores... Architecture et environnement : rduction du bruit, tude et contrle des ambiances sonores... Tlcommunications : codage et transmission de messages sonores, qui sont essentiellement de deux types : vocal et musical. Informatique: toutes les applications multimdia, du jeu la visioconfrence. Mdecine : valuation et rhabilitation des dficiences de la fonction auditive (aides auditives, implants cochlaires qui permettent par stimulation lectrique du nerf auditif dvoquer des sensations sonores chez des sourds profonds). Acoustique sous-marine : reconnaissance de signatures acoustiques ( oreilles d'or ) Automobile : champ acoustique de l'habitacle, rduction des bruits dans certaines zones et certaines gammes de frquences, esthtique des bruits (une grande attention est porte par exemple la qualit sonore du claquement de portire qui peut avoir un effet plus ou moins scurisant). Industrie : casques et bouchons anti-bruit pour le confort et la scurit des personnes. Aronautique : spatialisation des sons au casque pour la diffrenciation et l'intelligibilit des informations sonores. Communication des plongeurs sous-marins : ceux-ci peuvent se parler et sentendre grce un vibrateur plac dans lembout respiratoire ; la transmission se fait galement par ondes acoustiques. Musique: synthse sonore (lenjeu est de fabriquer de nouveaux instruments pour de nouveaux sons et une meilleure manipulation des sons correspondant nos paramtres perceptifs), restauration d'enregistrements, facture instrumentale...

PAMU/ACOUS

I-4

1.3. Grandeurs perceptives


A chaque grandeur physique du son on peut essayer dassocier une grandeur subjective, une grandeur de la perception: j stimulus: grandeur physique, objective, reproductible, mesurable avec des appareils Systme Auditif y Sensation: subjective, sujette variations, tudie par des statistiques

mthodes

Les principales grandeurs perceptives et leurs correspondants physiques (lorsquils existent) sont regroupes dans le tableau ci-dessous : Grandeur isosonie sonie tonie multiples chronie Unit phones sones tones / mels --Perception de gale intensit Vocabulaire Fort / faible Grandeur physique Unit principale associe physique dB niveau SPL frquence dB Hz --s

intensit / loudness hauteur / pitch Grave / aigu timbre dure / duration

mat, chaud, - - cuivr... Court / long temps

Ces associations ne sont pas rigoureuses : on constate exprimentalement que la sonie (intensit subjective) dpend du niveau SPL mais aussi de la (ou les) frquence(s), du timbre et de la dure du son. Il en va de mme pour les autres grandeurs perceptives. Notons encore que malgr lexistence dun vocabulaire spcialis certains abus de langage courants peuvent favoriser les confusions ; ainsi on parle souvent dintensit perue plutt que de sonie. Cette intensit l nest PAS lintensit acoustique NI le niveau dintensit acoustique !

PAMU/ACOUS

I-5

2. Physiologie de laudition
2.1. La tte
Le son doit dabord contourner la tte avant darriver loreille. Il subit cette occasion: - une attnuation (slective en fonction des frquences), - un retard qui est diffrent sur les deux oreilles, et qui se traduit pour les sons priodiques par des diffrences de phase :

T + dT S

Figure : retard et attnuation du son par la tte du sujet Cette attnuation et ce retard jouent un rle essentiel dans la localisation des sources (tant dans lvaluation de la direction que de la distance). Ils constituent un filtrage auquel sajoute celui de loreille externe.

Figure : vue gnrale de loreille

2.2. L'oreille externe


Celle-ci se compose du pavillon et du conduit auditif externe. le pavillon (orientable chez certains animaux, mais pas chez lhomme) ralise un filtrage slectif suivant la direction dincidence du son et sa frquence.

PAMU/ACOUS

I-6

Figure : le pavillon de loreille humaine le conduit auditif externe, peut tre modlis comme un cylindre ferm une extrmit par le tympan : 8 mm 25 mm Le C.A.E. joue un rle de guide donde, jusquau tympan. Lensemble de loreille externe a pour effet une augmentation de lintensit sonore au niveau du tympan, de quelques dB entre 1,5 et 7 kHz. (avec un pic vers 6 kHz d au pavillon, et un autre vers 2,5 kHz d au C.A.E.).

Figure : les rsonances du pavillon (2 : ~+10 dB vers 6000 Hz), du C.A.E. (1 : ~+10 dB vers 2500 Hz) et totale de loreille externe (3) pour un son incident dans laxe du pavillon. Lensemble ( tte et oreille externe ) joue un rle dans la perception de lespace. Cest pourquoi on utilise dans de nombreux cas une tte artificielle ( dfaut dune vraie tte) pour faire des test ou des enregistrements. Lanalyse et la reproduction des fonctions de filtrage remplies par ces deux lments permettent la spatialisation artificielle du son, selon une mthode tudie plus loin dans ce cours.

2.3. L'oreille moyenne


Loreille moyenne est une cavit dair dans un os, le rocher, qui renferme un systme articul de trois osselets (les plus petits os du corps humain): - le marteau (20 g.) : au contact du tympan. Tenu par des ligaments - lenclume (25 g.) : Tenu par des ligaments - ltrier (5 g). : attach au bout de ltrier, et solidaire de la fentre ovale

PAMU/ACOUS

I-7

Figure : les osselets de loreille moyenne Loreille moyenne joue un rle damplification et dadaptation dimpdance par : un effet de levier, qui est en fait assez faible chez lhomme. et surtout, le rapport des surfaces du tympan (65 mm) et de la fentre ovale (3 mm) environ de 20. Au total, la pression au niveau de la fentre ovale est ~ 24 fois plus grande quau niveau du tympan, ce qui reprsente un gain de 27,5 dB. Ce gain est essentiel pour ladaptation dimpdance entre les milieux arien (oreille moyenne) et liquide (oreille interne), sans laquelle 99% de lnergie serait rflchie au niveau de linterface. On estime que c'est sur la plage des frquences de la parole (250-6000 Hz) que l'adaptation d'impdance est la meilleure et que sur les frquences 1000-2000 Hz, 46 % de l'nergie est transmis. Loreille moyenne joue galement un rle essentiel de protection de deux manires : la limitation mcanique naturelle des mouvements des osselets, attachs les une aux autres et tenus par des ligaments. une limitation par contraction dun muscle li ltrier. Cest le rflexe stapdien, qui a pour effet de protger loreille interne contre les bruits de trop forte intensit. Il se dclenche, aux frquences usuelles, autour de 80 - 90 dB, et produit une attnuation jusqu 40 dB. Il diminue ainsi la fatigue auditive et amliore le pouvoir de discrimination de loreille aux fortes intensits.
Note 1.: un autre muscle, li au marteau, participe ce rle de protection en se contractant. Note 2.: le son peut galement tre transmis directement par vibration du rocher et des os de lensemble de la bote crnienne ; cest la conduction osseuse, qui explique en particulier que notre propre voix nous parat diffrente en direct et enregistre. Cette conduction osseuse est utilise pour la transmission du son dans certaines prothses auditives comme la B.A.H.A. (Bone-Anchored Hearing Aid). Note 3.: la trompe dEustache, qui souvre la dglutition, permet ainsi lquilibrage des pressions de part et dautre du tympan, ce qui est ncessaire pour optimiser les vibrations de celui-ci. La trompe dEustache est aussi un lieu o sont scrts des agents anti-infectieux.

PAMU/ACOUS

I-8

2.4. L'oreille interne


Cest dans loreille interne que lnergie mcanique est transforme en nergie biolectrique, cest-dire en potentiels daction nerveux.

Figure : vue extrieure de loreille interne Loreille interne se compose : de lappareil vestibulaire, comprenant les trois canaux semi-circulaires visibles sur la figure, qui joue un rle important pour lquilibre mais nintervient pas dans laudition. de la cochle, qui a globalement la forme dun canal en colimaon, dune longueur droule de 2,5 3 centimtres, divis en deux dans sa longueur par une lame osseuse laquelle sattachent deux membranes : la membrane basilaire et la membrane tectorielle. La membrane basilaire spare le canal de la cochle en deux rampes remplies de liquide. Ces rampes communiquent au sommet du limaon, lapex, par un orifice : lhlicotrma, qui assure lquilibre des pressions. A lextrmit du limaon, la base, ces rampes sont fermes et spares de loreille moyenne chacune par une membrane , respectivement : la fentre ovale, sur laquelle sappuie ltrier, et la fentre ronde, qui est libre.

Figure : schma de la cochle droule, divise par la membrane basilaire Le liquide remplissant la cochle est incompressible. Lorsque ltrier transmet la fentre ovale les vibrations sonores, les variations de pression sont appliques simultanment sur toute la longueur de la membrane basilaire. Cependant celle-ci a des proprits mcaniques variables : plus mince et raide vers la base, elle devient progressivement plus large et souple vers lapex. En consquence, les variations de pression provoquent lapparition dondes progressives de dformation de la membrane, de la base vers lapex. Lenveloppe de ces ondes varie avec la composition frquentielle du son. Pour un son pur, cette enveloppe prsente un maximum en un

PAMU/ACOUS

I-9

point dautant plus proche de la base (resp. de lapex), que le son est aigu (resp. grave). Cest ce quon appelle la tonotopie cochlaire.

Figure : onde progressive le long de la membrane basilaire Entre la membrane basilaire et la membrane tectorielle se trouve lorgane de Corti, schmatis cidessous. Le principal lment en est les cellules cilies, (ou cellules de Corti), cellules implantes dans la membrane basilaire qui se prolongent par des cils. Membrane tectorielle 13000 cell. cilles externes x 140 cils 3500 cell. cilles internes x 40 cils (1 cell. touche ~20 neurones) Membrane basilaire sens d excitation ~1800 fibres nerv. effrentes

~28 000 fibres nerv. affrentes Figure : coupe schmatique de lorgane de Corti. Les cellules cilies sont de deux types: les cellules cilies internes (CCI), dont les cils flottent librement dans le liquide ; elles sont alignes sur une seule range. Quand les vibrations de la membrane basilaire les agitent, elles librent des ions qui vont dpolariser les terminaisons du nerf auditif (vers le centre du limaon). Ces cellules sont peu nombreuses (environ 3500), fragiles (les sifflements doreille traduisent souvent quelles ont souffert dune exposition au bruit) et ne se rgnrent pas une fois dtruites. Il faut donc les mnager : leur disparition quivaut une surdit totale. Les CCI ont des proprits essentielles pour la perception, en particulier: - la phase rfractaire (dure minimale de rcupration entre deux dcharges dions) - le seuil dexcitation, qui prsente une rsonance pour une frquence donne: la frquence caractristique de la cellule. Cependant les CCI seules ne rendent pas compte de la trs bonne slectivit frquentielle de notre oreille. les cellules cilies externes (CCE), dont lextrmit des cils est solidaire de la membrane tectorielle ; elles sont rparties sur 3 ranges. Elles ont des proprits remarquables aux consquences fondamentales, travers deux mcanismes actifs : 1. les contractions rapides qui se produisent de manire rflexe, en phase avec les vibrations de la membrane basilaire, pour amplifier celles-ci trs slectivement et augmenter ainsi: - la sensibilit, avec un gain de 40 50 dB, surtout aux faibles niveaux ; - la slectivit : grce elles, un petit nombre de CCI est excit dans une zone troite et libre un maximum dnergie.

PAMU/ACOUS

I - 10

2. les contractions lentes, qui passent par le systme effrent mdian et agissent sur les deux oreilles. Les contractions lentes ont un effet dattnuation des contractions rapides. Elles permettent dexpliquer certains phnomnes (adaptation de la sonie, protection contre les stimuli trop intenses, otomissions = mission de sons par loreille). Il faut donc retenir que ce sont les CCE qui rendent laudition forte et claire.

2.5. Le nerf cochlaire (ou nerf auditif)


Le nerf cochlaire forme, avec la juxtaposition du nerf vestibulaire, la 8ie paire crnienne. Ses fibres transmettent les potentiels daction au systme nerveux central. La rponse dune fibre en fonction de la frquence constitue une courbe daccord : ces courbes prsentent des rsonances trs fortes, du fait de la tonotopie de la membrane basilaire, rehausse par laction des CCE.

Figure : courbes daccord des fibres du nerf auditif mesures des chats anesthsis par Evans (1975) : seuil dexcitation (dB SPL) en fonction de la frquence (kHz, chelle logarithmique).

2.6. Les voies auditives centrales


Corps calleux Corps gnicul mdial Colliculus infrieur Lemnisque latral Dorsal Ventral Complexe olivaire suprieur

Cortex temporal

Thalamus

Tronc crbral

Noyaux cochlaires

Figure : reprsentation schmatique des voies auditives centrales

PAMU/ACOUS

I - 11

De la priphrie vers le centre, linflux nerveux mis dans la cochle traverse les tages suivants : les noyaux cochlaires qui ralisent une analyse et un codage des proprits physiques du son. On trouve l de nombreuses connexions de type convergente-divergente (un grand nombre daffrences et un grand nombre deffrences) Il y a l des neurones spcialiss, sensibles soit une certaine frquence, soit une certaine intensit ; dautres sont sensibles des variations de frquence ou dintensit, voire certains sons complexes. On y retrouve une tonotopie (regroupement gographique des neurones suivant les caractres du son auxquels ils sont sensibles, par exemple la frquence). les noyaux olivaires, qui jouent un rle dans la localisation. Cest l quont lieu les premires affrences binaurales (homolatrales activatrices, controlatrales inhibitrices) ; certains neurones sont sensibles des diffrences interaurales de temps (latences, phases) ou dintensit. De ces centres partent des connexions vers dautres noyaux nerveux comme le nerf VII qui transmet le rflexe stapdien. Les centres immdiatement suprieurs sont moins bien connus : le lemnisque latral, dans lequel on retrouve toujours une certaine tonotopie, le colliculus infrieur, o lon observe des cartes en azimut (direction dincidence du son), qui joue donc un rle important dans la localisation. dans le corps gnicul mdial (immdiatement sous-cortical), on trouve ensuite des tages rpondant exclusivement diffrents sons complexes, tels que des voyelles ou des consonnes pour la comprhension de la parole. enfin, les aires auditives corticales ralisent un traitement complexe dans lequel on retrouve de nombreuses connexions de type convergente-divergente. Le traitement y est largement parallle, et rparti sur les aires avec une large interconnexion des aires y compris travers les hmisphres ; il ny a pas de spcificit exclusive des aires, et mme leurs rle et fonctionnement peuvent largement voluer par plasticit. Ces lments sont rsums dans le tableau suivant : noyaux cochlaires bulbaires dorsal et dcodage de lintensit, la dure, la frquence ventral complexe olivaire suprieur et colliculus localisation du son dans lespace (fonde sur les infrieur connexions bilatrales) thalamus et cortex crbral dcodage plus complexe, interprtation; intervention de la mmoire acquise... dtermination de la rponse comportementale Figure : rle essentiel des voies auditives centrales

3. Etude de la sensation dintensit sonore


3.1. Le champ audible
Les champs de l'audition, de la musique et de la parole sont reprsents sur la figure ci-dessous, dans le plan harmonique.

PAMU/ACOUS

I - 12

Figure : champ audible, champs de la musique et de la parole (abscisses : frquences en Hz, ordonnes : niveaux sonores en dB). Le champ audible est dlimit infrieurement par les seuils auditifs, suprieurement par les seuils maximums de confort ou les seuils de douleur. Ces derniers sont rarement mesurs car la mesure implique un risque pour loreille ; aussi la limite (en pointills) est-elle dfinie de manire moins prcise. Entre ces deux limites, on voit quaux frquences moyennes la dynamique de loreille est de prs de 120 dB ; cela signifie que nous sommes capables dentendre des sons dans un rapport de puissances de 1 1012 (soit 1000 milliards) ! En frquences, le champ audible stend environ de 20 20 000 Hz. En pratique ces limites, surtout vers les hautes frquences, sont valables que pour des sujets jeunes et en bonne sant. Avec lge, notre sensibilit auditive dcrot, particulirement dans les aigus. La perte auditive courante chez les sujets gs sappelle la presbyacousie. Il faut noter galement que les courbes de seuils auditifs sont des moyennes statistiques sur un grand nombre de sujets, dont on a tir des normes. Il est courant pour des jeunes dentendre ds un niveau infrieur de 10 dB la norme, et on ne commence parler de perte auditive que pour des seuils suprieurs dau moins 20 dB la norme. Du reste notre capacit entendre les sons aigus se traduit surtout de manire qualitative dans la vie courante : la prsence des frquences suprieures 8-10 kHz dans la musique joue plus sur la duret de lenveloppe temporelle des sons impulsifs que sur le timbre des instruments (voir le cours sur le timbre). Lorsque lon descend vers les graves (au dessous de 16-20 Hz), la sensation sonore est progressivement remplace par une perception tactile des vibrations, dont nous pouvons quasiment suivre la forme donde. La priode devient trop grande pour que le son soit intgr comme tel par loreille, dont la constante de temps est de lordre de 50 ms. Dans certains cas il est possible que ces sons graves soient galement dtects par les produits de distorsion (harmoniques) fabriqus par l'oreille moyenne, dont la rponse nest pas parfaitement linaire. Le champ de la musique stend de 50 10 000 Hz environ, celui de la parole est plus restreint : lessentiel de lnergie est entre 200 5000 Hz, et la restriction la bande [300, 3400] Hz qui est celle du tlphone altre peu lintelligibilit pour un sujet qui entend normalement.

PAMU/ACOUS

I - 13

3.2. Echelle de bruit


Comme nous venons de le voir, la dynamique du champ audible denviron 100 120 dB, ce qui signifie que le rapport des sons extrmes que loreille peut percevoir sans douleur est de lordre de 105 106. Lchelle de bruit suivante indique le niveau sonore moyen de quelques situations courantes: dB (A) 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0

Avion au dcollage Seuil de douleur

Concert - discothque Restaurant scolaire Salle de classe

Seuil de danger Ronflement / Automobile Fentre sur rue Salle de sjour Vent lger Seuil daudibilit

Chambre coucher

3.3. Les seuils auditifs


Deux mthodes peuvent tre utilises pour mesurer le niveau minimum audible des sons purs, en fonction de leur frquence (et gnralement sur une seule oreille) : au casque, et on mesure alors la "Minimum Audible Pressure" ou MAP, la pression acoustique reue tant contrle aprs talonnage laide dun micro - sonde plac au niveau du tympan du sujet. en chambre anchoque (i.e. une salle aux parois totalement absorbantes) et en champ libre : on mesure alors le "Minimum Audible Field" ou MAF, et la pression est contrle ensuite en plaant lemplacement de la tte du sujet, des microphones ports par une tte artificielle. On observe que les seuils sont meilleurs (plus bas) dans ce second cas, car au casque le bruit de la circulation sanguine du sujet est amplifi et masque le son quon cherche dtecter. Les variations du seuil d'audition avec la frquence constituent donc la courbe des seuils auditifs, qui se confond avec ce que nous appelons plus loin lisosonique 0 dB. La forme gnrale de cette courbe sexplique par les caractristiques des diffrentes parties de loreille : 1. l'ensemble pavillon et conduit auditif, en amont du tympan, est un canal de transmission acoustique qui possde comme on la vu une frquence de rsonance vers 3 kHz, et accrot globalement la sensibilit de 1 5 kHz, 2. les caractristiques de transmission de l'oreille moyenne, et 3. la rpartition des neurones dans la cochle : un plus grand nombre de neurones sont associs aux frquences moyennes (50 5000 Hz), et la sensibilit globale ces frquences, lie au nombre moyen de dcharges nerveuses, en est amliore.

PAMU/ACOUS

I - 14

3.4. Les courbes d'isosonie


Aprs le niveaux minimums audibles, on sintresse aux variations de la sensation dintensit sonore, en recherchant dabord lensemble des niveaux (physiques) qui donnent une mme sensation dintensit. Pour cela on tablit une unit : le phone, dfini par rfrence au niveau physique dun son de 1 kHz : Un son de N phones est un son donnant une sensation d'gale intensit avec un son pur de frquence 1 kHz et de niveau N dB SPL. Ainsi, par dfinition, 1000 Hz, lchelle des phones se confond avec celle des dB. Lisosonie est comme la sonie lgrement diffrente selon la mthode de mesure (casque ou champ libre).

Figure : courbes disosonie monaurales (1 seule oreille), mesures en champ libre. On remarque que ces courbes sont plus concaves niveau faible, plus plates fort niveau : autrement dit, la relation entre le niveau en dB et la sensation provoque dpend moins de la frquence pour les niveaux levs. Une consquence de ce fait est la rduction de la dynamique de l'oreille dans les niveaux graves et trs aigus : laugmentation du niveau sonore y fait passer plus rapidement dun niveau faible un niveau fort , puis au seuil de douleur (limite suprieure du champ audible). Ces isosoniques ont diverses applications : dans la mesure des niveaux sonores, les filtres de pondration utiliss, vus au chapitre prcdent, sont dfinis par des gains inversement proportionnels (i.e. des courbes renverses, en dB) aux niveaux des courbes isosoniques 40, 70 ou 100 dB. dans les amplificateurs HI-FI, on trouve souvent un filtre contour ( loudness ) qui permet de relever les graves (et un peu les aigus) pour corriger les intensits relatives des sons enregistrs niveau lev (concert) lors dune coute bas niveau (salon).

PAMU/ACOUS

I - 15

3.5. L'audiogramme
On mesure les seuils daudition de sons purs, le plus souvent au casque, laide dun audiomtre. L'audiomtre fait automatiquement le rapport du seuil d'audition mesur au seuil moyen donn par la norme ; le rsultat est exprim en dB HL (Hearing Level) ; la courbe obtenue pour un sujet normal est donc une droite 0 dB HL. Les mthodes les plus courantes en audiomtrie tonale sont : la prsentation de sons pulss, de niveaux fixes pour chacune des frquences testes (octaves de 125 4000 ou 8000 Hz, et parfois 2 ou 3 frquences intermdiaires). Le sujet indique chaque fois quil entend le son, en levant le doigt car la parole perturbe lattention ncessaire. la prsentation, aux mmes frquences que ci-dessus, de sons pulss dont le niveau varie continment, en fonction de la rponse du sujet qui appuie sur un bouton tant quil entend les sons. On change la frquence teste lorsquun nombre suffisant dinversions de sa rponse permet de dterminer par moyennage une valeur de seuil assez prcise. la prsentation de sons pulss, dont la frquence balaie lentement le champ audible, et dont le niveau, l encore, varie continment, vers le haut ou vers le bas selon que le sujet appuie ou non sur un bouton indiquant quil entend. Cest laudiogramme de Bksy. Les seuils sont obtenus comme la courbe des valeurs moyennes des niveaux sonores enregistrs.

Figure : audiogramme de Bksy. Lhabitude dans le milieu mdical veut quon exprime la perte auditive en reprsentant, aux diverses frquences de mesure, le seuil auditif en dB HL mesur sur une chelle ngative. Les audiogrammes auront donc classiquement les formes ci-dessous :

PAMU/ACOUS

I - 16

Figure : audiogrammes moyens en fonction de lge (presbyacousie). La perte auditive (seuil en dB HL) est note vers le bas ; on peut se reprsenter laudiogramme comme lattnuation dun filtre que la dficience auditive superposerait aux caractristiques de loreille normale. Les audioprothsistes parlent parfois leurs patients de pertes en pourcentage daudition . Il sagit dun langage imag, pour exprimer une mesure qui est en fait une moyenne des pertes en dB sur diffrentes frquences, pondres en fonction de leur importance relative dans la parole.

3.6. La Sonie
La sonie mesure le rapport (subjectif) entre deux sensations dintensit sonore. Son unit est le sone. Comme il sagit dune chelle relative, l encore sa dfinition ncessite une rfrence : par dfinition, la frquence de 1000 Hz, et au niveau de 40 dB SPL, on a une sensation unit : 1 sone. (ce qui revient encore dire quon a 1 sone pour 40 phones). le niveau sonore pour lequel le son semble deux fois plus fort est le niveau de 2 sones, et ainsi de suite. La mesure de lchelle de sonie peut faire appel diffrentes mthodes. Nous en citons deux, en notant certains de leurs avantages et inconvnients : mthode par ajustement : dans celle-ci, on prsente au sujet alternativement un son de rfrence et un second son, dont il doit ajuster le volume jusqu' ce que lintensit du second son lui semble tre dans un rapport donn (2 fois plus fort, ou 2 fois moins fort...) avec le son de rfrence. Cette mthode combine les difficults de toutes les mthodes de jugement relatif, et des mthodes o le sujet ajuste le niveau du stimulus (voir annexe sur les mthodes dtude des grandeurs psychoacoustiques). mthode par estimation damplitude : nous dtaillons un peu cette mthode dont la dmonstration est faite durant le cours, avant den exposer les rsultats.

PAMU/ACOUS

I - 17

Test par estimation damplitude


Le test de sonie "par estimation d'amplitude" a t dcrit par Stevens en 1971. Il consiste prsenter en alternance : - un son de rfrence, qui est un bruit large bande ; - des sons de niveaux relatifs variables par rapport la rfrence. La squence de prsentation de chaque couple de sons peut tre la suivante : son de rfrence durant 1s., silence durant 0,25 s., son compar 1 s., silence 2,25 s. (durant lequel le sujet peut noter son estimation dintensits relatives). Au total une vingtaine de paires de sons peuvent tre prsentes pour construire une chelle de sonie. Ces paires sont prsentes dans un ordre alatoire. On sait que sans cela lordre de prsentation aurait une influence sur les rsultats (voir plus loin les facteurs de variation de la sonie). Il est galement utile de prsenter au pralable les niveaux extrmes (le plus fort et le plus faible) utiliss durant le test ; cela aide le sujet ajuster son chelle de notations. Les instructions donnes sont les suivantes : si lamplitude du son de rfrence se voit arbitrairement attribuer la valeur 100, quelle est l'amplitude relative du deuxime son de chaque paire ? Si le son est jug 2 fois plus fort, on devra noter 200, sil est 4 fois plus fort : 400, 2 fois moins fort : 50, etc.

Traitement des rsultats


A partir des rsultats bruts du test, on peut dabord construire lhistogrammes des moyennes : on calcule les moyennes des rponses donnes pour chaque paire de sons prsente, et on compare les moyennes pour les paires dans lesquelles les niveaux taient identiques. On vrifie ainsi la cohrence des rponses. On peut alors tracer la loi psychophysique : variation de la sonie (i.e. des rponses donnes) en fonction de lintensit relative au son de rfrence, en dB. (voir lannexe sur les mthodes dtude des sensations auditives). Dans le cas o le test a t ralis avec des sons purs de frquence fixe, les rsultats suggrent que la loi de variation de la sonie S en fonction de la pression acoustique p, pourrait tre assez bien approche par une loi puissance. On recherche alors lexposant a de celle-ci : si S = k.pa, alors log S = log k + a log p : on trace donc log S en fonction du niveau en dB, qui est proportionnel log p. On trouve en mesurant la pente de la droit obtenue : a = 0,6 ; cest la loi de Stevens.

Loi de Stevens
Cette loi exprimentale exprime le rsultat du test prcdent, ralis par Stevens avec des sons purs de frquence 1000 Hz ; elle peut snoncer ainsi : La sensation est comme la puissance 0,6 de l'excitation Ici la sensation est la sonie en sones, et lexcitation est la pression acoustique en Pa. (comme l'exposant est infrieur 1, la courbe correspondante est convexe). Il existe cependant une relation quivalente cette loi, plus facile retenir : La sonie double tous les 10 dB Par exemple : 1 kHz et 60 dB, on a une sonie de ... 4 sones. (il faut se souvenir que par dfinition, 40 dB on a 1 sone). Ainsi, sur une chelle de 100 dB, on a un rapport dintensits subjectives de 210 soit environ 1000 entre les niveaux extrmes.

PAMU/ACOUS

I - 18

Pour dmontrer lquivalence, on montre que p 0,6 double tous les 10 dB : si les niveaux sonores N2 et N1 sont diffrents de 10 dB, cela scrit : 20 log( p2 / p0 ) = 20 log( p1 / p0 ) + 10 donc :

log( p2 / p1 ) = 0,5 soit : ( p2 / p1 ) 0,6 = 100,3 = 2 .


Exercice: Dtermination du coefficient k de la relation S = k. p0,6 : partir du choix arbitraire qui a t fait (on a 1 sone pour 40 phones), on a: 1 kHz et 40 dB : p = 100.po = 2.10-3 Pa. Donc 1 (sone) = k . (2.10-3) 0,6 d'o : k = 41,6.

En ralit, une tude plus fine montre que lapproximation de la loi de Stevens nest pas bonne pour les niveaux faibles (infrieurs 30 dB environ), o la sonie relle est infrieure celle prdite ; la courbe de la sonie en fonction du niveau en dB sinflchit alors vers le bas, comme le montre la figure :

Figure : la loi de Stevens (sonie ou intensit perue en fonction du niveau sonore en dB) la frquence de 1000 Hz
Une difficult apparat dans le test de lchelle des sones comme dans de nombreux tests psychoacoustiques : notre perception est dforme par une tendance naturelle et inconsciente essayer de deviner les proprits de la source, et d'analyser notre perception, plus que de simplement en rendre compte. Malgr les prcautions prises, le rsultats de tests psychomtriques dpendent toujours de la mthode et des conditions exprimentales. Ainsi, selon une autre mthode conue pour liminer le biais, (prise en compte seulement des rponses symtriques, une seule rponse par sujet), Warren a trouv que la sonie doublait tous les 6 dB seulement.

3.7. Le Seuil Diffrentiel dIntensit


Dans la vie courante, pour beaucoup de grandeurs subjectives, les variations de niveau sont tout aussi importantes, et mme souvent plus significatives, que le niveau lui-mme. On tudie donc avec soin les Diffrences juste perceptibles (DJP) ou "Just Noticeable Differences" (JND) ou encore Seuils Diffrentiels (SD) ou "Difference Limens" (DL). Cest le cas de la sonie, dont les variations nous renseignent entre autres sur les mouvements de la source. On dfinit donc le Seuil Diffrentiel dIntensit (SDI) comme la plus petite diffrence de niveau audible. Diverses mthodes peuvent tre employes pour l'tudier, par exemple : les sons moduls en amplitude (la modulation optimale est environ 4 Hz ; cest la frquence de modulation la plus importante dans lenveloppe de la parole ).

PAMU/ACOUS

I - 19

les sons successifs spars par des silences (sons de 500 ms et silences de 100 300 ms en gnral) la dtection d'un incrment dintensit dans un son continu la discrimination du son le plus fort dans une squence fort / faible d'ordre alatoire (mthode dite deux alternatives choix forc ou 2AFC, seuil 75%, voir annexe) Les rsultats diffrent : - suivant les mthodes ; par exemple, la mthode de prsentation successive de sons spars par des silences donne de moins bons rsultats que celle des sons moduls, car elle mobilise plus la mmoire. - et suivant les sons utiliss, suivant par exemple quil sagit de sons purs ou de bruits large bande. Le SDI DI mesur peut tre exprim en dB, relativement lintensit absolue du signal, par :

SDI dB = 10 log

I + DI I

Les rsultats principaux sont les suivants : pour les bandes de bruit, cest la loi de Weber: DI / I = constante ; autrement dit, donc le SDI en dB est constant, lgrement infrieur 1 dB. pour les sons purs, la loi de Weber ne sapplique plus : la fonction DI = f ( I ) prsente une pente de lordre de 0,9. Ainsi la discriminabilit des sons purs augmente avec le niveau. On a trouv, pour un son de 100Hz: DI = 1,5 dB 20 dB SPL, DI = 0,7 dB 40 dB SPL, DI = 0,3 dB 80 dB SPL Lordre de grandeur de ces rsultats est retenir : le SDI est de lordre de 1 dB.

dB 5 2 1 0,5 0,2 0 20 40 60

Son pur

Bruit, modulation sinusodale Bruit, modulation rectangulaire

80

100

dB

Figure : seuils diffrentiels dintensit mesurs pour diffrentes conditions Physiologiquement, il semble que lexplication de ces rsultats fasse intervenir le changement du pattern d'activit nerveuse en fonction du niveau de stimulation. Activit neurale

Accroissement de lactivit

Frquence caractristique du neurone Figure : largissement du pattern dactivit nerveuse en fonction de lintensit sonore

PAMU/ACOUS

I - 20

Plus prcisment, la dynamique du systme auditif semble s'expliquer par une combinaison de trois facteurs: - les variation du taux de dcharge des fibres nerveuses situes en bordure du pattern d'excitation. (au centre de celui-ci, toutes les fibres sont excites et satures ; comme toute fibre nerveuse elles obissent la loi du tout ou rien ). - une augmentation du degr de verrouillage de phase1 des messages nerveux au fur et mesure quun son pur merge et se diffrencie dun bruit. - lexploitation, aux niveaux suprieurs du systme nerveux, des proprits statistiques des dcharges des neurones.

3.8. Facteurs de variation de la sonie


Niveau du signal
Nous avons tudi plus haut la fonction de sonie et mis en vidence la loi de Stevens. En fait cette loi n'est valable, comme nous lavons dj mentionn, que pour des niveaux suprieurs 30 dB. Pour les niveaux plus faibles, elle peut tre corrige en la loi suivante, propose par Scharf (1978) : S = k . (p - pr)0,6 Lintroduction de pr dans la formule restitue linflexion de la courbe de sonie aux bas niveaux. A 1 kHz, la pression de correction pr vaut 45 Pa (attention : il ne faut pas confondre celle-ci avec la pression acoustique po qui sert de rfrence dans la dfinition du niveau sonore en dB !) Pour dautres frquences, la fonction de sonie suit une loi similaire mais les paramtres k et pr sont diffrents.

Figure : fonctions de sonie de sons purs diffrentes frquences

Nature du signal
Nous venons de voir les fonctions de sonie de sons purs. Dans le cas d'un bruit large bande, les rsultats exprimentaux montrent que :
1

Le verrouillage de phase est la tendance des fibres du nerf auditif, dcharger au rythme de lexcitation si celle-ci est priodique. Il permet ainsi un codage temporel de linformation sur les frquences, qui est utile la perception des hauteurs, comme on le voit plus loin.

PAMU/ACOUS

I - 21

la sonie nobit plus une loi de puissance la sonie augmente plus rapidement aux faibles niveaux la sonie d'un bruit est toujours suprieure celle d'un son pur, intensit physique gale. Sonie Sonie de bruit large bande

Sonie de son pur

Niveau (dB) Figure : comparaison des fonctions de sonie de sons purs et de bruits large bande Ltude de linfluence de la composition spectrale sur la sonie des bruits, aborde plus loin, dbouchera sur la notion essentielle de bandes critiques.

Forme et mode de prsentation des stimuli


Les rsultats des tests de sonie varient galement : suivant que les stimuli sont prsents en ordre alatoire, croissant, ou dcroissant ; dans ce dernier cas ils dpendront galement du niveau initial, par un phnomne similaire l"adaptation de la sonie", dcrite plus loin.

Sones 10 Valeurs dcroissantes partir de ... 50 dB 1 20 dB

70 dB

0,1

10

20

30

40

50

60

70

SPL (dB)

Figure : variations de la fonction de sonie avec lordre de prsentation des stimuli ; exemple de prsentations par valeurs dcroissantes partir de diffrents points de dpart.

PAMU/ACOUS

I - 22

suivant la forme des stimuli, par exemple sil sagit de sons pulss ou de sons continus.
Sones 10 Sons pulss ordre alatoire

1 Sons continus valeurs dcroissantes 0,1

10

20

30

40

50

60

70

SPL (dB)

Figure : variations de la fonction de sonie avec la forme et le mode de prsentation des stimuli : sons pulss prsents en ordre alatoire, ou sons continus prsents par valeurs dcroissantes. les rsultats varient encore avec la gamme des stimulations prsentes (son amplitude) , la premire stimulation prsente, les instructions donnes, la symtrie de la gamme des rponses demandes...

Dure du signal
Lexprience montre que la sonie augmente avec la dure du signal prsent, jusqu' atteindre un plateau pour une dure denviron 200 ms ; au-del, on peut observer une lgre dcroissance.
Sonie / sonie max 1 0,8 0,6 0,4 0,2 t(s) 0 0,1 0,2 0,3 0,4 0,5 0,6

Figure : variation de la sonie avec la dure du stimulus En fait, la dure d'intgration, au bout de laquelle la sonie maximale est atteinte, varie avec la frquence du stimulus : elle est ainsi denviron 375 ms 250 Hz, mais descend lorsque la frquence slve, jusqu valoir 150 ms 8000 Hz.
Cette dure dintgration peut tre mise en regard de la variation de la dtectabilit du stimulus en fonction de sa dure : pour des sons purs pulss de 1000 Hz, on trouve que la dtectabilit du signal est optimale pour des dures variant de 15 150 ms, mais infrieure pour des dures plus grandes ou plus petites.

Ltude de la variation de la sonie sur des dures longues (suprieures 500 ms) met en vidence un autre phnomne, illustr par la petite dcroissance au-del du plateau sur la figure ci-dessus. Cette tude peut se faire par deux mthodes : - la mthode SDLB ou "Simultaneous Dichotic Loudness Balance", qui consiste faire entendre en continu le son test dans une oreille et, par intervalles (par exemple 3 mn), faire entendre dans

PAMU/ACOUS

I - 23

lautre oreille un son dont le sujet ajuste le niveau pour le rendre subjectivement gal celui du son continu. On enregistre les variations du niveau donn au son de comparaison au fil du temps. Cette mthode, simple dans son principe, prsente linconvnient de ne pas prendre en compte lexistence dinteractions interaurales. - une mthode destimation directe (monaurale), utilise par Scharf. Les rsultats sont les suivants : - la sonie ne varie gnralement pas, sauf aux faibles niveaux (infrieurs 30 dB), o elle dcrot lgrement avec le temps ; cest ce quon appelle ladaptation simple de la sonie. - cette adaptation est maximale pour des sons purs H.F. - elle reste controverse et inexplique ; elle est sujette de grandes variations interindividuelles. Sonie

12

Dure (mn)

Figure : ladaptation simple de la sonie Les mcanismes de cette adaptation sont probablement lis ceux mis en jeu par un autre phnomne, celui de la fatigue auditive post-stimulatoire. La mthode de mesure de cette fatigue est la suivante : - on ralise une premire mesure du seuil auditif la frquence de test. - on prsente la stimulation "fatigante", gnralement de frquence proche de la frquence de test, de niveau et de dure importants. - immdiatement aprs la fin de la stimulation fatigante (ce qui constitue la difficult pratique de la procdure), on mesure de nouveau le seuil la frquence de test. Le dplacement observ du seuil par rapport la mesure initiale, sappelle "Temporary Threshold Shift" ou TTS. Ce dplacement est influenc, en particulier, par : l'intensit, la dure, la frquence du stimulus fatigant la frquence du stimulus-test l'intervalle de temps entre le stimulus fatigant et le test Lvolution du TTS en fonction de ce dernier intervalle, fait apparatre des courbes de rcupration diphasiques, telles que le montre la figure ci-dessous.

PAMU/ACOUS

I - 24

Figure : temporary threshold shifts ou lvation des seuils auditifs en fonction de la dure aprs cessation du son fatigant (en minutes). Son fatigant : 500 Hz, 120 dB, 3 mn; son test : 4 kHz (haut et milieu), 1 kHz (bas).
Ce processus diphasique suggre que deux mcanismes seraient impliqus : lun, rapide, li essentiellement lactivit neuronale, et lautre, plus lent, qui fait probablement intervenir des changements mtaboliques (rcupration des cellules cilies...).

Effet de lattention
L'exprience a montr que la focalisation de l'attention sur certains paramtres amliore les performances. Par exemple, la performance de dtection d'une sinusode dans le bruit est meilleure si la frquence de la sinusode est connue a priori : le sujet focalise alors son coute sur la frquence quil cherche entendre. Enfin l'exprience, la motivation et l'entranement des sujets ont aussi une influence sur les rsultats. Ces facteurs doivent tre soigneusement pris en compte pour ne pas biaiser les rsultats dun test.

Effet de la composition spectrale


Zwicker a eu lide dtudier les variations de la sonie avec la largeur de bande du signal. Pour cela, il a constitu des bruits de bande variable en additionnant des sons purs de frquences proches, autour d'une frquence de rfrence, en maintenant le niveau SPL constant.
Dans l'exprience telle quelle est reproduite durant le cours, on a : - un son d'origine la frquence 1000 Hz, de largeur de bande de 15% (930 - 1075 Hz), - puis une augmentation de la largeur de bande par 7 pas de 15%, l'amplitude dcroissant de manire maintenir 1 nergie totale constante.

On observe les rsultats suivants : au dbut, un changement dans la qualit du son, mais pas de changement de sonie partir dune certaine largeur de bande (160 Hz autour de 1 kHz), la sonie commence augmenter. Cette augmentation suit les courbes reprsentes ci-dessous :

PAMU/ACOUS

I - 25

Niveau dintensit (phones) 100 80 dB 80 60 60 40 40 20 50 100 250 Bruit centr sur 1 kHz 30 20

500 1000 2000 Largeur de bande (Hz)

Figure : variations de la sonie avec la largeur de bande du signal, pour diffrents niveaux dintensit sonore

4. Masquage et Bandes Critiques


4.1. Les Bandes Critiques
Mise en vidence
Les Bandes Critiques sont mises en vidence par le test prcdent, dont les rsultats suggrent que : un signal de bande infrieure 160 Hz excite toujours une zone identique de la cochle, et donc un mme nombre de fibres nerveuses. au-del de cette largeur, dautres zones de la cochle, et de nouvelles fibres nerveuses, sont touches par lexcitation, ce qui explique que la sensation dintensit crot. Ainsi il semble que la cochle ragit comme un filtre, centr sur lexcitation, de largeur 160 Hz pour la frquence centrale de 1000 Hz qui tait teste. La rptition de lexprience diffrentes frquences, confirme cette ide que le systme auditif se comporte, vis vis de la sensation dintensit, comme un jeu de filtres de frquence centrale variable, de manire tre toujours centre sur l'excitation. Ltude des capacits de rsolution frquentielle de loreille, lies la perception des hauteurs qui est tudie plus loin, corrobore cette interprtation.

Variation de la largeur des BC en fonction de la frquence centrale


Lorsque lon fait varier la frquence centrale du bruit dans le test prcdent, il est intressant dobserver comment varie la frquence partir de laquelle la sensation dintensit commence crotre, cest dire la largeur de la bande critique la frquence considre. On trouve que cette largeur : est peu prs constante, et gale 100 Hz, pour les frquences infrieures 500 Hz, puis augmente rgulirement en fonction de la frquence centrale, et devient grossirement proportionnelle celle-ci, dans un rapport 0,2 : Df 100 Hz pour f < 500 Hz, pour f > 500 Hz. Df / f 0,2

PAMU/ACOUS

I - 26

Figure : variation de la largeur des bandes critiques avec la frquence centrale


On peut bien sr trouver une fonction analytique qui rende plus finement compte des donnes exprimentales. Par exemple : dF = 25 + 75(1+1,4F)0,69

Une premire chelle des frquences : les Barks


Sur la base des rsultats prcdents, Zwicker a dduit une chelle de frquences proportionnelle la largeur des bandes critiques, de la manire suivante (E. Zwicker et R. Feldtkeller : Psychoacoustique, Ed. Masson, 1981) : Loue peut former une bande critique en nimporte quel point de lchelle des frquences. En les rangeant arbitrairement lune ct de lautre, on trouve dans la zone de frquences de 20 Hz 16 kHz, 24 bandes critiques . Lindice de la bande critique dans laquelle se trouve une frquence donne, transform en une variable continue, devient une nouvelle chelle de frquences : le Bark (du nom de H. Barkhausen, qui sest intress parmi les premiers la mesure de la sonie).

B.C. n 1 2 34 5 6 7
0 200 400 630 770

8
920

10
1080 1270

............
12000

24
15500 F (Hz)

100 100

210

3500 dF (Hz)

Figure : lchelle de frquences des Barks ; de haut en bas, les nombres reprsentent respectivement : les indices, les frquences de sparation, et les largeurs des bandes critiques. A la suite de ces travaux il est courant encore dentendre dire que notre perception dcompose le son selon 24 bandes critiques. Rien nest plus trompeur. Il faut comprendre, comme le note Zwicker, que ces bandes critiques se forment en nimporte quel point, concrtement l o se trouve lexcitation sonore. Quant au nombre de 24, il est comme le dit aussi Zwicker, tout fait arbitraire, dans la mesure o il dcoule de la juxtaposition de bandes critiques dont les positions ne sont choisies quen fonction de leur largeur. Cette juxtaposition suppose en outre lhypothse implicite, que les bandes critiques seraient comme autant de filtres passe-bande de formes parfaitement rectangulaires. Cette hypothse simple ne correspond videmment pas la ralit, comme nous allons le voir.

PAMU/ACOUS

I - 27

4.2. Le Masquage
La notion de masquage est trotement lie la perception de lintensit autant qu celle des hauteurs, qui sera tudie plus loin ; nous avons vu avec la physiologie de la cochle, grce notamment aux cellules cilies externes, quun canal auditif (i.e. une fibre du nerf auditif) ne rpond qu une excitation situe dans une zone frquentielle prcise. Cest ce quon appelle la slectivit frquentielle de loreille. La mesure de cette slectivit frquentielle par des tests objectifs sur des animaux, donne les courbes daccord neurales que nos avons prsentes (voir physiologie). Ces courbes daccord permettent dexpliquer les phnomnes de masquage que nous dcrivons ci-dessous.

Principe
Le principe du phnomne de masquage est quun son fort en masque (empche de percevoir) un autre plus faible, surtout s'ils sont dans des frquences proches. La courbe dlimitant la zone du plan frquence / amplitude dans laquelle un autre son ne sera plus peru, est appele courbe de masquage ou pattern de masquage de ce masque. Le pattern de masquage dun son pur ou dun son bande troite prsente une pente raide du ct grave, et une pente plus faible du ct aigu. Le masquage est donc plus important dans cette zone, ce quon rsume en disant les graves masquent les aigus . Nous devons noter galement que le masquage existe encore, sous certaines conditions, entre deux sons non simultans mais spars par un bref intervalle de temps. On parle alors de masquage squentiel par opposition au cas courant du masquage simultan. Le masquage squentiel est dit : proactif, lorsque le masque prcde le son masqu. Cest le cas le plus important. Il met en vidence des mcanismes dinhibition de lexcitabilit de la cochle, par une excitation immdiatement antrieure. rtroactif, lorsque le masque prcde le son masqu. Ce masquage quon qualifierait danticausal en traitement du signal, ne peut sexpliquer que par linterfrence des intgrations temporelles des deux signaux concurrents.

Exprience de base et patterns de masquage


Lexprience lmentaire dtude du masquage consiste mesurer le pattern de masquage dun son donn, de la manire suivante :
Niveau (dB)

Bruit masquant de frquence et de niveau fixes

Signal de frquence et de niveau variables


Frquence (Hz)

Figure : mesure de courbe (ou pattern) de masquage dun bruit bande trote. Si le son variable est un son pur, on vitera que le son masque soit galement un son pur, car les effets de battements lorsque les frquences sont proches ou multiples lune de lautre, perturbent alors la mesure. Voici les patterns de masquage de quelques sons simples et complexes :

PAMU/ACOUS

I - 28

Figure : courbes ou patterns de masquage de diffrents sons divers niveaux, de haut en bas et de gauche droite : bruits bande trote, bruits blancs, sons graves de violons, sons aigus de violons.

Interprtation physiologique : le pattern dexcitation


Comme le laissent deviner les courbes daccord neurales, le son fort ou masque produit une rponse plus ou moins forte dans les divers canaux auditifs voisins de sa ou ses frquences propres ; lenveloppe de cette rponse constitue son pattern dexcitation , quon peut assimiler lenveloppe des vibrations de la membrane basilaire. Sa forme s'explique en effet (en partie) par la slectivit en frquence des dformations de la membrane basilaire, renforce par les mcanismes actifs o interviennent les cellules cilies externes. Si elle est assez forte, lexcitation du masque recouvre celle que produirait le son faible, qui se retrouve masqu . Cette interprtation implique que le pattern de masquage concide approximativement avec le pattern dexcitation du masque. Cette hypothse a t corrobore par des tests et des observations physiologiques.
Pattern dexcitation (dB) Pattern de masquage (dB)

f ( kHz )

f ( kHz )

Figure : pattern dexcitation et pattern de masquage

PAMU/ACOUS

I - 29

Mthode de calcul de la sonie


Le modle des bandes critiques de Zwicker et la notion de masquage, permettent de dduire une mthode dvaluation de la sonie produite par un son donn, de la manire suivante : 1. on estime l'excitation dans chacune des 24 bandes critiques2, ce qui peut tre fait par la loi de Stevens (pour des sons purs) ou une loi approchante (pour des sons complexes ou des bruits). Notons que la rpartition de ces bandes critiques, selon lchelle des Barks, est grossirement similaire lchelle de tiers doctave utilise dans la mesure des niveaux sonores. 2. on corrige cette estimation pour tenir compte de leffet de masque, qui peut tre ngligeable, partiel ou total, suivant la sonie relative des bandes critiques adjacentes. 3. on somme les excitations des 24 bandes critiques pour obtenir la sonie totale. Bien que ne reproduisant pas fidlement les processus de loreille, cette mthode destimation de la sonie donne gnralement dassez bons rsultats (en accord avec les rsultats exprimentaux).
Notons quune valuation du masquage entre bandes adjacentes, selon le mme principe, est utilise dans tous les procds de codage audio courants (MPEG, ATRAC du minidisc, MP3...) dans le but de compresser linformation sonore en liminant ce qui est inaudible pour loreille humaine. On trouvera un exemple sur Internet ladresse : http ://www.dolby.com/tech/parametr.html

4.3. Les filtres auditifs


Le test de Fletcher et les Courbes dAccord Psychophysiques
La mesure des courbes daccord psychophysiques (CAP, ou PTC pour Psychophysical Tuning Curves) propose par un test subjectif de masquage une alternative non invasive la mesure des courbes daccord neurales. Dans ce test, le signal est fix la frquence tudie et un niveau habituellement bas, par exemple 10 dB SL. On mesure alors le niveau ncessaire du masque, suivant sa position spectrale, pour quil masque effectivement le signal. Afin de limiter la prsence de battements qui constituent un indice de dtection parasite, si le signal est un son pur on utilise pour le masque, plutt quun son pur, un bruit bande trote :
Niveau (dB)

Bruit masquant de frquence et de niveau variables

Signal de frquence et de niveau fixes


Frquence (Hz)

Figure : principe de la mesure des courbes daccord psychophysiques Les courbes obtenues ont lallure ci-dessous :

Le nombre et la rpartition des bandes critiques par juxtaposition sont, rappelons-le, trs arbitraires.

PAMU/ACOUS

I - 30

Figure : exemple de courbes daccord psychophysiques, pour une oreille normale et une oreille malentendante, mesures en masquage simultan et en masquage proactif.

Le modle du spectre de puissance et les filtres auditifs


Lexprience de Fletcher3 (1940) a men laborer un modle du masquage (dit du spectre de puissance ), bas sur les hypothses suivantes : le systme auditif priphrique peut tre considr comme un ensemble de filtres linaires recouvrants, les filtres auditifs , la dtection dun signal dans un bruit fait appel un (seulement) de ces filtres, celui de rapport signal sur bruit (RSB) maximum, seules les composantes du bruit qui passent dans ce filtre ont une incidence sur le masquage, le seuil de dtection de la sinusode est ~ gal au niveau du bruit dans le filtre.
Ce modle permet destimer le seuil de dtection dun son pur dans le bruit, par la formule :
+

Ps = K W ( f ) N ( f )df
0

o Ps est la puissance minimale du signal pour la dtection, K est le rapport des puissances du signal et du masque la sortie du filtre au seuil de dtection, W(f) est une fonction de pondration qui donne la forme du filtre auditif, et N(f) est le spectre de puissance long terme du masque.

On sait aujourdhui quaucune des hypothses nest rigoureusement juste, mais malgr ses imperfections le modle des filtres auditifs reste largement utile et utilis.

Celle-ci consistait mesurer le seuil de dtection dune sinusode dans un bruit passe-bande centr sur la frquence de la sinusode, et dont la largeur de bande augmentait avec une densit spectrale de puissance constante.

PAMU/ACOUS

I - 31

Sous ces hypothses, les CAP sont relies de manire trs directe aux filtres auditifs : Si lon suppose quun seul filtre auditif est utilis, que ce filtre est linaire, et quau seuil de perception du signal le masque produit une sortie constante sur ce filtre, alors la forme du filtre auditif est obtenue en inversant la courbe daccord psychophysique. La connaissance de la forme des filtres auditifs en chaque point de la membrane basilaire, permet destimer la forme du pattern dexcitation en rponse un son donn, par juxtaposition des excitations produites dans chaque filtre.

Figure : illustration du calcul du pattern dexcitation en fonction de la forme des filtres auditifs
Les imperfections du modle se traduisent cependant par diffrentes limitations et biais possibles de ce mode de mesure : Limitation 1 : le filtre de plus fort rapport RSB nest pas forcment celui centr sur la frquence de la sinusode. Le fait de percevoir le signal dans un filtre adjacent o le RSB est meilleur, sappelle coute hors frquence (EHF), ou off-frequency listening .lEHF fait que les courbes obtenues sont plus pointues que si un seul filtre tait impliqu. On contre ce biais en limitant lEHF par un bruit coupe-bande centr sur la frquence du signal :
Niveau (dB) Bruit masquant de frquence et de niveau variables Signal de frquence et de niveau fixes Bruit coupebande Frquence (Hz)

Figure : mesure des courbes daccord psychophysiques avec bruit coupe-bande limitatif Limitation 2 : les seuils rels sont abaisss par la possibilit de dtection de produits de distorsion entre le masque et le signal. Ce problme est rduit par lutilisation dun masque bande troite, et le bruit coupe-bande centr sur la frquence du signal a galement pour effet de masquer les ventuels produits de distorsion. Limitation 3 : la non-linarit des filtres rels, et leur dissymtrie, font que la mesure est dforme. Cependant pour des bruits de niveau modr, la forme du filtre est peu prs symtrique sur une chelle linaire et la dformation peut tre nglige. Un modle des filtres auditifs : les fonctions roex Sur la base de rsultats de mesure, en 1982, Patterson et coll. ont propos pour rendre compte de la forme des filtres auditifs une fonction appele rounded exponential ou roex. Sous les hypothses simplificatrices que les filtres auditifs sont symtriques sur une chelle logarithmique, et que leur talement loin de la frquence centrale fc est nglig, cette fonction scrit :

PAMU/ACOUS

I - 32

W ( g ) = (1 + pg )e - pg ,
o g est lcart relatif de la frquence f de calcul la frquence fc du filtre, soit : g = | f - fc | / fc , et p est un paramtre dterminant la largeur du filtre4.

Une nouvelle chelle de frquences : les ERB


Les filtres auditifs ntant pas rectangulaires, on pourrait dfinir leur largeur de bande comme la bande passante -3 dB ; Patterson et coll. ont prfr considrer la largeur du filtre rectangulaire ayant la mme surface. On obtient la bande rectangulaire quivalente BRE du filtre auditif, qui peut tre estime par (Moore et Glasberg, 1983) : BRE = 6,23 fc + 93,39 fc + 28,52 Cette nouvelle chelle frquentielle est donc une chelle concurrente de celle des Barks. Elles sont compares sur la figure ci-dessous :

Figure : comparaison des largeurs de bandes critiques, selon les chelles ERB (en trait plein) et Bark (en pointills).

5. Perception dintensit et perte auditive


On peut distinguer trois grands types de surdit, ou plutt de pertes auditives ou hypoacousies (la surdit tant une perte totale de laudition) : les pertes auditives de conduction ou de transmission, sont celles qui sont lies une dfaillance des mcanismes de transmission mcanique de la vibration, essentiellement dans loreille moyenne.
Par exemple, dans lotospongiose, une calcification anormale bloque peu peu la vibration de ltrier. Lorsque ces pertes auditives ne peuvent tre corriges par une intervention chirurgicale, une rhabilitation peut souvent tre apporte par une aide auditive vibrateur osseux type B.A.H.A.

les pertes auditives neurosensorielles ou de perception sont celles qui affectent la partie transduction et transmission du signal nerveux vers le cerveau. Ces pertes sont dites : endocochlaires, lorsquelles ont leur origine dans la cochle, ou rtrocochlaires, lorsquelles ont leur origine dans le nerf auditif. les pertes auditives centrales, enfin, sont celles lies un dysfonctionnement du systme nerveux central.
4

qui vaut en pratique : p = 4 fc / BRE, en fonction de la bande rectangulaire quivalente BRE du filtre auditif

PAMU/ACOUS

I - 33

Les pertes auditives les plus courantes, telles que la presbyacousie, associent gnralement une composante transmission et une composante perception . Le degr de perte auditive est valu et class suivant une norme du Bureau International dAudio Phonologie, en fonction de la perte auditive moyenne aux sons purs, (Pure Tone Average Hearing Loss ou PTA) en moyennant les seuils en dB HL aux frquences 500, 1000 et 2000 Hz : PTA 0 20 (ou 25) dB 20 (ou 25) 40 dB 40 55 dB 55 70 dB 70 90 dB Plus de 90 dB Dficience auditive... aucune (audition normale) lgre moyenne / modre moyennement / modrment svre svre profonde

Tableau : degrs de perte auditive Alors que les pertes auditives de transmission se traduisent par une pure attnuation, les pertes auditives de perception ont diffrentes consquences sur la perception de lintensit sonore :

5.1. Le recrutement ou rattrapage de la sonie


Dans la plupart des pertes auditives de perception, alors que les seuils de perception sont relevs, les seuils de douleur restent dans la mme zone du plan dynamique, autour de 100 dB. Par consquent la sonie crot donc plus vite entre eux. Le niveau sonore passe rapidement de pas assez fort trop fort . Cela explique la plainte frquente de nos grands-parents malentendants : ne criez pas, j'entends assez fort, mais je ne comprends pas : alors quils n'entendent pas les sons faibles, les autres restent audibles mais inintelligibles, pour des raisons lies laltration des filtres auditifs (voir cidessous). Puisque la mme variation de sonie correspond chez les malentendants une gamme dynamique de sons plus faible, il est logique de supposer que les seuils diffrentiels dintensit (SDI) sont plus faibles ou meilleurs que ceux des normo-entendants. Cest sur cette hypothse que se fondent certains tests cliniques de dtection du recrutement. Malheureusement ces tests semblent biaiss du fait que lcart statistique moyen des rponses est galement plus important chez les malentendants, et donc que la mesure des SDI est moins prcise.
Sonie spcifique (ch. log.) 100 Normal

10 Pathologique 1

0.1

0.01

0.001 10 20 30 40 50 60 70 80 90

Niveau (dB)

Figure : courbes de sonie normale et pathologiques, avec recrutement. Les traits horizontaux reprsentent le gain ncessaire pour restituer au malentendant la mme sensation dintensit que celle du normo-entendant ; on voit que ce gain varie avec le niveau dentre, do la ncessit dune amplification avec compression dans les aides auditives.

PAMU/ACOUS

I - 34

5.2. Ladaptation pathologique


Ladaptation pathologique, observe chez certains malentendants, est une chute rapide de la perception d'un stimulus qui se prolonge dans le temps. Elle peut se manifester mme alors que pour ce sujet et pour le son considr le seuil auditif tait quasiment normal. Ladaptation pathologique est mesure comme l'adaptation simple. Elle apparat tous les niveaux sonores, et pas seulement aux niveaux faibles comme ctait le cas de l'adaptation simple. Elle sexplique par une plus grande fatigabilit des mcanismes cochlaires ou du nerf auditif chez le malentendant. Cette fatigabilit peut tre lie son tour une sollicitation plus soutenue de certains mcanismes pour compenser une dficience. Chez certains sujets, on peut observer un cart jusqu 20 ou 30 dB entre le seuil de perception d'un son pur et le niveau o il reste audible en continu.

5.3. Laltration des filtres auditifs


Chez les malentendants, les courbes daccord psychophysiques (et donc les filtres auditifs) sont dformes : essentiellement, les CAP sont plus larges que chez les normo-entendants. elles changent parfois de forme ; elles peuvent prendre une forme en W , avec deux minima, au lieu de la forme normale en V . elles ont parfois un sommet dcal par rapport la frquence du signal (cela est rare cependant, et correspond des pertes auditives qui varient brutalement avec la frquence).

Figure : largissement des filtres auditifs avec la perte auditive

PAMU/ACOUS

I - 35

Les diffrents types de pertes auditives de perception semblent sexpliquer en fonction de latteinte des cellules cilies : - si les CCE seulement sont altres : la perte ou la dficience des mcanismes actifs (amplification bas niveaux et affinement de la slectivit) entranent une lvation des seuils et un largissement des filtres auditifs. - si les CCE et les CCI sont altres : les filtres auditifs sont largis comme prcdemment, les seuils absolus sont plus levs. - si les CCI seulement sont altres (cas rare) : les seuils absolus trs levs, il ny a quune faible perte de slectivit frquentielle. Les consquences sur le masquage dun largissement des filtres auditifs se font sentir diffremment suivant les situations : 1) lorsque le spectre du masque recouvre celui du signal, les normo-entendants sont galement gns, et les performances des malentendants sont seulement un peu moins bonnes. 2) lorsque les spectres du masque et du signal utile sont diffrents, les effets du masquage sont bien plus importants et handicapants chez les malentendants ; deux exemples lillustrent : le ventilateur (de spectre grave) qui masque la sirne (aigu) : diffrence de spectre moyen, effet de masquage simultan. le masquage dun locuteur par un autre : diffrence de spectre court terme, effet de masquage squentiel ; les malentendants sont moins mme que les normo-entendants de mettre profit les creux temporels et frquentiels du masque pour capter des informations sur le signal. Les effets du masquage interne entre les diffrentes composantes dun son de parole (ici, la voyelle / i / ), sont illustrs par la figure ci-dessous, o lon peut comparer linformation reue par un normo-entendant et par un malentendant :

Figure : Spectrogramme et patterns dexcitation (calculs par un modle) de la voyelle / i / ; en haut :spectrogramme de la voyelle (synthtise par addition dharmoniques), et pattern dexcitation produit chez un normo-entendant ; en bas : patterns dexcitation produits chez un malentendant si lon suppose un largissement des filtres auditifs dun facteur 2 (perte modre) ou 4 (perte svre). Lchelle des frquences est une chelle de nombre dERBs.

PAMU/ACOUS

I - 36

Dans le cas dun normo-entendant, on voit que les 3 premiers formants (les pics de lenveloppe frquentielle) et mme les premires harmoniques sont bien discrimins. Lorsque les filtres auditifs slargissent, en revanche, la rsolution des premires harmoniques disparat, et la localisation des formants devient plus imprcise, allant jusqu' confondre les formants 2 et 3 dans un seul pic assez plat. Cest donc dune information rduite que le malentendant dispose pour comprendre la parole.

PAMU/ACOUS

I - 37

Perception de la hauteur des sons


1. Dfinitions
Zwicker distingue quatre "hauteurs", suivant quon sintresse une grandeur physique ou perceptive, et quon adopte une chelle linaire ou logarithmique. Elles sont regroupes dans le tableau suivant : Echelle linaire grandeurs physiques grandeurs subjectives frquence (en Hz) hauteur / tonie Echelle logarithmique hauteur harmonique hauteur mlodique

Cependant le terme hauteur, que nous rservons dans ce cours des grandeurs subjectives, (indpendamment de l'chelle, linaire ou logarithmique) recouvre diffrentes choses : - la hauteur brute : C'est la position du son sur une chelle subjective "grave - aigu", indpendante de tout sens musical. Elle est relie la concentration d'nergie sur l'axe des frquences : DSP (dB) DSP (dB)

f (Hz)

f (Hz)

Figure 1 : densits spectrales de puissance de deux bruits respectivement aigu ( gauche) et grave ( droite) - la hauteur tonale : Celle-ci exprime la situation du son dans une organisation en intervalles. Une suite dintervalles formera une mlodie.

Figure 2 : reprsentationmusicale classique dune succession de hauteurs tonales

PAMU/ACOUS

I - 38

Cette hauteur tonale ne concerne que les sons purs ou priodiques, voire certains sons complexes non priodiques mais qui s'en rapprochent suffisamment du point de vue perceptif. - les hauteurs spectrales : Ce sont les diffrentes hauteurs qu'on peut distinguer dans un son complexe, si lon pratique une coute analytique , i.e. qui tend sparer les composantes du son. Un ensemble de hauteurs spectrales perues simultanment peut constituer un "accord". La perception peut en tre analytique (perception distincte des sons simultans) ou au contraire synthtique (fusion perceptive des diffrents sons en un seul percept global). - la hauteur virtuelle : Cest la hauteur perue dans un son complexe que l'oreille rduit sur une chelle monodimensionnelle (il sagit donc forcment dune coute synthtique). Nous expliquons plus loin comment quelques ides intuitives sont fausses : cette hauteur virtuelle ne correspond pas forcment une raie du spectre ! l'oreille a la facult d'entendre une ou des hauteurs, mme dans des sons non harmoniques. il peut y avoir plusieurs hauteurs virtuelles dans un son (son de cloche).

2. Hauteur tonale des sons purs


2.1. L'chelle de tonie : le Mel
On parle dans ce paragraphe de hauteur tonale ; rappelons-le, cest la hauteur du son au sens des notes et des intervalles de musique. Cette hauteur tonale est dfinie de manire univoque pour les sons purs. Les expriences suivantes sont donc dabord ralise avec des sons purs. On dfinit lchelle de hauteur tonale, ou tonie, de la manire suivante : par rapport un son de rfrence (1 kHz par exemple), on dit que la tonie est double si un autre son est peru comme deux fois plus aigu, etc. Lunit de la hauteur tonale, ou tonie, est le Mel.

Figure 3 : fonction de variation de la tonie avec la frquence dun son pur

PAMU/ACOUS

I - 39

On constate exprimentalement que : dans les frquences basses, la tonie est proportionnelle la frquence. Dans cette partie du spectre on identifie donc les chelles (cest un choix arbitraire !) : ainsi, de 0 ~500 Hz, on a : 1 Mel = 1 Hz. ensuite, la tonie crot moins vite que la frquence, comme le montre la Figure 3. Ainsi, tandis que la hauteur harmonique peut atteindre 7 octaves, la hauteur mlodique (i.e. la hauteur tonale, exprime sur une chelle logarithmique) est limite environ 4,3 octaves. La Figure 4 permet de comparer ces deux grandeurs avec diffrentes grandeurs physiques ou physiologiques.

Figure 4 : comparaison de diffrentes chelles de frquence rapportes la tonotopie de la membrane basilaire, par Zwicker. Notons quen dehors de l'intervalle [60, 5000] Hz nous ne sommes plus vraiment capables d'associer un son une hauteur tonale bien dfinie.

Relation entre le Mel et le Bark


Curieusement, Zwicker a constat que la courbe donnant la position en Barks de ses 24 B.C. (sur une chelle logarithmique) en fonction de la frquence (sur une chelle logarithmique), tait superposable celle de la Tonie en Mels.

Figure 5 : relation de proportionnalit (empirique) des Mels et des Barks (daprs Zwicker). Cependant il semble que Zwicker se soit un peu tromp sur ce point. En fait on trouve que la relation Tonie = f (Frquence) n'est nulle part linaire.

PAMU/ACOUS

I - 40

2.2. Facteurs de variation de la hauteur tonale


De mme que la sonie ne dpend pas que du niveau dintensit acoustique, la hauteur tonale est dtermine essentiellement par la frquence, mais pas seulement par celle-ci.

Avec l'intensit
Lexprience montre que la hauteur des sons: dcrot avec l'intensit pour des sons de moins de 2000 Hz, crot avec l'intensit pour des sons de plus de 4000 Hz. Ces variations peuvent atteindre au maximum 5%, soit presque un demi-ton musical ! Tonie (Mel) f = 8000 Hz

f = 500 Hz

Intensit (dB)

Figure 6 : sens des variations de la hauteur tonale avec lintensit, pour diffrentes frquences.
On peut noter que cela semble incompatible avec la thorie de la dtermination temporelle de la hauteur (rappel : avec le verrouillage de phase , les informations sont transmises au cerveau par des dcharges nerveuses plus ou moins synchrones avec lexcitation) ; mais le codage temporel doit tre dcod aux niveaux suprieurs de la chane auditive, et ce dcodage peut tre affect par la position et le taux de dcharge des neurones actifs. Du reste, la thorie spatiale (i.e. celle base sur la tonotopie ou localisation de lexcitation le long de la membrane basilaire, en fonction de la frquence) est galement en dfaut : on observe bien un dplacement du pattern de stimulation le long de la membrane avec le niveau, mais pas toujours dans le sens prvisible.

Avec la dure
Moore a mesur le seuil diffrentiel de hauteur (voir plus loin) pour des sons purs pulss de dure variable. Lorsque cette dure est relativement courte, le spectre du son puls contient de l'nergie d'autres frquences que celles du son pur. Ces frquences altrent donc le pattern dexcitation produit, comme lillustre la Figure 7. amplitude Dt Niv. (dB) Pente dcroissante avec Dt

T (ms) Niv. (dB)

f (Bark)

f (Bark) Figure 7 : dformation du spectre dun son pur pour une dure courte, et incidence sur le pattern dexcitation produit dans le systme auditif.

PAMU/ACOUS

I - 41

En-dessous d'une certaine dure du son pur, la pente du spectre est infrieure celle du pattern d'excitation donc un pattern plus large sera excit: la sensation s'carte de celle du son pur, puis la sensation de hauteur mme s'estompe. On conoit donc que le seuil diffrentiel de hauteur est li la dure du son. En effet, on a montr que ce seuil Df (voir plus loin : Difference Limen in Frequency) est li la dure d par une relation dincertitude du type : Df . d K Pour Df en Hz et d en s., la constante K est de lordre de 0,24. En fait sa valeur exacte dpend de l'intensit et de l'enveloppe d'amplitude.

En prsence d'un bruit masquant


La hauteur perue d'un son partiellement masqu est affecte par le bruit masquant: pour un bruit masquant plus aigu, la hauteur se dplace vers les graves pour un bruit masquant plus grave, la hauteur se dplace vers les aigus Autrement dit, le dplacement est toujours dans le sens o la hauteur perue sloigne de celle du masque.

2.3. Seuils diffrentiels de hauteur


Comme pour les autres grandeurs comme lintensit, la hauteur perue transmet souvent plus dinformation par ses variations que par sa valeur absolue. Ce sont bien les variations de hauteur qui constituent une mlodie. En outre, lvolution temporelle de la hauteur dun son est importante : comme signal d'alerte : produite par effet Doppler, elle nous informe sur la vitesse de la source. du point de vue de lagrment : une vitesse de rotation instable dun disque vinyl produit leffet trs dsagrable de pleurage . On sintresse donc notre capacit de discrimination des sons en frquence, par les Seuils Diffrentiels en Frquence (ou DLF , Difference Limens in Frequency) qui se mesurent par diverses mthodes, notamment : le choix forc : entre 2 sons A et B de hauteurs lgrement diffrentes prsents successivement dans un ordre alatoire, le sujet doit choisir lequel est le plus haut. Le seuil est choisi au point de 75% de rponses justes sur la courbe des rponses. par modulation : on mesure alors les Frequency Modulation Difference Limens comme la plus petite amplitude de modulation de frquence perceptible ( un rythme de modulation donn, en gnral autour de 4 Hz). On observe quau mieux, dans des conditions de laboratoire : le DLF Df est de lordre de 2 %o ( 2 pour 1000 ), soit 1/20ie de demi-ton musical ! (par exemple, on peut tout juste distinguer les frquences 1000 et 1002 Hz).

PAMU/ACOUS

I - 42

Figure 8 : variation des Seuils Diffrentiels de Frquence avec la frquence de mesure Zwicker a tent de fournir une explication des DLF par la perception de changements d'intensit en certains points du pattern d'excitation.
Sachant que les seuils diffrentiels dintensit sont de lordre de 1 dB, et que la pente maximale du pattern dexcitation dun son pur est (du ct grave) de 27 dB / Bark, 1 kHz, deux hauteurs seraient discrimines si leur diffrence vaut au moins 1/27ie de Bark, soit 160/27 = 5 Hz. On retrouve lordre de grandeur des DLFs mesurs.

Figure 9 : explication des DLF par la perception de variations dintensit : on a reprsent les patterns dexcitation produits par deux sons purs de frquences proches. Mais en ralit le DLF ne varie pas exactement comme les bandes critiques, ce qui suggre que d'autres mcanismes sont aussi impliqus. En fait, le DLF serait dtermin essentiellement par des mcanismes temporels (lis au verrouillage de phase) aux basses frquences, et tonotopiques aux hautes frquences.

PAMU/ACOUS

I - 43

3. Hauteur des sons complexes


Rappelons avant tout quelques dfinitions : un son dans le cadre prsent est un objet sonore qui comporte une ou plusieurs hauteurs - ce en quoi il se diffrencie dun bruit5, ds quil ne sagit pas dun son pur (i.e. sinusodal), on dira que cest un son complexe, une raie est une frquence particulire laquelle un son contient de lnergie, lorsquun son est constitu de raies, celles-ci sont appeles les partiels du son complexe, si ces partiels sont multiples dune mme frquence, ils seront alors appels les harmoniques et lon dira que le son lui-mme est un son harmonique, dans ce dernier cas lharmonique n 1 (et non pas 0 ! ! !), est appele la fondamentale du son. Lorsque les sons complexes sont composs de raies, harmoniques ou non, l'oreille synthtise souvent la perception de ces raies pour entendre une ou plusieurs hauteurs. C'est videmment le cas dans sons harmoniques, mais pas uniquement. Contrairement quelques ides fausses : 1. la hauteur ne correspond pas forcment une raie prsente dans le spectre, qui serait par exemple celle de frquence la plus basse - mme pour des sons harmoniques, 2. elle ne correspond pas non plus la zone de plus grande amplitude du pattern d'excitation nerveuse, 3. dailleurs, pour les sons complexes, la perception de la hauteur n'est jamais indpendante de celle du timbre.

3.1. Hauteurs virtuelles de sons harmoniques


Exprience du "fondamental absent"
Dans un son complexe harmonique si on enlve le fondamental on continue dans beaucoup de cas l'entendre c'est--dire entendre la mme hauteur. Ainsi si lon enlve successivement, partir des plus graves, les 10 harmoniques d'un son de fondamental 200 Hz : le timbre du son varie, mais pendant assez longtemps la hauteur perue reste la mme, correspondant celle dun son pur de 200 Hz. Dans une autre exprience, on masque la zone frquentielle dans laquelle se trouvent les frquences fondamentales d'une mlodie. On entend toujours les mmes hauteurs, et la mlodie est inchange. Nous avons donc mis en vidence lexistence de hauteurs qui ne correspondent pas des raies ni mme la prsence dnergie dans le spectre. Ce phnomne suffirait, notons-le, remettre en question une thorie de la perception frquentielle par tonotopie pure. Une autre exprience plus spectaculaire montre que notre perception de hauteur peut tre attache un mode dcoute, analytique ou synthtique, qui est trs influenc par le mode de prsentation des composantes du son : dans cette exprience, on on prsente 2 raies de 1200 et 1400 Hz, qui donnent lieu la perception dune hauteur de 200 Hz ; puis on diminue progressivement le 1400 Hz jusqu' le noyer dans un bruit masquant : le sujet peut continuer pourtant entendre la mme hauteur de 200 Hz ! Cette hauteur perue est appele hauteur virtuelle ou rsidu (Schouten, 1940) (parfois la hauteur perue est bien prsente et non virtuelle ; le terme rsidu est alors plus appropri ; il rend simplement compte de l'coute synthtique vers la perception d'une seule hauteur).
Notons quen acoustique de lenvironnement et du confort sonore, la dfinition du bruit est beaucoup plus floue et dpendante de la situation
5

PAMU/ACOUS

I - 44

Dans un premier modle, on peut penser que la hauteur virtuelle perue est le fondamental absent des raies prsentes. Autrement dit, ce serait la (plus grande) sous-harmonique de celles-ci, soit leur PGCD.

Ambigut d'octave
Par modulation de frquence 200 Hz d'une porteuse de 2200 Hz, on obtient un son compos des trois frquences 2000, 2200 et 2400 Hz. Dans ce son, loreille entend le fondamental absent , soit 200 Hz. Si maintenant le niveau du 2000 Hz dcrot progressivement, partir d'un certain point le poids spectral de cette composante devient faible, et lon entendra plutt 400 Hz. Au point limite, on entend simultanment les deux hauteurs concurrentes : il y a ambigut d'octave. 2000 2200 2400

Figure : exprience de lambigut doctave Au-dessous de 500 Hz, notre perception de hauteur de sons purs est trs approximative ; il apparat que les hauteurs perues dans le bas du registre du piano (dont la note la plus grave est denviron 27,5 Hz), sont dtermines par les harmoniques. Le fondamental est dailleurs quasi-inexistant pour les notes les plus graves. Les piano est accord sur les battements produits entre les harmoniques et le fondamental doctaves suprieures.

3.2. Sons non harmoniques


Exprience et premier modle
Tout se complique lorsque les hauteurs prsentes sont un peu modifies. Ainsi, si lon modifie 2040 Hz la porteuse de lexemple prcdent, on obtient trois raies de 1840, 2040 et 2240 Hz : y a-t-il perception du fondamental absent 40 Hz ? Non. On entendra en fait : une hauteur de ~204 Hz (3 sous-harmoniques de chaque raie, 204,4 + 204 + 203,6 sont en quasi -concidence, lcart tant infrieur au seuil diffrentiel de l'oreille), 2 hauteur concurrentes de 185 et 227 Hz. Il y a donc ambigut de hauteur. Cette exprience suggre un algorithme pour dterminer la perception de la hauteur de sons complexes (Walliser, 1968) : 1. la hauteur correspondant la diffrence de frquence entre 2 partiels adjacents est approximativement dtermine (ici : 200 Hz), 2. Une sous-harmonique du partiel le plus bas est dtermine, la plus proche de cette diffrence. Ex. prcdent: 1840 / 9 = 204,4 Hz. Tehrardt (1972) a propos une variante affine de cette mthode : 2. On choisit plutt une sous-harmonique d'un partiel dominant ou rsolvable , cest dire un partiel qu'on pourrait entendre individuellement merger du tout.

Poids spectral et "saillance" ("salience")


Ainsi, dans le cas de sons non harmoniques, la ou les hauteurs perues (l encore il peut y avoir ambigut) sont dtermines par : lespacement entre les raies, la prsence dune sous-harmonique dun partiel dominant , de frquence proche de cet espacement.

PAMU/ACOUS

I - 45

2040
1020 680,0 510,0 408,0 340,0 291,4 255,0

2240
1120 746,7 560,0 448,0 373,3 320,0 280,0 248,9

2440
1220 813,3 610,0 488,0 406,7 348,6 305,0 271,1 244,0

226,7 204,0 185,5

224,0 203,6 186,7

221,8 203,3 187,7

Figure 10 : concidences de sous-harmoniques des partiels et hauteurs virtuelles concurrentes dans un son non harmonique. Tehrardt suggre que ces partiels dominants sont plutt dans la zone 200-2000 ou 500-1500 Hz. Lamplitude des diffrentes raies prsentes est prise en compte affecte dun facteur de pondration ou poids spectral qui est le plus important dans cette zone de frquences.

200

2000

Hz

Figure : poids spectral ou saillance des composantes spectrales pour la perception de hauteur . De plus Tehrardt a suppos que limportance des frquences moyennes est probablement lie un apprentissage, qui favorise les sons qui rentrent dans notre tessiture vocale : trs jeune nous sommes exposs des sons harmoniques (parole), nous y apprenons extraire d'une frquence donne des indices de prsence d'un son complexe dont cette frquence est une harmonique.

3.3. Ecoute analytique et coute synthtique


Suivant le cas l'oreille peroit diffremment un ensemble de composantes sonores : soit comme un ensemble de composantes distinctes (perception analytique ), soit comme un tout, avec une ou plusieurs "hauteurs" et un timbre associ (perception synthtique ). Le mode de perception dpend notamment des stimuli, de la volont de l'auditeur, et du mode de prsentation des stimuli (ordre d'arrive ou de suppression des partiels). Il est ainsi remarquable de noter que deux sons de mme hauteur virtuelle ne sont pas ncessairement fusionns : supposons que durant lcoute dun ensemble form des harmoniques 5, 6, 7 et 8 de 200 Hz, qui produit une

PAMU/ACOUS

I - 46

hauteur virtuelle de 200 Hz, on ajoute subitement un son pur 200 Hz. Ce dernier son sera peru comme un second objet sonore, distinct du premier, bien que leurs hauteurs soient identiques. Le mode de prsentation des stimuli influe donc sur leur groupement possible, lequel est par ailleurs troitement lie leur ventuelle consonance ou dissonance, notion que nous explicitons ci-dessous.

4. Modles pour la perception de la hauteur


4.1. La tonotopie et les modles de reconnaissance de formes
Le principe de ce premier modle est que la hauteur est corrle une position bien dfinie sur la membrane basilaire. Il repose sur deux postulats : que l analyse frquentielle du stimulus dans la cochle est de nature tonotopique : deux frquences pures diffrentes produisent deux patterns dexcitation diffrents, et l'excitation de fibres nerveuses diffrentes, et que la hauteur du stimulus est directement lie au pattern d'excitation produit. La premire hypothse est assez bien admise et corrobore par lexprience. La seconde cependant reste controverse. En effet les sons complexes produisent un pattern d'excitation maxima multiples, dont le plus fort ne correspond pas au fondamental, comme le montrent : lexprience du fondamental absent, ou lexprience du fondamental masqu par un bruit passe-bas. Cette thorie ne rend donc pas compltement compte de la perception de hauteur des sons complexes, moins quon ny ajoute l'ide d'un traitement postrieur au niveau central. Cest ce que suppose Terhardt lorsquil propose (en 1969/70) l'algorithme suivant :

Traitement de la cochle :
1. Analyse spectrale du signal (quon peut modliser par exemple par une sur FFT 800 points, qui

donne lnergie dans 400 canaux frquentiels),


2. Extraction des composantes du son (en ne retenant que les points danalyse comportant de

lnergie, on identifie par exemple 50 partiels), 3. Evaluation de l'effet de masque (connaissant les courbes deffet de masque des sons purs, on limine ceux qui ne sont pas perus ; il reste par exemple 10 partiels, qui sont autant de hauteurs spectrales possibles).

Traitement du systme nerveux central :


1. Pondration des composantes (par la courbe empirique du poids spectral vue plus haut), 2. Extraction des hauteurs virtuelles (soit les sous-harmoniques dun partiel dominant , de

frquence proche de lespacement entre les hauteurs spectrales ; on obtient par exemple 4 hauteurs virtuelles). Rappelons que suivant le cas, les composantes spectrales solitaires peuvent tre entendues individuellement, tandis que les composantes spectrales en relations harmoniques seront entendues groupes.

PAMU/ACOUS

I - 47

4.2. Le codage temporel


Selon cette autre hypothse la perception de la hauteur dpendrait du rythme et du pattern de dcharges des fibres nerveuses. Elle se base sur la proprit de "verrouillage de phase" qui est observe (seulement jusqu' 5 kHz ; mais justement, la perception de hauteur est trs drgle audel). La Figure 11 illustre cet aspect temporel du codage des frquences dans le systme auditif.

Figure 11 : codage temporel de linformation frquentielle : patterns des rponses des fibres du nerf auditif de diffrentes frquences caractristiques, un train dimpulsions 200 Hz.

4.3. Ncessit dun modle mixte


Aucun des deux modles n'tant individuellement suffisant pour expliquer tous les aspects de la perception de hauteur. On peut noter divers arguments en faveur de chacun :

Arguments en faveur de la "reconnaissance de formes":


Seul ce modle permet de proposer une explication divers phnomnes : l'exprience du fondamental absent, la prdominance des harmoniques basses ou rsolvables , dans la perception de hauteur, la diplacousie, pathologie dans laquelle la perception de hauteur diffre sur les deux oreilles.

PAMU/ACOUS

I - 48

Arguments en faveur du codage temporel


Ce modle permet dexpliquer que des hauteurs (faibles) peuvent tre entendues : alors que les deux harmoniques prsentes sont de frquences trop proches pour tre rsolvables, ou quand les stimuli n'ont pas de structure spectrale bien dfinie (comme les bruits moduls, qui produisent une perception de hauteur correspondant au rythme de la modulation).

Un modle mixte
Pour tenter dexpliquer lensemble des proprits de notre perception de la hauteur, Moore a propos une combinaison de des deux modles, quon peut reprsenter schmatiquement ainsi :

Banc de filtres auditifs (Bandes critiques) Transduction neurale Analyse des intervalles de temps chaque CF Comparaison inter - CF, slection des intervalles prdominants Evaluation du contexte, choix des intervalles PITCH
Figure 12 : combinaison des modles de codage tonotopique et temporel de la hauteur (Moore)

5. Intervalles et gammes
5.1. Construction des gammes
Un intervalle est le rapport entre deux hauteurs. Les grecs (Pythagore, Erasthoxne, Archimde) ont les premiers remarqu les similitudes de perception qui existent entre certains intervalles, principalement loctave (rapport 2 entre les hauteurs) qui a la particularit que toutes les harmoniques du son aigu sont galement harmoniques du son grave. Ils ont ensuite cherch dcouper cet intervalle essentiel en intervalles plus petits pour former des gammes. Diverses approches sont possibles, suivant que lon procde dune manire plus inspire de la physique, des mathmatiques ou simplement de lcoute.

PAMU/ACOUS

I - 49

La gamme naturelle
La gamme naturelle est base sur des concidences dharmoniques. Ainsi la gamme de do majeur contient : la Quinte (3/2) de do : sol, la Tierce majeure (5/4) de do : mi, etc... La gamme naturelle contient 12 intervalles. Elle est juste harmoniquement puisque tous ses sons sont harmoniques dun mme fondamental, proprit qui dtermine la consonance, mais se rvle fausse mlodiquement.

La gamme de Pythagore
La gamme de Pythagore est base sur une succession dintervalles de quinte ( [3/2] n ). elle est "juste" mlodiquement, mais ne lest pas harmoniquement (les harmoniques des sons ne concident plus, les accords sont faux...)

La gamme tempre
La gamme tempre, apparue au XVIIie sicle, ralise un compromis entre les deux prcdentes, en confondant les dises et les bmols. Les intervalles rguliers entre les notes permettent de jouer dans n'importe quelle tonalit ; elle est constitue de 12 intervalles (logarithmiquement) gaux donc gaux 21/12.

Autres gammes
On peut citer encore d'autres gammes, par exemple la gamme dAristoxne Zarlin, la gamme de Mercator-Holder ou la gamme de Delezenne... Ces gammes occidentales comportent 12 demitons espaces plus ou moins logarithmiquement ; mais il en existe dautres : la gamme pentatonique ( 5 tons) est la base de la musique chinoise, mais se retrouve aussi dans les musiques celtiques ou des Indiens dAmrique.... les indiens Nasca du Prou ont bas leur musique sur des chelles linaires (et non logarithmiques) mais cela est assez exceptionnel. Nous donnons les intervalles dans les principales gammes (par rapport la tonique do):

Gamme Naturelle Pythagore Tempre

do 1 1 1

r 9/8 9/8 2
2/12

mi 5/4
4/12

fa

sol 3/2 2
7/12

la 13/8
9/12

si 15/8
11/12

do 2

21/16 3/2
5/12

81/64 4/3 2 2

27/16 243/128 2 2 2 2

Notons quen principe, un piano (accord selon la gamme tempre) et un instrument vent (dont certaines notes aigus sont produites comme des harmoniques de notes plus graves) ne peuvent jamais tre accords. En fait la possibilit de modifier la hauteur -- en jouant sur les doigts ou sur le souffle pour linstrument vent, et sur la dure et lintensit du son pour le piano -- et la tolrance de loreille, font que ce dsagrment reste du domaine thorique. Dailleurs, contrairement une ide frquente, un piano moderne nest jamais rigoureusement accord selon la gamme tempre. Laccord est en fait un compromis entre les diffrentes gammes que nous avons voques. De plus, dans les extrmes du registre, les octaves mmes du piano sont tires par rapport aux octaves physiquement justes de rapport 2, pour compenser le biais de lappareil auditif.

PAMU/ACOUS

I - 50

5.2. L'oreille absolue


C'est la capacit de reconnatre et de nommer la hauteur d'un son musical sans rfrence un son de comparaison. Cette facult est rare (elle concerne moins de 1% de la population). Elle peut tre entrane dans une certaine mesure (mais les rsultats sont rarement aussi bons que lorsque la facult est "naturelle", i.e., en fait, acquise dans l'enfance).

5.3. Prfrences
Les rapports de frquence les plus agrables dans une mlodie sont-ils les plus rigoureusement harmoniques ? Lexprience suivante montre que non : Tehrardt a prsent un large public trois versions dune mlodie aigu accompagne dun accompagnement grave : a) version compresse dun demi-ton : la basse est en do, la mlodie en si, b) version dilate dun demi-ton : la basse est en do, la mlodie en do#, c) version mathmatiquement correcte : la basse comme la mlodie sont en do. Il a observ que si la version dilate b) est juge acceptable, et mme prfre par 40% des sujets, en revanche la version compresse a) est toujours juge dsagrable.

PAMU/ACOUS

I - 51

Perception du timbre des sons


1. Consonance et dissonance
Les notions opposes de consonance et de dissonance sont une caractristique trs importante de la perception des sons, troitement lie la perception de hauteur. Depuis Pythagore, la consonance est une cl de la musique. Cest de fait un trait robuste du timbre des sons. La consonance exprime la prfrence de l'oreille pour certaines associations de frquences entendues simultanment. Ltude de la consonance de sons composs de 5 premires harmoniques damplitudes gales montre que la consonance atteint des maxima locaux quand le rapport des fondamentales est rationnel. Les intervalles les plus consonants sont ainsi : l'octave (rapport 2), la quinte juste (rapport 3 ramen entre 1 et 2, soit 3/2), la quarte (rapport 4/3), la tierce majeure (rapport 3 ramen entre 1 et 2, soit 5/4), la tierce mineure (rapport 6/5), la sixte (rapport 5/3), etc. Lcoute simultane de sons consonants produit gnralement un accord. Par exemple, la hauteur de base tant appele tonique , lensemble tonique + quinte + tierce majeure constitue un accord parfait majeur. Notons que cet ensemble est constitu des 5 premires harmoniques de la tonique, ramenes une seule octave. Le groupement des composantes du son se fait donc selon plusieurs tages de complexit : dabord le groupement ventuel des partiels en un son - groupement naturel sil sagit des partiels dune source unique -, puis groupement de sons mis par diffrentes sources en un objet sonore qui peut tre un accord... Notons que certains auteurs distinguent la consonance tonale ou consonance sensorielle, de la consonance au sens musical qui dpend aussi de certaines rgles culturelles.

1.1. Consonance des sons purs


Si lon augmente progressivement la diffrence de frquence df entre deux sons purs couts simultanment, on observe que : tant que df / f est faible, sons sont consonants, en mme temps quon peroit des battements, puis la dissonance apparat, crot et devient maximale vers un quart de bande critique (soit prs de 20 Hz en basses frquences, puis 4% de la frquence soit un peu moins dun demi-ton aux frquences plus leves)

PAMU/ACOUS

I - 52

les sons purs redeviennent consonants ds que la diffrence de frquence dpasse la largeur dune bande critique. Notons que ce nest pas le cas des intervalles de tierce (voire de quinte) en basses frquences ; de fait, ces intervalles sont dissonants et on les vite dans les basses.

Consonance

0 Battements 1/4 B.C.

% B.C.

Figure 13 : consonance des sons purs en fonction du rapport de leurs frquences.

1.2. Consonance des sons complexes


On observe que les sons de rapport de frquence non rationnels sont gnralement dissonants. La Figure 14 reprsente schmatiquement lvolution de la consonance de sons harmoniques en fonction du rapport de leurs frquences fondamentales.

1 1/1

Consonance 5/6 4/5 3/4 2/3 3/5 1/2

f2 / f1

Figure 14 : Consonance de sons harmoniques en fonction du rapport de leurs frquences fondamentales. Cette consonance sexplique par la concidence plus ou moins forte dharmoniques entre les deux sons, comme lillustrent la Figure 15 et la Figure 16.

PAMU/ACOUS

I - 53

Figure 15 : concidence dharmoniques entre sons spars par les intervalles de tierce (en haut), et de quinte juste (en bas) Une thorie suggre que cette prfrence pour les rapports de frquence simples est acquise trs jeune par l'exposition aux sons harmoniques tels que ceux de la voix.

Figure 16 : carte de consonance entre sons harmoniques dans des rapports de frquences fondamentales de 0 1 octave

PAMU/ACOUS

I - 54

2. La notion de timbre
La notion de timbre prend diffrents sens dans le langage courant, suivant quon lapplique par exemple une voix, ou une voyelle isole. A lchelle dun son, il est dfini selon lANSI comme lattribut de la sensation auditive qui permet de diffrencier deux sons de mme hauteur et de mme intensit ; cest donc le fourre-tout des proprits perceptives du son non encore tudies ; comme il fallait sy attendre cest tout sauf une grandeur monodimensionnelle. Selon une conception classique due Helmholtz, le timbre rsulte principalement de la composition spectrale de la partie quasi-stationnaire du son. Cependant cette conception rsiste mal aux observations suivantes : - le timbre rsiste aux altrations de la transmission - lattaque joue souvent dans le timbre un rle fondamental On tudie donc linfluence sur le timbre, notamment, de la composition spectrale un instant donn et de son volution temporelle.

2.1. Timbre et composition spectrale


La composition spectrale dun son est complexe ; elle est souvent dcomposable en enveloppe et structure fine (les formants et les harmoniques dans le cas de la voix). La manire dont lnergie est concentre selon laxe des frquences peut tre mesure travers : le centre de gravit spectral (CGS) qui influe sur le caractre rond ou brillant du son ; le CGS est dfini par :

CGS =
harm.~ 6

k =1 N

k . Ak

( Hz )

A k =1 k
Son brillant, pntrant

Son rond, chaud

Figure : illustration de la notion de centre de gravit spectral le rayon de giration spectral (RGS) qui complte cette mesure par une notion de compacit du son ; comme en mcanique, il reprsente la largeur de lobjet (lenveloppe spectrale) autour du centre de gravit :

RGS =

N k =1

( k - CGS ). Ak

A k =1 k

( Hz )

En ce qui concerne la structure fine, on observe que lharmonicit nest pas une rgle absolue : une lgre inharmonicit rend le son plus vivant , color .

2.2. Timbre et enveloppe temporelle


Mais lenveloppe temporelle du son ou de ses composantes a aussi une grande importance ; ainsi : - lenveloppe de lattaque est caractristique du type de son: corde frotte, frappe, gratte, etc... (retourn, le piano ressemble un son dharmonium). - les sons cuivrs sont caractriss notamment par un niveau dharmoniques leves qui crot dans le temps. Du reste, de manire gnrale loreille naime pas la monotonie et se focalise sur tout ce qui est non-stationnaire : vibrato, effet choral, transitoires, variations du spectre dans le temps.

PAMU/ACOUS

I - 55

Lidentification dun timbre est ainsi fonction du caractre priodique (i.e. tonal) ou non du son, des volutions (de lenveloppe, du spectre, de la priodicit) et de la nature des sons prcdents et suivants. Enfin lhomognit des timbres dinstruments est difficilement explicable par un modle simple ; en effet : - transposer des hauteurs dharmoniques ne transpose pas le timbre (notamment des instruments formants ), - le son du basson ou du piano est homogne malgr un rapport dharmoniques (une enveloppe spectrale) non constant(e) dans les diffrents registres de linstrument.

3. Vers un espace des timbres


Quels sont les paramtres les plus importants du timbre ? Puisquils ne correspondent pas des paramtres physiques simples on commence par essayer de les caractriser en dfinissant des attributs verbaux : le son peut tre mat, velout, doux, etc. Par des tests de similarit (par paires ou par triplets) suivis danalyses factorielles (Plomp, 1970; Wessel, 1979; McAdams, 1992...) on obtient comme composantes principales : la brillance, caractrise principalement par le centre de gravit spectral le mordant, caractrise par la dure de lattaque : de lordre de 1 2 ms pour le piano, 50 ms pour le violon Brillance et mordant rendent compte de 85% de linformation caractristique des timbres.

Brillance / CGS
Trompette Tromp. assourdie Hautbois Violon Piano

Mordant / dtatt
Flte Tuba Vibraphone Saxophone

Figure : un espace des timbres deux dimensions, la brillance et le mordant.

PAMU/ACOUS

I - 56

Ecoute binaurale lespace sonore

et

perception

de

La perception de lespace sonore peut tre apprhende selon deux attitudes particulires du systme auditif, auxquelles nous nous intressons successivement : la localisation des sources, ltendue subjective des sources. Ces capacits utilisent essentiellement, mais pas exclusivement, des indices binauraux.

1. La localisation des sons


Dabord il faut souligner la diffrence entre la position relle de la source physique du son, et la localisation qui intresse un vnement auditif subjectif. Cet vnement auditif peut : exister indpendamment de tout vnement visuel, ne pas tre fixe : la stro nous permet de reproduire un vnement auditif localis entre deux enceintes, qui ventuellement se dplace, tre trs peu localis - et cest l que la notion dtendue subjective prendra son importance. On sintresse aux capacits de localisation en direction et en distance. La direction dincidence du son est identifie selon les conventions suivantes : lazimut est langle que fait la direction incidente avec le demi-plan vertical situ dans laxe du visage du sujet. llvation est langle que fait cette direction incidente avec un plan horizontal.

f - azimut

q - lvation

Figure : lazimut et llvation

La localisation en azimut
On peut mesurer la capacit de localisation en azimut, en utilisant comme source soit un bruit bande troite soit un bruit blanc puls de dure 100 ms. On observe que cette capacit est bonne vers lavant ou vers larrire (de lordre de quelques degrs), un peu moins bonne sur les cts.

PAMU/ACOUS

I - 57

10

f 5,5 3,6

Figure : les capacits de localisation binaurales dans un plan horizontal Comme lont propos Stevens et Newman en 1936, il semble que deux indices binauraux soient impliqus essentiellement dans la localisation : lun, efficace surtout en Basses Frquences, est la Diffrence Interaurale de Temps ("Interaural Time Difference" ou ITD).
l = 23 cm
<=> F = 1500 Hz T T + dT S

Figure : la diffrence interaurale de temps. Notons que pour des sons priodiques, la distance interaurale tant de 23 cm environ, si la longueur donde est infrieure ou gale 23 cm cette information est ambigu : diffrentes directions incidentes produisent une mme diffrence de phase. La diffrence de phase nest en fait utile que pour les sons de frquence infrieure 1500 Hz. lautre indice, efficace surtout en Hautes Frquences, est la Diffrence Interaurale dIntensit ("Interaural Intensity Difference" ou IID).
BF - 0 dB HF - 20 dB

S HF ( < 1500 Hz ) rflchies

BF ( > 1500 Hz ) diffractes

Figure : la diffrence interaurale dintensit. On peut modliser la tte comme un obstacle sphrique dans le champ acoustique. On sait que son effet dpend de la forme de lobstacle, et de la frquence ; essentiellement : aux hautes frquences - si la longueur donde est trs infrieure aux dimensions de lobstacle, le son est presque entirement rflchi par celui-ci (si lon nglige les phnomnes ventuels de transmission), aux basses frquences - caractrises par une longueur donde trs suprieure aux dimensions de lobstacle, leffet de ce dernier est quasiment ngligeable.

PAMU/ACOUS

I - 58

entre ces situations extrmes les effets de la diffraction sont plus ou moins marqus se traduisent par une attnuation plus ou moins importante du son dans le contournement de la tte. Lattnuation ainsi produite varie en pratique de 0 20 dB environ. On constate que les capacits de localisation sont les moins bonnes autour de 1500 Hz, rgion frquentielle dans laquelle ni les indices temporels ni les indices dintensit ne sont suffisamment porteurs dinformation.

La localisation en lvation
Ltude des capacits de localisation en lvation donne des rsultats trs diffrents suivant le signal utilis : pour des sons de parole, nous avons une capacit de localisation raisonnablement bonne : de lordre de 10 pour des sons provenant de lavant, un peu moins bonne pour des sons provenant de larrire.

10 (parole)

Figure : capacit de localisation en lvation des sons de parole pour des sons purs en revanche, les rsultats sont tout fait diffrents : llvation perue dun son pur nest quasiment pas fonction de sa direction dincidence relle, mais uniquement de la frquence ! Ainsi, un son de basse frquence semble provenir dune source basse , un son de haute frquence dune source haute . En fait on constate que cest la largeur de bande du signal qui est dterminante. Une largeur de bande dau moins deux tiers doctave est ncessaire pour permettre une capacit de localisation en lvation. Dans le cas de sons purs, Blauert sest intress au trajet de lvnement auditif, en fonction de la frquence. Lorsque celle-ci augmente, la provenance apparente du son contourne par deux fois la tte, selon la figure suivante :
8 kHz

500 Hz 2 kHz 0 Hz 16 kHz 10 kHz 1000 Hz

Figure : trajet vertical de lvnement auditif en fonction de la frquence dun son pur prsent dans laxe de la tte Blauert a ainsi mis en vidence lexistence de bandes directionnelles , ou cnes de lespace dans lesquels nous entendons prfrentiellement une ou plusieurs frquences de sons quasi-purs.

PAMU/ACOUS

I - 59

La localisation en distance
Ltude de la distance subjective de la source montre que pour un son pur, celle-ci est en premier lieu lie lintensit perue : paradoxalement, un son pur semble provenir dautant plus loin que son intensit est leve.

1 m. Figure : tude de la distance subjective de la source

9 m.

Dans le cas de sons complexes la perception de la distance utilise de multiples indices : le niveau sonore absolu (en champ libre : W = 4pr I...), notamment pour des sources multiples, les variations de spectre : celui-ci change sur des distances modres, avec labsorption de lair, les hautes frquences tant plus rapidement attnues que les basses frquences. les rapports dintensit et les dlais temporels son direct / sons rflchis en espace clos. Notre capacit dexploitation de ces indices varie notablement selon notre familiarit avec la source. La prcision dans tous les cas reste faible, avec des erreurs courantes de lordre de 20%.

La localisation des transitoires


Dans la localisation des transitoires les diffrences interaurales de temps prennent une plus grande importance que pour les sons purs. On peut raliser un test de dtection dun changement de localisation associ lITD : sur des "bursts" de bruit ou de son pur, lITD seuil pour la dtection est de 10 ms (soit environ 1 de latralisation). Lacuit de localisation crot avec la dure du burst jusqu 700 ms. pour des clicks, lITD seuil est de lordre de 30 ms.
Ltude de la relation entre nos capacits de localisation des transitoires et leur contenu frquentiel et temporel, montre que celles-ci : utilisent plus les basses frquences que les hautes frquences : un filtrage passe-bas altre peu les performances, alors quelles sont nettement dgrades par un filtrage passe-haut. utilisent plus lenveloppe que la structure temporelle fine du signal. Ainsi, on dtecte aussi bien une diffrence dans la phase de modulation 300 Hz dune porteuse 4000 Hz, quun dlai temporel dun son pur 300 Hz. Cest donc le dlai temporel entre les enveloppes qui dtermine la latralisation (Henning, 1974 ). utilisent plus les diffrences interaurales dans la partie durable son, que les diffrences interaurales de lattaque. Ainsi, si deux bursts de bruit sont prsents chaque oreille avec une ITD sur les temps dattaque, la latralisation disparat ds que la dure des bursts dpasse 10 ms. environ.

Ltude des capacits de localisation des transitoires met encore en vidence le phnomne de ladaptation binaurale :
Hafter et coll. (1983, 1988) ont tudi la localisation dun train de clicks filtrs HF, en mesurant les seuils de dtection dITDs et dIIDs en fonction du nombre n et de lespacement I des clicks. Ils ont observ que : pour I 10 ms : le seuil dcrot avec n (en

1 ) ; tous les clicks portent donc autant dinformation. n

pour I < 1 ms : ( > 1000 Hz) : le seuil ne varie plus avec n ; ainsi le systme auditif ne traite plus que lattaque du train de clicks.

Il y a donc une adaptation rapide au rythme lev des clicks ; on note quun nouvel indice temporel distinct ("trigger" ) rtablit alors la capacit traiter les clicks suivants.

PAMU/ACOUS

I - 60

Les capacits monaurales de localisation


Si maintenant le sujet ne dispose plus que dune oreille, sa capacit de localisation en azimut fait est srieusement dgrade, comme lillustre la figure ci-dessous : 32

f 40 33

39 Figure : les capacits de localisation monaurales dans un plan horizontal Dans lespace, chaque direction dincidence appartient un cne de confusion sur lequel toutes les sources ont la mme ITD et plus ou moins la mme IID. La localisation, mme binaurale, est donc sujette des ambiguts, qui sont habituellement rsolues par des mouvements de la tte.

Cne de confusion

Figure : le cne de confusion Si ces mouvements de la tte sont possibles, on constate que la localisation monaurale est presque aussi bonne que la localisation binaurale. Ainsi dautres indices que les ITD et IID sont utiliss: en particulier, le changement du pattern spectral suivant la direction dincidence.

Rle de la tte et du pavillon


Les ITDs, les IIDs et les mouvements de tte ne suffisent pas expliquer compltement de nos capacits de localisation notamment en lvation. Lensemble de la tte et du pavillon ralise un filtrage complexe, dont leffet est notable de 500 16 000 Hz. Ce filtrage varie avec la direction dincidence du son. On en mesure donc les fonctions de transfert, ou HRTF ("head-related transfer functions") en fonction de la direction dincidence (azimut et lvation).
On distingue les fonctions de transfert : en champ libre : il sagit, pour une position donne de la source, de la diffrence de ce que recueille un micro lentre du conduit auditif externe suivant que lensemble tte et oreille externe est ou nest pas prsent. monaurale : on mesure alors, sur une oreille, leffet dun dplacement (en azimut et en lvation) de la source, sur ce qui est reu lentre du conduit auditif. interaurale : celle-ci sobtient comme la diffrence de ce qui est reu par les oreilles droite et gauche, lentre du conduit auditif.

On observe de grandes variations, avec langle dincidence, du niveau reu par chaque oreille.

PAMU/ACOUS

I - 61

Figure : illustration de la mesure des HRTF ; droite, on a reprsent lenveloppe temporelle du signal en fonction de la direction dincidence, pour une oreille (Blauert, 1980).

Le pavillon intervient essentiellement sur les hautes frquences, suprieures 6 kHz. On peut ainsi montrer que nos capacits de localisation de sons HF (8 10 kHz) diminuent si on obstrue les reliefs du pavillon. Ces capacits restent quasi-inchanges vers 3 kHz.
Son importance est mise en vidence par deux expriences amusantes : une exprience due Batteau (1967), qui montre que le son enregistr par deux micros travers des pavillons artificiels, permet la restitution binaurale, au casque, de bons jugements de localisation (i.e. lextrieur de la tte, et pas simplement de latralisation) en azimut et en lvation. Sans les pavillons artificiels, ces performances taient compltement perdues.

Figure : exprience de Batteau (1967) une autre exprience, celle de Freedman et Fisher (1968), qui a montr que la capacit de localisation pouvait tre conserve si lon prolonge les conduits auditifs par des tubes cylindriques ; cependant cette capacit ne reste bonne qu condition dadapter des pavillons artificiels lextrmit des tubes :
=> meilleure localisation que

et

Figure : exprience de Freedman et Fisher (1968)

Notons enfin que pour utiliser les variations spectrales dues aux changements de direction incidente du signal il faut tre en mesure de les distinguer de celles inhrentes au signal. Cest ce qui fait limportance de la connaissance a priori de la source et de lespace environnant. On a montr en effet que la localisation exploite des connaissances sur la source et sur le local, dont lacquisition se fait trs rapidement partir dindices auditifs et visuels.

PAMU/ACOUS

I - 62

Leffet de prcdence
Deux sons qui arrivent aux oreilles dans un temps assez bref (soit de 5 ms pour des clicks 40 ms pour des sons complexes) sont entendus comme un seul. Cest alors le premier qui dtermine la perception spatiale. Cest ce que lon appelle leffet de prcdence ou loi du premier front donde . Un consquence de ce phnomne est notre capacit rduite localiser des chos. Mais inversement, la prsence dchos multiples, dont lnergie totale peut tre suprieure celle du son direct, affecte peu notre capacit juger de direction incidente de celui-ci. Leffet de prcdence nexiste que pour les sons discontinus ou transitoires. La prsence du deuxime son nest cependant pas entirement sans effet : elle peut introduire un biais sur la localisation du premier, dplaant sa direction dincidence apparente de jusqu 7. Leffet de prcdence disparat dans les cas suivants : si lITD entre les deux sons est infrieure 1 ms ; on obtient alors une localisation moyenne, si lintensit du deuxime son est relativement trop grande (de 10 15 dB suprieure), si les sons ne sont pas suffisamment similaires, tant du point de vue de lenveloppe temporelle que du contenu spectral. Leffet de prcdence est un phnomne binaural, important pour la parole : la fusion dun son et de ses chos aide la comprhension. Pour sen convaincre, on peut vrifier que dans une pice rverbrante, se boucher une oreille est trs handicapant : on entend moins bien, on localise moins bien, et la rverbration semble crotre.
On peut galement rapprocher de ces donnes larticle de Greenberg et Arai (1998), au titre explicite : Speech Intelligibility is Highly Tolerant of Cross-Channel Spectral Asynchrony.

Leffet de prcdence a des consquences essentielle en HI-FI, avec la stro. Dans celle-ci, la direction est code surtout par diffrences dintensit ; si on se rapproche trop dun haut-parleur, (au point que lITD dpasse 1 ms), le son semble ne plus venir que de ce haut-parleur et leffet de strophonie est perdu. Dans une pice de dimensions moyennes, la conservation de la stro laisse une latitude de mouvements de lordre de 60 cm. Cela explique la notion de sige stro .

La latralisation et lquivalence temps-intensit


Une exprience simple, illustre par les figures ci-dessous, permet de mesurer linfluence respective des ITDs et des IIDs sur la latralisation (au casque) du son. Notons que ds que lITD dpasse 1 ms environ - resp. ds que lIID dpasse 15-20 dB - le son est peru exclusivement du ct o il arrive le plus tt - resp. o il est le plus fort.

retards

attnuateurs

1 e(t)

a1
e(t)

a 2

Figure : dispositif exprimental pour mesurer linfluence des ITDs et des IIDs sur la latralisation Dans les deux cas (retards crant une ITD, ou attnuateurs crant une IID) on observe des courbes similaires :

PAMU/ACOUS

I - 63

6 gauche

d (ms) 6 droite 1 ms

dL (dB)
1 ms

-15 dB 15 dB Figure : latralisation fonction des ITDs et des IIDs Par ailleurs il est possible de compenser un effet par lautre. Par exemple, si une ITD entre deux hauts-parleurs cre la localisation subjective dune source dans une direction donne, une certaine IID affectant une intensit plus forte au son retard peut permettre de contrebalancer ce premier effet, et de recentrer la source subjective.

1.
Figure : compensation dune ITD par une IID

2.

Cette exprience suggre que les diffrences interaurales de temps et dintensit pourraient tre codes de manire similaire dans le systme nerveux central. Cela pourrait tre expliqu par le fait que les temps de rponse aux sons intenses seraient plus courts ; linformation sur lintensit serait de cette manire transforme en information temporelle. Les mesures de cette transformation sexpriment en s/dB, elles vont de 1,7 s/dB (pour des sons purs) 100 s/dB (pour des trains dimpulsions). Cependant lquivalence temps-intensit nest pas parfaite ; en effet, lorsquon quilibre ainsi artificiellement la localisation dun son en compensant une ITD par une IID : la variabilit des jugements dazimut est suprieure celle observe avec des sons vritablement centrs, dans certains cas (sons purs basse frquence, clicks) on obtient deux images sonores spares : une image temporelle (peu affecte par lintensit), et une image dintensit . enfin, on reste souvent capables de distinguer les vrais sons diotiques (o les informations binaurales sont rellement issues dune mme source) des sons dichotiques (i.e. dont la localisation est ainsi quilibre artificiellement).

Conclusions sur la localisation


Dans la localisation des sources le systme nerveux emploie de nombreux indices, principalement : les ITDs et les IIDs, les changements de spectre dus la tte et au pavillon, les changements des indices prcdents dus aux mouvements de la tte ou de la source. Dans les situations courantes, tous ces indices se confortent pour donner une image auditive cohrente.

PAMU/ACOUS

I - 64

2. Autres (in-)capacits binaurales


Quelques notions dorganisation perceptuelle
Comme dans tous les domaines perceptifs, la perception auditive ne se rduit pas lcoute de sons isols mais met en jeu des structures syntaxiques. Il est utile davoir en tte les principaux mcanismes de groupement perceptifs, noncs par les thoriciens de la Gestalt Psychologie comme Bregman (voir son ouvrage de rfrence : Auditory Scene Analysis : Perceptual organisation of sound, Bradford Books, 1994). Nous illustrons ces mcanismes par des exemples visuels : proximit :

similarit :

continuit :

destin commun : Figure : illustration des mcanismes de groupement perceptifs

Les battements binauraux


Lorsquon prsente aux deux oreilles des frquences lgrement diffrentes, on peroit des battements binauraux qui sont une fluctuation du son, au rythme de la diffrence des frquences binaurales. Il ne faut pas confondre ces battements binauraux avec les battements habituellement entendus entre deux instruments de musique mal accords, qui rsultent dune fluctuation purement physique de lenveloppe damplitude dune somme de sons purs de frquences proches. Les battements binauraux ne sont jamais aussi distincts que ces battements physiques. Ils rsultent dune interaction binaurale dans le systme nerveux central. Ils sont une dmonstration concrte de lexistence du verrouillage de phase , ou synchronisation partielle des dcharges du nerf auditif avec le rythme de lexcitation sonore. Ces battements binauraux ne se produisent quen basses frquences : les plus marqus entre 300 et 600 Hz, ils disparaissent au-dessus de 1000 Hz. Lorsque la diffrence des frquences prsentes aux deux oreilles saccrot, leffet subjectif produit volue ; on entend successivement : un changement de la localisation apparente du son, un changement de son intensit, un changement de timbre du son qui semble devenir rugueux , et enfin, deux sons subjectivement diffrents.

Diffrences binaurales de niveau de masquage (MLDs)


Les diffrences binaurales de niveau de masquage ou "Masking Level Differences" (MLDs) sont une autre illustration remarquable du bnfice que nous retirons de laudition binaurale. Deux expriences la mettent en vidence :

PAMU/ACOUS

I - 65

la mesure des niveaux de masquage dun son pur par un bruit, lorsque la phase relative du son pur par rapport au bruit varie sur une oreille, tandis quelle reste fixe sur lautre oreille. La phase dun signal, on le sait, est habituellement peu porteuse dinformation pour laudition ; cependant on constate que si les phases relatives dun signal et dun bruit masquant sont diffrentes entre les deux oreilles, le seuil de dtection du signal est amlior de jusqu' 10-15 dB, par rapport la condition o les dphasages binauraux sont identiques.

Figure : mesure des MLDs dues aux diffrences de dphasage signal/bruit entre les deux oreilles une autre exprience spectaculaire consiste mesurer le seuil de dtection dun son pur dans un bruit masquant, dans deux conditions : (1) le son pur et le bruit sont prsents seulement une oreille, et (2) le bruit est galement prsent, seul, lautre oreille.

Figure : exprience sur les MLDs : signal plus bruit vs bruit seul On constate que dans le second cas le seuil de dtection du son pur est abaiss (i.e. meilleur), ce qui montre que le systme nerveux central a su exploiter la forme connue du bruit pour extraire plus facilement le signal recherch, dans le canal o ils taient mlangs. Une consquence pratique est par exemple quil ne vaut mieux pas se boucher loreille oppose au combin lorsque lon tlphone en milieu bruyant : dans la mesure o le bruit est prsent, mlang au signal, ct combin, lextraction du signal peut tre plus efficace si linformation bruit reste disponible sur lautre oreille. De manire gnrale, notre perception dans le bruit est amliore lorsque la diffrence de phase entre le signal et le bruit est diffrente entre les deux oreilles. Cest ce qui se passe en pratique chaque fois que les directions dincidence du signal et du bruit sont diffrentes ; lamlioration est maximale dans le cas dune opposition de phase. Ce phnomne joue ainsi un rle important dans notre capacit comprendre la parole en milieu bruyant, comme dans la situation de brouhaha couramment appele cocktail party .

La paresse du systme binaural


On constate que laudition ne suit les mouvements dune source que si ces mouvements sont assez lents: ainsi, langle de mouvement minimum audible ou "Minimum Audible Movement Angle" (MAMA) est de : 5 pour une vitesse de dplacement angulaire de 15/s 21 pour une vitesse de dplacement angulaire de 90/s.
Blauert (1972) a galement mesur notre capacit suivre des mouvements dITD ou dIID sur des trains dimpulsions. Pour un rythme de 80 impulsions par seconde, l ITD ou lIID subissant une modulation sinusodale, nous sommes capables de suivre auditivement le dtail de la modulation pour : un mouvement dITD, jusqu 2,4 Hz un mouvement dIID, jusqu 3,1 Hz Au-del, notre perception se brouille en une localisation moyenne, moins prcise.

PAMU/ACOUS

I - 66

Ces expriences dmontrent donc que le systme binaural est trs peu sensible aux mouvements rapides de la source.

Linfluence de la vision sur la perception auditive


Les indices visuels peuvent dplacer (dune manire qui se prolonge dans le temps, aprs la prsentation de ces indices) la localisation des sources sonores. Deux expriences amusantes illustrent la manire dont la vision peut ainsi influer sur laudition :
le pseudophone expriment par Young en 1928, permettait de faire entendre chaque oreille les sons provenant rellement du ct oppos ou dune direction diffrente.

Figure : le pseudophone de Young Les exprimentateurs notrent que durant le port de lappareil, le rapprentissage auditif tait limit ; il ny avait pas de relle rorientation auditive. Cependant, aprs avoir le port dun pseudophone qui dplaait en azimut limage auditive, on observait parfois un ddoublement de limage auditive dune source visible : une image auditive concidant avec la position relle de la source, une autre tant lgrement dcale dans le sens oppos celui cr auparavant par le pseudophone. dans une autre exprience due Wallach (1940) le sujet est plac au centre dun dcor tournant, et il entend des sons provenant dun haut-parleur fixe, plac derrire le dcor un azimut variable.
Dcor en rotation

HP 1: peru au dessus

HP 2: peru tournant, une lvation fonction de f

Figure : exprience de Wallach (1940) Dans le cas o le haut-parleur tait face au sujet, limage auditive produite tait fixe, la verticale, comme si la source avait t au-dessus ou au-dessous du sujet. Dans le cas dun azimut non nul, la source tait perue comme tournante, une lvation qui dpendait de cet azimut.

Ces expriences montrent que la vision joue un rle important dans la localisation, et participe notre rorganisation de lespace auditif.

Les capacits particulires des aveugles


On observe que les aveugles montrent une capacit remarquable dtecter des objets et juger de leur distance. Il a t avanc que des sensations cutanes (courants dair...) jouaient un rle dans cette capacit, mais il semble que ce rle soit secondaire vis vis de celui jou par laudition. Les aveugles se reprent partir de sons quils produisent, par exemple en frappant le sol de leur canne, ou des sons de lenvironnement.

PAMU/ACOUS

I - 67

Wilson (1967) a remarqu que la prsence simultane dune source et de limage de cette source cre par rflexion sur un obstacle, donne lieu des interfrences qui crent une srie de minima et de maxima dans le spectre global ; si le spectre du son original est assez large, cette variation du spectre peut tre perue comme un son, le "reflection tone" dont la hauteur crot lorsque lobstacle se rapproche. Les aveugles ont ainsi la capacit de dtecter la prsence dobjets occupant un angle de seulement 3,5, et de dtecter des changements de distance de lordre de 20%. Des expriences ont galement mis en vidence une capacit discriminer des matriaux (bois, velours...) et mme des formes, par des aveugles qui utilisaient pour cela des sons quils produisaient : sons vocaux, clics, sifflements...

3. Ltendue subjective des sources


Un vnement auditif peut tre trs peu localis. Cest le cas par exemple dans les glises o les rflexions multiples du son nous parviennent simultanment de toutes les directions. Nous nous intressons au cas simple de la strophonie, o un sujet reoit simultanment les sons provenant de deux sources. Ce cas permet de restituer artificiellement une impression dtendue.
y(t) D D

G G x(t)

Figure : illustration dun dispositif strophonique Si x(t) et y(t) sont les signaux reus par le sujet, en provenance des deux sources, on dfinit la fonction dintercorrlation normalise F par :

F xy (t) =


T -T

-T

x (t ) y (t + t)dt
T -T

x (t )dt y (t )dt

On dit que x(t) et y(t) sont cohrents si : ( k =)

max F t

xy

(t) = 1

Cest le cas videmment lorsque x(t) = y(t), le maximum tant alors atteint en t = 0. Dans le cas gnral, k varie entre 0 et 1, et gouverne ltendue subjective de la source : pour k = 1, les signaux sont parfaitement corrls, on entend alors un seul vnement auditif dont la localisation varie avec t. pour k = 0, linverse, les signaux sont dcorrls, on entend alors deux vnements auditifs distincts, localiss chacun sur un des haut-parleurs. on obtient une sensation quilibre dtendue pour k~= 0,4.

Latralisation
Par lapplication judicieuse de filtrages (passe-haut, passe-bas...) aux deux signaux x(t) et y(t), on peut crer la valeur de k dsire. La figure ci-dessous illustre leffet de diffrentes valeurs de k sur la latralisation obtenue :

PAMU/ACOUS

I - 68

k=1 k = 0,85 k = 0,4 k=0


Effet de latralisation

Figure : influence du maximum dintercorrlation normalise sur la latralisation

Echos et rverbration
Rappelons que les rflexions dune source sonore sur les obstacles environnants, lorsquelles sont perues distinctement, sont appels des chos tandis que les rflexions suivantes se fusionnent habituellement pour former la rverbration.

chos rverbration

D son direct / rflexions


Figure : chos et rverbration On observe que leffet perceptif des premires rflexions est fonction du dlai D qui spare leur arrive de celle du son direct : si D est infrieur quelques ms : les rflexions contribuent donner une impression despace, si D dpasse quelques ms: les rflexions sont perceptibles sparment et donnent une impression dsagrable dchos. De manire gnrale, les rflexions individuellement marques nuisent au confort acoustique. Un certain taux de rverbration est en revanche ncessaire la cration dune sensation dtendue sonore. Ainsi, dans la cration dune salle de concert ou de spectacle, on pourra prfrer une forme qui favorise les rflexions multiples - type bote chaussures - une forme damphithtre qui favorise la diffusion du son dans une seule direction, et la perception uniquement du son direct, voire dchos isols. Cela est illustr par la figure ci-dessous.

trop peu de rflexions, son trop localis scne scne

acoustique quilibre

Figure : contrle de la rverbration dans une salle de concert.

Application : simulation despace et strophonie


A partir de ce que nous avons vu ci-dessus, il est possible de crer artificiellement une impression despace partir dun enregistrement mono ou stro. Il convient de distinguer : leffet de strophonie qui peut tre cr partir dun signal monophonique : laide de filtres et dune rverbration artificielle (qui sajoute la rverbration naturelle de la salle), on cre une sensation dtendue de la source. Cette sensation est totalement artificielle.

PAMU/ACOUS

I - 69

la vraie strophonie obtenue partir dun enregistrement deux voies, qui peuvent ventuellement tre artificiellement mixes et filtres a posteriori. Lexprience montre que les microphones ne doivent tre ni trop proches - ils captent alors la mme chose - ni trop loigns - la prise de son prsente alors un trou au centre. La meilleure disposition est videmment fonction de la salle, de la taille et de la position de lorchestre... La disposition relative des deux micros fait aujourdhui lobjet dune norme, selon laquelle les micros doivent tre espacs de 20 cm, leurs directions dorientation formant entre elle un angle de 110.

110 20 cm

Figure : disposition normalise des microphones pour la prise de son strophonique.

PAMU/ACOUS

I - 70

Annexe : Mthodes pour ltude des sensations auditives


Exemple dexprience
Mesure du seuil de dtection dun son pur dans le bruit par la mthode du choix forc. Dans cette exprience on utilise 2 types de stimuli : - un bruit seul, - le bruit additionn dun son pur de frquence et de niveau dtermins. Les stimuli sont prsents alternativement au sujet, dans un ordre alatoire; on fait varier lintensit du son pur (et ventuellement sa frquence). A chaque prsentation, on demande au sujet si le son pur est ou non prsent. La rponse est obligatoire (oui ou non). On construit la matrice stimulus / rponse: Rponse : s Stimulus : s Fausse alarme b Dtection correcte b Rejet correct Dtection manque

Dans le cas o le niveau du son pur est trs faible, on a des rponses quiprobables : 50% de rponses justes. A linverse sil est trs fort, on a 100% de bonnes rponses. On trace la courbe psychomtrique suivante:
% rponses justes 100 75 50

seuil

Grandeur G mesure

Figure : courbe psychomtrique dans un test du type deux alternatives choix forc On estime que le seuil de dtection est le point correspondant 75% de rponses justes. (On vrifie le plus souvent que la courbe est monotone, sans quoi la dfinition du seuil peut tre caduque. Un exemple typique de courbe non monotone est la courbe dintelligibilit de la parole en fonction du niveau sonore chez certains malentendants : aprs avoir atteint son maximum, pour les niveaux forts, lintelligibilit dcrot). La mesure de la pente de la courbe donne une indication sur la slectivit du seuil.

PAMU/ACOUS

I - 71

Cette mthode est sre, et permet dans certaines conditions de tester plusieurs sujets en mme temps. Mais elle est longue et fournit une quantit de points inutiles. On lui prfre souvent en pratique des mthodes adaptatives, qui permettent une convergence plus rapide et sont bien adaptes au traitement informatique.

Mthodes de test
Celles-ci sont prsentes plus ou moins par ordre croissant de difficult : - Choix forc : cas prcdent - Ajustement Dans ces mthodes le sujet rgle lui-mme le stimulus. Cest applicable la mesure de la perception de lintensit (cas de laudiomtre de Bksy) et de la hauteur. - Stimuli constants, apprciation gradue Exemple du test AAAB: - on prsente 2 paires de stimuli dont lune peut comporter (ou non) un stimulus diffrent. - on demande : 1.Y a-t-il un son diffrent? 2.Si oui, dans quelle paire? 3.Quel est le degr de diffrence? A apprcier entre 0 et 6 (cest dire 5 niveaux utiles, nombre optimal pour viter la dilution de linformation tout en permettant le raccordement des lois normales). Ce type de test sert beaucoup en hi-fi.

Types de relations tudies


(par ordre de difficult de rponse): Test valeurs limites; seuils / seuils diffrentiels valeurs de comparaison valeurs relatives Type de rponse dans le cas du choix forc prsence du son / diffrence entre deux sons le 2ie son est / nest pas moins fort que le 1er le 2ie son est / nest pas moiti moins fort que le 1er

Traitement des rsultats


Les indicateurs statistiques habituels (moyenne, variance, cart-type) ne sont pas invariants par transformation non-linaire. Or dans beaucoup dchelles de grandeurs subjectives apparaissent des transformations non-linaires (comme le log dans le niveau SPL). On prfre donc utiliser les indicateurs suivants, qui sont invariants: - la valeur centrale : cest le point frontire entre les moitis suprieure et infrieure de lensemble des valeurs de mesure. - lcart statistique: zone dans laquelle se trouve un quart des valeurs mesures. Ces indicateurs sont dtermins par simple comptage.

Difficults et contraintes
1. Dans tous ces tests, on doit faire attention au choix de la population qui peut biaiser normment les rsultats (par exemple, les musiciens sattachent plus au contenu musical qu la qualit du son ; certains prfrent le son synthtis ; les collgues de laboratoire ont loreille plus entrane ; etc.). On choisit souvent la population (contrairement aux sondages) en fonction de la question pose. 2. Il faut toujours tenir compte de la fatigabilit du sujet. Les performances sont altres au cours dun test long et difficile.

PAMU/ACOUS

I - 72

Centres d'intérêt liés