Sae Mem 94 PDF

SC::SSION
SO?HIE
Table des matires
L'enregistrement binaural
2009
1 ntrod uction . ................................................................................................................. 1
1 1 Audition humaine & psychoacoustique ........ ........ .. .. ................... ................................... 2
A) Propagation sonore .. .............................................. .. ... .................. .. ...................... ... .... 2
B) Pression et intensit sonore ........................................................................................ 5
C) Les dcibels (dB ) .......................................................................................................... 5
D) Interfrences ............................................................................................................... 7
E) Les champs sonores ................................................................................................... 12
F) Les rsonateurs .......................................................................................................... 14
G) Structure de l'oreille externe ..................................................................................... 17
H) Fonctions de l'oreille externe .................................................................................... 18
1) Localisation sonore .................................................................................................... 22
J) Localisation dans l'azimut .......................................................................................... 23
K) Localisation avant-arrire et dans le plan vertical ..................................................... 33
L) Localisation en fonction de la distance ...................................................................... 37
M) Interactions entre la source sonore et les repres utiliss dans la localisation ........ 37
N) Prcdence-localisation dans les espaces rverbrants ............................................ 38
0) Latralisation .............................................................................................................. 39
P) Localisation versus latralisation ............................................................................... 43
Q) Masquage binaural ..................................................................................................... 44
Il 1 Binaural et thorie ......................................................................................................... 49
A) Stro binaurale ......................................................................................................... 49
B) Introduction l'audio binaural .................................................................................. 50
C) Petit historique ........................................................................................................... 51
D) Principes du binaural .................................................................................................. 52
E) Rsoudre les problmes des systmes binauraux ..................................................... 54
F) Ttes artificielles, ttes relles et HRTFs synthtises .............................................. 57
G) Le suivi de tte ........................................................................................................... 60
H) Lecture de signaux binauraux sur haut-parleurs ....................................................... 61
2009
1) Les systmes de surround virtuel 1 home-cinma virtuel ......................................... 63
J) La reproduction surround sur casque ........................................................................ 65
K) Les environnements acoustiques virtuels .................................................................. 66
L) Vers une volution de la prise de son binaurale ? .......................................................... 67
Ill / Binaural et pratique . ............................................................................................. 72
A) A propos des microphones ............................................... ......................................... 72
B) Quel casque? ............................................................................................................. 78
C) Le disque de Jecklin .................................................................................................... 80
D) Le disque de Schneider .............................................................................................. 84
E) La tte artificielle ........................................................................................................ 84
F) Le mannequin ou systme HATS ................................................................................ 88
G) Tentative personnelle ................................................................................................ 93
Conclusion ................................................................................................................ 101
Bibliographie ............................................................................................................. 102
Lexique ..................................................................................................................... 103
2009
Introduction
Ce mmoire a pour but l'tude de l'enregistrement 1 la prise de son binaurale, technique
souvent mconnue du grand public et peu rpandue en studio ...
Pour commencer, j'ai choisi de dtailler les processus qui entrent en jeu dans l'audition
humain et la psychoacoustique car ils sont aux racines mmes de l'audio binaural qui se
veut tre la plus fidle reproduction de notre coute. Tout ceci sans pour autant oublier
de faire quelques rappels essentiels sur des notions du monde de l'audio qui peuvent se
montrer utile dans l'univers binaural, comme l'impdance ou les dcibels pour ne citer
qu'eux.
En seconde partie, nous plongerons au cur du sujet grce l'tude thorique de la prise
de son binaurale. Concrtement, de l'historique et la dfinition aux enjeux de cette
technique et ses volutions possibles, en passant par les moyens techniques qui s'offrent
nous pour la mettre en uvre et ses utilisations.
Enfin, la pratique se chargera d'achever cet crit par un tour d'horizon des microphones
et systmes utiliss pour raliser des enregistrements binauraux, pour se finir sur une
petite touche indite : un essai personnel !
Par ailleurs, ceci n'est bien entendu qu'un rsum de ce qui suit, le tout s'accompagnant
de nombreuses illustrations et d'un CD dont le contenu est mentionn au fil de la lecture.
Enjoy!
1
A) Pro a ation sonore :
2009
Le son peut voyager travers un milieu qui possde de l'inertie (le fait qu'une force doit
tre applique un objet afin que celui-ci bouge).
Ceci tant, le son peut alors tre transmis dans l'air, l'eau, le bois, le mtal etc. mais pas
dans le vide.
c> L'air tant le milieu le plus commun la vie de tous les jours, il s'agit de considrer
la transmission sonore en ce milieu.
Les molcules composant l'air sont l'tat naturel, constamment en mouvements
alatoires.
Quand un objet vibre dans l'air, les molcules ont alors tendance bouger dans la
direction vers laquelle l'objet bouge plutt qu'alatoirement.
La propagation sonore se base alors sur le principe suivant : la source vibre, entrainant un
dplacement directionnel des molcules de l'air avoisinantes, qui leur tour vont
percuter d'autres molcules proches etc. Ceci forme alors une raction en chaine jusqu'
l'oreille externe puis le tympan, permettant au son mis par la source de nous tre
audible.
Zoom sur les changements dans l'air quand l'objet rentre en vibration :
Quand un objet vibre et bouge en avant par rapport son tat de repos, les molcules
situes ct de l'objet sont alors toutes compresses, crant une aire de forte densit
(masse par unit de volume) de molcules d'air.
c> La loi des gaz tablie que plus la densit de molcules d'air augmente, plus la
pression en fait de mme. La pression est donc proportionnelle la densit.
c> Ainsi, en crant une forte densit de molcules d'air, il se cre aussi une forte
pression dans cet espace.
Une aire de condensation est alors engendre, les molcules sont condenses.
Quand l'objet vibre et bouge dans la direction oppose (en arrire par rapport son tat
de repos), les molcules d'airs obissent une autre proprit de la loi des gaz :
c> L'air emplit de manire homogne l'espace qu'il peut occuper.
c> Ainsi, les molcules d'air vont prendre la place de l'objet qui a boug dans la
direction oppose.
c> Au plus l'objet s'loigne de son tat de repos, au plus l'espace remplir par les
molcules d'air s'agrandit.
c> La densit des molcules d'air est alors rduite, ainsi que la pression.
Une aire de rarfaction est alors engendre, la densit des molcules est rarfie.
Par ailleurs, la simple prsence de molcules d'air cre une pression d'air statique (qui
est proportionnelle la densit de molcules).
2
2009
Les changements de pression causs par la vibration d'un objet sont des changements
dans cette pression d'air statique.
Quand l'objet vibre, la pression de l'air augmente pour devenir plus importante que la
pression statique puis diminue pour passer en dessous (etc), ceci gnre alors un
changement de la pression de l'air relatif celle qui est statique.
c::> Cette pression d'air changeante part de l'objet pour se propager.
c::> En d'autres termes, les aires de condensation alternent avec les aires de
rarfaction dans l'espace.
Pression de l'air
statique
.1 . .

Rarfaction

Source

Condensation
Figure 1 a : Diagramme reprsentant ce que l'on devrait voir si les molcules d'air
taient photographies un instant t quand la source vibre. Les rarfactions
et condensations sont indiques, ainsi que les directions (flches grises autour de la source)
dans lesquelles les molcules ont boug quand la photo a t prise. La vague de pression
s'chappe de manire circulaire (sphrique en 30). Quand l'onde de pression quitte la source,
elle occupe une aire de plus en plus grande,
entranant une densit de molcule dcroissante aux rarfactions/condensations.
La surface au bord de l'image reprsente le mouvement de l'air statique avant que la vague
n'atteigne cet endroit.
3
2009
Lors d'une aire de condensation, le mouvement de l'onde semble se diriger vers
l'extrieur de la source.
Lors d'une aire de rarfaction, il semble se diriger vers la source elle-mme.
L'onde se propage de manire circulaire depuis l'objet (de manire sphrique en 3
dimensions).
Figure 2a :Autre reprsentation des aires de condensation (rdes foncs,
le fond gris tant la pression d'air statique) alternant avec celles de rarfaction (cercles dairs)
qui quittent la source en vibration. Les pressions dans la vague tendent se rapprocher de celle
de l'air statique quand cette mme vague s'loigne de la source.
A partir d'une certaine distance, les pressions des zones de condensation et de
rarfaction sont semblables la pression d'air statique.
~ L'onde sonore n'est alors plus transmise.
La distance entre chaque zone de condensation (ou de rarfaction) est appele
longueur d'onde (symbole ) .
Elle dpend de 2 variables : la frquence et la vitesse du son
~ Elle est directement proportionnelle la vitesse du son et inversement
proportionnelle la frquence de vibration.
~ = c /f
~ en mtres, c la vitesse du son en mtres par seconde, fla frquence en Hz.
4
2009
La vitesse du son dans l'air est d'environ 350m/s (et change selon la temprature,
l'humidit et la densit de l'air. En effet le son ira plus vite dans une zone chaude et
humide au niveau de la mer par rapport un endroit froid, sec et haute altitude. Il en va
de mme avec l'augmentation de la densit qui permet une diffusion plus rapide).
Le domaine frquentiel audible par l'tre humain s'tend d'environ 20Hz 20kHz
~ En sachant que la vitesse du son dans l'air= 350m/s
~ On peut tablir qu'en matire de longueurs d'ondes, ce domaine s'tend
d'environ 17,Sm (20Hz) 0,0175m (20kHz).
B) Pression et intensit sonore :
La pression sonore instantane (p(t)) que l'objet vibreur exerce sur une zone est
directement proportionnelle la vlocit (vitesse) de l'objet et inversement
proportionnelle l'aire de la zone sur laquelle l'objet vibre.
~ P(t) = mv/tAr
~ rn = masse, v= vlocit, t =temps, Ar= aire de la zone
q Cette quation dcrit la pression instantane qu'un objet peut gnrer.
La pression tant proportionnelle la vitesse de l'objet, celle-ci s'en trouve indirectement
proportionnelle son dplacement.
Cela signifie que les changements dans la pression sonore travers le temps vont prendre
une forme similaire celle du dplacement de l'objet en vibration (en matire de
variations).
Si la valeur RMS (efficace) de ces pressions sonores instantanes est calcule de la mme
manire que la valeur RMS du dplacement de l'objet, la pression RMS (p) dcrit la
pression sonore que l'objet vibreur exerce sur une aire connue.
Un autre moyen de dfinir la pression est en termes de force (F) :
~ p = F/Ar car F= mv/t
~ p = pression RMS, F= force, rn = masse, t =temps and Ar= aire
L'intensit sonore (1) est une mesure de puissance pour les situations qui incluent du son.
Voici la relation entre l'intensit sonore et la pression :
q 1 = p
2
/ (POe)
q Etant donn que p
2
= (F/Ar)
2
~ 1 = (F/Ar)
2
/(POe)
q PO = densit du milieu, c = vitesse du son dans ce milieu
C) les dcibels (dB) :
La description de l'intensit (nergie ou puissance) et de l'amplitude (mesures de
pression et de dplacement) d'un son est incomplte si on ne mentionne pas les dcibels.
Imaginez la plus petite intensit sonore ncessaire pour dtecter un son, cela pourrait
tre appel 1 unit d'intensit sonore .
5
------
2009
Maintenant pensez la mesure de la plus grande intensit sonore perue avant que
l'oreille ne soit endommage.
c::> La gamme d'intensits, de la plus petite requise pour entendre un son la plus
grande avant que notre audition soit dtriore, est appele l'tendue
dynamique du systme auditif.
c::> Si 1 unit d'intensit sonore reprsente la plus petite intensit, alors 10"14 units
reprsentent la plus grande.
c:> Le systme auditif a alors une tendue de 10"14 units d'intensit.
Cette tendue est hlas beaucoup trop grande pour l'utiliser en situation pratique.
c::> Afin de la rduire des nombres plus humains, nous utilisons les Logarithmes
(log). L'intensit sonore y est considre sur une chelle de rapports (et non plus
sur une chelle d'intervalles).
Le rapport entre 2 intensits Il et 12 est alors exprim en Dcibels(= 1/10 de Bels, ces
derniers tant trop grands pour tre utiliss pratiquement)
c::> 10 log (Il 1 12) =x dB
c::> Si Il= 10"14 et 12= 1 alors l'tendue dynamique en dcibels devient:
c::> 10 log (10"14/1) = 10 log (10"14) = 10 * 14= 140dB
c::> On a transform les units d'intensit en dcibels par les logarithmes afin de
rduire l'chelle d'intervalle (ce qui donne une chelle de 1 140dB au lieu de 1
10"14 units d'intensit).
Il faut nanmoins garder l'esprit que le Dcibel ne reprsente qu'un rapport entre 2
valeurs (il peut trs bien tre utilis avec d'autres units que la puissance, en faisant
attention au facteur de multiplication du logarithme (qui est ici de 10) qui est de 20 pour:
l'intensit (lectriquement parlant), la tension, la pression et la distance).
Ainsi dire qu'un son a une intensit de 30dB ne signifie rien sans prciser sa rfrence :
par rapport ... ? De plus que ... ? De moins que ... ?
c::> Un dcibel est une mesure relative, et non absolue.
Deux conventions sont usuellement utilises pour dfinir le dcibel en termes absolus :
Les expriences menes dans les annes 1930 ont dtermin qu'une pression de 20J..1.Pa
tait la plus petite ncessaire pour qu'un tre humain moyen dtecte une sinusode
d'1kHz 4kHz.
c::> Quand les dcibels sont exprims par rapport au 20J..1.Pa, ils le sont en tant que
Sound Pressure Level (Niveau de Pression Sonore) (SPL).
c::> Si un niveau sonore est exprim comme GOdB SPL, alors le niveau est GOdB au
dessus de 20J..I.Pa.
c::> De manire quivalente, dB SPL signifie les dcibels au dessus du seuil normal de
dtection d'une sinusode d'1kHz 4kHz .
L'autre moyen de traduire le dcibel en termes absolus est le sensation level (niveau
de sensation) (SL) :
c::> Le Sensation Level se rapporte au moindre son qu'un sujet particulier peut
dtecter dans une situation d'exprimentation particulire (par exemple, une
frquence particulire).
6
2009
c> Alors, 30 dB Sl signifie qu'un son tait 30dB plus intense que ce qui tait requis
pour une dtection dans une autre situation exprimentale.
c> SL est bas sur la rfrence du plus petit niveau qu'un sujet particulier peut
dtecter dans un contexte exprimental.
Voici le niveau en dB SPL de quelques sources et conditions sonores :
OdB SPL =son le plus faible qu'une personne l'audition normale puisse entendre
lOdB SPL = respiration normale
20dB SPL =chuchotements
40dB SPL = une pice calme
SOdB SPL = pluie
GOdB SPL = conversation normale
llOdB SPL =cri l'oreille
120db SPL = tonnerre
140dB SPL =dommages immdiats au systme auditif
D) Interfrences:
Maintenant que les proprits gnrales de la propagation du son dans l'air ont t
dcrites, regardons de plus prs les consquences de cette propagation dans le monde
rel.
Une des plus videntes proprits de la propagation sonore est qu'au plus une onde se
trouve loin de sa source, au moins le son est fort.
Rappelons que l'intensit sonore (1) est proportionnelle la pression (p) leve au carr,
divise par l'aire (Ar)
c> 1 = (F/Ar)
2
/(POe)
c> Cf partie Pression et intensit sonore
En nous loignant du centre de la sphre (cf figure la), c'est--dire de la source sonore,
l'aire de la sphre s'agrandit.
Etant donn que la source sonore fournit une puissance constante et que l'aire
augmente, l'intensit sonore (1) doit diminuer tant que la distance entre le bord de la
sphre et son centre (la source sonore) crot.
c> L'aire d'une sphre est gale 4m
2
, o rest le rayon et n: = 3.14
c> Nous obtenons alors la relation suivante : 1 = K (P/4nr
2
)
c> Avec K= coefficient de proportionnalit constant, P = puissance sonore, r = rayon
de la sphre
c> Ceci signifie que l'intensit sonore (1) est inversement proportionnelle la
distance de la source au carr (r
2
).
c> Cette loi est plus connue sous le nom loi du carr inverse : Si la distance
double, l'intensit sonore est alors divise par 4, ou perte de GdB (10 log 4 = 6).
Toujours en ayant en tte que l'intensit sonore (1) est proportionnelle la pression (p)
leve au carr :
7
2009
q p = K*vl
q p = K*v(P/4m
2
)
q p = k/r o k et K sont des constantes bases sur la densit du milieu travers et
sur la vitesse du son.
q La pression (p) est inversement proportionnelle la distance de la source (r).
q Si la distance par rapport la source sonore est double, le niveau de pression
sonore est alors divis par 2, ou perte de 6dB (20 log 2 = 6)
Ces relations distance/intensit et distance/pression ne sont hlas valables que lorsque
l'onde sonore ne rencontre aucun obstacle. Or la plupart du temps ce n'est pas le cas et
beaucoup d'objets gnent le passage des ondes sonores.
Cette gne dans la transmission sonore lieu chaque fois qu'il y a un changement dans
le milieu que le son traverse (par ex: de l'air un mur), nous parlerons alors de
changement d'impdance.
Pour bien comprendre la propagation sonore, il nous fait prciser ce terme :
q Prenons l'exemple d'une masse attache un ressort.
q L'impdance (Z) se dcompose en 2 autres termes : la ractance (X) et la
rsistance (R).
q Ces 2 formes d'impdance comprennent des proprits qui s'opposent au
mouvement vibratoire (du systme masse+ ressort dans notre cas).
q La composante ractance dpend des proprits de la masse et du ressort. On
parle alors de la ractance de la masse (Xm) et de la ractance du ressort (Xs) (ou
raideur). La ractance dpend alors de la frquence de vibration, que ce soit pour
Xm ou Xs.
q Les forces rsistantes qui gnent le mouvement vibratoire ne dpendent pas de la
frquence. Le frottement est un type de rsistance.
q Voici la relation entre l'impdance (Z), la ractance (Xm et Xs) et la rsistance (R) :
q Z = v(R
2
+ (Xm- Xs)
2
)
En rgle gnrale, l'impdance d'un milieu est appele Impdance caractristique
(Zc) .
q Zc =POe
q O PO = densit du milieu, c = vitesse du son en ce milieu
Rappelons que 1 = p
2
1 POe
q Nous pouvons alors redfinir l'intensit sonore (1) comme :
q 1 = p
2
1 Zc
q L'intensit sonore peut aussi tre exprime comme la pression sonore au carr
divise par l'impdance caractristique du milieu dans lequel le son est transmis.
q L'intensit sonore varie selon le milieu cause de l'impdance caractristique de
ce milieu.
Si une onde sonore percute un obstacle dans le milieu et donc, rencontre un changement
d'impdance, une portion de cette onde va tre rflchie.
L'intensit sonore rflchie dpend de la diffrence entre les impdances caractristiques
des deux milieux.
8
2009
~ Plus cette diffrence est grande, plus l'intensit sonore de l'onde rflchie l'est
galement.
La portion de l'onde qui n'est pas renvoye est alors transmise au nouveau milieu ou
absorbe dans ce dernier.
Source sonore Mur
Figure 3a : Onde sonore se rflchissant sur un mur.
Quant elle est rflchie, l'onde peut s'ajouter la nouvelle onde incidente
(interfrence constructive dans laquelle les crtes de condensation/
valles de rarfaction se rencontrent, menant une augmentation/diminution de pression)
ou l'annuler (interfrence destructive dans laquelle la rencontre d'une crte de condensation
avec une valle de rarfaction mne invitablement une diminution de pression).
Il se trouve que l'onde rflchie peut rencontrer l'onde originelle en s'loignant de
l'obstacle.
Dans cette situation, deux types d'interactions peuvent se produire entre ces 2 ondes :
~ Deux points de condensation (ou rarfaction) peuvent se mlanger et former alors
une zone de plus grande condensation (ou rarfaction), appele Interfrence
constructive .
~ Les points de condensation et de rarfaction se chevauchent, rsultant en une
perte de pression pour les points de condensation et ne augmentation de
pression pour ceux de rarfaction. Ceci est appel Interfrence destructive .
9
2009
c> le rsultat de tout cela peut tre la sommation de deux formes d'onde
(Renforcement dans le cas d'interfrences constructives), ou la soustraction de
deux formes d'onde (Annulation dans le cas d'interfrences destructives).
Pour cette raison, une personne assise en face d'un mur peut entendre un son gal en
intensit l'onde en approche (pas de rflexions), un son plus intense (dans un cas de
renforcement) ou un son moins intense (dans un cas d'annulation).
Sur la figure 3a, il n'est mentionn qu'une seule source sonore. Si plusieurs rentrent en
jeu, beaucoup de renforcements et d'annulations ont alors lieu.
Sans oublier que chaque chose qui a une plus grande densit que l'air (une plus grande
impdance caractristique) va rflchir le son, ce qui complique la dtermination de
l'intensit sonore pour un endroit particulier d'une pice.
A noter le cas de deux sources sonores produisant chacune une frquence diffrente.
Si ces deux ondes percutent un mur et sont rflchies, il se cre alors des interactions
complexes.
En consquence, un son d'une frquence un endroit de l'espace peut tre plus facile
entendre qu'une autre frquence au mme endroit, parce son intensit est plus grande
(cf renforcement) en ce point.
c> l'intensit sonore peut varier, non seulement en fonction de l'endroit de la pice
o elle est mesure, mais aussi en fonction de la frquence.
c> En rsum, il faut faire attention en affirmant que l'onde qui arrive un point
prcis d'une pice (notre oreille par exemple !) est gale celle qui a quitt la
source sonore. les deux devraient tre semblables si, et seulement si les
rflexions sur les murs, le sol et autres choses ne sont pas prises en compte et si
la distance par rapport la source est utilise dans le calcul.
Une autre influence qu'un objet peut avoir sur l'onde sonore est la zone d'ombre .
Ceci s'explique par la taille de l'objet que l'onde va rencontrer, en rapport avec la
longueur d'onde du son mis.
10
2009
Figure 4a : Diagrammes simplifis d'ondes sonores rencontrant des obstacles_
(a) Obstacle suprieur la longueur d'onde: la plupart de l'onde est rflchie.
(b) Obstacle beaucoup plus petit que la longueur d'onde: la plupart de l'onde
franchit l'obstacle_
(c) Obstacle proche en taille de la longueur d'onde: une ombre sonore
de pression sonore rduite est engendre derrire l'obstacle_
Voici les diffrents cas possibles :
c::> L'objet rencontr est beaucoup plus grand que la longueur d'onde, la plupart de
l'onde est rflchie.
c::> L'objet rencontr est beaucoup plus petit que la longueur d'onde, la majeure
partie de l'onde franchit l'obstacle sans tre rflchie.
c::> L'objet rencontr est de taille semblable la longueur d'onde, quelques rflexions
sont engendres mais une fois l'objet pass d'une certaine distance, les ondes ne
semblent pas avoir t affectes par l'obstacle. Il se cre en plus une zone
d'ombre juste derrire cet objet.
11
2009
q En faisant un zoom sur cette zone d'ombre, on observe que c'est une zone o il
n'y a pas ou trs peu d'ondes avec une faible tendue. A quelques pas au-del de
cette zone, les ondes ne sont plus influences par la prsence de l'objet.
q La zone d'ombre (zone de pression sonore rduite) est au moins aussi grande que
la longueur d'onde de l'onde qui a percut l'objet.
q Il convient alors d'utiliser le terme diffraction pour dcrire la proprit par
laquelle un son passe autour de ou est dispers par un objet plus petit ou
similaire.
La tte humaine a un diamtre de 20cm en moyenne.
Selon l'quation = c/f (avec = longueur d'onde, c =vitesse du son et f =frquence),
cette dernire pourrait crer une zone d'ombre importante (sons moins intenses
l'oreille loigne de la source sonore) concernant les sons qui ont une frquence plus
grande qu'environ 1750Hz.
q 1750Hz serait la frquence avec une longueur d'onde de 20cm, en prenant en
compte que la vitesse du son soit de 350m/s.
q La zone d'ombre de la tte doit tre prise en compte dans le domaine binaural
(deux oreilles).
E) Les cham s sonores :
Chaque environnement qui contient du son est appel un champ sonore . Un champ
libre est un champ sonore qui ne contient aucune rflexion. Ceci tant, un tel tat de
fait est quasi impossible obtenir.
q Une chambre anchoque (sans chos) est une pice dans laquelle tout est mis en
uvre dans le but de rduire les rflexions. Ceci se traduit par divers formes et
matriaux qui absorbent beaucoup plus le son qu'ils ne le rflchissent.
q Cependant, une pice avec de la rflexion peut tre aussi utilise, on parle alors
de chambre choque.
Un type de chambre choque ou type de champ, est le champ diffus .
q Dans un champ diffus, les surfaces de rflexions sont construites de faon ce que
l'intensit sonore soit la plus uniforme possible dans toute la pice.
q En d'autres termes, les interfrences constructives et destructives doivent
toujours mener une intensit sonore constante dans le champ sonore.
Dans une pice classique, beaucoup de rflexions sont engendres. Le son peut tre
rflchi de multiples fois par les diffrentes surfaces du lieu. De ce fait, le son de
rverbration peut durer longtemps (souvent plusieurs secondes) aprs la mort du
son originel.
12
2009
Cependant aprs qu'un son soit fini, les rverbrations meurent au fur et mesure que le
temps passe.
La premire valeur permettant la mesure de cet aspect de la rverbration est le temps
de rverbration (RT) :
~ Pour cela 3 tapes : premirement le son direct (son original), viennent ensuite les
premire rflexions (pouvant tre qualifies comme des versions retardes du
son original) puis le son rverbrant.
~ Le son rverbrant se compose de toutes les rflexions qui font suites aux
premires.
~ Le temps de rverbration (RT
60
) est le temps que met le son rverbrant pour
dcroitre de GOdB (ou le temps que le son rverbrant met pour atteindre 1/1000
(20 log(1000} = 20 * 3 = GOdB} de sa pression originelle).
~ La taille de la pice ainsi que son coefficient d'absorption aident dterminer le
temps de rverbration (RT
60
}.
c> Une grande absorption combine un petit volume de pice entraine un temps
de rverbration court.
c> RT
60
= k (vol/Ab) o k =coefficient de proportionnalit, vol= volume de la pice,
Ab = absorption totale de la pice
Les sons d'une pice qui ont un RT
60
suprieur 1 seconde sont difficiles reconnatre car
le son rverbrant interfre avec le son original.
Une interaction intressante entre un son original et ses rflexions est l'onde
stationnaire .
Pour aisment comprendre son principe, prenons l'exemple d'une corde attache un
mur.
Si l'on donne une impulsion cette corde, une onde se propage alors travers la corde
pour tre rflchie inversement par le mur (par rapport l'onde qui l'a premirement
percut).
Si on fait vibrer constamment la corde la bonne frquence, les renforcements et
annulations de l'onde originelle qui interagissent avec l'onde rflchie vont faire en sorte
que la corde toute entire va bouger de haut en bas sans donner l'impression qu'une
onde la traverse d'un bout l'autre.
c> Dans ce cas, les endroits de vibration minimum (les nuds) alternent dans
l'espace avec ceux de vibration maximum (les ventres).
Si on augmente la frquence de vibration de la corde, on peut gnrer une forme d'onde
avec deux ventres. De plus, d'encore plus hautes frquences, des formes d'ondes
comportant plus de deux ventres peuvent tre produites.
c> De tels modles d'ondes avec une localisation fixe des nuds et des ventres sont
appels ondes stationnaires .
~ Gardons en tte que l'existence d'une onde stationnaire ne signifie pas une
absence de mouvement ondulatoire mais traduit le fait que ce dernier ne voyage
pas de gauche droite (transversalement) le long de la corde.
~ La corde vibre dans une direction verticale maximale lors d'un ventre, et minimale
lors d'un nud.
13
2009
Une onde stationnaire compose d'un ventre est appele mode fondamental de
vibration.
c> Le mode fondamental prend place quand la frquence de vibration possde une
longueur d'onde gale deux fois la longueur de la corde, cette frquence est
alors appele frquence fondamentale du mode (FO).
c> FO = c / 2L o FO =frquence fondamentale du mode, c =vitesse du son dans le
milieu, L = longueur de la corde
Les frquences de vibration qui sont des multiples entiers de la frquence fondamentale
FO (2FO, 3FO, 4FO ... ) engendrent des ondes stationnaires avec deux, trois, quatre (etc.) fois
le nombre de ventres.
Cependant, si la frquence de vibration dpasse sa frquence fondamentale (FO),
l'amplitude de l'onde stationnaire dcroit (l'amplitude de l'onde stationnaire engendre
pour 3FO est infrieure celle engendre pour 2FO).
Les ondes stationnaires peuvent galement exister dans des lieux renferms o l'air est
entr de force, comme dans le conduit auditif externe de l'oreille quand un son est
gnr et s'y propage.
Les mmes types d'interfrences dcrites prcdemment peuvent y gnrer des ondes
stationnaires de mouvements d'air.
c> Si un tube est ferm/ouvert des deux cts, le mode fondamental de l'onde
stationnaire va prendre place quand la longueur d'onde de la frquence
fondamentale est gale deux fois la longueur du tube, comme vu dans le cas
prcdent de la corde.
c> Si le tube n'est ferm que d'un ct, la longueur d'onde de la frquence
fondamentale est gale quatre fois la longueur du tube. Dans ce cas, les plus
hauts modes de vibration ne sont prsents qu'aux multiples entiers impairs de la
frquence fondamentale (3FO, SFO, 7FO ... ), en comparaison tous les multiples
entiers, dans le cas d'un tube compltement ouvert/ferm.
Le conduit externe de l'oreille est considr comme un tube ferm d'un seul ct. Des
ondes stationnaires peuvent alors tre produites quand un son y est prsent.
Si c'est le cas, les frquences de ces ondes stationnaires vont influencer ce que nous
entendons.
F) Les rsonateurs:
Une fois l'onde sonore partie de sa source vibratoire, elle va ventuellement arriver
notre oreille et enclencher le processus d'audition. Les structures du systme auditif que
l'onde rencontre aident l'analyse de cette dernire.
En sachant cela et si nous voulons comprendre comment le systme auditif calcule les
sons afin que nous puissions entendre, il nous faut considrer les proprits des ondes
sonores ainsi que celles des structures qui analyseront le son. Plusieurs proprits de
l'onde sonore ont dj t dcrites dans les parties prcdentes.
14
2009
Au chapitre des ondes stationnaires, il a t dit qu'une force continuelle est ncessaire
pour les produire. Ce systme vibratoire est appel vibration force car le systme
vibrant est oblig de vibrer du fait d'un objet externe (par exemple, une main qui fait
vibrer une corde).
Deux proprits vibratoires sont alors impliques :
~ La vibration de l'objet qui agit sur l'autre (la main)
~ La vibration de l'objet qui subit celle du prcdent (la corde)
La plupart des situations acoustiques relles sont exactement dcrites en termes de
vibrations forces.
Dans le cas le plus simple, l'objet qui subit la vibration a sa propre frquence de vibration
naturelle, se rapportant ses proprits de vibration libre.
Plus la frquence de la force motrice est proche de la frquence naturelle de l'objet
receveur, plus il est facile, pour la force motrice, de faire vibrer l'objet receveur.
~ La frquence naturelle de vibration d'un objet receveur est appele sa
frquence de rsonance .
Prenons pour exemple une cymbale et un tambour frapps par une baguette.
Quand la pousse fournie par la baguette force la cymbale et le tambour vibrer, ceux-ci
vibrent avec leurs propres modles de vibration ( leurs frquences de rsonance).
Ce sont ces modles de vibration qui fournissent des sons de qualits distinctes pour le
tambour et la cymbale.
Dans les chapitres prcdents, il a t tabli que si deux objets diffrent dans leurs
impdances caractristiques, le transfert total de l'intensit vibratoire entre les deux
objets ne va pas avoir lieu.
Cependant, le transfert de vibration d'un objet l'autre est aussi grand que possible
quand la force motrice a une frquence gale ou peu prs gale la frquence de
rsonance de l'objet receveur.
~ Un taux maximal de transfert d'amplitude est atteint quand la frquence de
l'objet moteur est gale la frquence de rsonance de l'objet receveur.
~ Si la frquence motrice est suprieure/infrieure la frquence de rsonance de
l'objet receveur, ce dernier (aussi appel rsonateur) va vibrer infrieurement
sa plus forte amplitude possible.
~ Aussi longtemps que le spectre de la source vibrante contient une composition
sinusodale (ensemble de sinusodes) d'amplitude suffisante la frquence de
rsonance du rsonateur, celui-ci est susceptible de vibrer sa frquence
naturelle. Le rsonateur vibrera plus sa frquence naturelle et non aux
frquences de la force motrice.
Les composantes de la ractance de l'impdance caractristique de simples objets
dterminent leurs frquences de rsonance. En rgle gnrale :
~ Fr= v((s/m)/(2rr))
~ O Fr= frquence de rsonance, s = raideur mesure, m = masse mesure
La composante rsistance de l'impdance rduit aussi le mouvement. Le taux de
rsistance dtermine la nettet du pic dans la fonction de rsonance.
15
2009
~ Avec peu de rsistance, le pic est trs pointu et de ce fait, il est difficile pour les
frquences motrices loignes de la frquence de rsonance de faire vibrer le
rsonateur.
~ Plus grande est la rsistance, plus large est le pic de rsonance. Il est ainsi plus
facile pour les diffrentes frquences motrices de faire vibrer le rsonateur de
manire significative.
La plupart des objets ont une structure de rsonance complexe (ex: tambour ou
cymbale). Ceci vient du fait que ces objets peuvent tre penss comme un ensemble de
plusieurs rsonateurs. Chacun de ces modes de rsonance a sa propre frquence de
rsonance.
Si une force motrice cre une onde stationnaire dans un tube ferm, celle-ci va osciller
la frquence de rsonance du tube.
~ L'onde stationnaire est une forme de rsonance et sa frquence est la frquence
de rsonance du tube.
~ Il est possible de faire vibrer un tube avec une vibration de faible amplitude et de
produire, l'intrieur de ce mme tube, une vibration de plus grande amplitude
la frquence de rsonance du tube.
Ceci devient important quand on considre les sons qui entrent dans le conduit externe
de l'oreille.
~ Est-ce que le canal rsonne et amplifie l'amplitude du son entrant ?
~ Si oui, quelles sont les frquences de rsonance du canal et des autres parties du
systme auditif ?
16
2009
G) Structure de l'oreille externe:
Division
Anatomie
Mode
de
Fonction
Oreille externe Oreille moyenne Oreille inteme
Canaux
semi-circulaires
Vestibule
Nerf
Vibration de l'air Vibration mcanique Mcanique,
Hydrodynamique,
Electrochimique
Protection,
Amplification,
Localisation
Adaptation d'impdance,
Stimulation slective
de la fentre ovale,
Egalisation de la pression
Filtrage,
Transduction
Figure 5a : Coupe transversale de l'oreille humaine.
(Ades. Engstrom (1974) et Dallos (1973))
Systme nerveux
auditif central
Nerf facial
Canal
auditif
interne
Electrochimique
Traitement de
l'information
Les pressions acoustiques changeantes, qui agissent constamment sur nous du fait des
sources sonores, sont collectes par l'oreille externe. L'oreille externe est constitue de la
partie visible de l'oreille (le pavillon) et du canal qui mne au tympan (le canal externe).
Le pavillon humain est essentiellement form de cartilage sans muscles utiles, ainsi que
de beaucoup de petites surfaces en bosses et en creux. Il est unique pour chaque
personne du fait que la forme et la localisation des diffrents creux et bosses changent
fortement au sein de la population.
La partie centrale et profonde du pavillon est appele conque .
c:> Chez un adulte, la conque a un diamtre d'l ou 2 centimtres.
17
2009
c> Elle mne une ouverture d'environ 5 7 millimtres de diamtre: le mat
(meatus).
c> Le mat mne au canal externe qui mesure 2 3 centimtres.
Le tiers latral du canal externe (vers le pavillon) se compose de cartilage contenant des
glandes, le reste est osseux avec une double-peau serre prs du tympan.
Quelques donnes:
1) Pavillon (homme) :
c> Longueur: 60-75mm (67 mm en moyenne)
c> Largeur : 30-39mm (34,5mm en moyenne)
c> Inclinaison de l'axe de longueur par rapport la tte : 15
c> Volume conque : 2,5cm
3
c> Frquence de rsonnance de la conque : 4,5KHz
2) Mat:
c> Coupe transversale : 0,3-0,5cm
2
3) Canal externe :
c> Coupe transversale : 0,3-0,5cm
2
c> Longueur : 2,3-2,97cm
c> Diamtre: 0,7cm
c> Volume : 1,0cm
3
c> Frquence de rsonnance : 2,6KHz
H) Fonctions de l'oreille externe:
Quand un son se propage de sa source l'oreille externe, il percute le torse et la tte (qui
inclue le pavillon). Ces parties du corps forment des obstacles la transmission sonore et
ainsi, modifient le son avant mme qu'il n'atteigne l'oreille externe.
c> Le torse et la tte ralentissent et attnuent le son quand il se propage jusqu'
l'oreille externe.
Un moyen de dcrire les modifications engendres par l'ensemble torse-tte dans la
transmission sonore est de mesurer les changements spectraux, d'amplitude et de phases
des composants spectraux du son, dus l'influence de cet ensemble.
c> Les structures du torse et de la tte attnuent et ralentissent le son de manire
dpendante la frquence (due l'interaction entre la taille des structures, la
localisation de la source sonore relative la tte, et la longueur d'onde (cf parties
prcdentes)).
Pour mesurer ces changements spectraux, le spectre de la source sonore (spectre
d'entre) est premirement dtermin, puis vient celui du son dans l'oreille externe
(spectre de sortie).
18
2009
q La diffrence entre ces deux spectres dcrit alors comment l'ensemble torse-
tte altre les amplitudes et les phases des composants sinusodaux du stimulus
initial.
Les mesures de pression sonore dans l'oreille externe peuvent tre effectues en insrant
soit de trs petits microphones dans le canal externe, ou bien en y plaant un tube (dans
le canal externe) et en mesurant la pression sonore dans ce tube.
q La combinaison des spectres d'amplitude et de phase qui dcrivent les
changements de pression sonore dus aux structures intervenantes est appele :
une fonction de transfert (par exemple, l'attnuation et le dcalage de phase
fournis par un filtre dcrivent la fonction de transfert de ce filtre) .
q Ce processus de mesure est parfois appel mesure d'oreille relle (real-ear
measurement).
-
4
roo
. -t''
.i .. gache .. /
....... ..... .... .... .. .. _: ... ,r.: ...... . ..... ) ....... -- ... .. ..
.;
QreiUe. droite
. . ;
: '
.. , '! .. ... .
. . . :
... . "1 '
1:. j
. '
: r
. . !
; .... . : :- i . .. . ..
1000
Frquence (Hz)
.. .... !-:
'1
. . :
. 1
l" .. ... . .. ; . : ..
1
1
:. i
' : .. !
' ...... :. : .... l"
10000
Figure 6a : HRTFs d'un adulte obtenues
aprs prsentation d'une brve transitoire dont la source
tait positionne di rectement en face de l'oreille gauche.
L'HRTF roontre le spectre d'amplitude chaque oreille (mesur l'intrieur du canal auditif)
pour une chelle des dcibels arbitraire.
Le son est attnu l'oreille droite par rapport la gauche, spcialement aux hautes frquences_
19
2009
La figure ci-avant reprsente le spectre d'amplitude de la fonction de transfert d'une
oreille pour un adulte moyen.
C'est--dire, le graphique montre comment les amplitudes des composants spectraux
d'un son sont attnues par les structures de la tte et du torse.
Dans ce cas, la source sonore tait une simple et brve transitoire. De cela, on sait qu'elle
avait un spectre contenant toutes les frquences jusqu' 20 OOOHz, d'amplitudes peu de
choses prs gales.
q Ainsi, il est vident que les changements d'amplitude reprsents sur le graphique
sont tous dus au torse, la tte, et au pavillon.
Notons que les hautes frquences sont beaucoup plus attnues par rapport aux basses
frquences et que les diffrences d'amplitude entre les deux oreilles sont faibles aux
basses frquences.
A l'oreille droite (qui est la plus loigne de la source sonore), les diffrentes amplitudes
dans les hautes frquences sont beaucoup plus basses que celles l'oreille gauche.
q La majeure partie de cette diffrence d'amplitude interauriculaire (entre les
oreilles) est due au fait que la tte engendre une zone d'ombre (sonore) (cf partie
prcdente).
q Etant donn que la plupart des structures du pavillon que le son percute sont
petites, ce sont seulement les courtes longueurs d'ondes (hautes frquences) du
son initial qui vont tre altres par ces dernires.
Ces fonctions de transfert (spectres) qui dcrivent les changements entre la source
sonore et l'oreille externe sont appels head-related transfer functions ou HRTFs.
q Ainsi, les HRTFs montrent comment le torse, la tte et le pavillon changent les
amplitudes (attnuent les amplitudes des composants spectraux du son initial) et
les phases (ajoutent un dcalage de phase celles des composants spectraux du
son initial).
q Les HRTFs ont une importance capitale en ce qui concerne la localisation sonore.
Beaucoup de changements spectraux remarqus dans les HRTFs au niveau des hautes
frquences sont dus au pavillon.
q En gnral, seuls les animaux qui ont une bonne audition pour les hautes
frquences ont le pavillon mobile. Etant donn que le pavillon humain ne contient
aucun muscle utile, il est relativement immobile.
q Mobile et dans une certaine mesure immobile, le pavillon aide traiter les hautes
frquences : en les acheminant vers le canal externe, dans la distinction des sons
venant de devant la tte de ceux venant de derrire et en fournissant d'autres
formes de filtrage pour un son incident.
En addition aux changements spectraux comme ceux montrs la figure prcdente,
l'oreille externe entraine une augmentation de niveau d'environ 10 1SdB pour les
frquences allant d'environ 1,5kHz 7kHz (1kHz= 1000hz).
Des expriences ont dmontr que cette augmentation de niveau de pression sonore qui
dpend de la frquence, entre les mesures faites la source sonore (mesures en champ
20
2009
libre) et les mesures faites au tympan, est principalement due aux effets de la conque et
du canal externe, comme prsents dans la figure ci-aprs.
20
15 1
) 1

1

l
0 1
1
- 5 l
0
100
:... ... ....... ,
c"nal auditif
i . &l :'ympan
- - . . .
. .
1 :
1
-- - - ---' _' ___ .1
1,000 10,000
Frquence (Hz)
Figure 7a : Changement estim dans le niveau de pression sonore
du champ libre au site de mesure - conque, canal auditif & tympan -
et transfert de fonction totale. incluant la conque, le canal auditif
et le tympan du champ libre la membrane tympanique (Total ).
La courbe Total reprsente la somme des deux autres.
(Shaw (1974}}
Dans une prcdente partie, il a t dit que des rsonances peuvent avoir lieu dans des
tubes comme la conque et le canal externe.
c::> Etant donnes les tailles de la conque et du canal externe (plus particulirement
leurs longueurs), la frquence de rsonance du canal externe est d'environ 2 ,5kHz
et celle de la conque est proche de 5kHz.
c::> Ces deux rsonances se compltent alors pour engendrer un gain en pression
acoustique dans l'oreille pour les frquences allant d'l,5 7kHz.
Ainsi, le son provenant d'une source sonore est profondment altr par le torse, la tte,
le pavillon et le canal externe avant qu'il n'atteigne le tympan. En rgle gnrale, le
niveau de pression sonore des frquences allant d'1,5 7kHz est augment du fait des
proprits de rsonance du pavillon et du canal externe, la pression sonore diminue pour
les hautes frquences du fait des proprits des HRTFs.
La seule autre fonction connue de l'oreille externe est de protger l'oreille moyenne des
corps trangers, des changements d'humidit et de temprature.
21
2009
1} Localisation sonore :
La source d'un son peut tre localise dans les 3 dimensions spatiales :
c:> Le plan horizontal (l'azimut ou plan gauche-droite)
c:> Le plan vertical (ou plan haut-bas)
c:> La distance (profondeur ou plan avant-arrire)
Arrire
Distance
Intensit relative
Rflexion
Vue du dessus
Azimut
ITD et ILD
Vue de ct
Verticale
Diffrences spectrales
issues de la HRTF
0
180
90
270
90
0
Figure Sa : Les trois dimensions spatiale.s:
Avant
azimut (gauche- droite), verticale (haut- bas), distance (prs -loin)_
HRTF = Head-Related Transfer Function (fonction de transfert relative la tte)
Le son n'a pas de dimensions spatiales. L'habilit que nous avons localiser la source
sonore, base sur le son seul, est le rsultat du traitement par le systme auditif de
22
2009
l'interaction du son avec les objets (par exemple la tte) qu'il rencontre quand il se
propage de sa source aux canaux de l'oreille externe.
q Mme si nous pouvons utiliser nos yeux pour localiser les objets, ceux-ci ne nous
sont d'aucune aide quand les objets ne sont pas dans notre champ de vision (par
exemple derrire nous, la nuit ... ).
q Ainsi, la localisation sonore est indispensable.
J) Localisation dans l'azimut :
Afin de mieux comprendre un des ensembles de stimuli responsables dans notre capacit
localiser le son, il faut se reprsenter une personne assise dans une pice, qui coute
une source sonore sans bouger la tte.
23
2009
Temps Temps
Figure 9a : Diagramme schmatique d'une source sonore
sur le plan azimut. autour de la tte. Le son atteint premirement
l'oreille droite et engendre ainsi une diffrence de temps d'arrive entre les deux oreilles (ITD);
Le son l'oreille gauche est moins intense que celui l'oreille droite, menant cette fois-ci
une diffrence de niveau entre les deux oreilles (lLO)
La figure ci-dessus illustre les informations temporelles/de niveau arrivant aux oreilles de
cette personne et qui peuvent tre utilises pour localiser les stimuli dans l'azimut.
Notons que le son parcoure une plus petite distance pour atteindre l'oreille droite par
rapport la gauche. Alors, il va arriver plus tt l'oreille droite.
q Il s'en suit une lnteraural Time Difference (ITD, diffrence de temps entre les
deux oreilles (interauriculaire)) dans l'arrive du son.
Rappelons-nous que la vitesse du son dans l'air est relativement constante et
indpendante de la frquence.
q L'llO est thoriquement la mme pour toutes les frquences, pour une
localisation de stimulus particulire et une personne particulire.
q En revanche, l'lnteraural Phase Difference (IPD, diffrence de phase entre les
deux oreilles (interauriculaire)) varie selon la frquence du stimulus.
24
2009
C'est--dire, si un son de 1000Hz (d'une priode d'1ms) arrive l'oreille droite 0,5ms
aprs qu'il ait atteint l'oreille gauche, le son l'oreille droite est hors phase d'une demi
priode (ou 180) avec celui de l'oreille gauche.
De mme, si un son de 500Hz (d'une priode de 2ms) arrive l'oreille droite 0,5ms aprs
qu'il ait atteint la gauche, il y a seulement un quart de priode (ou 90) de diffrence de
phase entre les deux oreilles.
c:> Les deux sons diffrents (1000Hz et 500Hz) avec chacun 0,5ms d'ITD, produisent
diffrents IPD.
Il y a galement une lnteraural Level Difference {lLO, diffrence de niveau entre les
deux oreilles (interauriculaire)) dans les conditions prsentes sur la figure ci-dessus.
L'ILD est due deux aspects de la physique du son :
Premirement, du fait que le stimulus arrive l'oreille gauche aprs qu'il ait atteint la
droite, il a voyag sur une plus grande distance et est donc moins intense l'oreille
gauche (cf loi du carr inverse dans une partie prcdente).
c:> Cependant, la diffrence de niveau due la loi du carr inverse ne produit que de
trs petites lLO.
Comme n'importe quel objet la tte peut produire une zone d'ombre (sonore, cf partie
prcdente), rsultant en un niveau sonore rduit l'oreille oppose la source sonore.
Ceci comprenant le fait que la largeur de la tte est proche de la longueur d'onde du son
incident.
c:> Du fait que la longueur d'onde est directement proportionnelle la frquence,
l'lLO provoque par la zone d'ombre de la tte dpend de la frquence.
c:> Plus haute est la frquence, plus courte est la longueur d'onde et plus forte est la
zone d'ombre cause par la tte dans l'tablissement de l'lLO.
c:> Ainsi, de grandes ILDs existent aux hautes frquences et peuvent tre utilises
pour indiquer la localisation d'une source sonore.
25
0.8 1
0 .7 i
~ 0 .6 -,
E 0.5
__.
0
!:::
(a)
0 . 1
0
2009
1 2 3 4
Frquence (Hz)
15 degs 30 degs 45 degs 60 degs * 75 degs
O
"0
0
....
Q)
-o
(/)
8.
.....
8:
0
=
(b)
0 60 1 20 180 240 300 360
Angle d'azimut (degs)
e 1 kHz 2 kHz ... 2 .5 k H z ~ 4kHz * 6 .3 kHz
Figure 10a : (a) Valeurs de I'ITD mesures pour diffrents angles d'azimut.
(b) Valeurs de l'lLO mesures pour diffrents angles d'azimut et diffrentes frquences.
(Kuhn(1987})
La figure ci-dessus montre I'ITO mesure aux oreilles pour un stimulus situ diffrents
angles dans l'azimut. Elle reprsente aussi l'lLO pour diffrents angles dans l'azimut et
diffrentes frquences.
Notons que I'ITO varie de 0 0,8ms quand l'azimut de la source change alors que l'lLO
varie considrablement, plus particulirement aux hautes frquences.
q Le systme auditif binaural pourrait alors dterminer la localisation d'une source
provenant: du ct droit en notant que l'oreille droite reoit le son en premier et
que le stimulus est plus intense cette oreille.
26
30

:;::;
. ~ 25 t

0
~ 20 -r
~
~ 15 1
_Cl>
~
~ 10 !
ro
-
~
.....
:::1
0
a_
5
0
10
2009
100 1000 10,000
Frquence (Hz)
Figure 11a : Erreurs (en termes de pourcentage d'estimations faites)
dans la dtermination de l'emplacement d'une source sonore sinusodale.
en fonction de la frquence (Stevens et Newman (1936).
27
-
(/)
0')
<1>
"'0
...__.
-<1>
E

<1>
150
100
50
0
-50
2009
' 1 -r-
r
' 1
- j .... ... __ ! -t
..1 _ ___ !
-,------ -
!
1
i
- - J._
0
i
'
:-
50 100 150
Azimut rel (degs)
Figure 12a : Emplacement estim d"une source sonore (bruit)
prsente diffrents endroits sur le plan azimut .
La ligne diagonale reprsente un jugement exact (Wightman et Kistler (1 989).
Les deux figures ci-contre montrent comment (en termes de qualit) les auditeurs
localisent une source sonore.
La figure lla illustre les erreurs dans la localisation de sinusodes de diffrentes
frquences.
q Ces donnes indiquent que les auditeurs ont fait plus d'erreurs de localisation au
niveau des frquences moyennes, autour de 2000Hz (environ 20% d'erreurs), que
pour les frquences plus basses et plus grandes (environ 10%).
Les donnes de la figure 12a indiquent comment (en termes de qualit) une personne
localise une large bande de bruit.
q Une localisation parfaite serait reprsente par les donnes alignes sur la
diagonale, car les donnes sont traces comme la localisation estime de la source
contre la localisation relle de cette dernire.
q D'aprs le graphique, une personne moyenne est performante dans la localisation
de la large bande de bruit dans l'azimut.
28
2009
MAA
Figure 13a : Diagramme schmatique
de la mesure du plus petit angle audible (MAA, Minimum Audible Angle).
29
14 !
-12
en
g> 10
-o
........
::J 8
E
6
4
21
.!
2009
i
1
-----1 \j
.. .. ~ - - ; ~ > ~ ~ 1 -- lJ
r ,
f\
--j
1
1 1
-r
~
1
1
o - ~ ~ - - ~ ~ ~ ~ - - ~ - - ~ ~ -
100 1000
Frquence (Hz)
10,000
0 degs 30 degs 60 degs - ~ 75 degs
Figure 14a: Valeurs du MM en fonction de la frquence sinusodale
pour diffrents azimuts. Le MM augmente quand la source s'loigne de l'auditeur.
en plus d'tre important aux frquences moyennes (entre 2 et 4kHz).
(Mills (1972))
Les figures 13a et 14a reprsentent les donnes tires d'une exprience dans laquelle on
a demand des personnes aux yeux bands de faire la distinction entre l'emplacement
de deux petits haut-parleurs, chacun plac environ lOOcm de la tte de la personne.
c:> Comme montr la figure 13a, le plus petit angle de sparation entre les deux
haut-parleurs que la personne peut dtecter est appel : minimal audible angle
(MAA, angle minimum audible) .
Ainsi, le MAA en degrs de spatation angulaire a t mesur en fonction de la frquence
de la sinusode.
Les diffrentes courbes de la figure 14a reprsentent plusieurs positions dans l'azimut
pour lesquelles les distinctions ont t faites.
c:> La courbe tiquete oo signifie que les haut-parleurs (HPs) taient placs
directement devant le cobaye, alors que la courbe tiquete 75signifie que les
HPs taient placs 75vers une oreille (les HPs taient ct de l'auditeur).
30
2009
c::> Notons que l'auditeur a eu de plus en plus besoin d'un grand angle de sparation
entre les deux HPs (le MAA augmente) afin de dtecter une diffrence dans la
localisation des HPs quand ceux-ci taient bougs de devant (l'auditeur) vers une
de ses oreilles (la tte de l'auditeur restait fixe).
c::> En d'autres termes, un changement de localisation peut tre mieux distingu
quand le son est devant l'auditeur que quand le son est dirig vers un ct (de
l'auditeur).
c::> De toute vidence, ceci ne pose pas de strictes limitations dans le monde rel car
une personne peut gnralement bouger afin que la source sonore soit devant
elle.
Les rsultats propos du MAA montrent aussi, comme le font les donnes obtenues par
Stevens et Newman (figure lla), que les auditeurs on fait plus d'erreurs dans la
localisation des sources sonores quand leur contenu frquentiel s'tendait plus dans les
moyennes frquences que dans les hautes et les basses.
c::> Stevens et Newman, et auparavant Lord Rayleigh, croyaient que la rgion des
frquences moyennes reprsentait ces frquences pour lesquelles I'ITD et l'lLO
taient relativement trop petites pour tre utilises comme repres exacts pour la
localisation.
c::> Ils en ont conclu qu'il y avait 2 repres pour dterminer la localisation : I'ITD qui
fournit des informations pour les stimuli de basses frquences, l'lLO qui fournit
des informations de localisation pour les hautes frquences.
c::> Cette ide se rfre la thorie duplexe de localisation
L'effet d'ombre sonore dmontre pourquoi l'lLO est faible au niveau des basses
frquences et par consquent pourquoi les auditeurs ont des problmes en l'utilisant
comme repre dans les basses frquences.
c::> L'lLO cause par la zone d'ombre sonore de la tte diminue (cf figure 9a) quand la
frquence diminue (la longueur d'onde augmente). De ce fait aux basses
frquences, l'lLO ne sera pas assez grande pour tre dtecte.
31
2009
Une explication de : pourquoi I'ITD fournit l'information de localisation seulement aux
basses frquences, est sur le diagramme de la figure 15a :
Q)
u
:::l
-
o.
E
<(
0
0 . 6 - m s ~
ITD !
0.6 1.2
Temps (ms)
1.8
Oreille
droite
Oreille
gauche
2.4
Figure 15a : Ton de 1666Hz prsent du ct droit de l'auditeur
de faon ce qu'il atteigne l'oreille droite 0.6msec avant qu'il ne soit la gauche.
(haut) Sinusode l'oreille droite. (bas) Sinusode l'oreille gauche.
Pass la premire crte, les ondes arrivant chaque oreille sont en phase,
ce qui indiquerait que le son est plutt devant que sur le ct_
La frquence (1666Hz) montre en haut du graphique a t prsente de sorte qu' elle fut
arrive l'oreille droite en premier.
c> Ainsi, la sinusode arrivant aux deux oreilles apparatrait dans le temps comme sur
le graphique.
c> La diffrence dans la structure temporelle aux deux oreilles pourrait tre utilise
par le systme auditif pour dterminer que la source sonore tait vers l'oreille
droite.
c> Dans ces panneaux, nous supposons que la priode (temps entre les crtes) de la
sinusode tait de 0,6ms (1666Hz), ce qui est proche du temps maximum que
prend un son pour voyager d'une oreille une autre (cf figure 9a).
Une sinusode de 1666Hz apparaitrait nos deux oreilles comme sur la figure ci-dessus.
Notons que bien que la sinusode de 1666Hz vienne du ct droit et que les premires
priodes des longueurs d'ondes de gauche et de droite soient dplaces, les formes
d'ondes sont identiques par la suite ( partir du point A par exemple).
32
2009
~ Alors, part pour la premire priode, il n'y pas de diffrence entre les
stimulations aux deux oreilles. Ainsi l'auditeur peut affecter un son un
emplacement l'avant (plutt qu' droite) car les stimuli qui sont directement
devant l'auditeur ne produisent pas de diffrences interauriculaires.
~ Dans ce cas, ce jugement est incorrect car le stimulus a t prsent face l'oreille
droite, il y a confusion.
Pour cette frquence (1666Hz) et cette ITD, un repre temporel ambigu existerait pour
localiser la source sonore.
~ Cette confusion ne devrait pas avoir lieu pour les frquences infrieures 1666Hz
mais existerait pour celles gales 1666Hz ou suprieures, supposant que le
temps que prend le son pour aller d'une oreille une autre est gal 0,6ms.
~ De ceci, I'ITD engendre des informations ambiges sur la localisation spatiale (elle
suggre un emplacement alors que la diffrence temporelle en cours en
suggre un autre) quand la frquence est trop haute (trop leve par rapport la
largeur de la tte) et n'est donc utile qu'aux basses frquences.
Pour rsumer sur la localisation gauche-droite :
~ Pour les frquences infrieures 100Hz : pas de localisation.
~ Pour les frquences comprises entre 100Hz et 750Hz : I'ITD est utilise.
~ Pour les frquences comprises entre 750Hz et 1500Hz : ITD + lLO (zone o il y a le
plus de confusions).
~ Pour les frquences suprieures 1500Hz : l'lLO est utilise.
~ Au-del de 0,65ms d'ITD, le son est peru 90(droite ou gauche valable en
coute au casque).
~ Au-del de 8dB d'lLO, le son est peru 90(droite ou gauche valable en coute
au casque).
K) Localisation avant-arrire et dans le plan vertical :
Les repres de I'ITD et de l'lLO ont t montrs comme tant de grande importance dans
la localisation sonore sur le plan horizontal. Si la tte de l'auditeur reste stable, alors il y a
un certain nombre d'emplacements qui produisent les mmes ITD et lLO; par exemple,
un son directement devant produit les mmes diffrences interauriculaires qu'un son
directement derrire l'auditeur, de mme qu'un son directement au dessus de la tte et
un directement sous l'auditeur (cf figure 8a).
~ Les sons qui se trouvent dans ce plan sont dans le mid-sagittal plane , ce plan
forme un cne de confusion o tous les sons qui sont situs dans le cne
produisent les mmes diffrences interauriculaires (pour le plan mid-sagittal les
diffrences interauriculaires sont gales 0 car la source sonore est tout le temps
mi-chemin entre les deux oreilles).
33
2009
q Pour chaque emplacement de source sonore, il existe un cne de confusion qui
dcrit l'emplacement d'autres sources sonores qui produisent les mmes
diffrences interauriculaires.
q Alors que les cnes de confusion existent pour une tte stable, les petits
mouvements de tte permettraient potentiellement un auditeur de localiser le
son avec prcision, car la tte serait dans une position diffrente et les cnes de
confusion initiaux disparaitraient.
q Mme si nous ne bougeons pas la tte, nous pouvons quand mme localiser les
sons dans un cne de confusion, comme dans le plan mid-sagittal. C'est--dire,
nous pouvons dterminer que le son vient de l'avant plutt que de l'arrire
(l'humain ne fait pas souvent de confusions avant-arrire), ou que le son provient
directement du dessus plutt que de l'avant (on ne fait pas souvent d'erreurs de
cne de confusion).
q Cependant, quand des erreurs de localisation sonores sont faites, elles ont
souvent lieu aux cnes de confusion.
Du fait que les sources des sons qui se situent dans les cnes de confusion peuvent tre
localises, des repres (en addition aux diffrences interauriculaires) doivent nous aider
dans la dtermination de l'emplacement des sources sonores dans le plan vertical.
Ces repres gnralement appels indices spectraux, sont drivs des HRTFs (Head-
Related Transfer Functions), cf partie prcdente.
Comme expliqu dans cette prcdente partie, beaucoup de parties externes de notre
tte et de notre corps, plus particulirement le pavillon, agissent comme de petites zones
d'ombre sonore sur le chemin du son vers les oreilles. Ces parties du corps peuvent aussi
retarder le son dans l'atteinte des oreilles externes. Ces obstacles la transmission
sonore sont plus importants pour les sons de haute frquence car la longueur d'onde de
ces hautes frquences risque d'tre proche de la taille de ces petits obstacles.
Si le son est complexe, comme un bruit, alors diffrentes frquences du son vont tre
attnues et retardes de diffrentes manires, dpendamment de l'interaction entre la
taille des objets que le son rencontre avant qu'il n'atteigne l'oreille (comme le pavillon et
diffrentes parties de ce dernier, le nez et le torse) et la longueur d'onde du son.
le retard va mener diffrentes phases et, ainsi, va tablir un spectre de phase pour la
HRTF. Alors, la tte et le torse fournissent une modification spectrale de la HRTF d'une
source sonore.
le taux d'attnuation et de retard (les caractristiques spectrales de la HRTF) obtenu par
n'importe quel obstacle dpendra aussi de la direction d'un son incident.
q le pavillon offre plus d'attnuation pour les sons venant de l'arrire que pour ceux
venant de devant.
q Ainsi, la forme spectrale de la HRTF d'un son complexe arrivant l'oreille externe
va changer dpendamment de l'emplacement de la source sonore relative au
corps.
q Du fait que les changements majeurs dans la HRTF prennent place aux hautes
frquences cause de l'interaction entre la longueur d'onde et la taille de
l'obstacle (comme expliqu plus tt), il n'est pas surprenant que les repres
34
2009
majeurs pour la localisation verticale se produisent pour les plus hautes
frquences.
Oreille gauche Oreille droite
80 80
60
40
0 degrs
-20
1000 10,000 1000 10,000
Frquence (Hz) Frquence (Hz)
Figure 16a : Deux sets de HRTFs,
celles mesures pour l'oreille gauche et celles mesures pour l'oreille droite.
Les mesures des HRTFs ont t faites dans le plan sagittal 0 (directement devant).
30, 60 et 90(directement au-dessus) d'lvation. Notons la valle spectrale profonde
et la faon dont elle change de localisation spectrale avec l'lvation.
La figure ci-dessus affiche les HRTFs obtenues quatre lvations dans le plan mid-
sagittal (0, 30, 60 et 90 (directement au dessus de la tte)) pour les oreilles gauche et
droite d'un sujet.
Etant donn que la source est situe mi-chemin entre les oreilles dans le plan mid-
sagittal, le niveau global aux deux oreilles pour toutes les lvations est quasiment le
mme.
c::> Notons, cependant, qu'il y a de profondes valles spectrales dans la rgion des
lOOOOHz, particulirement 30et 60 d'lvation.
c::> Les aspects des emplacements spectraux de ces valles (et parfois des crtes) sont
les repres HRTFs prsums pour la localisation verticale.
35
2009
Par exemple, sur la figure, l'emplacement de la valle spectrale majeure semble
augmenter en frquence pour les positions verticales de 0 30 60et puis la valle
disparait 90.
Ainsi , la forme spectrale de la HRTF fournit une information sur la localisation
d'une source sonore, plus particulirement la localisation verticale.
De telles diffrences dans la HRTF sont aussi utilises dans la rsolution des
problmes de confusion arrire-avant et avant-arrire.
150 --;---i- ---r--.
1 1 1 . 1
1 . . \ 1
100 1 -, -t J .. - -- :
1 1
1 50 1 1
l
" 0 ! ...... 1
1 1 i
1 1 1
-50 -ji" -j .. !..-.. _ .....
E 1 - -- 1
w 400 J -- --\ 4
1
4 50
1
- -i -; --+
-1 50 -100 -50 0 50 100 150
Emplacement rel (degs)
Figure 17a: Emplacement estim d'une source sonore (bruit)
dans la dimension verticale. Les donnes sont reprsentes de la mme
que pour la figure 12a. pour le mme auditeur (Wightman et Kistler (1989).
Ce graphisme illustre les donnes indiquant la capacit d'un auditeur juger de
l' emplacement vertical d'une large bande de bruit, o l'angle est l'angle vertical de la
source relative l'auditeur (cf figure 8a).
Le fait que les donnes soient disperses autour de la diagonale qui reprsente une
parfaite localisation verticale indique que l'auditeur n'est pas aussi bon pour dterminer
1a position verticale d'un son qu'il ne l'tait pour dterminer la position horizontale (la
localisation verticale est gnralement plus pauvre que la localisation horizontale (cf
figure 12a)).
36
2009
Q Alors, la localisation en cne de confusion et la localisation dans le plan vertical
avec une tte fixe est le rsultat de l'interaction du son avec le torse, la tte et le
pavillon la cration d'une HRTF.
L) Localisation en fonction de la distance :
On en sait moins sur les repres utiliss pour dterminer la distance d'une source sonore.
Un repre possible est l'intensit sonore, ou le niveau.
Q Les sons forts semblent tre plus proches que les sons lointains.
Q Cependant, les sons doux peuvent tre proches et les sons forts loigns.
Q Ainsi, le niveau relatif du son peut logiquement tre un repre pour estimer sa
distance seulement si l'auditeur a d'autres informations sur la source sonore qui
peuvent suggrer ce que sera son niveau sonore global probable.
Par exemple, si la source sonore est quelqu'un en train de parler, alors de par notre
exprience nous savons comment la parole sonne et cette information pourrait nous
permettre d'utiliser l'intensit globale de la parole de la personne pour en dduire la
distance relative entre l'metteur et l'auditeur.
Les premires rflexions d'une source sonore proximit de surfaces fournissent aussi
des indices importants pour dterminer la distance de la source :
Q Le rapport entre le niveau du son direct pour atteindre l'auditeur et le niveau du
son rflchi diminue quand une source s'loigne de l'auditeur (proche de
l'auditeur, le niveau du son rflchi est bas par rapport celui du son direct. A une
certaine distance, le son direct et le son rflchi arrivent aux oreilles de l'auditeur
avec des niveaux peu de choses prs gaux.).
Q En rsultat, le rapport entre niveaux sonores son direct 1 son rflchi peut tre un
repre pour estimer la distance d'une source sonore.
Les auditeurs ont plus de mal dans l'estimation de la distance d'un son que dans la
dtermination de sa position verticale et horizontale.
M) Interactions entre la source sonore et les repres utiliss dans la localisation :
Le son interagit avec la tte pour produire des ITDs et ILDs qui nous permettent de
dterminer la position d'une source sonore dans l'azimut.
les interactions du son voyageant travers le corps, la tte et le pavillon produisent
une modification spectrale du son (la HRTF) qui fournit des repres pour la localisation
verticale et dans les cnes de confusion (par exemple dans la diffrenciation de sources
sonores venant de devant de celles venant de l'arrire).
Le son qui se rflchit sur les surfaces de notre environnement (par exemple le sol) peut
interagir avec celui qui arrive de la source sonore directement notre systme auditif (le
son direct).
Comme tabli prcdemment, le rapport entre niveau du son direct/niveau du son
rflchi donne un repre possible pour estimer la distance relative d'une source sonore.
37
2009
~ La localisation d'un son peut alors tre dtermine dans les trois dimensions
spatiales, les repres pour dfinir l'emplacement de la source sonore diffrent
pour chacune de ces dimensions mais sont tous le rsultat de l'interaction du son
avec les objets se trouvant sur son chemin, lorsqu'il se propage de sa source
notre systme auditif.
N) Prcdence-localisation dans les espaces rverbrants:
La vie de tous les jours nous permet d'affirmer que mme dans les pices o il y a
beaucoup de rflexions de par les murs, le sol etc., nous sommes toujours capables de
localiser avec prcision les vnements acoustiques. Les rflexions provoquent un modle
complexe de stimulation aux oreilles, car elles viennent de diffrentes directions.
Comment fait le systme auditif pour assimiler ces conflits de repres afin de dterminer
avec prcision l'emplacement d'une source sonore, plutt que de se tromper et de
localiser la source l'emplacement d'une de ses rflexions?
~ De nombreuses expriences ont montr que c'est la premire onde arrivant aux
oreilles qui est dominante dans l'tablissement de la position de la source sonore.
~ En localisant les sources sonores, le systme auditif semble traiter le premier front
d'ondes et supprimer l'information de localisation dans les fronts d'ondes tardifs
qui viennent des rflexions.
Du fait que la premire onde (qui vient directement de la source sonore) va quasiment
toujours atteindre les oreilles avant celles venant des rflexions, elle contient
l'information sur la source sonore.
~ Le phnomne est appel: la loi du premier front d'ondes, ou effet de
prcdence .
Dans la figure 15a, bien que les crtes tardives prsentent une information confuse, il n'y
a aucun doute concernant l'emplacement du stimulus si la premire crte arrivant
chaque oreille est utilise la base du jugement sur l'emplacement.
En utilisant seulement la premire crte positive de chaque sinusode, on peut
dterminer que le son arrive l'oreille droite en premier.
Cependant pour les stimuli sinusodaux, les sons doivent venir et partir doucement afin de
rduire la propagation d'nergie associe au fait que les sons viennent et partent
brutalement.
Ainsi, ces lents dcalages pour les stimuli sinusodaux liminent l'utilisation du premier
front d'ondes dans la localisation.
~ Cependant pour la plupart des conditions de stimuli, l'information qui arrive en
premier aux oreilles contient des donnes fiables sur la source sonore.
~ Le travail effectu sur l'effet de prcdence suggre que ces premires
informations dominent dans notre capacit localiser les sources sonores.
Dans beaucoup d'expriences sur l'effet de prcdence et d'environnements acoustiques,
les rflexions ne sont pas perues comme spares de la source sonore (les chos ne sont
habituellement pas perus dans la plupart des environnements acoustiques).
38
2009
c> Ceci suggre que le son venant de la source et celui venant des rflexions sont
perceptuellement fusionns en un son peru.
c> La localisation d'un son, dans la plupart des environnements acoustiques, est 1
ou plus proche de la source sonore (la source sonore domine l'emplacement
peru) que de l'emplacement d'une rflexion.
c> L'information acoustique des rflexions est supprime par rapport celle du son
venant de la source sonore.
c> Par exemple, l'emplacement des chos est plus pauvrement dtermin que celui
de la source sonore.
O) Latralisation :
Dans l'tude de l'emplacement des sources sonores, il est impossible de sparer les
variables ITD et ILD car ces deux diffrences coexistent toujours dans les expriences de
localisation. En addition, les diffrences drives de la HRTF dans les spectres ne peuvent
pas tre contrles avec prcision dans une tude en champ libre et l'effet de prcdence
va quasiment toujours tre prsent.
c> Un moyen simple pour contrler les stimuli avec plus de prcision que ce qui peut
tre fait dans le champ libre est de les prsenter via un casque.
L'exprimentateur peut directement manipuler I'ITD, I'ILD ou encore une diffrence
spectrale particulire sur le casque et ainsi contrler les variables.
Quand un son est prsent l'auditeur via un casque, il va dans la plupart des conditions,
percevoir une image qui se situe dans sa tte et dont l'emplacement bouge en fonction
des changements dans les valeurs d'ITD et d'ILD.
c> Pour diffrencier la perception de l'image interne (ou intracrnienne) qui se forme
habituellement pour les sons dlivrs par un casque, de l'image externe associe
aux sources sonores externes, le terme latralisation est utilis pour dcrire le
premier cas et localisation pour le dernier.
L'image forme partir de prsentations binaurales via casque est parfois appele
image fusionne car l'auditeur dit percevoir une image comme si les sources sonores
arrivant aux deux oreilles taient perceptuellement fusionnes.
c> Un auditeur ne va pas percevoir une image fusionne si I'ITD ou I'IFD (lnteraural
Frequency Difference, diffrence de frquence entre les deux oreilles
(interauriculaire)) est trop grande.
c> Si I'ITD est trs grande (plus de plusieurs millisecondes dpendamment du
stimulus), l'auditeur dira qu'il entend deux images: une chaque oreille.
c> De mme, si les deux oreilles reoivent des sinusodes indpendantes et diffrant
grandement en frquence, l'auditeur peroit deux images (une chaque oreille) et
chaque frquence peut tre identifie.
Il a t dmontr dans une exprience sur la latralisation que l'image fusionne apparat
vers l'oreille qui reoit le premier stimulus ou le plus intense. De la mme faon, une
image externe est perue davantage vers l'oreille qui capte le son en premier (et donc le
son le plus intense).
39
2009
Ainsi, la procdure de latralisation est approprie afin d'tudier les effets des
ITDs et ILDs dans la capacit du systme auditif localiser les sources sonores.
30
....--..
en
25
0>
Q)
20
:g.
a..
0
15
<1
Q)
-o
10
en
s
Q)
5
Cf)
(a)
0
0
2
g 1 .5
<1
{b) 0
100
1

t --
2 50 50 0 750 1000 1250 1500 1750
Frquence (Hz)
1000
Frquence (Hz)
1s c1a 1 '!
i ! 1
9dB[
1
! ! !
OdB
10,000
Figure 18a : Valeurs des et requises
pour un P(C) de 75% de discrimination. en fonction de la frquence.
Les diffrentes courbes reprsentent les valeurs de l'IPD/I LD standard.
(a) quand I'IPD change de 0 180.
(b) montres en fonction de la frquence. avec chaque courbe
reprsentant une valeur de base d'lLO diffrente (Yost et Dye (1991)).
La figure ci-dessus reprsente les rsultats d'expriences dans lesquelles des tons ont t
prsents diffrentes frquences et pour lesquelles les seuils d'ITD (ici, lnteraural
Phase) et d'lLO sont obtenus.
40
2009
c> Ceci (et d'autres rsultats) montre que plus I'IPD (lnteraural Phase Difference)
augmente vers les 180, plus l'image fusionne est localise proche de l'oreille qui
reoit le ton en premier.
c> Quand I'IPO dpasse les 180, l'image est localise de l'autre ct de la tte (vers
l'oreille en retard dans le temps).
c> Quand I'IPO approche les 360, l'image est localise l'arrire, vers le milieu de la
tte.
c> Quand il n'y a pas de diffrence interauriculaire, le ton est peru vers le milieu du
crne (ou la ligne mdiane).
c> En introduisant une llO, le ton est peru plus proche de l'oreille qui reoit le
stimulus le plus fort.
Ainsi, une image a t place en diffrentes positions perceptuelles dans la tte du fait de
l'introduction d'IPO ou d'llO.
Supposons que l'image tait un certain endroit, pour une llO ou une IPO donne, le
montant supplmentaire d'IPO ou d'llO que l'auditeur requiert pour dtecter un
changement dans la localisation perue de l'image fusionne a t dtermin.
c> le taux d'IPO supplmentaire requis pour le seuil de dtection est appel delta
IPO (61PO) et l'llO supplmentaire est appele delta llO (flllD).
les diffrentes courbes de la figure prcdente figurent les IPOs et llOs initiales
introduites de telle sorte que pour les IPOs infrieures 180 l'image a t localise du
ct gauche de la tte (figure a), alors qu'elle est localise du ct droit quand les
diffrences de phases dpassent 180. les donnes pour l'llO sont montres sur la figure
b.
Plusieurs aspects de toutes ces donnes sont importants.
Premirement il s'agit de remarquer que, quelle que soit la diffrence de phase initiale, le
61PO requis pour la dtection reste constant jusqu'aux frquences environ gales
900Hz, puis augmente.
c> Ceci indique qu'aux frquences suprieures 900Hz, la diffrence de phase
(temps) est un indice de faible importance pour le traitement d'une ITO (pour les
tons de frquences suprieures 1500Hz, les chercheurs ont t incapables de
bouger l'image fusionne en fonction du changement d'ITD ou d'IPO).
c> C'est en accord avec la prvision de Stevens et Newman, qui tablit que I'ITO n'est
pas un repre utilisable pour la localisation des sinusodes de hautes frquences.
c> Ainsi le systme binaural, pour localiser une source sonore, n'utilise pas I'ITO aux
hautes frquences.
le second aspect intressant de ces donnes est que tant que l'image est bouge vers un
ct de la tte par l'introduction de diffrences de phases proches de 180 ou une grande
llO, le 61PO ou 61l0 requis pour discerner un changement dans la localisation perue
augmente aussi.
c> Ce qui est cohrent avec le MAA (angle minimum audible) de Mills, qui a trouv
que les auditeurs sont moins sensibles aux changements de l'emplacement d'une
41
2009
source sonore quand cette source est situe en direction d'une oreille que, quand
celle-ci est directement en face.
Le fait que sur un casque l'lLO soit peu prs la mme pour toutes les frquences (il
existe cependant une lgre augmentation dans le ~ I L D pour les frquences de la rgion
des 1000Hz) ne signifie pas que, dans la localisation sonore en champ libre, l'auditeur
pourrait utiliser I'ILD aux basses frquences.
q C'est--dire, bien qu'un auditeur puisse dtecter un changement de 2 dB en ILD
200Hz via un casque, ces 2dB d'lLO ne vont pas avoir lieu 200Hz dans un champ
libre.
q L'lLO physique 200Hz est infrieure 2dB. Ainsi cette frquence, il ne sera pas
prsent l'auditeur une assez grande ILD dans le champ libre pour l'utiliser dans
la localisation sonore (cf figure lOa).
Les donnes qui figurent dans les graphiques 15a et 18a suggrent que le systme
binaural peut traiter I'ITD seulement pour les stimuli de basses frquences. Ce n'est pas
le cas pour les sons complexes.
Si un son complexe de haute frquence est amen de sorte qu'il ait une faible frquence
de rptition dans l'enveloppe temporelle de la forme d'onde, alors le systme binaural
apparait presque aussi sensible aux diffrences dans le temps interauriculaire que pour
les sinusodes de basses frquences.
Considrons le cas pour des tons de 300Hz (basse frquence), 3600Hz (haute frquence)
et 3900Hz d'amplitude module par un ton de 300Hz.
q Comme prvu dans le graphique 18a l'auditeur ne peut pas dtecter un
changement dans I'ITD pour le ton de 3600Hz et il peut pour celui de 300Hz.
q Cependant, il peut aussi dtecter un changement dans I'ITD pour le ton de 3900Hz
modul par 300Hz et cela, presque aussi bien que pour le 300Hz prcdent.
q Ainsi, la porteuse haute-frquence (3900Hz) avec la modulation de basse
amplitude (300Hz) a environ le mme seuil d'ITD que le ton de basse frquence.
Dans cet exemple, le ton de 3900Hz d'amplitude module par le 300Hz engendre un
spectre qui se compose des frquences 3600, 3900 et 4200Hz, bien au-dessus de la rgion
o fonctionne I'ITD base sur le spectre (cf figure 18a(a)).
Beaucoup de stimuli contenant seulement des hautes frquences mais qui ont une faible
frquence de rptition dans le domaine temporel peuvent tre diffrencis sur la base
des ITDs. Quelques exemples, en addition la modulation d'amplitude, sont les beating
tones (l'addition de deux tons de hautes frquences qui diffrent seulement de trs peu
en frquence), filtres passe-bande troits, bruits filtrs (la rptition dans le domaine
temporel est proportionnelle la largeur de bande du bruit) et un clic rptition lente
qui a t filtr par un passe-haut afin que seules les hautes frquences soient prsentes.
Les faits de la physique mis en parallle avec les observations tires des expriences de
latralisation mnent tablir que la thorie duplexe de localisation doit tre remanie
de la sorte :
q L'lLO est un repre utilis pour localiser les sons de hautes frquences.
42
2009
~ l'ITD est le repre utilis pour localiser n'importe quel son avec des basses
frquences ou n'importe quel son complexe de haute frquence ayant une faible
frquence de rptition dans le domaine temporel.
le systme binaural est remarquablement sensible aux changements dans le
temps/niveau interauriculaire
la figure 18a montre que l'auditeur peut dtecter un changement de 3de phase
interauriculaire.
A 1000Hz, cette diffrence de phase correspond un changement de O,Olms en temps
interauriculaire. les donnes tires d'expriences sur la latralisation ont aussi dmontr
que le systme auditif est sensible aux diffrences temporelles gales 10
microsecondes.
P) Localisation versus latralisation :
Nous avons dj comment le fait que les sons prsents via un casque sont
gnralement perus comme venant de l'intrieur de la tte, plutt que de l'extrieur (o
les sources sonores sont gnralement situes ... ).
D'ordinaire quand les sons sont achemins via un casque, ils ne possdent pas toute la
complexit spectrale d'une source sonore relle du fait que ces sons venant du casque ne
rencontrent pas le torse, la tte et le pavillon de l'auditeur comme le ferait le son issu
d'une source sonore relle.
~ les stimuli dlivrs via un casque ne conservent pas les complexits spectrales
dcrites par les HRTFs.
Concrtement, la tte et le torse filtrent le son avant qu'il n'atteigne le tympan et la HRTF
dcrit les spectres de phase et d'amplitude de cette fonction de filtrage.
~ Si un son complexe est filtr par un filtre fait pour reflter les spectres de phase et
d'amplitude de la HRTF, puis prsent via un casque, alors le son arrivant au
tympan devrait avoir toutes les complexits spectrales d'un son rel qui a percut
le torse et la tte.
~ Quand des sons sont couts au casque aprs un filtrage HRTF, la plupart des
auditeurs rapporte le fait qu'ils ressemblent beaucoup plus ceux qui se
produisent dans l'espace que quand ils ne sont pas filtrs par la HRTF.
43
2009
Figure 19a : Comparaison d'estimatio d'emplament po r deux a diteurs (S1 et S2)
ayant ten de trouver les emplacements horizontaux/verticaux de sources sono es (bru s)
relles et de sources sono es simules (par des bruits filtrs via HRTFs) ro tes a casque.
Auditeur
Sl
S2
Relles
0.99
0.97
l es jugements sont indiqus en termes de coefficients de corrlation,
ce qui se traduit par la qualit du jugement de l'auditeur pal rapport
Simules
0.96
0.83
la position relle de la source sonore. n coefficient de 1.0 signifie que l' auditeur a indiqu
une position exacte pour toutes les sources, alors qu'un coeffident de 0.0 veut dire que l'auditeur
n'avait aucune ide de la provenance des sons (IMg tman, Ki stler et Perkins (1987)).
Le tableau ci-contre tablit une comparaison entre deux types de localisation pour deux
auditeurs : la localisation de source sonore relle et celle de sons prsents via casque
ayant t filtrs par les HRTFs appropries.
Pour chaque auditeur et chaque emplacement de source sonore, une HRTF a t calcule
pour les deux oreilles puis utilise afin de dterminer les filtres HRTF de sorte que via le
casque, la forme d'onde arrivant aux tympans soit aussi proche que possible de celle
ayant lieu pour une source sonore relle.
En coutant les deux types de son : la source sonore relle et la virtuelle (simule au
casque), l'auditeur a indiqu l'emplacement (dans l'espace) de la source sonore.
Dans l'exprience de localisation relle , les jugements des auditeurs sont compars
l' emplacement de la source sonore relle.
Pour les sons dlivrs via le casque, les jugements des auditeurs sont compars la
localisation de la source sonore pour le filtre HRTF utilis (pour filtrer le stimulus).
q Comme on peut le voir il y a une petite diffrence, les jugements restent excellent
dans les deux conditions d'coute (la corrlation entre les emplacements rels et
perus est trs grande), ce qui indique que la reproduction de spectres complexes
de sons rels est une variable importante dans la localisation auditive.
Q) Mas ua e binaural :
Dans la section prcdente, nous avons dcrit la sensibilit du systme auditif aux
changements dans le temps/niveau interauriculaire, qui sont principalement utiliss pour
localiser des sources sonores dans l'azimut. Beaucoup d'expriences ont montr que le
seuil de dtection d'un signal masqu par un bruit est plus bas quand ils (bruit et signal)
44
2009
sont prsents d'une faon particulire aux deux oreilles. Dans ces expriences, les sujets
ont d'abord dtermin leurs seuils quand le bruit et le signal taient prsents de
manire gale aux deux oreilles.
Dans un test, le signal a t retir d'une oreille de sorte que le bruit tait prsent aux
deux et lui une.
c:> Dans ce cas le signal tait facile dtecter, par consquent son niveau devait tre
rduit pour obtenir les seuils (de masquage).
Par la suite, beaucoup de chercheurs ont tudi l'amlioration de la dtection associe
la prsentation du signal et de ses masques aux deux oreilles. Une nomenclature
spcifique a t tablie afin de dcrire les diffrents types de configuration binaurale de
signal et de masques :
c:> Monodique (monotic): stimuli prsents une seule oreille.
c:> Diotique (diotic): stimuli identiques prsents aux deux oreilles ou pas de
diffrences interauriculaires pour le signal et le masque prsents chaque
oreille.
c:> Dichotique (dichotic) : diffrents stimuli prsents chaque oreille.
Les chercheurs ont trouv que le seuil de masquage d'un signal est le mme quand les
stimuli sont prsents dans les conditions monotic ou diotic. Cependant, si le masque et
le signal sont disposs dans une situation dichotic, le signal a un seuil plus bas par rapport
aux deux autres conditions. Il y a plusieurs faons pour prsenter un signal (S) et un
masque (M) dans les situations dichotic ou diotic. Une fois encore, un ensemble de
symboles est utilis pour dcrire ces conditions de stimulus :
c:> So : signal prsent aux deux oreilles sans diffrences interauriculaires (diotic).
c:> Mo : masque prsent aux deux oreilles sans diffrences interauriculaires (diotic).
c:> Sm : signal prsent une oreille seulement.
c:> Mm : masque prsent une oreille seulement.
c:> Sn : signal prsent une oreille avec 180de diffrence de phase par rapport au
signal prsent l'autre oreille.
c:> Mn : masque prsent une oreille avec 180de diffrence de phase par rapport
au signal prsent l'autre oreille.
Pour les conditions binaurales dcrites prcdemment, le signal/masque est identique
dans toutes les dimensions sauf celles signales par un indice, ainsi :
c:> Monotic: MmSm
c:> Diotic: MoSo, MnSn
c:> Dichotic : MoSn, MoSm, MnSn, MnSo, MnSm
Afin de comparer la dtection dans une condition binaurale avec celle dans une autre, les
donnes sont gnralement prsentes comme la diffrence entre le niveau de signal
requis pour la dtection (le seuil de masquage) dans une condition monotic et celui requis
dans une condition diotic ou dichotic.
45
2009
C'est--dire, le niveau de signal requis pour la dtection dans la condition diotic ou
dichotic est soustrait au niveau de signal requis pour la dtection dans la condition
MmSm (monotic).
~ Une telle diffrence exprime en dcibels est appele masking-level difference
(MLD) (diffrence de niveau de masquage) ou binaural masking-level
difference (BMLD) .
Figure 20a : Diffrence de niveau de masquage (MLD, en dB)
pour une variet de conditions de stimulus
Condition interaurale compare MmSm
MmSm, MoSo, MnSn
MrrSm
MoSm
MTTSo
MoSrr
OdB
6dB
9dB
13dB
15 dR
Le tableau ci-dessus prsente le type d'amlioration dans la dtection, fourni par la
prsentation de masques et de signaux en situation dichotic (MLD). Ces donnes figurent
approximativement la MLD maximale obtenue quand : le masque est un bruit gaussien
continu large bande prsent pour des niveaux allant de modrs intenses, le signal
est une sinusode de basse frquence pulse (infrieure 1000Hz) de longue dure
(suprieur 100ms).
46
a
Cl)
~
uS
~
-
CD
u
...._..
Cl
_J
~
2009
16
l t l
.. i
[ i 1
: 1 i !
12
: 1
. ~ ....
1 .
1 1
8
1
'1+
1.
i 1
1 .
I l 1
1 :;
1
1 ;
4
..... .
1 :;
!
'
0
100 1000 10,000
Frquence (Hz)
Figure 20a : MLD en fonction de la frquence du signaL
(Webster (1951))
Le graphique ci-contre dcrit la MLD obtenue entre les conditions MoSo et MoSrr en
fonction de la frquence du signal.
c> Plus la frquence du signal augmente, plus la MLD dcroit.
c> Cependant, la MLD n'atteint jamais zro; le signal est toujours plus facile
dtecter dans la situation dichotic que dans la situation diotic.
Le fait que la MLD dcroit en fonction de la frquence a suggr aux scientifiques qu'elle
(la MLD) peut tre mise en relation avec I'ITD et l'lLO. Quand la condition de stimulus est
dichotic, il y a des diffrences dans l'information de temps/niveau interauriculaire entre
les stimuli arrivant aux oreilles. Cependant, il n'y a aucune diffrence en situation diotic.
c> Il est alors logique de supposer que les diffrences interauriculaires associes aux
situations dichotic aboutissent l'amlioration de la dtection, suprieure celle
obtenue dans la situation dichotic simple.
47
2009
La M LD peut aussi tre mise en relation avec un autre aspect important de l' audition
spatiale :
c::> Si deux ou plusieurs sources sonores sont spares dans l'espace, il est plus facile
de localiser et de s'occuper des sons individuels.
Par exemple, reconnaitre une voix dans un chur, distinguer un instrument dans un
orchestre ou couter une conversation particulire dans une fte bruyante est plus ais
car le son qui nous intresse est positionn diffremment par rapport aux autres.
c::> Cette capacit diffrencier les sons dans un environnement acoustique
complexe est appele effet cocktail party .
La MLD est le rsultat de l'addition du signal et du bruit qui ont une configuration
interauriculaire diffrente du masque seul. Ainsi, comme dans l'effet cocktail party, cette
sparation interauriculaire entre le masque seul et le masque+ signal rend la dtection
du signal plus facile.
c::> L'effet principal de la MLD est la capacit dtecter un signal alors que l'effet
cocktail party se rfre la reconnaissance/identification du signal.
c::> De ce fait, bien que les deux effets (MLD et cocktail party) soient probablement
lis, ils ne peuvent pas mesurer exactement le mme aspect du traitement
binaural.
La capacit localiser un son dans l'espace est importante, non seulement comme une
aide pour dterminer la position de sons, mais aussi pour se focaliser sur un son
particulier dans un environnement contenant plusieurs sources sonores.
48
A) Stro binaurale :
2009
Il pourrait tre soutenu que toute reproduction sonore est finalement binaurale car elle
est coute par les deux oreilles de l'auditeur (cf lexique).
~ Nanmoins le terme stro binaurale est gnralement rserv pour les
signaux enregistrs ou traits afin de reprsenter les caractristiques d'amplitude
et de temps des pressions sonores prsentes aux deux oreilles.
~ Il s'agit d'une reproduction de l'coute humaine.
Pour enregistrer binauralement, le principe d'utiliser deux microphones placs dans les
deux oreilles d'une personne ou d'un mannequin( dummy head) est rest longtemps
populaire dans les milieux universitaires en raison de sa capacit potentielle encoder
tous les repres de l'espace perus par l'auditeur.
Quand ils sont jous sur casque, de tels enregistrements peuvent recrer un ralisme
remarquable, incluant des repres de hauteur et de localisation devant-derrire .
Malheureusement, les variables de ces chaines de signal et plus particulirement les
diffrences entre la tte/les oreilles qui ont servi l'enregistrement et la tte/les oreilles
de l'auditeur, la rponse du casque et le couplage aux oreilles ainsi que chaque
distorsion dans le cheminement du signal, peuvent aisment dtruire les subtils repres
spectraux et temporels requis pour garantir une reproduction fidle. De plus, la
consquence importante des mouvements de tte qui permettent l'homme de
rsoudre les confusions devant-derrire et d'autres erreurs de localisation n'est pas
considre comme une rgle dans la reproduction binaurale.
Les enregistrements binauraux ne sont pas immdiatement compatibles avec une coute
sur haut-parleurs (du fait que chaque signal mis par un haut-parleur va interfrer avec
celui provenant de l'autre haut-parleur, il n'y a pas de sparation entre les canaux), il en
rsulte alors une barrire potentielle pour un vaste usage commercial, bien qu'ils
puissent tre traits pour l'tre (compatibles) .
Aussi, malgr le fait qu'une tte artificielle devrait tre thoriquement le moyen le plus
adquat pour enregistrer de la musique dans le but d'une reproduction sur casque,
beaucoup de musiques enregistres sont artificiellement quilibres partir de plusieurs
microphones et les facteurs qui diffrencient les balances de sons commerciaux des
expriences d'coute naturelle entrent en ligne de compte.
les rcents dveloppements dans le traitement numrique du signal (1990s) ont
provoqu un regain d'intrt pour la technologie binaurale, souvent mentionne par
audio 30 et surround virtuel . Il est prsent possible de traiter plusieurs pistes
audio pour mixer les sources et les panner de manire binaurale, en utilisant des
reprsentations numriques des rponses impliques par le systme auditif. le matriel
binaural peut tre plus facilement trait pour la reproduction sur haut-parleurs et
plusieurs systmes sont largement utiliss dans les cartes son des ordinateurs et dans les
49
2009
tlvisions (grand-public) pour la mise en valeur spatiale du son provenant de seulement
deux haut-parleurs.
Il est cependant normal de s'attendre ce que de tels systmes soient pleinement
satisfaisants pour un nombre de positions d'coute trs limit. Les systmes de ralit
virtuelle et les jeux-vidos bnficient considrablement de telles amliorations, le suivi
de la tte ( head tracking ) est de plus en plus utilis pour incorporer les mouvements
du crne dans les quations de traitement.
B) Introduction l'audio binaural :
Comme mentionn prcdemment, l'enregistrement binaural a fascin les chercheurs
pendant des annes mais il n'a reu qu'une trs petite attention commerciale jusqu'
rcemment. Une partie du problme tait en fait qu'il est trs difficile de le faire
fonctionner convenablement pour un large ventail d'auditeurs sur un large ventail de
types de casques, en plus du fait de la compatibilit limite entre l'coute au casque et
sur haut-parleurs.
La stro conventionnelle sur haut-parleurs est acceptable sur casque pour la majorit
des auditeurs, bien qu'il se cre une solide impression que l'image sonore vient de
l'intrieur de la tte( in-the-head effect ).Les enregistrements binauraux quant eux
ne sonnent pas particulirement bien sur haut-parleurs sans traitement pralable du
signal et l'image stro est douteuse.
Les maisons de disques et radiodiffuseurs sont peu enclins produire deux versions d'un
enregistrement : un pour le casque et l'autre pour les haut-parleurs et les fabricants
d'quipement ne se sont pas montrs particulirement intresss par la construction de
circuits de conversion dans l'quipement grand-public.
De plus, l'enregistrement sur tte artificielle, bien qu'intressant, n'tait pas
spcialement bon pour crer le meilleur son commercial dsir par les ingnieurs du
son, dans lequel le placement de microphones et les modifications de balance sont
utiliss.
Les rcents dveloppements techniques ont fait que le traitement de signal ncessaire
la synthse de signaux binauraux et la conversion entre l'coute sur casque et l'coute
sur haut-parleurs sont plus largement accessibles des couts raisonnables. Il est
maintenant possible de produire des repres sonores pour la 3D directionnelle et de
synthtiser l'acoustique d'environnements virtuels trs prcisment en utilisant des
processeurs de signal numrique( Digital Signal Processor 1 DSP ).En l'occurrence,
c'est cette aire de simulation d'environnements virtuels pour des applications sur
ordinateur qui reoit actuellement le plus d'attention commerciale en ce qui concerne la
technologie binaurale. Les simulateurs de vols, jeux-vidos, applications de ralit
virtuelle et simulation architecturale sont tous des domaines qui tirent des bnfices de
ces dveloppements. Il est galement possible d'utiliser cette technologie pour
synthtiser des haut-parleurs quand il n'y en a pas, en utilisant les repres binauraux,
comme dans les systmes d' home-cinma virtuels.
50
2009
C) Petit histori ue :
La prise de son binaurale fait ses dbuts en 1881 par le biais du Thtrophone
l'Opra Garnier (Paris). Le thtrophone se composait de microphones disposs le long de
la scne dont les signaux taient transmis aux abonns par liaisons tlphoniques.
Ceux-ci devaient alors porter un casque spcial comportant un petit haut-parleur pour
chaque oreille. Le systme est peu peu tomb en dsutude ...
Dans les annes 1920, ce sont quelques stations de radio du Connecticut qui tentent
l'exprience de la manire suivante :diffusion du canal gauche sur une frquence et du
canal droit sur une autre, les auditeurs devaient alors possder deux radios et brancher le
canal gauche et le canal droit de leur casque dans la radio correspondante. Une fois
encore, ce systme onreux (pour l'poque rappelons le) et peu pratique a fait que le
binaural s'est nouveau effac ...
En 1970, Stereo Review prsente une dmonstration d'effets sonores et de musique
enregistrs grce une tte artificielle faite maison. De nombreux enregistrements sont
raliss en Allemagne, essentiellement de la musique classique et des ambiances ...
De nos jours, on assiste un regain d'intrt pour l'enregistrement binaural du fait que
chacun peut prsent accder une large varit de casques et de systmes
d'enregistrement pour un prix raisonnable.
Pour cette raison, quelques sites comme The Binaural Source (www.binaural.com) ou
encore un petit groupe Facebook ont fait leur apparition. Par ailleurs, des artistes comme
Pink Floyd ou Pearl Jam se sont essays cette technique.
~ Sur le CD joint, vous trouverez Rival , chanson issue du CD Binaural de Pearl
Jam pour se faire une petite ide de ce que peut donner l'enregistrement binaural
en musique rock. Personnellement, je ne trouve pas l'exprience dsagrable
mais lorsque trop d'instruments sont prsents j'ai tendance ressentir un effet
brouillon ...
51
D) Princi es du binaural :
2009
Les approches binaurales pour la reprsentation spatiale du son sont bases sur le
principe que la plus fidle reproduction des repres d'une coute naturelle est atteinte
s'il peut tre fourni aux deux oreilles de l'auditeur les mmes signaux qu'elles auraient
perus dans l'environnement sonore rel ou durant une coute naturelle. En thorie, la
reproduction binaurale vise reproduire tous les repres ncessaires une perception
spatiale exacte mais en pratique, nous nous trouvons face quelque chose d'immense et
divers problmes se posent.
Une approche vidente et quelque peu grossire de l'audio binaural est de placer
deux microphones, un l'emplacement de chaque oreille dans l'environnement sonore et
de jouer ces signaux via un casque aux oreilles de l'auditeur, comme illustr sur la figure
suivante:
52
2009
Figure 1: Principe d'enregistrement et
de lecture en binaural
Source
Tte artificielle
quipe de microphones
dans les oreilles
Systme d'enregistrrement 1
de lecture
L
R Auditeur portant
un casque
Ceci est en effet le principe de base de l'enregistrement binaural et une telle mthode
peut tre utilise pour crer des effets saisissants, mais de nombreux dtails ont besoin
d'tre considrs avant qu'on puisse recrer les repres spatiaux prcis aux oreilles de
l'auditeur.
O doit-on placer exactement les microphones? Dans la cavit pavillonnaire ? A la fin du
canal auditif?
Quels types d'oreilles et de tte doit-on utiliser? Chaque individu est diffrent ...
Quelle sorte de casque doit-on mettre ? O doit-il tre port ? Dans le canal auditif? Sur
le pavillon ? Casque ferm ? Casque semi-ouvert ?
Les signaux binauraux peuvent-ils tre reproduits sur des haut-parleurs?
Pour que la reproduction binaurale fonctionne bien, les HRTFs des sources sonores issues
de l'environnement rel (ou synthtis) doivent tre prcisment recres aux oreilles de
l'auditeur. Ceci signifie qu'il faut capturer les diffrences des spectres de temps et de
53
2009
frquences entre les deux oreilles, avec exactitude. Du fait que chaque position d'une
source sonore rsulte en une unique HRTF, on peut supposer qu'il est simplement
ncessaire d'assurer que l'auditeur l'entende correctement la lecture.
E) Rsoudre les roblmes des s stmes binauraux :
Les principaux problmes dans la reconstruction exacte des repres spatiaux peuvent tre
rsums de la sorte :
q Les HRTFs des auditeurs sont toutes diffrentes ( divers degrs), bien qu'il y ait
des caractristiques communes, rendant difficile leur gnralisation qui pourrait
tre utilise pour le domaine commercial regroupant un large public.
q Les mouvements de la tte, qui aident rsoudre les problmes de localisation en
coute naturelle, sont difficilement incorporables dans les situations de
reproduction.
q Les repres visuels sont souvent manquants durant une reproduction binaurale
alors qu'ils occupent une place importante dans notre perception.
q Les casques diffrent dans leurs galisations/montages, menant des distorsions
dans les HRTFs perues la lecture.
q Les distorsions telles que les erreurs de rponse en phase/frquence dans la
chaine de signaux peuvent affecter les repres requis.
Durand Begault (1991) a pass en revue un certain nombre de dfis rencontrs par ceux
qui tentent d'appliquer avec succs les systmes sonores 3D bass sur les repres
binauraux. Il rsuma les principaux dfis relever pour les concepteurs de systmes :
q Eliminer les interversions avant-arrire et les sons perus comme venant de la
tte.
q Rduire le nombre de donnes ncessaires pour reprsenter les caractristiques
les plus saillantes des mesures d'HRTFs.
q Rsoudre les conflits entre les caractristiques des rponses en frquence/phase
dsires et les HRTFs mesures.
Des recherches considrables ont pris place au cours des dernires annes pour tenter de
caractriser les HRTFs de diffrents sujets, en plus de crer une base de donnes de
caractristiques.
54
2009
Figure 2 : HRTFs de deux sujets 50
po r une source 0d'azimut et d'lvation.
On note de grandes diffrences 40
Sujets: 1 ---
2------
au niveau des HFs_
(Begault. 1991)
- 20

20 2000 4000 6000 8000 10000 12000 14000 16000 18000
Frquence (Hz)
Afin de mettre le problme en vidence, la figure ci-dessus illustre les HRTFs de deux
auditeurs pour une source oo d'azimut et d'lvation (situe directement devant le
sujet). On note en effet une grande diffrence d'HRTFs au niveau des hautes frquences.
En utilisant des mthodes telles que l'analyse des composantes principales et
l'extraction de caractristiques, il a t possible d'identifier les traits des HRTFs qui
semblent prsents chez la majorit des gens et ainsi de crer des HRTFs gnralises qui
fonctionnent raisonnablement pour un large panel d'utilisateurs.
Comme vu dans la premire partie, certaines personnes localisent les sons plus
facilement que d'autres. Ainsi, les HRTFs de ces bons localisateurs sont de prfrences
utilises pour en faire une gnralisation.
Pour rsumer, bien que nos propres HRTFs nous fournissent les repres directionnels les
plus stables et fiables, les HRTFs gnralises peuvent tre utilises au dtriment de la
prcision absolue de la reproduction pour tout le monde. Il est vident que les sujets
peuvent progressivement s'adapter de nouvelles HRTFs comme celles utilises dans les
systmes sonores binauraux et que les erreurs de localisation se rduisent avec la
familiarit. De mme, une adaptation du processus d'audition peut prendre place lors de
l'coute d'une reproduction avec des erreurs d'galisation, de nombreux effets spatiaux
tant d plus particulirement aux diffrences entre les signaux aux deux oreilles plutt
qu'aux caractristiques de la HRTF de chaque oreille (monaurale).
En utilisant de minuscules sondes/microphones miniatures, Moller & al. (1995} ont
mesur les HRTFs de 40 sujets pour sept directions de source sonore. Ils ont fait valoir
que les mesures faites l'entre du canal auditif ferm caractrisaient toutes les
informations directionnelles et minimisaient les diffrences individuelles entre les sujets
(un certain nombre d'auteurs revendiquent que la rponse du canal auditif n'a pas de
fonction d'encodage directionnel, bien qu'il n'y ait pas d'accord universel sur le sujet).
55
2009
Moller & al. ont observ que les diffrences entre les HRTFs des sujets sont relativement
petites jusqu' environ 8KHz et qu'au-del, il est possible de trouver une structure
gnrale pour la plupart des directions.
Faire une moyenne des HRTFs au fil des sujets tait problmatique car elle tendait se
traduire par des courbes aplaties qui ne reprsentaient pas un auditeur typique. Alors,
des techniques plus sophistiques seraient ncessaires pour obtenir des fonctions
typiques ou gnriques .
Le fait que les mouvements de tte n'affectent pas les repres directionnels durant la
reproduction binaurale sera trait plus tard, cela peut tre assist par l'utilisation de
l' head tracking (suivi de la tte). La question du manquement de repres visuels peut
tre seulement rsolue dans un systme de pleine ralit virtuelle qui incorpore de
l'information visuelle 3D en addition l'information sonore. En l'absence de repres
visuels, l'auditeur doit entirement compter sur les repres sonores pour rsoudre des
problmes comme la confusion avant-arrire et l'estimation d'lvation/de distance.
La question de l'galisation du casque est ambige du fait qu'elle dpend de son
utilisation & de sa forme. Moller suggrait que pour une reproduction binaurale, les
casques doivent tre galiss afin d'obtenir une rponse plate en frquence au point de
l'oreille o le microphone tait originellement plac pour l'enregistrement binaural. De
cette manire, les repres spectraux issus de l'enregistrement devraient tre
convenablement traduits pour l'environnement de lecture.
Dans le but d'muler les timbres des sons entendus via une reproduction sur haut-
parleurs, les casques ont t typiquement galiss soit, pour muler la rponse d'une
source en champ libre situe un certain angle en face de l'auditeur (gnralement oo
mais d'autres angles qui se rapprochent davantage de la position d'haut-parleurs ont t
proposs) ou (comme Theile et d'autres le suggrent), pour muler la rponse de la
position d'coute en champ diffus (prenant en compte les sons venant de tous les angles).
L'coute sur haut-parleurs est, en quelque sorte, quelque part entre une situation de
champ libre et une situation de champ diffus.
Quand Moller & al. ont mesur les rponses l'entre du canal auditif ferm, en 1995,
pour diffrents casques vendus dans le commerce, ils en ont conclu qu'aucun d'entre eux
ne semblaient adquat une lecture binaurale sans galisation pralable. Certains
d'entre eux se rapprochaient correctement du champ diffus/libre pour la lecture
d'enregistrements faits pour une coute traditionnelle sur haut-parleurs.
Ceci suggre plutt qu'il est presque impossible de concevoir un casque qui remplit la
fois les conditions requises pour une reproduction binaurale fidle et celles ncessaires
la correspondance des timbres pour l'coute sur haut-parleurs.
Une certaine forme d'galisation commutable semble son tour requise, de prfrence
adapte la personne. Cela dit, plusieurs tentatives ont t faites pour galiser les Ttes
artificielles ( dummy head) et autres signaux binauraux afin que les diffrences entre
les coutes sur haut-parleurs et casques ne soient pas trop marques.
~ Larcher & al. (1998) dmontrent que pour diverses raisons, une galisation en
champ diffus pour casque, tte artificielle et environnements synthtiss est
56
2009
prfrable une galisation en champ libre. Ceci sera dtaill dans la section
suivante ...
Par ailleurs, les distorsions dans la chaine de signal qui peuvent affecter les informations
spectrales et temporelles des signaux binauraux ont t nettement rduites depuis
l' introduction de systmes audio numriques. Du temps des chanes de signaux
analogiques et des mdias tels que la compact cassette et les LP records ,de
nombreuses opportunits existaient pour que des erreurs d' interchannel phase et de
rponse en frquence se produisent, rendant difficile le transfert de signaux binauraux
avec suffisamment d'intgrit pour garantir un bon rsultat.
F) Ttes artificielles, ttes relles et HRTFS synthtises:
Alors qu'il est possible d'utiliser une vraie tte humaine pour l'enregistrement binaural, il
peut tre difficile d'installer des microphones de haute qualit dans les oreilles, les
mouvements du crne et les bruits produits par l'utilisateur peuvent tre obstructifs.
Quelques fois, la tte est simule par une sphre (ou un disque) qui spare une paire de
microphones, simulant ainsi l'effet d'ombre de la tte mais ne donnant pas lieu aux
autres effets de filtre de l'oreille externe.
c::> Les enregistrements faits avec cette mthode ont une compatibilit correcte avec
des haut-parleurs du fait qu'ils n'ont pas subi l'galisation rsultante du pavillon.
c::> Les enregistrements binauraux non galiss et jous sur haut-parleurs vont
typiquement manquer de deux tapes de filtrage du pavillon : une
l'enregistrement et l'autre la lecture, donnant naissance des caractristiques
de timbres dformes.
Les ttes artificielles ( dummy heads )sont des reproductions de ttes humaines avec
des microphones de pression insrs dans les oreilles, pouvant tre utiliss pour gnrer
des signaux binauraux adapts aux mesures ou la lecture.
Un certain nombre de produits commerciaux existent, dont plusieurs qui intgrent les
paules ou un buste complet. Un simulateur tte-et-buste est souvent qualifi de HATS
simulator) , illustr ci-aprs.
57
2009
c> Selon certains, les paules et le torse sont importants du fait des rflexions qu' ils
engendrent en situation d'coute naturelle et qui peuvent alors contribuer aux
HRTFs.
c> Cependant, il se trouve que c'est un facteur qui varie considrablement entre
chaque individu et qu'il devient de ce fait un repre confus s'il ne correspond pas
convenablement aux propres rflexions du torse de l'auditeur.
D'autre part, certaines ttes artificielles sont spcifiquement faites pour l'enregistrement
tandis que d'autres sont appropries aux mesures.
c> En rgle gnrale, celles conues pour l'enregistrement ont un microphone
l' entre de chaque canal auditif.
c> Pour ce qui est des ttes de mesure, chaque microphone est plac la fin du canal
auditif, l'emplacement du tympan (quelques systmes de mesure incluent aussi
des simulateurs pour les caractristiques de transmission de l'oreille interne).
c> les ttes de mesure vont logiquement inclure la rsonnance du canal auditif dans
les HRTFs, ce qui devrait tre galis pour des situations d'enregistrement/de
lecture o les couteurs sont situs l'extrieur du canal auditif.
les oreilles des Ttes artificielles sont souvent interchangeables afin de varier le type
d'oreilles simuler. Ces dernires sont modlises partir des proprits physiques
moyennes/typiques des oreilles humaines, donnant lieu aux mmes problmes de
standardisation HRTF comme mentionn plus haut.
Au fil des ans, l'galisation des ttes artificielles d'enregistrement a reu de plus en plus
d'attention, principalement dans le but d'amliorer la compatibilit casque-haut-parleurs.
l ' galisation peut tre utilise pour modifier les HRTFs d'une tte artificielle de telle sorte
que l'effet spatial global ne soit pas perdu, partiellement d au fait que les diffrences
entre les oreilles sont maintenues. Tout comme Theile, qui a suggr l'utilisation de
l'galisation en champ diffus pour les casques comme tant un bon moyen de
standardiser leur rponse, lui et d'autres ont aussi suggr la mme galisation pour les
ttes artificielles afin que les enregistrements issus de ces dernires soient lus de manire
convaincante sur ces casques et sonnent naturels sur haut-parleurs.
58
2009
~ Cela signifie essentiellement d'galiser les microphones de la tte artificielle afin
qu'ils aient une rponse quasi-plate lors d'une mesure sur des bandes d'un tiers
d'octave en champ diffus.
D'autre part, Gierlich et Genuit (1989) ont dcrit un systme de tte artificielle (HEAD
Acoustics) galise pour une rponse plate oo en champ libre, prnant le fait que cela
rendait le systme plus compatible pour une coute sur haut-parleurs. Griesinger (1989)
quant lui, a expriment diffrentes formes d'galisations pour les ttes artificielles et
en a conclu que si les mesures effectues en (demi) champ libre ou en champ diffus sont
moyennes sur des bandes d'un tiers d'octave et que celles effectues en champ libre le
sont sur un angle de 10, il y a considrablement moins de diffrences entre les deux pour
un angle d'environ 30(face l'auditeur) qu'il ne l'a t suggr auparavant, ce qui est
encourageant. De telles mesures se rapprochent davantage de la situation d'coute
musicale en pice relle.
Le Neumann KU100 figurant ci-dessus est une tte artificielle connue pour avoir une
bonne compatibilit entre l'coute sur casque et sur haut-parleurs, elle utilise une
galisation proche de celle propose par Theile (galisation en champ diffus).
Les repres binauraux n'ont pas tre drivs des ttes artificielles. Les HRTFs sont
connues, ou peuvent tre plus ou moins reconstruites pour un angle de source sonore
donn, les signaux peuvent tre synthtiss avec les retards temporels et les
caractristiques spectrales appropris.
De telles techniques sont de plus en plus exploites par les applications de traitement de
signal numrique dans le but de simuler des repres spatiaux naturels, comme les
simulateurs de vol et de ralit virtuelle. Des sets de donnes HRTF convenables pour
chaque angle d'incidence et d'lvation ont t difficiles runir jusqu' rcemment et
sont souvent sous le couvert de la proprit intellectuelle du fait qu'il faut beaucoup de
temps pour les mesurer et pour rsoudre les problmes que ces mesures encourent. La
question en soulve aussi une autre : quelle doit-tre la rsolution angulaire requise pour
le set de donnes ? Pour cette raison, un certain nombre de systmes basent
59
2009
l'implmentation de leur HRTF sur une rsolution relativement grande puis, interpolent
les points qui se situeraient entre.
G) Le suivi de tte :
Le suivi de tte est un moyen par lequel les mouvements de la tte de l'auditeur peuvent
tre surveills par le systme de lecture. Dans certaines applications, cette information
peut tre utilise pour modifier les repres binauraux lus afin que les mouvements du
crne donnent naissance des changements ralistes dans les signaux envoys aux
oreilles. Gnralement, ceci est seulement pratique pour des applications d'interaction
en temps rel, o les HRTFs sont continuellement mises jour et o les sources virtuelles
individuelles sont synthtises. Le lien entre la direction vers laquelle l'auditeur est
tourn et les localisations des sources virtuelles peut tre calcul et les modifications de
filtrage effectues. Les expriences ont indiqu que la latence, incluse dans le calcul du
filtre du fait d'une nouvelle position de la tte de l'auditeur, peut tre raisonnablement
longue (<85 ms) sans pour autant tre perue (sujet trait dans une section suivante),
bien que cela puisse dpendre des caractristiques de la source et de l'application.
~ De cette manire, les sources qui sont censes tre des points particuliers de
l'espace (relativement l'auditeur) peuvent tre faites pour rester ces
emplacements mme si l'auditeur bouge.
~ En lecture binaurale normale, toute la scne bouge avec l'auditeur quand sa tte
entre en mouvements ...
Par ailleurs, le suivi de tte se rvle prcieux dans la rsolution des confusions avant-
arrire, qui sont un des flaux de la lecture binaurale. Ceci a t dmontr par Begault
(2000), qui a galement montr que ce suivi n'est pas particulirement important pour
l'amlioration de la dtermination de l'azimut d'une source ou de l'externalisation des
signaux vocaux. La plupart du temps, c'est en bougeant la tte que l'on peut dterminer
si une source est derrire ou devant nous. Quelques suivis de tte pistent aussi les
mouvements du crne dans les deux autres directions (appeles tilt and yaw )de sorte
que les trois types de mouvement soient pris en compte.
Les expriences conduites l' Institut fr Rundfunkteknik , reportes dans Horbach &
al. (1999), suggrent que le suivi de tte peut tre un facteur crucial dans l'amlioration
de l'exactitude des systmes de lecture binaurale. Dans une exprience o une tte
artificielle place dans une pice spare tait motorise afin que ses mouvements
puissent tre faits pour suivre ceux de la tte de l'auditeur, les chercheurs ont trouv que
la localisation des signaux issus des haut-parleurs se trouvant dans la pice de la tte
artificielle s'amliorait considrablement lorsque le suivi de tte tait activ. Les
reversions avant-arrire taient virtuellement limines.
De plus, ils ont trouv que la substitution de la tte artificielle par un micro en sphre
simple (sans pavillon) produisait des rsultats similaires, suggrant que les repres
spectraux additionnels fournis par le pavillon taient de faible importance compars
l'effet de rotation de la tte. On notera que la tte et le casque utiliss pour cette
exprience taient tous deux galiss pour une rponse plate en champ diffus, ce qui
rend la tte similaire au microphone sphrique dans tous les cas ...
60
2009
H) lecture de si naux binauraux sur haut- arleurs :
Quand des signaux binauraux sont jous sur haut-parleurs, il y a des interfrences entre
ces mmes signaux aux deux oreilles de l'auditeur qui n'existaient pas lors de la lecture au
casque. En effet, l'oreille droite reoit le signal du canal gauche une fraction de seconde
aprs qu'il ait atteint l'oreille gauche, avec une HRTF correspondant l'emplacement du
haut-parleur gauche, et vice versa pour l'autre oreille.
q Ceci empche l'tablissement de repres binauraux corrects aux oreilles de
l'auditeur et limine la possibilit d'une reproduction complte du son 30.
q La stro binaurale tend sonner excessivement troite au niveau des basses
frquences quand elle est joue sur haut-parleurs du fait qu'il n'y a qu'une trs
petite diffrence entre les canaux qui possde un effet sur les oreilles de
l'auditeur.
q De plus, les caractristiques spectrales des enregistrements binauraux peuvent
crer des inexactitudes de timbre quand ils sont reproduits sur haut-parleurs,
moins qu'une certaine forme de compromis d'galisation soit utilise.
La faible compatibilit des signaux binauraux non traits avec les haut-parleurs a t
conteste par Theile, revendiquant que le cerveau est capable d'associer les diffrences
lies la tte entre les haut-parleurs avec les repres spatiaux appropris pour la
reproduction stro, condition que la qualit de timbre des signaux lis la tte soit
galise pour un spectre d'coute naturelle (par exemple, l'galisation en champ diffus).
q Cette thorie a men ce qu'une varit d'entreprises et d'ingnieurs du son
utilisent les ttes artificielles telles que la KU lOO de Neumann afin de gnrer des
signaux d'haut-parleurs et ainsi engendrer l'ide du microphone Sphre de
Schoeps ...
Par ailleurs, Griesinger (1989) a propos plusieurs mthodes pour l'galisation spatiale
des enregistrements binauraux, dans le but de les rendre plus compatibles avec une
coute sur haut-parleurs.
q Il a suggr un boost d'environ lSdB 40Hz d'une soustraction de canal en basse
frquence (gauche - droite, pour augmenter l'tendue des basses frquences de la
reproduction), coupl une galisation globale pour une rponse en frquence
plate dans l'nergie totale de l'enregistrement afin de prserver la qualit de
timbre.
q Cela rsulte en une coute stro raisonnablement bonne devant l'auditeur, mais
les repres de hauteur et de avant-arrire ne sont pas prservs ...
Si les repres du tout 30 de l'enregistrement binaural original sont transmis aux haut-
parleurs, quelques traitements additionnels sont requis. Si l'oreille gauche doit tre
prsente seulement avec le signal du canal gauche et l'oreille droite avec le signal du
canal droit, alors certaines manires d'enlever les interfrences(= la diaphonie) entre les
oreilles sont ncessaires.
q Ceci est souvent qualifi d'annulation d'interfrences (de diaphonie) ou de
traitement transaural .
61
2009
c> Grossirement, les systmes d'annulation d'interfrences accomplissent cette
tche en injectant la version hors-phase du signal du canal gauche dans le canal
droit (et vice versa), filtre et retarde selon la caractristique de la HRTF
reprsentant le chemin des interfrences, comme illustr ci-dessous.
Signal oreille gauche Signal oreille droite
Figure 3 : Principe basique
d'un circuit d'annulation d'interfrences
,,
\ ' '
\ '
\
\
\
\
\
'
'
'
Chemin direct '
\
'
'
\
Filtre
d'interfrences
Filtre
d'mterfrenoes
Chemins
\
'
'
'
'
Chemin direct
L'effet produit par cette technique peut tre assez saisissant et permet une totale
perception des sources virtuelles 3D en incluant ce qui se passe derrire l'auditeur (
partir de seulement deux haut-parleurs placs l'avant), dans les meilleures
implmentations. La limitation la plus importante est que les filtres d'annulation
d'interfrences sont seulement valides pour un nombre limit de positions d'coute.
62
2009
~ Au-del de quelques dizaines de centimtres du sweet spot (=position
d'coute idale), l'effet disparat souvent quasi compltement.
~ Cet effet est quelques fois peru comme non-naturel et certains auditeurs le
trouvent pnible en cas d'coute prolonge.
Comme avec beaucoup de systmes binauraux, la difficult technique qu'a d rencontrer
la plupart des designers de ces dernires annes a t de trouver le compromis optimal
entre : la prcision de localisation, la compatibilit avec de multiples auditeurs,
l'exactitude de timbre et la robustesse.
Souvent, l'un ou l'autre de ces facteurs finit par en ptir si l'on trouve des systmes qui se
rvlent excellents pour une ou deux personnes avec leur tte dans une position fixe,
mais l'image s'effondre totalement ds qu'ils bougent et le rsultat est mauvais pour les
autres auditeurs, ou l'on trouve des systmes qui fonctionnent pour un large panel de
positions d'coute mais qui sont hlas beaucoup plus vagues dans la prcision de
localisation et qui ont des problmes de timbre.
~ Des exemples d'assez bons compromis entre ces facteurs existent mais le fait est
que cette approche repose sur le fait que les auditeurs ne s'loignent pas d'une
position connue, ce qui n'est pas pratique pour beaucoup de situations d'coute ...
Les situations dans lesquelles l'approche transaurale a t la plus convaincante ce jour
sont le son 3D pour l'ordinateur et les systmes d'home-cinma virtuels. La raison du
succs considrable dans l'octroi de licences pour les cartes son d'ordinateur est
certainement le fait que les personnes oprants sur ordinateur ont tendance s'assoir
dans une relation de haute prvisibilit avec l'cran, laquelle peuvent tre attachs les
haut-parleurs. Cela rend les filtres plus faciles calculer et il n'est pas ncessaire d'en
permettre pour beaucoup de mouvements d'auditeur. Certains systmes sont optimiss
pour des positions d'haut-parleurs plus ou moins 5pour cette raison particulire.
Aussi, la qualit sonore et la prcision de localisation requises pour les jeux sur ordinateur
et autres formes de divertissement multimdia ne sont ventuellement pas aussi
rigoureuses que pour d'autres applications et les haut-parleurs sont souvent de qualit
moindre dans tous les cas, alors on peut opter pour des repres binauraux un peu plus
grossiers et peut-tre exagrs dans la conception du systme.
1} Les systmes de surround virtuel/ home-cinma virtuel (VHT, Virtual Home
Theatre ) :
Les systmes VHT utilisent les principes binauraux et transauraux pour virtualiser les
haut-parleurs de surround d'un systme 5.1 afin de s'adapter aux environnements dans
lesquels il n'est pas pratique ou dsirable d'avoir de rels haut-parleurs. Le canal
centre est quelques fois simul lui aussi, bien que cela puisse tre rgl avec un
simple centre fantme en usant des techniques conventionnelles de strophonie, le rel
dfi tant de faire que certains sons apparaissent sur les cts ou derrire l'auditeur.
~ Dans de tels systmes, les canaux LS et RS ( Left Surround et Right
Surround )sont traits binauralement de manire crer des sources virtuelles
63
2009
avec la HRTF correspondante un angle d'environ 110 de l'avant vers chaque
ct (position normale des haut-parleurs de surround).
q Le signal rsultant est alors inject travers un processeur transaural pour
annuler les interfrences entre les deux oreilles et les signaux transauraux sont
mixs avec les canaux avant-gauche et avant-droit du signal 5.1, comme montr
dans le schma ci-aprs :
Figure 4 : Virtualisation des
tut-parleurs centre et surround l
; les systmes home cinma virtuels.
'
, \
, " \
' \
' ~ \
' ' '
\. .. !- ... ~
LS
HRTF
de-110
c
HRTF
de0
AS
HRTF
de +110
._, __ -t Annulateur d'interfrences t - - - - - o ~
1
r----,
' '
------
Centre virtuel
Surround virtuels
R
Signaux d'entre
dnq canaux
Synthse binaurale
des haut-parleurs virtuels
Versions des haut-parleurs virtuels
comprenant l'annulation d'interfrences .
additionnes aux canaux Let R
L'auditeur peroit les haut-parleurs
virtuels s'il est plac proche
de la position idale d'coute ( =Sweet Spot)
'
, '
1 '-
/ , "')
1 1 ,
, 1 1
1 ' 1
!.. - ...... ,
64
2009
Le rsultat subjectif peut se montrer raisonnablement convaincant dans les meilleurs
exemples, mais plutt dplaisant dans les pires. Zacharov et Huopaniemi (1999) ont
conduit un test grande chelle pour un certain nombre de ces systmes, comparant la
qualit spatiale/de timbre avec une version 5.1 discrte (o tous les HPs sont prsents) du
mme matriel. Cela n'est pas surprenant: la version discrte est arrive en tte, avec les
systmes VHT montrant des degrs variables de performance relative- certains d'entre
eux tant constamment classs trs bas en comparaison.
q Un problme notable tait qu'une svre modification de timbre rsultait de tels
processus.
De pareils systmes sont typiquement rencontrs dans certaines tlvisions grand-public
et quipements pour la lecture surround du fait qu'ils peuvent tre mis en uvre dans le
logiciel et ainsi viter le besoin de fournir les sorties physiques supplmentaires, haut-
parleurs et amplificateurs qui seraient autrement ncessaires.
Ils sont souvent optimiss pour une zone d'coute raisonnablement vaste, l'effet dcroit
alors graduellement quand on s'loigne de la position d'coute idale( sweet spot) et
l'image sonore arrire rsultante est modrment diffuse.
q Ce n'est normalement pas un problme car les canaux de surround de beaucoup
de programmes ne sont pas destins tre localiss prcisment.
J) La re roduction surround sur cas ue :
Il existe des situations dans lesquelles on peut souhaiter suivre le programme d'haut-
parleurs surround en utilisant un casque, la technologie binaurale peut alors une fois de
plus venir la rescousse. Du fait que les casques ont typiquement et seulement deux
transducteurs et nous uniquement deux oreilles, un moyen de cartographier cinq (ou
plus) signaux d'haut-parleurs dans deux signaux d'oreille doit tre organis.
Horbach & al. (1999) dcrivent un systme d'auralisation bas sur casque pour le suivi du
son surround, qui virtualise les positions des cinq haut-parleurs et incorpore le suivi de
tte afin que l'environnement rponde aux mouvements de la tte. En addition aux
signaux du haut-parleur virtuel, le systme incorpore les vraies rponses impulsionnelles
de l'acoustique de la salle de contrle du son, afin que les haut-parleurs sonnent comme
s'ils jouaient dans un environnement naturel.
Il est connu que l'addition de rflexions ralistes dans l'auralisation des sources contribue
positivement l'externalisation de ces sources.
Le suivi de tte utilis dans ce systme fournit des mises--jour de la position du crne
toutes les 8,3ms et la latence basique du systme est d'environ SOms. Les tests conduits
par les auteurs afin de dterminer l'effet des retards entre les mouvements de la tte et
le rsultat aurai de la mise--jour du filtre correspondant ont suggr qu'une latence de
moins de 85ms ne pouvait pas tre dtecte par les auditeurs.
65
Il
2009
K) Les environnements acoustiques virtuels :
La technologie binaurale est tout fait convenable pour la synthse d'environnements
acoustiques virtuels et est de plus en plus utilise dans les systmes d' auralisation
pour la conception acoustique d'espaces rels, de mme que pour la cration d'espaces
virtuels avec leurs propres acoustiques.
Savioja & al. (1999) dcrivent un certain nombre de techniques utilises pour la
modlisation d'espaces acoustiques et expliquent comment ces dernires sont mises en
uvre dans les systmes DIVA (acoustiques virtuelles numriques). La dmarche utilise
spare la simulation acoustique de la salle en deux parties, comme le montre la figure ci-
dessous:
Figure 5 : Simulation en deux parties
de l'acoustique d'une pice, utilise en modlisation
virtuelle d'acoustique (Savioja & al. 1999).
Description des paramtres
de la source et de la pice
Calcul des signaux
en temps rel
Son direct
et premires rflexions
Auralisation
Analyse des paramtres
(ne se fait pas en temps rel )
Rverbration
artificielle
Les premires rflexions sont simules discrtement en utilisant une approche image-
source base sur un modle d'acoustique de la pice en temps rel, mis jour selon la
position de l'auditeur dans la salle et relativement aux sources virtuelles.
Les rflexions tardives naturellement diffuses ne sont pas modlises en temps rel et
peuvent tre pr-calcules partir des paramtres connus de la pice.
La structure de base du systme pour le filtrage des sources/premires rflexions selon
leur HRTFs directionnelles, suivi de l'addition de la rverbration et de l'optionnelle
annulation d'interfrences pour la reproduction sur haut-parleurs, est illustre ci-aprs :
66
Filtres pour :
la directivit de
la source.
air. l'absorption ...
Filtres directionnels
(ITD et HRTF)
Retards en cascade
Son direct
et premires rflexions
Figure 6 : Aperu des lments
de traitement du signal pour la synthse
d'acoustique virtuelle (Savioja & al. 1999).
2009
L) Vers une volution de la rise de son binaurale ?
Gnrateur de
rverbration
Sorties binaurales
Let R
t'-----1+ ""--
t'----t+,_....,.. __
JI s'agit du Motion-Tracked Binaural (ou MTB) qui exploite notamment le suivi de tte
et peut se retrouver pour beaucoup d'applications telles que : tlconfrence,
surveillance, home-cinma, musique, enregistrement personnel, jeux-vido, divers
simulateurs, ralit virtuelle ...
Le MTB rsout les problmes d'externalisation de l'image sonore (effet in-the-head )
et de confusion avant-arrire en chantillonnant le champ sonore proche de la tte
artificielle en plus d'utiliser un suivi de tte pour pister la position de la tte de l'auditeur.
Plus particulirement, le systme utilise le signal issu du suivi de tte afin de dterminer
la position des oreilles de l'auditeur.
c:> En rgle gnrale les oreilles vont se situer quelque part entre les microphones, le
problme tant d'estimer la sortie d'un microphone virtuel l'emplacement
actuel de l'oreille.
c:> Le systme MTB s'y emploie par l'interpolation entre les signaux des microphones
les plus proches et ceux des microphones suivants.
67
Structure microphonique
2009
[:.::>
-- [>
--{>
--t>
/ ..
Mais combien de microphones doit-on utiliser?
Auditeur
A partir de la thorie d'chantillonnage, nous savons qu'il faut au moins deux chantillons
par longueur d'onde. A la limite de l'audition humaine (environ 20kHz) la longueur d'onde
est peu prs gale 1,7cm. Du fait que la circonfrence d'une tte de taille moyenne
est de SScm, il faudrait un minimum de 64 microphones. En effet, il peut tre montr
qu'une simple interpolation linaire requiert deux fois ce nombre pour des rsultats
satisfaisants, ce qui est assez dcourageant en pratique ...
c> Heureusement, il n'est pas ncessaire d'interpoler sur toute la bande de
frquence audible. L'indice le plus puissant pour la localisation sonore est I'ITD.
Cependant, cet ITD est un repre pour les basses frquences et devient ainsi
inutile pour celles suprieures l,SkHz (cf premire partie).
c> Ceci suggre alors l'approche illustre ci-dessous, dans laquelle un filtre passe-bas
est util is afin de restreindre l'interpolation aux basses frquences et le signal issu
du microphone le plus proche de l'oreille est exploit pour restaurer les hautes
frquences.
En restreignant l'interpolation aux basses frquences, il est possible de rduire fortement
le nombre de microphones requis. Exprimentalement, il a t trouv que 8 microphones
produisent d'excellents rsultats pour la parole et 16 en font de mme pour la musique.
68
Qu'en est-il du MTB virtuel?
2009
En addition au fait d'tre utilis pour capturer et reproduire des vrais sons spatiaux, le
systme MTB peut aussi l'tre pour le rendu des sons gnrs par
ordinateur/enregistrements de son surround originellement cres pour une reproduction
sur haut-parleurs.
Le concept de base est simple : supposons que nous voulons rendre un son virtuel, que ce
soit un son gnr par ordinateur ou le son d'un haut-parleur en enregistrement
surround.
q Il est possible de simuler le son qui serait capt par une structure MTB si les
fonctions de transfert des sources sonores pour chaque microphone sont
connues. Les fonctions de transfert sont quivalentes la HRTF pour une sphre,
pour laquelle il y a la fois des solutions analytiques exactes et des
approximations de filtre efficaces.
q Ainsi s'il y a N microphones, tout ce que nous avons faire est de filtrer le signal
source avec N HRTFs de sphre.
Il faut cependant noter que les sons gnrs par cette mthode sont particulirement
secs , comme s'ils taient enregistrs dans une chambre anchoque.
q Nanmoins, avec des calculs additionnels, des rflexions simules peuvent tre
introduites pour produire un son plus naturel.
q Ces rsultats peuvent alors tre mixs avec des vrais sons spatiaux pour une
ralit audio amliore.
Qu'en pensent les auditeurs et la recherche?
La raction commune des gens ayant cout un enregistrement issu du MTB est que cela
produit un effet de prsence remarquable. Ceci est particulirement attrayant pour les
enregistrements effectus dans un environnement modrment rverbrant, o la
capacit du MTB capturer efficacement les effets des rflexions de la pice est plus
facilement perue.
Cependant, l'exprience d'coute varie selon les auditeurs. Voici plusieurs effets que les
gens peuvent alors ressentir :
q Elvation de sources sonores qui devraient se trouver dans le plan horizontal.
q Mouvement (petit mais perceptible) de sources sonores qui est corrl avec le
mouvement de la tte. Pour certaines personnes les sources suivent le
mouvement de la tte alors que pour d'autres, les sources bougent dans la
direction oppose.
q Pour un nombre restreint de personnes/de conditions, une source semble sauter
d'un ct l'autre de la tte quand ils la tournent.
q Quelques personnes rapportent le fait qu'une source semble perdre son contenu
en hautes frquences ou chappe la concentration quand ils lui font face.
Beaucoup de ces problmes peuvent tre attribus au fait que la tte et l'oreille externe
sont variables en taille et en forme, de sorte que le champ sonore entourant la structure
microphonique MTB est seulement une premire approximation du champ sonore
encerclant la tte de chaque auditeur.
q Pour des rsultats optimaux, nous devons tre capables de corriger les signaux
MTB pour tenir compte des effets de la taille de la tte, du torse, de
l'emplacement du pavillon, de sa taille et de sa forme.
69
2009
Q Ces corrections sont dsignes comme la personnalisation du systme pour
l'auditeur.
Les recherches actuelles sont diriges vers la comprhension et la rsolution de ces
problmes. Des solutions plus ou moins compltes sont dj connues.
Q En tant qu'exemple, il est confirm que l'absence de pavillon sur le systme
d'enregistrement est la principale source de plaintes, savoir, l'lvation
apparente des sources sonores.
Q Dans le cas du MTB virtuel, ce problme peut tre rsolu par l'emploi d'une HRTF
individuelle.
Q Alternativement, on pourrait employer un bon modle HRTF comme l'un des
modles HRTF structurels.
La moiti suprieure de la figure ci-dessus illustre un modle HRTF structurel
particulirement simple, dans lequel un modle de tte sphrique est mis en cascade
avec un modle de pavillon isol.
Q Clairement, si nous usons d'une structure MTB physique pour capturer des sons, il
nous manque la moiti du modle, c'est--dire, le pavillon. On pourrait apposer un
pavillon physique aux microphones mais les rsultats dpendraient alors de la
forme/taille du pavillon utilis ...
Cependant, ceci suggre une alternative simple et approximative illustre par la moiti
infrieure de la figure prcdente.
Q Dans le cas prsent, une structure MTB physique remplace le modle de la tte et
les sorties des microphones sont filtres avec des modles personnaliss de
pavillons.
Evidemment, pour utiliser un modle de pavillon, nous devons savoir la direction de la
source sonore mais nous n'avons aucun moyen pour connatre cette information.
Nanmoins, pour beaucoup d'applications la source sonore de plus grand intrt est
situe directement l'avant.
Q En utilisant un modle de pavillon individualis pour les sources sonores localises
directement devant, l'lvation perue pour la source sonore de plus grand intrt
est grandement amliore.
70
2009
Cette alternative est juste une des nombreuses amliorations/extensions possibles de
l'approche MTB. La reproduction complte et fidle du son spatial reste un challenge. Par
ailleurs, le MTB fournit une nouvelle approche pour vaincre ce challenge en permettant
un nouveau niveau de ralisme dans l'enregistrement et la reproduction de son
spatiaux ...
71
2009
A) A ro os des micro hones:
1) Caractristiques :
Pour ce qui est des caractristiques techniques des micros utiliser en enregistrement
binaural, il m'est apparue logique d'utiliser des microphones omnidirectionnels possdant
une rponse en frquence plate du fait que nous voulons capter tout ce que l'oreille
peroit en situation d'coute. Afin de confirmer mes hypothses et d'en savoir plus, je me
suis mise parcourir le net la recherche de sources viables pour finalement atterrir sur
le site de Dallas Simpson, ingnieur du son travaillant dans le domaine de
l'enregistrement binaural depuis plus de dix ans et reconnu dans le milieu.
J'ai alors saut sur l'occasion pour entrer en contact avec lui et, plus particulirement, lui
poser quelques questions sur les microphones utiliser, ce quoi il a aimablement
rpondu. Je vais ainsi retranscrire une partie des rponses (traduites de l'anglais) ici :
Pourquoi utiliser des microphones omnidirectionnels?
c::> La raison est que l'encodage binaural se fait par la prsence physique de la tte et
des oreilles, en plus de la distance entre les oreilles (comme vu dans les chapitres
prcdents). Le microphone chantillonne simplement l'effet de ces derniers sur
l'onde sonore directionnelle quand le front d'ondes vient envelopper la tte.
Quelles positions ?
c::> En rgle gnrale, un petit microphone pouvant capter le son la position de
l'oreille ou dans le canal auditif (au tympan pour des mesures et l'entre du
canal pour un enregistrement, cf chapitre prcdent) permettra d'enregistrer un
son pleinement binaural.
Cependant, beaucoup de gens placent les micros de chaque ct de la tte, ce qui
permet un enregistrement pseudo binaural retenant une grande partie des
informations spatiales et assurant une meilleure compatibilit avec les haut-
parleurs.
Bruit et sensibilit ?
c::> Le bruit propre au microphone est important pour ce qui est d'enregistrer des
sons de faible intensit comme les insectes (ou toutes autres petites cratures
comme les grenouilles), en plus du facteur sensibilit. Ainsi, un microphone peut
avoir un faible facteur de bruit mais si sa sensibilit l'est galement, le bruit rel
peut tre plus important en enregistrement car la sensibilit du prampli du
microphone est augmente pour enregistrer des sons de faibles niveaux.
Inversement, un microphone possdant un haut facteur de bruit combin une
haute sensibilit aura moins de bruit rel car le niveau du prampli est rduit afin
d'adapter la plus grande sortie du microphone aux sons de faible niveau.
72
2009
q En dfinitive, le rapport signal/bruit est le facteur principal dans la dtermination
du bruit total microphone+ prampli en enregistrement (plus le rapport est
grand, meilleure est la qualit du signal, moins le bruit est audible).
Un exemple pour ceci?
q Jetons un coup d'il ce tableau de comparaisons:
4060 mini lav P.& P48
4051 30m\"Pa
4052 30m\'Pa
4053 30m\'Pa P-38
4003 .i5m\'Pa 130 \"01!5
4021 Pa P-38
4022
1
m\Pa p 8
4023 m\" Pa P-38
4033 S m\P. PJS
4035 Sm\"Pil P-38
4036 8 m\"Pa P48
4037 Sm\" Pa P4S
4041-T 85 mr Pa 130 volts
4012 9-m\'P.a 130 volts
4040 ;;c m\"?a 130 wlts
4041-5 . m\"Pa 130 \-olts
q Pour un DPA 4060 500$, le bruit propre au micro est de 23 dB(A), ce qui est un
peu haut, et la sensibilit est de 20 mV /Pa, ce qui est bon. Ainsi ces micros
donnent de trs bons rsultats pour leur prix, en plus d'tre minuscules pour
pouvoir tre insrs dans les oreilles.
q Les micros ayant des niveaux de bruit propre trs bas (7 dB(A)) et une trs haute
sensibilit (90 mV/Pa) sont trs chers, comme on peut le voir avec le DPA 4040 ...
8000$.
8000$, 500$, c'est bien mais .. . quoi pour l'tudiante dsargente que je suis?
q Pour ce qui est des microphones bon march , ils peuvent donner de bons
rsultats en enregistrement binaural avec un bon prampli +alimentation
Phantom.
q Il s'agit alors d'utiliser des microphones lectret comme ci-dessous :
Voici les caractristiques techniques de ce type de micro qui peuvent nous servir
d'exemple:
q Rponse : Omnidirectionnel
q Diamtre : 6 mm (idal pour tre insr dans l'oreille)
q Rponse en frquence: [50Hz- 13kHz]
q Sensibilit : 60 dB 3dB (OdB = 1 V /11bar 1kHz, V cc= 45V, R
1
= lkO) (correcte ... )
q Impdance: lkO maximum
q Rapport signal/bruit: >40dB (pas top)
q Niveau de pression sonore: 120dB maximum
73
.......
St.-.

2009
~ Prix: 3$ (imbattable!)
Par ailleurs, je pense qu'il est bon de faire une petite parenthse sur les micros lectret
pour les nophytes qui se demanderaient qui-que-quoi-comment-qu'est-ce?
Principe :
Electret en
t fi on al car ...
Membrane
Isolant lectri ue
Vers prampli
Signal intgr au
microphone.
Lame d'air 1/50mm MicEiect.pct
L'lectret est un corps lectrique capable de stocker une tension lectrique par un
procd spcial de polarisation. Ainsi on ne doit pas apporter une tension de polarisation
extrieure pour la membrane, qui est ici permanente (la polarisation), mais une
alimentation pour l'amplificateur/adaptateur d'impdance intgr au corps du micro.
Avantages :
- Souvent abordable quant au prix, surtout en entre de gamme.
- Miniaturisation pousse (micros cravate de la taille d'une allumette).
- Peu sensible aux bruits de contact.
- Disponible dans toutes les directivits.
- De trs bons microphones pour les amateurs.
- Sensibilit honorable (5 50 mV/Pa en moyenne).
Inconvnients :
- Ncessite une source d'alimentation interne ou externe, gnralement entre 1,5 et 9V.
- Bruit de fond souvent important dans les entres de gamme.
-Tenue incertaine des caractristiques dans le temps.
-Craint l'humidit et la chaleur en gnral.
En passant, diffrents micros pour diffrentes situations?
q Dallas Simpson utilise les mmes microphones (DPA 4060 en l'occurrence) pour
tous ses enregistrements. Pour justifier cela, il en appelle au fait que nous utilisons
les mmes oreilles pour toutes les situations d'coute.
~ Mais qu'en est-il pour d'autres marques de microphones ?
74
2) Diffrents modles
2009
Ne souhaitant pas m'arrter aux microphones de marque DPA, je suis alors retourne sur
le net la recherche de sites pouvant clairer ma lanterne ce propos. Je me suis cette
fois arrte chez Aaron Xi mm car il y fait mention de plusieurs marques.
Sonic Studios :
Ceci est la marque qu'il recommande du fait de sa grande compatibilit entre une coute
sur casque et sur haut-parleurs, en plus de proposer un modle permettant de se servir
de sa propre tte pour enregistrer, ce qui accroit naturellement le nombre d'endroits o
l'enregistrement pourrait se faire en ajoutant un certain degr de discrtion.
Ci-dessus, une illustration des microphones avec un bandeau Street Style pour les
accrocher directement sur les oreilles, idals pour l'enregistrement d'ambiances,
d'interview, de performances musicales, comptitions athltiques etc. mais dconseills
en cas de vent.
Il est alors prfrable d'utiliser la version avec une bonnette prsente ci-dessous:
Par ailleurs et aprs consultation du site officiel de la marque, il se trouve que Sonic
Studios propose diffrents modles pour diffrentes situations, on citera, pour avoir une
ide de la chose:
75
2009
q Le DSM-lS destin aux enregistrements d'ambiances, en milieu naturel, d'effets
Foley ...
Pour 650$, vous aurez accs une rponse en frquence : [18Hz-25kHz], un bruit
propre au microphone infrieur 26dBv, une sensibilit (94dBSPL) de -45dBv, une
pression sonore maximale de 1062dBSPL et un rapport signal/bruit suprieur
65dB.
q Le DSM-6S qui se veut polyvalent avec diffrentes caractristiques selon les
situations, je ne vais en citer que deux versions pour tablir une comparaison :
La version 550$ destine l'enregistrement de groupes orchestraux
acoustiques, d'ambiances ou encore d'interviews offre une rponse en frquence
[5Hz-25kHz], une sensibilit -562dBv, une pression sonore maximale de
1213dBSPL et un rapport signal/bruit suprieur 61dB.
La version 650$ destine l'enregistrement de groupes de metal et rock forts en
basses offre une rponse en frquence identique, une sensibilit -683dBv, une
pression sonore maximale de 1333dBSPL et un rapport signal/bruit identique.
Core Sound :
Ceci est une autre marque reconnue dans le milieu binaural, voici son modle binaural de
milieu de gamme bas sur des microphones lectret Panasonic omnidirectionnels :
q Prix : 260$ pour la paire de microphones+ batterie avec filtre coupe-bas
actionnable.
230$ pour la mme paire + batterie sans coupe-bas ou batterie avec coupe-
bas inclus.
q Electriquement et mcaniquement modifi pour un ajout de 20dB la dynamique
du micro, tendre et aplatir sa rponse en basses frquences.
q Rponse en frquence (post-modifications) : [20Hz-20kHz] ldB.
q Sensibilit (post-modifications): -66dB (avec OdB = 1 V /llbar).
q Normalement omnidirectionnels mais leur directivit peut lgrement changer
selon les caractristiques d'absorption et de rflexions de la tte et des oreilles.
q Bruit propre : 30 dB(A).
76
2009
~ Dynamique (post-modifications) : 90dB.
~ Filtre coupe-bas de la batterie pour les frquences infrieures 120Hz, du premier
ordre (6dB/oct).
~ Faible distorsion pour de forts niveaux de pression sonore (de llOdBSPL
140dBSPL).
D'autre part, la curiosit m'a pousse aller voir du ct de leur version haute
dfinition , construite partir de microphones DPA 4060 ou DPA 4061.
D'une sensibilit gale 20mV /Pa (pour le 4060), d'un bruit propre de 23dB(A) (pour le
4060), d'une pression sonore maximale de 134dBSPL (pour le 4060) et d'une dynamique
de 115dB, cette version n'en reste pas moins 1000$ ... ce qui me laisse penser que
leur version milieu de gamme est largement suffisante pour pratiquer l'enregistrement
binaural avec des rsultats tout fait satisfaisants.
Micros DIV
Ce sont les derniers dont je ferai mention dans cette section. Ce n'est pas une marque
proprement parl mais une technique, en effet, DIV signifie Do lt Vourself et pourrait
donc se traduire par faites le vous mme/ systme D . Il s'agit d'utiliser une paire de
microphones Lavallire omnidirectionnels et en rgle gnrale, de les raccorder un
connecteur stro jack 3,5mm compatible avec les entres des enregistreurs portables.
Pour ce faire, on peut utiliser des microphones tels que :
Le Sony ECM-77BMP

Microphone lectret
Omnidirectionnel
Rponse en frquence: [40Hz- 20kHz]
Dynamique : suprieure 90dB
Rapport signal-bruit : 64dB 1kHz
Niveau sonore maximum l'entre: 120dB 1kHz (1% THO)
Prix : plus ou moins 270$
77
2009
Taille : 12.Smm x 5.6mm (hauteur x diamtre)
Le Shure WL183
Microphone lectret
Omnidirectionnel
Rponse en frquence : [50Hz - 17kHz]
Dynamique : 102,5dB
Niveau de pression sonore maximum : 125dBSPL
Bruit en sortie : 22,5dBSPL
Sensibilit: -40dBV/Pa (lPa = 94dBSPL)
Prix : plus ou moins 130$
Taille : 5.8mm x 11 mm (diamtre x hauteur)
Particularit : il est particulirement apprci des gens qui cherchent enregistrer les
sons de la nature du fait de son prix plutt bas (trouvable 80$) et de sa bonne qualit
pour une petite taille.
Capsule lectret
Pour aller encore plus loin dans la mthode DIV, il s'agit ici d'utiliser les capsules lectret
comme dcrites dans l'interview de Dallas Simpson. Cependant, tant donn que j'ai
tent de construire une tte artificielle quipe de ce type de microphones (avec l'aide
prcieuse de mon professeur d'lectronique), j'aborderai le sujet en dtails dans une
section ddie par aprs.
B)
Tout casque qui assure une bonne isolation entre le canal gauche et le canal droit est
potentiellement suffisant pour couter un enregistrement binaural, chacun peut ainsi
profiter de cette technique selon ses moyens financiers. Cependant et comme pour la
plupart des enregistrements me diriez vous, meilleur est le casque, meilleur est l'illusion
la lecture ...
78
2009
Ainsi, la firme Etymotic a dvelopp le casque ER-4B ddi la lecture binaurale :
Ce casque, la diffrence des autres plus classiques, a t cre dans le but d'tre utilis
pour couter des enregistrements qui n'ont pas t galiss pour une coute sur haut-
parleurs et qui sont donc faits pour une coute binaurale. Il se base sur une rponse plate
en champ diffus, une utilisation pour l'tude de la perception de la parole o le but est
donc de reproduire la mme rponse en frquence au niveau du tympan qui aurait lieu
en situation relle.
Rponse en frquence : 20Hz- 16kHz plus ou moins 4dB
Sensibilit 1kHz : 108dBSPL
Niveau de sortie maximum : 122dB
Prix : environ 200f
Par ailleurs, il faut nanmoins poser un bmol pour ce genre de casque car il souffre
d'une faible externalisation (renforant l'effet in-the-head ).De mme, un casque qui
est pos sur le pavillon mais qui est ferm souffrira galement de cet effet.
~ On pourra alors utiliser un casque semi-ferm qui laisse l'oreille en contact avec
l'air ambiant et n'isole pas totalement.
~ En passant, il est une hypothse qui tablit que quand le canal auditif est
compltement obstru, la radiation d'impdance du tympan vers l'extrieur s'en
trouve altre, ce qui affecte ngativement l'externalisation ... Chacun se fera son
ide sur le sujet !
Pour ce qui est de l'galisation du casque, il est logiquement prfrable qu'il prsente une
rponse en frquence plate au niveau de l'entre du canal auditif, o le microphone tait
positionn. Cependant, la plupart des casques actuels (y compris ceux dits haut-de-
gamme) incluent un filtre notch (attnuation sur une seule frquence ou une bande de
frquence trs troite) 5kHz car sinon ils seraient trop brillant pour couter les
enregistrements stros ...
~ Ceci peut mener des problmes dans la reproduction binaurale.
79
C) Le dis ue de Jecklin :
1) Caractristiques :
2009
Je vais prsent parler du disque de Jecklin (du nom de son crateur Jrg Jecklin) car il
fait partie des techniques de prise de son dites pseudo-binaurales. Voici son principe :
q Comme vu dans le premier chapitre, il se cre des differences de temps,
d'intensit et de rponse en frquence entre les deux oreilles d'un auditeur
lorsque celui-ci coute une source sonore. La combinaison de toutes ces
diffrences nous fournit l'information directionnelle et change avec la frquence
et l'angle d'impact du son sur la tte.
q Dans le cas du disque de Jecklin, ces trois paramtres sont non seulement utiliss
pour l'information directionnelle mais ceci dans une combinaison idale pour
l'auditeur quand la lecture se faire sur deux haut-parleurs.
Pour ce qui est de sa structure, les deux microphones pression sonore
omnidirectionnels doivent tre espacs de 165mm (largeur moyenne de la tte) : cet
espacement permet une diffrence de temps correcte entre les deux canaux.
80
2009
A distance gale de chaque microphone et entre ceux-ci, se trouve le fameux disque de
300mm de diamtre, envelopp de feutre.
Les effets engendrs par le disque de Jecklin sont :
~ Quand la frquence augmente, les deux microphones sont de plus en plus
spars.
~ Pour les frquences infrieures 200Hz (environ), les deux microphones
enregistrent le mme signal.
~ L'enveloppe en feutre entraine une diffrence dans la rponse en frquence pour
les deux canaux dpendamment de l'angle d'impact du son.
~ Une diffraction sonore autour du bord du disque dpendante de la frquence et
de l'angle.
En ce qui concerne la photo situe sur la page prcdente, elle reprsente un disque de
Jecklin fabriqu par MB Electronics dans le milieu des annes SO. La plaque centrale du
disque fait environ Smm de largeur et est recouverte de chaque ct par deux plaques de
mousse qui font elles aussi Smm d'paisseur. Cette mousse est probablement trop fine
car trop de hautes frquences sont rflchies par le disque.
Pour cette raison, l'entreprise Josephson Engineering utilise un disque avec une paisseur
de mousse de 25mm. On peut galement employer de la toison d'agneau et en recouvrir
toute la circonfrence du disque, comme le fait la NHK (compagnie de diffusion du
Japon).
Par ailleurs, le disque de Jecklin possde sa propre gamme d'applications que sont les
enregistrements d'orchestres (symphoniques, ensemble de cuivres, musique de chambre,
instruments individuels, churs ... ), de concerts dont on veut un son trs naturel entre
autres. Il s'agit de capter le son tel qu'il est en ralit, de retrouver cette sensation
d'tre l comme pour toutes les techniques binaurales.
2) Le disque en pratique :
Monter les microphones
Le disque de Jecklin possde deux pinces microphones (21mm) + une pice
intermdiaire entre ces dernires.
Le cordon de mesure (qui peut tre ajust des deux cts) prsent au centre du disque
sert l'ajustement des microphones sur ce dernier.
~ En effet, il faut faire attention ce que chaque capsule des microphones soit
situe environ Sem du centre du disque.
~ Pour cela, on fait en sorte que le cordon de mesure fasse Sem de chaque ct et
on le tend afin d'espacer les microphones d'environ 16Smm tout en ayant le
disque au milieu.
Ajuster l'angle du disque
Une fois le disque quip de microphones tenu en position d'enregistrement, on peut
rgler son angle grce la pice intermdiaire. Celle-ci peut tre dvisse puis enleve
pour permettre sa fixation n'importe quel emplacement for sur la jante du disque.
81
2009
~ Ainsi, la balance de l'arrangement est garantie et un ajustement chaque
situation reste possible.
Remarque de David Josephson :La position d'enregistrement est dtermine par la
balance sonore dsire. La plupart des microphones sont plus sensibles vers l'avant que
vers l'arrire/les cts pour ce qui est des sons de hautes frquences. Tourner le disque
maintient les capsules une distance correcte de celui-ci mais permet leur angle d'tre
ajust pour plus ou moins d'informations en hautes frquences.
Enregistrer avec le disque de Jecklin
Du fait que les deux microphones mettent ensemble un signal stro uniforme, ils
doivent tre ajusts avant l'enregistrement en champ diffus au mme niveau de sortie.
Ceci peut tre vrifi au moyen d'un casque : l'impression spatiale doit tre uniforme.
Durant l'enregistrement, les diffrences de niveau entre les deux canaux ne doivent pas
tre quilibres. Le disque doit tre tourn ou repositionn selon le dsquilibre.
Il n'est pas possible de changer la balance de l'enregistrement la table de mixage car le
contrle du son est dplac de la rgie au studio ou la salle de concert.
Le choix de l'emplacement du disque de Jecklin devant la source sonore est moins crucial
que le placement de microphones dans le cas d'autres techniques d'enregistrement.
Selon la distance du disque la source sonore, l'enregistrement sonne plus proche ou
plus loign sans pour autant tre automatiquement d'une perspective auditive trop
troite ou trop large.
Lorsque le disque est utilis, la distance optimale de la source sonore est plus grande que
dans le cas de toutes autres techniques d'enregistrement. Cependant, le disque doit tre
situ /ou avant la distance critique, c'est--dire la distance laquelle le niveau du son
direct provenant de la source sonore est gal celui du champ diffus. De plus, la position
exacte et la distance correcte du disque doivent toujours tre dtermines par l'oreille.
On peut alors gnralement procder comme suit :
~ Trop prs : placer le disque une plus grande distance ou plus haut.
~ Trop loin: placer le disque plus proche ou plus bas.
~ Mauvaise diffusion spatiale :si les instruments l'arrire de l'orchestre sont
enregistrs trop fort, abaisser le disque. S'ils sont trop doux, le disque doit tre
mont.
~ Variations de niveau : si le niveau d'un canal d'un disque correctement ajust (=
en champ diffus) est suprieur l'autre, le disque doit tre tourn selon cette
variation.
~ Distance du disque la source sonore : le disque doit tre situ dans le champ
diffus, cette distance peut tre calcule :
82
Volume
dela
pice 1 1,5
(m3) 3,5
500 1,27 1,04
1000 1,8 1,47
2000 2,55 2,08
5000 4,03 3,29
10000 4,65
15000
2009
Temps de rverbration (secondes)
1,75 2 2,25
0,96 0,90 0,85 0,80
1,35 1,41 1,2 1,14
1,93 1,8 1,7 1,61
3,04 2,85 2,69 2,55
4,3 4,03 3,8 3,6
5,28 4,93 4,65 4,42
2,5 3
0,74 0,68
1,04 0,96
1,47 1,36
2,33 2,16
3,3 3,05
4,03 3,73
Le tableau prcdent prsente la distance critique (en mtres) du centre de la source
sonore, en fonction de la taille de la pice et du temps de rverbration.
~ Le disque doit tre plac une distance de la source sonore infrieure la
distance critique indique.
~ Pour rappel, calcul de la distance critique :
De= 0.057 x v'(QV/RT60)
O De= distance critique en m
Q =facteur de directivit, ici source omnidirectionnelle alors Q=1
V = volume de la pice en m
3
RT60 = temps de rverbration en secondes
83
2009
D) Le dis ue de Schneider :
Ceci est une variante du disque de Jecklin comportant une sphre recouverte de mousse
en son centre afin de se rapprocher davantage des caractristiques d'absorption de la
tte humaine.
c::> De ce fait, les deux disques permettent tous deux une haute compatibilit avec les
haut-parleurs mais le disque de Schneider amliore l'coute au casque.
E) La tte artificielle :
Il s'agit ici d'apporter un exemple concret sur ce sujet dj voqu dans le chapitre
prcdent. Pour se faire, je vais m'employer dtailler le microphone KU lOO de
Neumann car il s'est dj faonn une certaine rputation dans le milieu de
l'enregistrement binaural disons ... haut de gamme.
Revoici une photo de la bte :
84
1) Petit tour
2009
La tte artificielle KUlOO de Neumann possde deux microphones insrs dans les
oreilles, assurant une prise de son binaurale. Contrairement d'autres techniques
d'enregistrements semblables, ce n'est pas ici la scne qui bouge avec nous lorsque
nous coutons un enregistrement mais nous qui bougeons dans la scne afin que
l'intgralit de ce qui a t enregistr soit restitue la lecture.
Par ailleurs, l'efficacit de ce microphone a galement fait ses preuves dans la recherche
acoustique. Ainsi, le KU lOO est souvent utilit afin d'examiner et de documenter
l'influence du bruit en situations industrielles dans des conditions ralistes.
2) Particularits notoires
Microphones pression omnidirectionnels possdant une rponse plate en champ diffus
Compatibilit avec haut-parleurs
Circuit de sortie sans transformateur
85
2009
Deux filtres coupe-bas (40Hz ou 150Hz) activables
Pr attnuation de lOdB activable
Sorties XLR (symtrique) et BNC (asymtrique)
3) Exemples d'utilisations
Le Neumann KU lOO se prte volontiers l'enregistrement de:
~ Pices radiophoniques (telles que The Mist de Stephen King que vous pourrez
retrouver sur le CD joint)
~ Concerts dans un environnement acoustique complexe
~ Sons de la nature, thtre, confrences ...
~ Mesures en pice acoustique, sons dans l'automobile, instruments de musique ...
~ Analyses de bruit, intelligibilit de la parole, tests de casque ...
~ Note : Certains ingnieurs du son la recommandent fortement pour les canaux
arrire dans le son surround.
86
2009
4} Informations techniques
Entrons prsent dans le vif du sujet avec tout d'abord un graphique reprsentant la
courbe de rponse en frquence de la tte entire (comprenant donc les effets du crne
et des oreilles), mesure en champ libre (IEC 60268-4) tolrance de plus ou moins 2dB :
dB
+10
-10
- 20
20 50 100 200
Rponse en frquence : [20Hz - 20kHz]
Sensibilit 1kHz dans lkohm : 20mV /Pa
500 lk
Niveau de bruit quivalent, pondr CCIR (94dBSPL) : 65dB
2k
Niveau de bruit quivalent, pondr A (94dBSPL) : 78dB (trs bon !)
Niveau maximal de pression sonore (THO 0,5%} : 135dB
Sk
Niveau maximal de pression sonore avec pr attnuation (THO 0,5%} : 145dB
Impdance nominale : 50ohms (symtrique), 200ohms (asymtrique)
Impdance de charge nominale : lkohms
Tension de sortie maximale : 1950mV
Dynamique de l'amplificateur du microphone (pondr A): 119dB
Alimentation : 200 - 240V / 48V (plus ou moins 4V) 1 6 x 1,5V
Prix : environ 6500
Poids : 3500g
Hauteur : 28cm
Largeur: 18cm
Profondeur : 22cm
5} Complment
lOk 20kHz
Afin que vous puissiez vous rendre compte de ce que peut donner un enregistrement
effectu avec le KU lOO, vous trouverez dans le CD joint le fichier Virtual Haircut qui se
trouve tre ralis avec la tte dcrite ci-dessus. Pour ceux qui ne comprendraient pas
bien l'anglais, il s'agit d'une mise en scne chez un barbier, dont vous tes l'heureux
client. Je vous laisse apprcier le ralisme de la situation via votre casque ...
87
2009
Pour rappel, HATS signifie Head And Torse System (=systme tte et torse). Etant
donn que beaucoup pensent qu'il ne faut pas ngliger le rle du torse en plus de celui de
la tte dans une prise de son binaural, je vais prsent me pencher sur le cas du
mannequin 4128 (de type C mais ceci n'a que peu d'importance pour ce qui va suivre)
cre par Brel & Kjaer (B&K). Au mme titre que le KU100, le 4128 se trouve tre une
rfrence dans la gamme des systmes HATS.
1) Introduction
Le 4128 de B&K consiste en une tte artificielle fixe sur un torse, le tout reprsentant les
dimensions moyennes d'un adulte. Ce systme a pour but premier la recherche
acoustique car il permet d'effectuer un grand nombre de mesures dans divers domaines
(illustrations et dtails par la suite). Ainsi il est livr avec un simulateur de bouche et
d'oreille droite, la gauche tant ajouter pour les tudes binaurales.
Par ailleurs, toutes les dimensions du mannequin rpondent des normes internationales
trs strictes, qui seront dtailles par aprs.
2) Tour d'horizon des applications du 4128
Mesure de casques
..
080248
c::> Utilis afin de dterminer une varit de caractristiques de casques. L'influence
du pavillon est prise en compte et le simulateur d'oreille fournit le chargement
acoustique adquat, ce qui permet une valuation raliste d'un casque ouvert
ou ferm. Le mannequin peut aussi servir dterminer le suivi gauche-droite d'un
casque ...
88
2009
Mesure d'couteurs
'
,__
,--ne
080246
q Les pavillons artificiels des simulateurs d'oreille permettent le montage et le test
de petits couteurs insrer dans les oreilles et actuellement utiliss avec les
lecteurs portables, tlphones ...
Mesures de microphones et de systmes de communication dits main libre
q Lors d'une mesure sur microphones, le 4128 peut aisment simuler les
interactions entre ces derniers et la bouche, la tte et le corps.
Son simulateur de bouche est une source sonore idale pour la recherche, le
dveloppement et l'valuation de divers microphones. Plus particulirement, le
4128 doit tre utilis avec des microphones de proximit de type Lavallire pour
lesquels les caractristiques de la voix humaine doivent tre reproduites
89
2009
fidlement et pour lesquels l'influence acoustique de la tte et du corps est
importante.
Autres exemples
080247
- 3 4

0 8 0 2 4 ~
c:> Pour conclure sur cette partie, il est essentiel de dire que le mannequin 4128 de
B&K est avant tout destin la recherche scientifique mais comme l'illustrent les
images ci-dessus, il reste nanmoins d'une grande polyvalence ...
3) Le simulateur d'oreille et les normes ITU-T Rec
Le simulateur d'oreille consiste en un pavillon amovible en silicone rattach un canal
auditif. Ce mme canal auditif se termine en un simulateur d'oreille ferm, qui simule la
partie interne de ce canal selon la norme IEC 60318-4.
Il contient un microphone d'1/2 pouce connect un pramplificateur grce un
adaptateur.
Par ailleurs, le simulateur dans son entier (en plus de la tte et du torse) se doit de
respecter la norme ITU-T Rec (P.57 & P.58).
c:> Mais que sont ces normes ?
90
2009
Les normes ITU-T Rec proviennent de l'Union Internationale des Tlcommunications.
Voici la propre dfinition de cette organisation : ( ... ) Des spcialistes du monde entier
venant de l'industrie, du secteur public ou d'entits de recherche-dveloppement se
runissent rgulirement pour dbattre des spcifications techniques complexes grce
auxquelles chaque lment des systmes de communication peut fonctionner en toute
compatibilit avec les myriades d'lments qui constituent les rseaux et services TIC
sophistiqus d'aujourd'hui.
Anims par cet esprit de coopration, les principaux acteurs de l'industrie mettent de
ct leurs rivalits pour parvenir un consensus mondial sur les nouvelles technologies.
Ainsi, les normes de I'UIT-T (Recommandations) constituent le fondement des rseaux
modernes d'information et de communication qui sont vitaux pour presque toutes les
branches d'activit conomique ( ... )
Extrait du site internet de www.itu.int
Pour ce qui est du pavillon artificielle, il doit s'inscrire dans la norme ITU-T Rec p.S7 de
type 3.3 qui prcise que :
c> La matire du simulateur de pavillon doit tre un lastomre (ex : caoutchouc) de
haute qualit, dont la duret, mesure en surface lSmm en avant de l'orifice du
conduit auditif est normalement fixe 35plus ou moins 6Shore-00 (chelle
gnralement utilise pour mesurer la duret des drivs du caoutchouc).
J
del
c> Les dimensions (en mm) doivent tre les suivantes :

[n li11aisou 'l!rticak
l argcur d, l'oreille
... -
) '
2
-1
a) , . m ciJtl-

l 11ngw.:ur d
au-<ks:ll" du tragu'
\ I I-.10 U\
\ Lungu.:ur d l'11n.: ill

19
1
1
1_ cl la omtlh.:
-nus du tru gus
Pre fondeur
de la onquc
bl \ ' U<' en coup<
3 Con<tm. _. Tragu:>
91
2009
Quant au torse et la tte, ils se doivent de respecter la norme ITU-T Rec p.S8 qui donne
les directives suivantes (entre autres):
c:> Le HATS doit avoir une surface non poreuse, avec une impdance acoustique
importante compare celle de l'air, et tre construit dans un matriau qui assure
la stabilit dimensionnelle.
c:> Note : EEP =Point d'Entre du Canal auditif: point situ au centre de l'orifice du
canal auditif.
c:> Les dimensions (en mm) doivent tre comme suit :
Dimet smt :'\ om i t al imum \1axim' m
lkgeur de la tte :.n : 5-+
Lnngueur de la tte :90 20::5
EEP'sommet de la tte 30 28 :36
Dtstru ce EEP 'EEP '"" ; 3 () "" ,JJ
EEP 'occtr' t 92 :oo
EEP'paul : :7o :67
x
<.
EEP'l enes :30 :2s
r " '
.J.
emm sommet de la tte 224
..,
6 125
jgle d r !an houche-oret lle
240:
, "'C
.:. .. ) 25.5c
Largeur des paul es 420 400 455
Profondeur de la pottnne

_ J.)
Pt' fondeur des paul es
1
' ! : :o
,() !{
:6:
Er 1rlacement des paul es-: '0 -+ 46
} 1 teur du HATS 600
Dis tru ce tnesuree de la surface des epaul es 1 a 175 n1tn du plan ,erticaJ, sur Je cte l a' plan de rfrence
du llATS
r : Distance mesure entre les po11 ts a\ant et arnere des eraul es. a : 75 mm du plru \emcal. sur le ct
' Distance tnes1 re du po1nt de la sect1on des epaul es ta 75 n1n1 d1 plan , ercaL sur le cte) au plan
trans\ersal du l iA TS 1 posithe derriere Je plat trru S\ ers al)
De plus, je tiens prciser que les informations cites sont primordiales mais ne sont
qu'un extrait de ce que le mannequin doit respecter pour tre conforme. Il est alors
possible d'affirmer que le HATS 4128 permet d'assurer des mesures de haute qualit du
moment que toutes les conditions tablies par I'UIT sont respectes.
92
2009
Voici le graphique reprsentant sa courbe HRTF typique pour une source sonore situe
oo d'azimut et d'lvation :
30
dB
20
10
0
- 10
T 1 1 T"m 1
, , -, ; 1 , ..-
- L islener free-ficld froqucncy response (lfr)

1 i
listener d&ffuse- field frequency response (dfr)
-! !-
1
/
L" .l..
If#
l'..
,_ . .f -
-
- - - -
i -

-
1-
-
-
r- '\.
- 1- . -
f- !

r-

-"""

i
!
!
1- 1-
-J-

-
- -- -
- 1-
1 r
1
r- --
._ _
--

.

' 1

-......

1
i\
v
... ,
'
-1

--
-20
20 200 2k Frequency (Hz) 20k
c> Le trait plein reprsente la rponse en frquence en champ libre.
c> Le trait pointill reprsente la rponse en frquence en champ diffus.
4) Caractristiques techniques :
Sensibilit 1kHz: 80dBSPL, 2V/500m
Distorsion harmonique 94dBSPL: infrieure 2%
Hauteur totale (tte+ torse) : 695mm
Torse:
c> Hauteur : 460mm
c> Largeur : 410mm
c> Profondeur : 183mm
Poids: 9kg
G) Tentative ersonnelle :
Voila je l'espre, un sous-titre accrocheur pour achever cette troisime et dernire partie.
Ne voulant pas en rester la thorie et aux belles images, j'ai entrepris la construction
d'une tte artificielle faite maison . Par ailleurs, je prcise tout de suite que cette
ralisation n'a t possible qu'avec l'aide de mon professeur d'lectronique- Pierre,
encore merci -qui m'a principalement aide pour l'assemblage de la paire de
microphones.
Ainsi comme je l'ai dit prcdemment, la prise de son binaurale a le grand privilge de
pouvoir s'ouvrir, peut-tre pas toutes les oreilles, mais toutes les bourses.
93
2009
Ce qui m'a permis de monter sans trop de difficult ma dummy head dont voici les
composants et leurs prix indicatifs pour ceux qui voudraient s'y essayer:
q Une tte de mannequin : 40
q Paire d'oreilles en silicone souple : 55
q Composants lectroniques pour les microphones : environ 30/40
Q Microphones (la paire) : quelques euros
q Un chapeau, une perruque (cf votre imagination) si vous voulez tester le
mannequin avec un quipement !
Voici quelques tips concernant ces composants (toutes les photos suivent) :
Trouver une tte de mannequin n'est pas chose facile dans nos contres (trs ais sur
le net aux USA pour deux fois moins cher et avec un buste, mais je n'allais pas payer
40 de frais de port ... ) car les mannequins sont trs souvent vendus entier, o la tte
n'est pas droite, assez grosse, en matire exploitable (souvent en polystyrne
plein , impossible utiliser et n'imite pas trs bien la consistance de la peau
comme vous pouvez vous en douter). Aprs quelques jours de recherches intensives
sur la toile, j'ai fini par trouver un revendeur belge ( Bruxelles !) de mannequins
d'occasion, qui m'a lui-mme indique que l'on pouvait en trouver sur les brocantes
donc ... je vous laisse le plaisir du vide-grenier !
94
2009
Autre problme, et de taille, trouver des oreilles ! D'autant plus que chacun n'a pas
les mmes ... L aussi, internet mon hros vole mon secours. Le SOS lanc, la toile
fouille en franais, anglais et allemand, j'atterris chez un fournisseur de matriel
mdical dont le site tombe l'abandon mais qui recle un petit trsor : une
formidable paire d'oreilles grandeur nature en silicone pour. .. l'acuponcture, soit.
Commande effectue, OK pour le ralisme mais la grandeur nature bon ... on va dire
que mon bonhomme a de grandes oreilles. D'autre part, vous pourrez toujours utiliser
les aiguilles livres avec sur votre poupe vaudou personnelle.
Les composants lectroniques sont quant eux faciles trouver dans n'importe quel
magasin bien achaland.
95
2009
Les microphones sont de type lectret (6mm de diamtre), comme ceux dont j'ai
parl dans l'interview de Dallas Simpson, car oui... ce sont les moins chers et les plus
efficaces pour leur gamme de prix. Ils ont un bruit de fond important (environ 30dB(A)
si je ne raconte pas de sottise) donc la qualit en souffre mais on peut passer outre
pour les avoir pays quelques euros.
Afin d'empcher la tte de rsonner (et sachant que la notre n'est pas vide ... ), je l' ai
remplie l'aide de chiffons en polypropylne :
96
Voici le rsultat final :
2009
Voici le schma technique du montage :
Tte artificielle quipe des microphones
Systme d'enregistrement/lecture {ici PC)
Auditeur portant un casque
97
2009
Et voila la courbe de rponse en frquence des microphones (mesure par Pierre
Coheur):
q Tout d'abord le noir:
q Le rouge:
10 0
d8
oc 1
-100
20'
-300
Slnt.SOtdal
l
1
1
1
1
k.
'
1
1800
Deg
10 0
360
36 0
108 0
11 Il
--"0 o - l oO o
100
dB
00
-100
20 ,)
-30 0
10 20 'iil 100 200 ?OC 11< 2 ~ H z Sv 10k 20k
S1nuS1dal
oOO
\
1
,.-
1
\
1>
\
1
eg
080
3 t>O
360
1
-1 o
1
'
1

--'1 0 0 dOO
1 20 50 WO 2CO 500 lk 2kHz 5k 101< 201<
q Le noir- rouge :
10
dB
00
-100
20 0
-300
1
1
1
1
Smuso1dl
1 1
Il
1
1
1
l '
1
'
1 1
~
v
180 (1
Ceg
108 0
36 0
108 (;
11 ,1 1 1 1
400 -180C
10 20 5} 100 2Ul C.OO 11< 21<Hz "k 10h :<O<
A< 21059 2700 H ~ A y 3 5040 oB
On remarquera que la courbe est relativement plate mais qu'une petite galisation dans
les hautes frquences serait bnfique afin d'aplanir davantage.
Pour ce qui est de l'enregistrement, je n'ai pu l'effectuer que sur mon PC portable, mon
pc fixe n'tant pas bien situ dans la pice et l'entre microphone/ligne impossible faire
marcher ( mditer). J'avoue qu'il serait particulirement agrable d'avoir un enregistreur
portable sous la main mais mes finances actuelles tant ce qu'elles sont et leur prix ce
qu'il est (compter minimum 150 pour de la qualit) ...
98
2009
Ainsi, vous trouverez quelques extraits sonores enregistrs via le mannequin sur le CD
joint.
c> Pour l'argent investi et les matriaux utiliss, je trouve le ralisme de la scne
plutt convainquant ! Je fus d'ailleurs agrablement surprise ds les premiers
tests tout en notant une petite confusion avant-arrire par moments (qui est plus
ou moins invitable de toute faon). Je vous laisse juge !
Enfin, une srie de notes concernant mes quelques enregistrements :
Petit_tour_kot
J'ai ici positionn la tte artificielle dans ma cuisine (je pense qu'il est inutile de prciser
qu'tant donn que j'occupe un studio, toutes les pices sont de petite taille) et tent de
reproduire une petite scne de vie autour de cette dernire ...
Le principal problme rencontr est, comme vous pouvez l'entendre, les bruits de fentre
ou de porte qui ne sont hlas pas du tout du dernier cri dans cette vieille btisse et s'en
trouvent donc assez violents malgr mes efforts pour ne pas faire trop de bruits explosifs
(les microphones ont beaucoup de mal les encaisser, on peut les comprendre !).
Aprs coute j'ai trouv ca plutt convainquant et mme amusant ! On note quand
mme quelques confusions encore une fois avant-arrire (je ne marche pas au plafond,
donc je n'ai pas pu tester le haut-bas dans cet extrait) mais il faut savoir que je contourne
essentiellement la tte par l'arrire, le systme d'enregistrement me bloquait l'accs
l'avant.
c> Cette confusion est rduite quand je suis une distance suffisante de la tte.
Si vous fermez les yeux et ne vous concentrez pas sur le bruit de fond des microphones, le
ralisme n'en sera que meilleur !
D
1
0
Hall
1
Salle de bain
8
-
1 1
CJ
-
g
G
~
F
Cuisine
Salon
D
J
1
0
G
c
99
2009
Lgende:
q A : armoire instable qui peut faire du bruit quand on marche + tl juste ct.
q B : tte artificielle
q C : fentre bruyante au possible
q D : gazinire
q E: frigo
q F: lavabo
q G : poubelle
q H: PC portable qui enregistre
q 1 : lavabo salle de bain
q J : toilettes
Allumette_cuisine
Sans bouger la tte artificielle, dplacement de la boite d'allumettes de 360autour de la
tte en partant de devant pour aller vers la droite et revenir au point initial puis, aprs
une lgre pause, au dessus de la tte suivi du dessous. Pour finir, un coup de chaque
ct.
Je trouve la distinction haut-bas plutt efficace !
q Valable surtout pour le haut, le bas ayant toujours un peu l'impression d'tre
dans la tte, ceci tant d au fait que je ne peux pas aller plus bas que le sol (la
tte tait pose sur un tabouret+ petit rehausseur) ...
q Confusion avant-arrire quand la boite revient l'avant, la distance parcourue
n'tant pas trs grande ...
Allumette_salon
Egalement un dplacement de la boite d'allumettes autour de la tte mais cette fois,
effectue dans le salon avec une plus grande distance entre moi et la tte.
q Vous pouvez effectuer la comparaison avec allumette_professionnel
enregistr via le KU 100.
Salon_chapeau_avion
Encore de la boite d'allumettes mais avec un passage -imprvu- d'un avion au tout dbut
de l'extrait (merci l'avion!)+ tte quipe d'un chapeau.
q Je ne note pas vraiment de changements quant la localisation haut-bas, peut-
tre un niveau un peu plus faible en haut ?
100
2009
Conclusion
Ici s' achve ce mmoire, qui je l'espre aura su vous informer concrtement sur cette
technique qu'est l'enregistrement/ la prise de son binaurale dans ses diverses formes.
Ainsi, c'est au fil des trois prcdentes parties que nous avons pu tudier le rapport entre
audition humaine et technique binaurale dans toute leur complexit, la description, les
avantages et limites des systmes binauraux, leur utilisations dans toutes ses formes
thoriques et techniques, le tout accompagn d'exemples illustrs et documents ...
Pour conclure, je dirai que l'enregistrement binaural est toujours en volution, malgr les
dsintressements successifs qu'il a du affronter au cours des annes et ses limites qui ne
le rendent pas utilisable pour une large diffusion commerciale. Nous y trouvons toujours
une dose de magie, magie que j'ai tent d'expliquer tout au long de cette lecture pour
finalement lui donner vie via ma tte artificielle faite maison ...
Sur ce, vous pouvez dormir ... sur vos deux oreilles !
101
Ouvrages:
2009
BibliograPhie
Fundamentals of Hearing- An introduction (fifth edition)- William A. Yost (2006)-
Elsevier
Spatial Audio- Francis Rumsey- Music Technology Series
Cours SAE (notamment Introduction au son)
References internet:
Building A Binaural Dummy-Head- http://digdagga.com/dummy/index.html
Core Sound - http://www.core-sound.com/mics/l.php
The Cl PIC Interface Laboratory- http://interface.cipic.ucdavis.edu/index.htm
Dallas Simpson - http://www.dallassimpson.com/
Shure WL183 -
Quiet American- http://www.quietamerican.org/index.html
Microphone lectret- http://voyard.free.fr/textes audio/le microphone.htm
Toomedical (Oreilles en silicone)- http://www.toomedical.com/
Neumann KUlOO- http://www.dv247.com/invt/21004/
Disque de Jecklin - http://www.josephson.com/tnS.html
Capsule lectret- http://www.maplin.co.uk/Module.aspx?ModuleNo=4566
ITU- http://www.itu.int/net/home/index.aspx
Binaural in depth- http://binaural.com/SunBinArticle.html
Etymotic ER-4B- http://www.iheadphones.eo.uk/headphones/22267 /Etymotic+ER-
4B.htm
B&K 4128C-
http://www.bksv.com/products/telecomaudiosolutions/headtorso/headandtorsosimulat
orhatstype4128c.aspx
Audiofanzine- http://fr.audiofanzine.com/
102
2009
Lexi e
Binaural : Relatif l'audition/la perception du son par les deux oreilles.
Diffraction : Changement de direction du son provoqu par un obstacle ou un relief.
Champ libre : Champ sonore qui ne contient aucune rflexion (ex : chambre anchoque).
Champ diffus : Champ sonore dans lequel les ondes directes subissent rflexions et
diffractions.
ITD : lnteraural Time Difference, diffrence de temps d'arrive entre les deux oreilles
pour un signal incident.
llO : lnteraurallevel Difference, diffrence de niveau entre les deux oreilles pour un
signal incident.
IPD : lnteraural Phase Difference, diffrence de phase entre les deux oreilles pour un
signal incident.
HRTF : Head-Related Transfer Function, Fonction de transfert Relative la Tte : manire
dont un son incident (dont on connait la/les frquence(s) et la position de la source) est
filtr par les proprits (diffraction et rflexion) de la tte, du pavillon et du torse avant
qu'il n'atteigne le tympan. On pourra aussi parler d' ATF, Anatomical Transfer Function
(Fonction de Transfert Anatomique). l'HRTF est primordiale pour dterminer
l'emplacement d'une source sonore.
Sensibilit d'un microphone : Tension de sortie en fonction de la puissance acoustique qui
lui est appliqu.
Rapport signal/bruit (S/N) : En dB, rapport entre le niveau maximal d'un signal ( la limite
de la distorsion) et le niveau de bruit de fond.
103
2009
Remerciements
L'ensemble de mes professeurs dont Pierre Coheur pour les conseils aviss et l'aide
matrielle
Dallas Simpson pour avoir pris le temps de rpondre mon interview

Sae Mem 94 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Sae Mem 94 PDF

Transféré par

Droits d'auteur :

Formats disponibles

SC::SSION

Vous aimerez peut-être aussi