Vous êtes sur la page 1sur 104

Conservatoire National Supérieur de Musique et de Danse de Paris

FSMS - Année universitaire 2011 - 2012

Le son multicanal

Michael Gerzon (au centre), Peter Craven (à gauche) et Stephen Thornton (à droite) écoutant du son multicanal
matricé à partir d’une bande stéréo en juin 1970 (haut-parleurs électrostatiques, unités de contrôle et
amplificateurs à lampes Quad, magnétophones Revox F36HS et 736, Dolby A301). Photo P. Allen.

Pierre-Antoine Signoret
pa.signoret@free.fr
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

2
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Table des matières

Historique du son au cinéma et de la spatialisation audio .........................................................................5

Evolution des techniques de l’image............................................................................................................9


Les formats à pellicules multiples ................................................................................................................9
Les formats à pellicule unique ...................................................................................................................11
Evolution des techniques du son ................................................................................................................15
Le Dolby Stéréo ...........................................................................................................................................18
Encodage Dolby Stéréo...............................................................................................................................19
Décodage Dolby Stéréo ...............................................................................................................................19
Exemple d’un système d’encodage AC3 - 5.1 temps réel. .........................................................................22
Evolution des codecs au cinéma.................................................................................................................23
Remarque sur les systèmes Dolby pour l’enregistrement magnétique .....................................................23
Evolutions numériques du cinéma.............................................................................................................25

Systèmes d’écoute et acoustique des cabines 5.1 .......................................................................................27

Dispositif d’écoute 5.1.................................................................................................................................27


Post-production 5.1.....................................................................................................................................28
Acoustique des cabines de mixage 5.1 .......................................................................................................28
Niveau d’écoute pour n haut-parleurs .................................................................................................28
Dimensions géométriques de la cabine 5.1 ................................................................................................29
Gestion des réflexions précoces et valeur moyenne du temps de réverbération en 5.1............................29
Tolérances pour le temps de réverbération en 5.1.....................................................................................29
Bruit de fond de la cabine 5.1.....................................................................................................................30
Un exemple de cabine 5.1 : la régie multicanale de LGS - Le Grenier à Son..........................................30
Bass management .......................................................................................................................................32
Supports 5.1.................................................................................................................................................33
Environnements multicanaux habituels ....................................................................................................34
Différentes configurations multicanales...................................................................................................36
Configuration 10.2 proposée par Tomlinson Holman ..............................................................................37
Configuration 12.2......................................................................................................................................37

Prise de son multicanale.............................................................................................................................39

Introduction ................................................................................................................................................39
Les systèmes de reconstruction physique du champ acoustique...............................................................39
Synthèse de front d’onde (Wave Field Synthesis) .....................................................................................39
Évolutions récentes du principe de la WFS...............................................................................................43
Nouvelles générations de transducteurs ....................................................................................................48
Prise de son WFS........................................................................................................................................50
Ambisonique et format B............................................................................................................................51
Ambisonique théorique...............................................................................................................................51
Directivité des harmoniques sphériques ....................................................................................................52
Équations de matriçage du format B et de l’UHJ .....................................................................................55
High Order Ambisonics ..............................................................................................................................59

3
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes reposant sur des principes binauraux et transauraux.........................................................63


Techniques transaurales.............................................................................................................................65

Généralisation de l’approche encodeur / décodeur...................................................................................67


Schéma de principe d’un encodeur / décodeur audio 3D .........................................................................67

Les systèmes utilisant un double MS .........................................................................................................71


Le format B binaural proposé par J.-M. Jot..............................................................................................72
Un système original, le Holophone… ........................................................................................................73
Double MS sans écran................................................................................................................................74
Les systèmes dérivés du triangle DECCA ..................................................................................................75
Les systèmes reposants sur la notion d’angle de prise de son...................................................................79
Les systèmes Optimised Cardioïd Triangle (OCT) et leurs dérivés...........................................................79
Les systèmes spatialisants annexes à un système de captation frontal.....................................................82
La croix de l’IRT.........................................................................................................................................82
Le carré de Kimio Hamasaki de la NHK ...................................................................................................82
Les systèmes INA-5 (Ideale Nieren-Anordnung - Arrangement idéal de cardioïdes) .............................84
Le Multichannel Microphone Array (MMA) de M. Williams et G. Le Dû ..............................................85

Comparatif de certains de ces différents systèmes.....................................................................................87

Annexes - Nouveaux supports....................................................................................................................89

HD DVD et Blu-Ray Disc...........................................................................................................................89


Les formats d’image en haute définition ...................................................................................................90
Les formats audio associés .........................................................................................................................90
Dolby Digital Plus (DD+) ...........................................................................................................................91
DTS-HD High Resolution Audio ...............................................................................................................91
Dolby True HD............................................................................................................................................91
DTS-HD Master Audio...............................................................................................................................91
Tableau de comparaison des medias haute définition. .............................................................................93
Profils des lecteurs Blu-Ray .......................................................................................................................95
DVD Vidéo : formats et débits....................................................................................................................97
DVD Vidéo : débits audio ...........................................................................................................................98
Super Audio CD (SACD)............................................................................................................................99
DVD Audio................................................................................................................................................101

4
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Spatialisation cinéma et musique

Historique du son au cinéma et de la spatialisation audio

L’idée de spatialisation du son suit de près l’invention du téléphone de Bell en 1876 et du phonographe
de Charles Cros en 1877. C’est le pionnier de l’aviation et inventeur Clément Ader qui lance le
mouvement avec son Théâtrophone en 1881. Une rampe de dix téléphones fut installée à l’Opéra
Garnier pour une transmission téléphonique en direct au Palais de l’Industrie...

Distribution des microphones devant la scène de l’opéra.

Retransmission au Palais de l’Industrie.

Marcel Proust, client de la Compagnie du Théâtrophone (qui sera active jusqu’en 1932), écoutera le
Pellas et Mélisande de Debussy en direct de l’opéra comique chez lui en décembre 1911.

5
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

De leur coté les inventeurs du cinéma sont très dynamiques :

En 1898, Auguste Baron, tente de synchroniser une image de film avec des lecteurs à rouleaux de cire
avec son Graphophonoscope. Maurice et Lioret reprennent cette idée avec leur Lioretgraphe à
l’exposition universelle de 1900. La première démonstration de son optique sur film 35 m/m est réalisée
par l’allemand Ruhmer la même année. En 1904, Messter tente de synchroniser projecteur de cinéma et
gramophone avec son Biophone pendant qu’Eugène Lauste synchronise deux projecteurs 35 m/m pour
l’image et le son. En 1905, Léon Gaumont propose son Chronophone ou Chronomégaphone qui utilise
des disques. Eugène Lauste brevète son Phonocinématophone en 1914 après l’invention de
l’amplificateur à lampes par Lee de Forest en 1912. De Forest, de son coté, brevètera le Phonofilm
procédé d’enregistrement sonore à densité variable sur film, le son prenant place à coté des
photogrammes dès 1921.

Le Chronophone de Léon Gaumont (modèle de 1910).

Le Phonocinématophone d’Eugène Lauste en 1914. Caméra, projecteur, et film utilisés.


L’image et le son prennent la même place sur la pellicule 35 m/m.

6
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Pendant ce temps, le grand public découvre avec enthousiasme cette nouveauté muette dans les foires.

« Cinéma muet, le mal nommé ? Oui si l’on considère le tapage qui escortait le cinéma primitif des trente
premières années. Accompagnée par des dispositifs sonores issus du théâtre, du cirque ou du music-hall,
la projection d’images muettes se déroulait souvent dans la plus grande animation. Les chansons filmées
de Georges Lordier, les bruitages en tout genre, les extrapolations des bonimenteurs commentant l’action
ou la sonorisation en direct des ciné-déclamateurs cachés derrière l’écran nous rappellent qu’à ses débuts
le cinéma était avant tout un spectacle de foire, populaire et vivant. »1

Le son au cinéma apparaît en 1907 par le biais de la musique quand les frères Pathé proposent une
version de Don Juan en (fausses) couleurs et son synchrone sur gramophone. Il est cependant d’usage de
considérer la fin du cinéma muet une vingtaine d’années plus tard de l’autre coté de l’atlantique.

En 1926, Alan R. Crossland proposera sa version de Don Juan pour la Warner Bros, avec John
Barrymore dans le rôle titre. Il utilise pour celui-ci le système Vitaphone Western Electric (son
synchronisé sur des disques). Il sera suivi en 1927 par le célèbre Jazz Singer avec Al Jolson qui va
marquer le début du cinéma parlant grand public, avec une minute et vingt secondes de paroles
synchrones...

Le cinéma sonore en 1926 et 1927 selon la Warner et la Western Electric, avec le Vitaphone.

1
Mathilde Blottière dans le Télérama n° 2839 du 9 juin 2004.
7
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Publicité pour le Phonofilm, l’enregistrement du son sur la pellicule en densité variable selon le brevet de
Lee de Forest à la fin des années 1920. Le procédé inventé par Lauste et de Forest aura de l’avenir…

Le son est très vite inscrit sous forme optique à coté des photogrammes de la pellicule (procédés à densité
puis élongation variable). Le procédé à élongation variable est breveté à la fin des années 1920 par RCA
sous le nom de Photophone.

Les procédés de son optique.

Le son va rester monophonique pendant quelques années avant d’être inscrit assez durablement sur la
pellicule 35 m/m en double élongation variable, double trace...

Dès 1905, Léon Gaumont remarquait en déposant le brevet de son système de synchronisation image /
son : « En principe, la vitesse du cinématographe, ou pour mieux dire le nombre d’images transmises par
seconde, n’est pas absolu, notre œil pouvant supporter des écarts de vitesse sans être choqué, tandis que
l’oreille ne permet pas au phonographe la moindre variation de vitesse, car il en résulte non seulement un
changement dans les hauteurs des sons mais aussi dans leurs rapports… ».

Michel Chion ajoute : « C’est le son synchrone qui a obligé le cinéma à fixer et à stabiliser de manière
intangible à 24 images par secondes la vitesse d’enregistrement et de défilement des images ; alors que
l’on tournait auparavant en vitesse variable, entre 16 et 20 images environ, et qu’à la projection, on se
donnait une certaine latitude d’accélérer ou de ralentir le défilement selon la convenance des
programmateurs et la durée que l’on voulait donner à la séance… ».
8
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Dès le début, les réalisateurs vont pousser l’industrie cinématographique à améliorer sans cesse les
techniques du cinéma (image et son).

Evolution des techniques de l’image

Les formats à pellicules multiples

Breveté en 1897 et présenté à l’exposition universelle de Paris en 1900, le Cinéorama de Raoul


Grimoin-Sanson propose 10 projecteurs 70 m/m synchronisés balayant un écran circulaire…

En 1927, Abel Gance tourne son Napoléon en Polyvision (25 ans avant le Cinerama de 1952). Trois
caméras 35 m/m sont synchronisées au tournage pour une projection par juxtaposition pouvant donner
une largeur d'image trois fois supérieure au format 35 m/m et/ou un récit en trois images différentes
(split screen). La musique est confiée à Arthur Honneger (qui avait déjà fait la musique de La Roue en
1922) et est enregistrée en «perspective sonore» (brevet Gance / Debrie de 1932 ancêtre de la
stéréophonie). Le film sortira en stéréo en 1935.

Les premiers essais en formats 65 et 70 m/m datent de ces années.

Images du Napoléon de 1927 d’Abel Gance tourné en Polyvision.

9
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

En 1952, nait le Cinerama. C’est une technique de prises de vues par trois caméras 35 m/m synchronisées
et dont la triple projection se fait sur un écran courbe dont l’ouverture est de 146°. Les spécifications du
Cinerama prévoyaient une quatrième pellicule supportant sept canaux audio. La géométrie de projection
pouvait aller du 2.59:1 au 2.65:1.

Projection en Cinerama.

Image Cinerama restaurée du film How the West Was Won de 1962
(Henry Hathaway, John Ford, George Marshall, Richard Thorpe).
10
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le Cinerama sera concurrencé par le Cinemiracle qui utilisera des miroirs pour les projecteurs latéraux
afin de permettre un alignement optique du système. Cette astuce permet de minimiser les problèmes de
raccords entre les trois images. La projection se fait sur un écran courbe dont l’ouverture est de 120°. Ce
format permet l’utilisation de sept canaux audio magnétiques dont cinq frontaux et deux surround.
Le format de l’image est de 2.59:1.

Dispositif de projection du Cinemiracle.

En 1956, nait le Kinopanorama à Moscou. C’est une technique assez proche de celle du Cinerama
américain… Le format peut atteindre le 2.72:1.

En 1958, à l’exposition universelle de Bruxelles est dévoilé le Ciclorama. Digne successeur du


Cinéorama et du Cinerama, il propose une projection sur 360° à l’aide de 11 écrans disposés dans une
salle circulaire.

Les contraintes techniques et économiques inhérentes à la complexité de ces systèmes multi-caméras et


multi-projecteurs ont eu raison de ces formats au profit des formats à pellicule unique.

Les formats à pellicule unique

Le CinemaScope commercialisé aux Etats-Unis en 1953 est issu de l’invention du français Henri
Chrétien qui dépose un brevet pour son objectif hypergonar en 1926. Il utilise un film 35 m/m
anamorphosé qui comprime horizontalement l’image pour obtenir un rapport allant de 2.35:1 à 2.66:1.

Le CinemaScope sera concurrencé par le Technirama reposant sur le même principe d’anamorphose
mais proposant une résolution d’image supérieure en utilisant la pellicule 35 m/m horizontalement. La
géométrie permet le 2.35:1. Ce format est très proche du VistaVision de 1954 qui utilise une
anamorphose moins forte (géométrie de 1.85:1).

11
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Formats CinemaScope… et VistaVision

En 1955, Michael Todd, qui avait participé au Cinerama, contacte le Dr. Brian O'Brien de l’American
Optical Company. C’est la naissance du Todd-AO, format 70 m/m à 30 images par seconde. Ce format
sera utilisé pour des projections sur écrans incurvés à 120° ou plats. Il se présente comme le descendant à
pellicule et projection unique du Cinerama et sera utilisé sans anamorphose, en 30 et 24 images par
seconde. La géométrie de l’image est de 2.21:1.

Le procédé Todd-AO utilise des négatifs 65 m/m développés en 70 m/m

Le format Super Panavision 70 concurrence le format Todd-AO en utilisant le film 70 m/m non
anamorphosé en 1959. Il permet une géométrie de 2.20:1. West Side Story (1961), Lawrence d’Arabie
(1962) et 2001 l’odyssée de l’espace (1968) seront tournés dans ce format.

Format Super Panavision 2.20:1


12
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Mais Panavision propose aussi des formats 70 m/m anamorphosés pouvant atteindre le 2.76:1 dès 1957.
Ce sont les formats MGM Camera 65 et Ultra Panavision 70.

Les films Ben Hur (1959) et Les révoltés du Bounty (1962) ont, entre autres, utilisé ces formats.

Image de Ben Hur en 2.76:1

Enfin, Panavision est célèbre pour la mise à disposition des réalisateurs et cadreurs de caméras légères
Panaflex en 1972. Celles-ci, conjuguées avec les systèmes de stabilisation d’image en caméra portées (le
Steadicam est inventé par Garett Brown en 1972) permettent une grande liberté et des cadrages
jusqu’alors impossibles. C’est dans le film Shining de Stanley Kubrick (1980) que Garett Brown, alors
cadreur du film, en fera la meilleure publicité…

Travellings fluides dans les couloirs de l’hôtel Overlook utilisant le Steadicam dans Shining.

13
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

En 1970 apparaît le format IMAX (Image MAXimum), une image sur pellicule 70 m/m synchronisée
avec une pellicule son 35 m/m sur laquelle sont couchées six pistes magnétiques rapidement remplacée
par un lecteur audionumérique multipiste synchronisé par Time Code.

Tandis qu'une pellicule traditionnelle de 70 m/m est composée d'image au format de 48,5 m/m de largeur
sur 22,1 m/m de longueur (pour le Todd-AO), le format IMAX donne à l'image une largeur de 69,6 m/m
et une longueur de 48,5 m/m (format 1.43:1) en utilisant la pellicule horizontalement. La projection se
fait à une vitesse standard de 24 images par secondes. En 1992, le format IMAX HD propose une
projection à 48 images par seconde.

Alternativement, le procédé Showscan utilise aussi un film 70 m/m, projeté à 60 images par seconde. Il
est utilisé par exemple au Futuroscope de Poitiers.

En 1973, apparaît un format dérivé de l’IMAX, L’OMNIMAX ou IMAX Dôme. Il est prévu pour des
projections hémisphériques. L’image est impressionnée à travers un objectif grand angle sur 180°
(fisheye). C’est un format anamorphosé à la prise de vue de l’IMAX projeté sur un écran hémisphérique.

L’image est projetée sur 180° horizontalement, 100° en élévation verticale et 22° sous l’horizon.

Ce dernier format deviendra l’IMAX 3D dans les années 1990 avec une caméra équipée d’une double
lentille séparées par une distance interoculaire de 64 m/m pour donner l’illusion de relief visuel et de
dix pistes son. Les deux images sont ensuite projetées simultanément. Le procédé deviendra numérique
en 2008.

L’OMNIIMAX et l’IMAX 3D sont réservés à des applications de projections hémisphériques (Géode,


Dômes…).

Les formats d’image donnés sont à comparer avec le 4/3 (1.33:1) et le 16/9 (1.78:1).

L’IMAX Dôme de Valence en Espagne

14
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Evolution des techniques du son

Pour ce qui est du son, depuis les années 1930, les études sur la stéréo et la spatialisation du son sont très
actives. Le britannique Allan Dover Blumlein est l’exemple même de la dynamique de ces recherches
(Stéréosonic, MS…). Il déposera, en effet un brevet tous les 16 jours durant sa carrière professionnelle
chez EMI des années 1930 à sa mort lors d’un accident d’avion en 1942…

Steinberg et Snow, à cette période, proposent de nombreux systèmes utilisant trois haut-parleurs frontaux.
Ils conçoivent des panoramiques à trois voies, et envisagent différentes configurations.

Un extrait du brevet de Steinberg et Snow datant de 1930.

Les premiers enregistrements stéréophoniques datent des ces années. Une attention particulière est alors
portée aux systèmes stéréophoniques compatibles mono.

15
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Parmi les précurseurs dans l’utilisation de systèmes originaux, on trouve le Fantasia de Disney en 1940
dont la direction musicale des 110 musiciens de l’orchestre de Philadelphie est confiée à Leopold
Stokowski.

La musique du film fût enregistrée à l’Académie de Musique de Philadelphie à l’aide de 33 microphones


prémixés en huit pistes optiques. Une neuvième piste de clics fut ajoutée pour aider les animateurs à
synchroniser leurs dessins avec la musique.

L’enregistrement à ensuite été réduit en quatre pistes optiques pour la diffusion (3 pistes son utiles, une
de contrôle) et diffusé sur 30 à 80 haut-parleurs selon les lieux de projection.

Un lecteur audio spécial synchronisé avec le projecteur image a été développé par la firme RCA pour le
new thrilling Fantasound…

Dans le domaine musical, dans les années 1950, Karlheinz Stockhausen expérimente et produit des
compositions électroniques très novatrices. Kontakte utilise des sons quadriphoniques spatialisés, générés
par du matériel électronique industriel dans le studio d’Herbert Eimert à la Westdeutscher Rundfunk
(WDR). Iannis Xenakis crée un « electronic surround-sound work » pour le pavillon Philips à la foire
internationale de Paris de 1958 pour lequel il collabora avec son ancien professeur Le Corbusier.

Le grand public découvrira la stéréo sur deux pistes optiques dans les années 1950 en même temps que
les grands écrans de projection. L’arrivée de la télévision en est, sans doute, un déclencheur déterminant.
Avec les grands écrans viennent le CinemaScope et la redécouverte des grands formats tels que le
70 m/m. Le son suit évidemment la tendance. On innove pour attirer le spectateur vers les salles obscures.

Le 70 m/m (re)nait en 1955 et peut offrir six pistes magnétiques face aux deux pistes optiques du
35 m/m. Certaines salles, à l’époque, n’ont pas hésité à synchroniser des défileurs son supplémentaires
avec le projecteur.

16
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

En France, on trouve parmi les premiers films tournées en 70 m/m, La Tulipe noire de Christian Jacques
en 1964 et le Playtime de Jacques Tati en 1967 que pouvait projeter le célèbre Kinopanorama à Paris.

Les grands écrans demandent un grand nombre de H.P. pour couvrir leur surface. Les salles
s’agrandissent avec. Cinq canaux derrière l’écran et un canal son distribué autour de la salle ont été
utilisés pour le 70 m/m. Cette piste au départ nommée canal d’effet est l’ancêtre des actuels canaux
surround.

La fin des années 1960 voit apparaître les enregistreurs multipistes magnétiques avec le succès planétaire
du Sgt Pepper Lonely Hearts Club Band des Beatles en 1967. C’est le premier disque réalisé avec des
magnétophones quatre pistes synchronisés et qui, de plus, utilise la technique nouvelle du varispeed.

Sgt Pepper sort néanmoins en version mono et stéréo…

Cette évolution technique va alors lancer une grande vague de recherches sur la spatialisation sonore.

La quadriphonie est née.

Une bataille théorique, technique et commerciale s’engage alors dans les années 1970 pour un nouveau
format dépassant la stéréo. Le rêve d’un son spatialisé, périphonique, identique à l’original, inspire les
recherches de passionnés audiophiles…

La NRBC (National Research and Development Corporation, ancêtre du British Technology Group)
fait confiance aux recherches menées par l’équipe du mathématicien et praticien de la prise de son
Michael Gerzon qui établit une hiérarchie complète de formats permettant de passer d’un certain nombre
de pistes enregistrées à de multiples configurations d’écoute.

L’éditeur de musique classique Nimbus Records, fondée en 1972 en Angleterre, n’hésite pas à mettre sur
le marché des disques enregistrés par le système de prise de son du Dr Jonathan Halliday, compatibles
stéréo et décodables en périphonie selon les préceptes de Gerzon et de son matriçage UHJ.

L’utilisation de quatre pistes déclenche une véritable guerre des formats.

Les formats à quatre pistes discrètes tels que le CD-4 JVC (Compatible Discrete 4), l’UD4/UMX Denon
(Nippon/ Columbia), le Q4 pleine bande et le Q8 RCA…

Les formats quatre pistes matricés en deux tels que le SQ (Stereo Quadraphonic) de CBS/Sony, le QS
(Quadraphonic Stereo) de Sansui, l’EV4 d’Electro Voice, le DY Dynaquad de Dynaco, le Matrix H de la
BBC, et enfin, l’UHJ (mélange d’UD4/UMX, de Matrix H, et des développements 45J) utilisé par la
hiérarchie de codage proposée par le groupe des ambisonics (Gerzon, Fellgett, Barton) s’appuyant sur
les anciens travaux de Blumlein, et de l’équipe de recherche de Cooper & Shiga.

La question du matriçage stéréo est cruciale à l’époque pour une diffusion de ces formats auprès du grand
public.

Les imprécisions dans la localisation des sources sonores étaient l'un des principaux défauts des systèmes
quadriphoniques comme le montre ce test avec une source sonore se déplaçant sur un cercle autour de
l'auditeur. Seul l’UD-4 donne un résultat acceptable selon ses concepteurs...

17
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Cette myriade de systèmes incompatibles les uns avec les autres va faire échouer la quadriphonie auprès
du grand public, il n’empêche que cette dynamique est une véritable mise à feu intellectuelle dans le
monde audio de l’époque.

Ces systèmes reflètent la recherche d’un meilleur rendu que celui de la stéréo. Ils se sont heurtés de façon
commune à la nécessité de s’adapter aux supports et aux moyens de diffusion bipistes.

Le Dolby Stéréo

Les laboratoires Dolby développent le Dolby Stéréo en 1976 pour le cinéma à partir du procédé CBS SQ.
Il utilise un grand nombre de haut-parleurs de diffusion afin de couvrir de grandes surfaces et d’entourer
les spectateurs, et tente de résoudre les dilemmes de la sonorisation : intelligibilité, homogénéité de
couverture et localisation pour tous.

C’est un système de matriçage / dématriçage analogique des canaux son, permettant de stocker quatre
canaux sur les deux pistes optiques du film 35 m/m. Le dématriçage s’effectue en salle.

Le signal Dolby Stéréo (Lt/Rt) est le résultat du matriçage sur les deux pistes optiques du support.

Le Dolby Stéréo répartit ses canaux en gauche, centre, droite et surround. Typiquement le cinéma utilise
trois H.P. derrière l’écran et une piste diffusée sur un grand nombre de H.P. entourant le spectateur. Un
décodage optionnel du sub-bass (sans piste dédiée) est aussi proposé.

L’utilisation de sub-bass (piste dédiée ou non) est courante en diffusion depuis les années 1975.

Lors du dématriçage, une adaptation à la salle (égaliseurs, retards...) est effectuée pour permettre de
restituer les messages sonores en fonction de leur rôle. Le canal surround, par exemple, est retardé de 15
à 25 ms pour éviter les inversions avant / arrière dues à l’effet de précédence (effet Hass). Il n’apporte
qu’ambiance et enveloppement et n’est pas facteur de localisation.

En général, la répartition est la suivante : centre = dialogues ; gauche, droite = ambiances, musiques,
bruitages, effets stéréophoniques ; surround = ambiances, effets spéciaux.
18
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Encodage Dolby Stéréo

Les deux canaux enregistrés sur le support sont appelés Gt et Dt (gauche totale et droite totale / LtRt).

On a :
C iS C iS
Gt = G + + Dt = D + −
2 2 2 2

avec G le canal de gauche, D le canal de droite, C le canal central, et S le canal surround.


La division par 2 indique une réduction de gain de 3 dB.
La multiplication par ± i un déphasage de ± 90°.

Le canal S subit préalablement :

• un filtrage passe bande entre 100 Hz et 7 kHz


• une réduction de bruit de type Dolby B modifiée (-5 dB au lieu de -10 pour les K7).

Décodage Dolby Stéréo

Le procédé est inverse : le canal surround est filtré passe-bande entre 100 Hz et 7 kHz. Il passe ensuite
par un décodeur Dolby B puis il est retardé de 15 à 25 ms selon la salle. S’il n’y a pas de haut-parleur
central, la source fantôme est recréée par les haut-parleurs frontaux.

Le système reste compatible mono par annulation de la composante surround par simple sommation.
Néanmoins, il n’est pas possible de remonter aux signaux originaux car on a :

C + iS C − iS Gt + Dt G+D
G* = Gt = G + D* = Dt = D + C* = = +C
2 2 2 2
et
Gt − Dt G − D
S* = = + iS
2 2

Le symbole * marque les signaux restitués.

Codage et décodage Dolby simplifié. L’encodeur permet, ici, d’encoder deux canaux surround séparés

La séparation (diaphonie) entre les canaux adjacents n’est que de 3 dB.


19
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le Dolby Stéréo Surround 70 m/m utilise toujours les six pistes magnétiques en 1979. Les canaux se
répartissent, au choix, en frontaux, surround et sub-woofers.

Les premiers films à utiliser deux canaux surround séparés furent Superman de Richard Donner en 1978
et Apocalypse Now de Coppola en 1979. Depuis, Dolby a intégré l’option dans ses systèmes.

L’âge d’or de la production cinématographique s’essoufflant petit à petit au cours des années 1970, les
prix de production sont revus à la baisse. Le magnétique coûte cher… Le Dolby Stéréo semble alors une
bonne solution économique…

En 1982, Dolby a mis sur le marché de l’écoute domestique un système dérivé du Dolby Stéréo : le Dolby
Surround. Les quatre canaux étaient alors disponibles à la maison. Très souvent le canal central était
recréé en source fantôme par les H.P. frontaux.

Le système Dolby Pro Logic vers 1987 décode le canal central de façon indépendante. Il ajoute, de plus,
divers traitements actifs de séparation des canaux. Il est utilisé aussi bien pour le cinéma que les systèmes
domestiques. Les deux H.P. surround sont toujours alimentés par le même canal. Le Pro Logic II permet
de décoder les voies arrière en pseudo stéréo (décorrélation).

Le procédé de la Lucasfilm Home THX est une évolution du système Pro Logic. Il ajoute une
décorrélation gauche droite du canal surround (genre de pitch shift), une égalisation des H.P. frontaux et
un équilibrage des canaux avant et arrière.

Remarque : le Home THX n’a rien à voir avec le THX cinéma qui est un procédé de diffusion. Le THX
Cinéma impose aux exploitants l’égalisation du signal, la position et les caractéristiques des H.P., des
critères d’acoustique des salles (temps de réverbération imposé...), le réglage de la chaîne de diffusion,
l’amplification et le filtrage des H.P.

Le logo THX sur des supports de diffusion signifie que le mixage du film s’est fait dans une salle certifiée
THX.

Dolby, de même, impose certaines caractéristiques quant à l’emplacement, le type des haut-parleurs et les
amplificateurs à utiliser.

Il est important de remarquer qu’aucun de ces systèmes n’utilise quatre canaux discrets. Tous subissent
un encodage / décodage et sont stockés sur deux pistes. On dénomme souvent ces procédés comme 4.2.4.
Certains auteurs sceptiques n’hésitent pas à parler de systèmes 4.2.2,5.

Ce matriçage analogique des signaux est l’alter ego de la compression audionumérique actuelle.

Les systèmes Dolby sont donnés comme compatibles mono et stéréo.

En 1990, Eeastman Kodak invente le système audionumérique Cinema Digital Sound (CDS). Les
informations sonores audionumériques compressées (au sens du débit d’information) sont enregistrées à
la place des deux pistes optiques analogiques. Ce système cèdera sa place au Dolby SRD car celui-ci
permet de garder les pistes Dolby Stéréo optiques en cas de problème.

20
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

En 1992, Dolby lance le Dolby SRD (Dolby Spectral Recording Digital), appelé aussi Dolby Stéréo
Digital, au cinéma. Les interstices entre les perforations du film 35 m/m sont alors utilisés pour stocker
l’information sonore sous forme audionumérique compressée. Le système se compose de six canaux
discrets dont 5 pleine bande (3 - 20 300 Hz) et un sub-bass (3 - 121 Hz). On parle alors de systèmes 5.1.

Les systèmes domestiques (home theatre / cinema) prennent l’appellation Dolby Surround Digital.

D’autres systèmes multicanaux discrets stockent l’information sonore sur des supports informatiques
séparés (CDRoms, disques magnéto-optiques à l’époque). Les lecteurs sont alors synchronisés par un
code temporel optique enregistré entre les perforations du film.

En cas de problème (perforations abîmées), le système bascule sur les pistes optiques matricées au format
Dolby Stéréo. Le système LC Concept, français de conception, a été le pionnier de ce type, dont les idées
sont actuellement exploitées commercialement par la firme DTS.

Les canaux sont répartis comme gauche, centre, droite, arrière gauche, arrière droite et sub-bass.

Les différences avec les systèmes précédents sont : une indépendance totale des canaux
(pas de diaphonie, surround stéréo possible...) et un canal supplémentaire optionnel pour les basses.

Le problème du matriçage analogique bipiste disparaît au profit


des formats audionumériques compressés.

On différencie souvent les systèmes par la répartition de leurs canaux. Les appellations de systèmes 2/0,
3/1, 3/2 reflètent le rapport des pistes avant / arrière. Le 3/2, par exemple, est un système à trois pistes
frontales (gauche, centre, droite) et deux surrounds séparés (arrière gauche et arrière droit).

L’encodage de ces 5.1 pistes a été rendu possible par le développement du Dolby Audio Coding 3
(AC3 maintenant appelé Dolby Digital) permettant de ramener les débits sonores entre 32 et 640 Kilo bits
par seconde (kbps) selon le nombre de canaux. Au départ Dolby cherchait un débit de 320 kbps pour
pouvoir stocker les informations sonores entre les perforations du film 35 m/m.

Actuellement, les débits typiquement utilisés sont le 384 kbps pour le Dolby Surround AC3 5.1, et le 192
kbps pour la distribution stéréo. Les fourchettes données par la documentation Dolby sont : 32-96 kbps
pour un signal mono, 192-256 kbps pour un signal stéréo et 320-448 kbps pour le 5.1. Les sources
peuvent être aux fréquences d’échantillonnage de 32, 44,1, ou 48 kHz, et avoir une résolution de 16, 18,
20 ou 24 bits.

Dans le cas d’utilisation des 5.1 ou 7.1 canaux, les décodeurs Dolby Digital ou DTS sont capables de
fournir un mixage mono, stéréo, ou surround. Les différents paramètres de mixage sont prévus lors de
l’encodage (coefficients de downmix).

21
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Exemple d’un système d’encodage AC3 - 5.1 temps réel (Sonic Solutions).

22
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Evolution des codecs au cinéma

Le Dolby Digital est un système de compression de données à pertes comme le sont le DTS (Digital
Theatre Sound), le SDDS (Sony Dynamic Digital Sound), les MPEG1 1, 2, 4 audio, l’ATRAC, le
PASC...

Le Dolby Digital AC3 succède aux algorithmes AC1 (220-325 kbps) et AC2 (129-192 kbps). Ces
codages, concurrents des couches ISO / MPEG, ont été utilisés pour la transmission par satellite,
l’échange par réseaux ou l’archivage de données audio.

Différents systèmes discrets 5.1 ou 7.1 se sont fait concurrence à l’apparition du DVD Vidéo2 : le MPEG,
le Dolby Digital, le DTS et le SDDS.

Actuellement, Dolby et DTS proposent des formats étendus et des codecs sans pertes.

Le Dolby Digital + et le DTS High Résolution Audio permettent d’ajouter des canaux audio et
d’augmenter les fréquences d’échantillonnage et résolutions tout en restant des codecs à pertes.

Les Dolby True HD et le DTS HD Master Audio utilisent des algorithmes de compression sans pertes.

Ils sont inclus dans la normalisation du DVD Blu Ray.

Remarque sur les systèmes Dolby pour l’enregistrement magnétique

Dolby a aussi développé des réducteurs de bruit tels que le Dolby A, Dolby SR pour le cinéma, les Dolby
B et C, S, pour les K7 Philips. Le SR est aussi utilisé pour l’enregistrement analogique professionnel sur
bande magnétique… Le Dolby HXPro est un système de pré-magnétisation variable pour
l’enregistrement magnétique.

Les systèmes évoqués ici, n’ont pas d’autre prétention que de baigner le spectateur de cinéma dans une
ambiance sonore tout en garantissant l’intelligibilité et la stabilité des dialogues. Ils n’ont pas été
développés pour améliorer les possibilités de localisation proprement dites mais plutôt d’enveloppement.
De plus ils s’adressent à de larges audiences et posent les problèmes de la sonorisation.

Le mixage pour le cinéma est une opération délicate de répartition et d’équilibrage des sources entre les
différents canaux de diffusion. Ces sources sont en général mono ou stéréo. Il s’agit donc de fabriquer une
mosaïque sonore profitant de l’espace de diffusion proposé par la salle de cinéma. Le mixage tel qu’il est
pratiqué actuellement n’utilise que les différences de niveaux pour la localisation (panpots d’intensité en
général…). Capable de puissants effets sonores, le système seul ne permet pas de rendre plus transparent
le système de reproduction.

Les systèmes son pour le cinéma n’envisagent pour le moment que les étapes de mixage, transmission et
diffusion. Il n’existe pas de procédé de prise de son spécifiquement adapté.

1
Moving Picture Expert Group
2
Digital Versatile Disc
23
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes multicanaux en conjonction avec les nouveaux supports (DVD, autoroutes de
l’information...) permettent l’utilisation de nouvelles techniques de prise de son adaptées aux différents
champs d’applications des techniques du son (cinéma, productions musicales, sonorisation…). Leur
application domestique permet de s’affranchir des difficultés de la sonorisation.

En dehors des essais quadriphoniques des années 1970 peu de systèmes réellement multicanaux ont été
envisagés dans le sens de la transparence de la chaîne de restitution et de la spatialisation. Actuellement
deux « écoles » se disputent le secteur, l’holophonie acoustique (Wave Field Synthesis et Ambisonique)
et les techniques binaurales et transaurales.

Face à ces approches théoriques, les praticiens proposent souvent des systèmes empiriques basés sur des
extensions de systèmes stéréophoniques existants ou l’utilisation de systèmes d’appoints spatialisants.

Exemples de films 35 m/m sur lesquels les pistes son sont inscrites en SDDS (sur les bords de la
pellicule), en Dolby Digital (entre les perforations) et en Dolby Stéréo (élongation variable). Une dernière
piste numérique de Time Code permet de synchroniser un lecteur informatique au format DTS.

24
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Evolutions numériques du cinéma

Le Digital Cinema Initiative, une association regroupant 6 majors du cinéma, propose une spécification
pour le cinéma numérique. Le débit maximum de diffusion à été fixé à 250 Mbps pour le moment et
utilise le format d’image JPEG2000 et le format son BWF en 24 bits, 48 ou 96 KHz.

En 2009, la majorité des films étaient toujours tournés sur support argentiques et scannés en 2K (2048 /
1556 - 3,2 Méga pixels par image) ou 4K (4096 / 2160 - 8,85 Méga pixels par image) pour la post
production et éventuellement la diffusion.

Certains constructeurs de caméras proposent actuellement des caméras numériques atteignant les 2, 4, ou
5K (5120 / 2700 - 13,8 Méga pixels par image). Les évolutions futures envisagent les 6K (6654 / 4436 -
30 Méga pixels par image), 9K (9334 / 7000 - 65 Méga pixels par image) et 28K (28 000 / 9334 - 261
Méga pixels par image). Selon la résolution utilisée, le nombre d’image par seconde possible varie entre
12 et 300 actuellement.

Seules les résolutions égales ou supérieures au 4K peuvent êtres comparées à la pellicule 35 m/m.

De leur coté, les constructeurs de projecteurs suivent la course à la résolution…

En juillet 2011, environ la moitié des salles de cinéma françaises sont équipées en numérique.

Le passage au cinéma numérique suppose, bien sur, que les catalogues de films soient eux même
numérisés...

Le passage au numérique du cinéma permet de passer de la copie 35 m/mm à la projection sans


supports physiques à travers un réseau de diffusion protégé. Il facilite aussi le passage au cinéma en 3D
et les applications annexes telles que le sous titrage, l’audio description…

Le passage au cinéma numérique permet d’utiliser les salles de cinéma pour la diffusion de
programmes alternatifs en 2 ou 3 dimensions tels que les opéras, concerts, sports, jeu vidéo, duplex...

25
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

26
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Systèmes d’écoute et acoustique des cabines 5.1

L’évolution des techniques audionumériques compressées (au sens de la réduction de débit), les usages du
son au cinéma, ainsi que l’arrivée de nouveaux supports audiovisuels (Blu Ray, DVD-V, DVD-A,
SACD…) ont conduit au nouveau standard de travail 5.1.

Dispositif d’écoute 5.1

Par 5.1, il est entendu un système de diffusion à six canaux discrets répartis autour de l’auditeur. Cinq
canaux englobent toute la largeur de bande audio (20 - 20 000 Hz), le dernier étant un canal à bande
passante réduite réservé à la diffusion des infra basses (20 - 200 Hz soit 10% de la bande passante audio).

Les canaux se répartissent comme gauche, centre, droite, arrière gauche, arrière droite, et sub basse.

La configuration suivante est donnée par la recommandation ITU-R BS.775.

27
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Angle horizontal (degrés) Hauteur (m) Inclinaison (degrés)


Haut-parleur
Centre 0 1,2 0
Gauche / Droite 30 1,2 0
Arrières 100 - 120 ≥ 1,2 0 - 15 ° vers le bas

Avec : H : hauteur de l’écran, B : largeur de la base du triangle d’écoute, D : distance d’écoute, Ecran
n°1 : HDTV - distance de référence 3H ( 1= 33°), Ecran n°2 : Ecran de projection (2 = 48°)

Tous les haut-parleurs sont identiques et placés à la même distance de l’auditeur.


Les haut-parleurs frontaux sont idéalement à la même hauteur

Ce nouveau standard permet de baigner le spectateur dans un champ sonore horizontal sur 360°. Il
surpasse la stéréophonie en termes de nombre de canaux, mais aussi en termes de possibilités de
localisation, démasquage, enveloppement, réalisme, confort d’écoute…

La disposition du système d’écoute 5.1 reste compatible avec la stéréophonie dans la mesure où les haut-
parleurs gauche et droite frontaux respectent la même disposition en triangle équilatéral avec l’auditeur.

Post-production 5.1

L’étape de post-production est décisive en 5.1. Les outils habituels se déclinent en version multicanale :
consoles de mixages automatisées possédant des « pan pots 5.1 », unités de réverbération artificielles
multicanales (M6000 TC Electronics, Lexicon 960…), plugins 5.1, les modules Max du spatialisateur
SPAT de l’IRCAM (…) et le mixage peut avoir lieu dans des cabines optimisées pour ce format.

Libre à l’utilisateur de traiter les canaux un par un (monophonie dirigée), par paire (avant / arrière) ou
d’avoir une vision plus globale des choses…

Acoustique des cabines de mixage 5.1

Du fait de la présence de six haut-parleurs dans toutes les directions de la pièce, les acoustiques des
cabines de post-production 5.1 sont relativement plus mates et symétriques que celle conçues pour la
stéréophonie (en général de type LEDE). Outre les critères habituels (pas de murs parallèles, pas de
résonance particulière…), des recommandations sont publiées. Je reprends, ici, les tableaux proposés par
la documentation Dolby :

Niveau d’écoute pour n haut-parleurs : Lp / hp = 85 - 10log (n) ± 0,25 dBC SPL

Pour n = 5 hp, Lp / hp = 78 dBC SPL

Les mesures de niveau acoustique sont effectuées avec un sonomètre utilisant une constante de temps
d’intégration longue et une courbe de pondération C. La mesure de niveau se fait à l’aide de bruit rose
enceinte par enceinte. Toutes les enceintes sont réglées au même niveau à 0,5 dB près.

Le niveau d’écoute obtenu avec les 5 enceintes est de 85 dBC SPL.


C’est le niveau d’écoute dit « académique »

28
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Dimensions géométriques de la cabine 5.1

Gestion des réflexions précoces et valeur moyenne du temps de réverbération en 5.1

Tolérances pour le temps de réverbération en 5.1

La courbe en pointillés est issue des recommandations de l’Audio Engineering Society

29
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Bruit de fond de la cabine 5.1

Tous ces paramètres sont difficiles à respecter. Des compromis sont souvent faits. Les enceintes arrière
sont souvent plus petites que celles de l’avant et les courbes de bruit de fond sont quasi impossibles à
atteindre en milieu urbain…

Un exemple de cabine 5.1 : la régie multicanale de LGS - Le Grenier à Son

Etude sur CATT Acoustics

30
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Plan au sol et structure

Configuration « musique »

31
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Configuration « son à l’image »

Bass management

Pour la gestion du canal de basse, un système de « bass management » fonctionne comme l’indique la
figure ci-dessous :

32
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le haut-parleur de Sub Woofer (ici SW) diffuse ce qui est prévu dans le canal dit LFE (Low Frequency
Effect - le .1 du 5.1) et prend éventuellement en charge la gestion des graves des cinq autres haut-
parleurs. Il est, en général, possible de régler la fréquence de coupure à 80 Hz ou 120 Hz. Le 80 Hz se
standardise actuellement…

Le gain de 10 dB ajouté au canal de LFE s’explique pour des raisons historiques. Le canal de LFE est, en
effet, enregistré 10 dB sous les autres pour éviter les problèmes de distorsion en analogique. Cette
différence de niveau est alors compensée à l’écoute.

Les décodeurs DTS et Dolby Digital ajoutent ces 10 dB lors de l’étape de décodage, de même que les
lecteurs de DVD Blu Ray, de DVD-Vidéo et Audio et de SACD.

Supports 5.1

Les supports usuels du 5.1 sont les DVD Blu Ray, DVD Vidéo, DVD audio et le SACD. Les nouveaux
standards du multimédia tel que le MPEG-4 audio englobent naturellement le son multicanal.

Selon le support utilisé et les contraintes de la ligne de transmission, le son peut être sous forme linéaire
ou compressé.

Seuls les DVD Blu Ray, DVD Audio et le SACD permettent de stocker du
son linéaire en 5.1 après une compression sans pertes.

D’autre formats étendus, tels que les 6.1, 7.1, 8.1, 10.2, 12.2 (…) sont, en général, destinés à des
applications particulières : cinéma panoramique ou sphérique, salles de multidiffusion, projections ou
installations expérimentales, 3D…

33
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Environnements multicanaux habituels

Dolby Surround pour le cinéma

Dolby Surround pour le home cinéma

Dolby Digital ou DTS pour le cinéma

34
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Dolby Digital ou DTS pour le home cinéma

Configuration pour une écoute musicale

35
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Différentes configurations multicanales

3.0 4.0 Quadriphonie 4.0 Quadriphonie

4.0 Dolby 5.1 6.1

Configurations 7.1
36
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Configuration 10.2 proposée par Tomlinson Holman

Configuration 12.2

37
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

38
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Prise de son multicanale

Introduction

Conçu comme un système de diffusion issu du cinéma, de nombreux débats se posent actuellement, quant
aux techniques de prise de son compatibles avec le système d’écoute irrégulier du 5.1.

Certains de ces systèmes sont complexes à mettre en œuvre ou à optimiser. Ils requièrent parfois un
décodage ou un traitement approprié. Ils sont, de plus, relativement coûteux.

Nous verrons par la suite qu’il est intéressant de formaliser les différentes approches de ces systèmes par
le modèle encodeur / décodeur.

Les ingénieurs du son mélangent souvent différentes techniques de prise de son. Pour un enregistrement
en acoustique naturelle, il est assez simple et rapide de mettre en place un micro Soundfield, une tête
artificielle, des micros arrière (ailes ou carré…) conjointement à une microphonie de type
stéréophonique classique pour la scène frontale…

Dans certains cas, le manque d’outils de studio spécialisés pragmatiques rend l’utilisation de certains
formats complexe en post production. De plus il faut garder à l’esprit que le passage en 5.1 impose des
moyens (nombre de microphones, multipiste, traitements adaptés…) plus lourds qu’en stéréophonie.

Nous verrons aussi que certains systèmes sont difficiles à classer dans la mesure où ils peuvent être vus
selon plusieurs approches différentes.

Les systèmes de reconstruction physique du champ acoustique

Pour rédiger cette partie théorique, je me suis appuyé sur les travaux universitaires de Jean-Marc Jot,
Rozenn Nicol et Marc Emerit, Jérôme Daniel, Jeff Bamford, Edwin Verheijen, Werner de Bruijn,
Etienne Corteel et Sébastien Moreau, différentes publications de équipes de l’IRCAM, ainsi que sur les
publications de Michael Gerzon. J’espère qu’ils me pardonneront de leur avoir parfois emprunté quelques
illustrations ou explications.

Synthèse de front d’onde (Wave Field Synthesis)

La synthèse de front d’onde est une méthode physique de reconstruction du champ acoustique reposant
sur le principe de Huygens, base théorique de l’holophonie.

Bien que, dans son principe, l’holophonie, soit connue depuis longtemps (Jessel - 1973), elle n’a été mise
en œuvre que récemment grâce aux travaux de J. Berkhout de l’Université de Delft en 1988.

La méthode holophonique reposant directement sur le principe de Huygens, nécessite un très grand
nombre de capteurs et de transducteurs dont on maitrise les caractéristiques de directivité.

39
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Huygens a démontré que le rayonnement d’une source acoustique est équivalent à celui d’un ensemble de
sources secondaires réparties le long de son front d’onde. Si l’on connait les caractéristiques d’un champ
acoustique (pression et vitesse particulaire) sur une surface fermée entourant une source sonore, il est
alors possible de décrire le champ acoustique dans son intégralité en considérant la source comme la
combinaison d’une infinité de sources secondaires monopolaires et dipolaires pondérées le long de cette
surface.

En quelque sorte, les sources secondaires prennent le relai de la source primaire.

Selon le principe de réciprocité, un réseau de haut-parleurs monopolaires et dipolaires devrait pouvoir


synthétiser le champ acoustique, dont on a préalablement capté par un ensemble de microphones les
caractéristiques physiques.

Illustration du principe de Huygens utilisé par la WFS

La formalisation théorique de ce principe repose sur les formulations intégrales de Helmholtz, Kirchhoff
et Rayleigh. La mise en pratique de la WFS s’appuie sur un ensemble d’approximation de ces intégrales
(échantillonnage spatial à la captation, nombre fini de haut-parleurs à la diffusion...).

Notations utilisées pour l’intégrale de Kirchoff-Helmholtz.


Ce schéma est à lire dans le cas général en trois dimensions.

40
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Sur la frontière du domaine ∂Ω le champ acoustique est donné par l’intégrale suivante :

r
Où p0 est le champ de pression sur ∂Ω , k le nombre d’onde, et n , le vecteur unité dirigé vers l’extérieur.
r r r r r r
R est le vecteur entre la source secondaire positionnée à r0 et le point d’écoute r , tel que R = r − r0 .

Cette intégrale peut être interprétée comme la combinaison linéaire de termes monopolaires et dipolaires
car on y observe respectivement les expressions :

et

On y voit aussi que les amplitudes des sources secondaires monopolaires et dipolaires, le long de la
surface ∂Ω , dépendent du gradient de la pression pour les monopoles et de la pression elle-même pour
les dipôles.

Le principe revient donc à enregistrer les composantes de pression et de gradient de pression du champ
acoustique le long de ∂Ω (microphones de pression et de gradient de pression), puis de le re-synthétiser à
l’aide de haut-parleurs monopolaires et dipolaires.

Selon l’intégrale de Kirchhoff-Helmholtz, la reproduction est parfaite pour une infinité de capteurs et
de sources acoustiques de diffusion possédant les directivités requises. De plus elle est périphonique du
fait que Ω soit un volume.

Les limitations de cette méthode sont essentiellement dues à l’échantillonnage spatial et donc aux
problèmes de repliement du spectre spatial des microphones à la captation et des haut-parleurs à la
restitution (nombre fini, réponse en fréquence et en phase, maîtrise de leur directivité et de leur
rayonnement).

D’autre part, la distribution des haut-parleurs de restitution selon cette approche (nombre de sources et
géométrie du système d’écoute) est directement fonction de l’étendue de la zone de captation et détermine
la zone d’écoute possible…

La complexité de mise en œuvre de ce système dans le domaine de la prise de son provient du grand
nombre de microphones et de haut-parleurs nécessaires, de la difficulté à maitriser le rayonnement et les
réponses des sources électroacoustiques utilisées (monopoles, dipoles, interférences…), ainsi que de
l’importance du traitement numérique du signal nécessaire pour tenter de compenser ces différentes
approximations.

Elle est, pour le moment, peu utilisée dans les métiers du son sous cette forme.

41
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Principe simplifié d’une installation selon Huygens

Exemple de mise en œuvre d’un réseau de haut-parleurs selon le principe de Huygens


42
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Évolutions récentes du principe de la WFS

Face au très grand nombre de transducteurs nécessaires à la mise en œuvre de l’holophonique reposant
directement sur le principe de Huygens, de nombreuses recherches ont été menées dans le but de
simplifier le système.

En 1988, A. J. Berkhout de l’université de Delft proposent un système holophonique simplifié


dissociant les étapes de captation et de reproduction. Ce système permet de réduire la captation à une
prise de son de proximité et les dispositifs de diffusion à des bancs linéaires finis de transducteurs
(antennes acoustiques). Il intègre une étape d’extrapolation du champ sonore effectuée par l’utilisation
intensive de traitement numérique du signal.

La synthèse du champ acoustique est alors assurée dans le plan horizontal et devant les haut-parleurs
par cette méthode.

C’est cette dernière approche qui est utilisée actuellement sous le nom de Wave Field Synthesis,
appellation qui apparaît pour la première fois en 1993. C’est aussi à cette période que sont clairement
définis les concepts fondamentaux sous tendant cette nouvelle technique de spatialisation:

- La notion de source notionelle ou virtuelle qui permet une séparation complète entre les
dispositifs de captation et de diffusion. Le paysage sonore est décomposé en sources virtuelles
omnidirectionnelles dont on simulera par la suite la directivité et le rayonnement pour en déduire
les signaux d’alimentation des sources secondaires.

- Des simplifications quant à la géométrie du problème avec une correction des approximations
faites menant à la possibilité d’utiliser des réseaux de haut-parleurs finis et répartis en ligne.

Les travaux de l'université de Delft puis de France Télécom R&D au cours des années 1990 ont permis
d'améliorer la compréhension des phénomènes mis en jeu d'un point de vue objectif et subjectif afin de
valider cette approche.

Les simplifications géométrique du problème supposent de réduire l’espace de diffusion et la zone


d’écoute. On passe d’un volume à un plan, d’une surface étendue à une zone plus restreinte, voire à la tête
d’un auditeur (surround horizontal au sweet pot).

Ces simplifications géométriques utilisent les méthodes de la Stationnary Phase Approximation.

Les études postérieures aux articles fondateurs s'attachent à garantir une qualité de reproduction sonore
indépendante de la position de l'auditeur au sein du dispositif en tentant d'étendre la zone d’écoute
ainsi que de synthétiser un effet de salle.

Dans ces systèmes WFS, la prise de son est presque toujours réduite à la captation de proximité et les
signaux monophoniques sont ensuite traités par des encodeurs spatiaux. Le système requiert donc
l’utilisation conjointe de synthétiseurs d’espace acoustiques.

Les puissances de calcul nécessaires à ces dispositifs sont relativement importantes et les antennes de
haut-parleurs relativement couteuses. Ces techniques sont donc pour le moment réservées à des
applications de diffusion en salle et trouvent leur place dans les applications requérant une immersion
sonore particulière (cinéma en 3D, réalités virtuelles, installations sonores, musiques mixtes…).

43
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Schéma résumant les principes de la WFS

L’échantillonnage spatial des transducteurs dépend du critère de Shannon, et de fait, restreint la bande
passante spatiale du système holophonique. Des travaux expérimentaux effectués à l’Université de Delft
ont montrés que l’échantillonnage spatial des transducteurs de diffusion dégradait peu la localisation des
sources virtuelles synthétisées tant que le repliement du spectre spatial de descendait pas en dessous de
fréquence de 1,6 kHz.

Cette tolérance peut s’expliquer par la prépondérance des indices de localisation temporels en basse
fréquence. Cette limitation correspond à un espacement entre les transducteurs de l’antenne de haut-
parleurs de l’ordre de 11 cm.

Il a aussi été montré expérimentalement que si l’espacement entre les haut-parleurs de diffusion dépassait
cette limite, la localisation des sources virtuelles synthétisées restait relativement précise bien qu’elles
aient tendance à devenir plus larges en haute fréquence et que le spectre émis par le réseau pouvait
devenir dépendant de la position des auditeurs.

Théoriquement, les haut-parleurs constituant le réseau de sources secondaires sont omnidirectionnels…

La taille réduite des haut-parleurs composant l’antenne, la pauvreté de la méthode de prise de son
envisagée pour le moment (microphones de proximité) et les différentes étapes de synthèse spatiales
(position et déplacement de la source acoustique, la simulation des espaces acoustiques) en font une
méthode complexe à l’heure actuelle.

Néanmoins, l’auditeur peut percevoir des effets de réalisme des sources sonores synthétisées saisissants
tel que celui de parallaxe naturels liés à la position de la source. Cette impression de réalisme sonore est
d’ailleurs renforcée par la stimulation cohérente de plusieurs dimensions sensorielles (vue/ouïe au
cinéma).

44
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes WFS actuels tels que celui de l’IRCAM, utilise des signaux issus de microphones placés en
proximité des sources originales, et resynthétise un champ acoustique par calcul des composantes des
sources secondaires qui sont ensuite diffusés par une antenne linéaire de 88 haut-parleurs espacés de 16
cm actuellement. Le projet envisage à terme des antennes de diffusions tout autour de la salle, soient 512
transducteurs pilotés en temps réel par des calculateurs audio. Il est complémenté par l’ajout de haut-
parleurs de Sub bass. L’antenne acoustique est gérée par un réseau de type Ethesound qui la relie aux
calculateurs spécialisés développés par l’IRCAM et la société Suisse SonicEmotion.

Le système de diffusion WFS de l’IRCAM installé dans l’ESpace de PROjection.

Le placement des sources est obtenu par convolution du signal issu du microphone par la fonction de
positionnement spatial souhaitée en temps réel, qui est ensuite elle même transmise et personnalisée pour
chaque haut parleur constituant l’antenne (retards, filtres…).

Le coût de calcul et le nombre de haut-parleurs reste important pour ce type d’application qui la rend plus
adaptée à des installations de sonorisation de salles de spectacle ou de cinémas.

La société allemande Iosono composée d’anciens chercheurs du Fraunhofer Institute - IDMT propose,
avec un certain succès, des équipements spécialisés pour des systèmes de sonorisation pour le cinéma en
relief utilisant les techniques de la WFS.

Système Iosono composé 627 haut-parleurs alimentés par 224 canaux installé dans les studios de la
Todd-AO à Los Angeles. Le système consomme 44 000 Watts d’amplification.
45
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Installation WFS au Mann Chinese Theater à Hollywood utilisant 376.8 canaux de diffusion.

Système de diffusion WFS installé dans l’auditorium de la Detmold Hochschule für Musik

46
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le studio WFS Erich Thienhaus de la Detmold Hochschule für Musik.

Type d’antennes acoustiques électrodynamiques proposées par la société Iosono.


Chaque segment de l’antenne peut être alimenté par une amplification de 800 W.

47
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Studio WFS basé sur les technologies Iosono du Fraunhofer Institute.

Du fait que la taille des transducteurs soit limitée rend théoriquement difficile l’utilisation de haut-
parleurs électrodynamiques classiques pour de larges bandes passantes (fréquentielle et spatiale) de
diffusion.

Les chercheurs on donc tenté de trouver des solutions alternatives sous forme de panneaux rayonnants à
excitateurs multiples.

Nouvelles générations de transducteurs

Les haut-parleurs MAP (Multi-Actuator Panels) dérivent du principe de la DML (Distributed Mode
Loudspeakers). Ils sont constitués d’une plaque vibrante de polystyrène et/ou de carton qui est mise en
vibration par un ensemble d’excitateurs électrodynamiques à bobine mobile fixés derrière elle.

Chaque excitateur peut recevoir un signal indépendant, ce qui permet la création d’un système de
diffusion multipiste utilisant une seule surface commune.

Un des avantages de ce type de haut-parleurs est leur aspect physique de plaque permettant de les intégrer
discrètement dans différentes installations sans que le spectateur soit entouré de centaines de haut-
parleurs.

De plus, l’excursion de la surface vibrante est suffisamment faible pour être utilisée comme surface de
projection d’images en deux dimensions.

48
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Haut-parleurs MAP proposés par la société Sonic Emotions.

Une installation de haut-parleurs MAP SonicEmotions à l’ESPRO de l’IRCAM

L’inconvénient de ces systèmes est que leur comportement acoustique est assez différent du rayonnement
omnidirectionnel des sources ponctuelles qui sont requises par la théorie de la WFS. Leur utilisation
impose de ce fait l’utilisation de méthodes d’égalisation appropriées…

49
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Prise de son WFS

Malgré les limitations citées ci-dessus, certains chercheurs pensent qu’il est théoriquement possible
d’utiliser des réseaux de capteurs lors de l’étape de capatation en WFS. L’université de Delft a envisagé
des réseaux de microphones allant jusqu’à 288 cardioïdes disposés en cercle autour des sources…

Les deux approches envisagées pour l’enregistrement en WFS.

L’équivalence des procédés de la WFS et des techniques ambisoniques d’ordre élevé (HOA) dans
certaines conditions tendent à démontrer qu’une captation par une méthode ou l’autre puissent être
interchangeables. De nombreux débats tentent de convenir de la méthode la plus efficace et économique
pour parvenir à ces fins actuellement.

50
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Ambisonique et format B

Les techniques dites ambisoniques et le format B découlent des travaux de M. Gerzon, P. Fellgett, P.
Craven et G. Barton effectués dans les centres de recherche travaillant dans le cadre de la quadriphonie
dans les années 1970.

La méthode consiste à représenter le champ acoustique au point de référence (captation coïncidente)


comme une distribution angulaire de la pression sonore exprimée sur une base de fonctions périodiques
spatiales. Ces fonctions sont les harmoniques shériques en 3D ou harmoniques cylindriques en 2D.

Comme le principe holophonique, cette méthode ne tient pas compte de la présence de l’auditeur.

A la diffusion, le champ acoustique original est recréé par un ensemble de haut-parleurs régulièrement
espacés autour de l’auditeur (dôme de diffusion).

L’ambisonique permet de s’adapter à diverses configurations d’écoute (géométries et nombre de haut-


parleurs variables). C’est une méthode de reconstruction globale et périphonique (haut, bas, 360 °) où
tous les haut-parleurs participent ensemble à la localisation.

Le nombre de capteurs (et donc de pistes utilisées) est indépendant du nombre de haut-parleurs qui
constituent le système d’écoute.

A l’inverse de la quadriphonie, le standard 5.1 pose le problème d’une géométrie de diffusion


irrégulière et impose un paramétrage des décodeurs ambisoniques pour s’y adapter.

Ambisonique théorique

D’un point de vue formel, l’ambisonique repose sur le développement en série de Fourier - Bessel du
champ acoustique original en un point de l’espace. Cette décomposition est possible pour tout champ
acoustique d’ondes planes et s’exprime comme :

Où la fonction Jn est la fonction de Bessel de premier type et d’ordre n.


θ et φ sont respectivement l’azimut et l’élévation de la source sonore.

Il est à noter que tout champ acoustique complexe peut se décomposer en somme de champs acoustiques
d’ondes planes.

Le premier terme, est proportionnel à la pression du champ acoustique (microphone omnidirectionnel),


l’ordre un, aux composantes directionnelles de premier ordre (cos θ, sin θ, cos φ et sin φ) et donc au
gradient de la pression du champ acoustique (microphones bidirectionnels). Les termes d’ordre n aux
composantes directionnelles d’ordre supérieurs et donc à des microphones de directivités supérieures…

51
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Directivité des harmoniques sphériques

Les harmoniques sphériques et leur directivités jusqu’à l’ordre trois.

L’ordre fini du système à la prise de son (nombre fini de capteurs) limite la fidélité spatiale du système et
l’étendue de la zone d’écoute. Plus on fait appel à des harmoniques sphériques d’ordre élevé et meilleure
est la résolution spatiale

Les composantes directionnelles issues de la captation idéale sont nommées W, X, Y, Z, U, V…

Leur nombre dépend de l’ordre du système. Au-delà de l’ordre un, il est d’usage de parler de High Order
Ambisonics (HOA)…

Pour la restitution, le champ d’ondes planes est recomposé par un réseau de haut-parleurs régulièrement
espacés autour de l’auditeur. Le principe reste valable tant que le rayon du système de diffusion est
suffisamment grand pour considérer que le champ acoustique arrivant à l’auditeur est composé d’ondes
planes (au-delà de l’effet de proximité).

Gerzon établit pour une des premières fois dans l’histoire de l’audio que le nombre de microphone et
celui des haut-parleurs de restitution est indépendant. Le système brise la fausse évidence :

Deux oreilles = deux micros = deux haut-parleurs = auditeur content…

L’indépendance entre le format d’encodage et le dispositif de restitution constitue un avantage puissant de


cette approche puisque la position des haut-parleurs n’est pas imposée et qu’elle préserve une
compatibilité hiérarchique avec des dispositifs comportant un faible nombre de haut-parleurs.

Selon l’ordre de développement envisagé, la captation ambisonique nécessite des capteurs de directivités
d’ordre croissant de plus en plus nombreux, et la restitution optimale de plus en plus de haut-parleurs.
Plus l’ordre augmente, et plus la zone de reconstruction s’élargit autour du point idéal.

52
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le nombre minimal de composantes N est défini comme N = (2 m + 1) pour un système 360° (deux
dimensions), et N = (m + 1) pour une reproduction périphonique à trois dimensions ; m étant l’ordre de
2

développement du système.

Le cas d’ordre un horizontal ne nécessite donc que trois composantes, le périphonique quatre.

Ces recherches entamées dans les années 1970 ont entraîné le développement d’un microphone
ambisonique de premier ordre, dont l’un des modèles actuels est le Mark V, par la société anglaise
Soundfield. C’est un microphone à quatre capsules cardioïdes disposées sur une sphère centrée sur le
point idéal d’enregistrement (montage tétraédrique) et orientées dans toutes les directions de l’espace.

Depuis peu, la société danoise DPA propose aussi un capteur de format A.

Il est d’usage de parler pour les signaux sortant des microphones de format A.

Capsule Soundfield Capsule DPA

Pour obtenir le format d’exploitation (format B), il est nécessaire de matricer les signaux venant des
capsules orientées selon leur direction Left front, Left back, Right front et Right back en effectuant un
matriçage de type :

W= Lf+Lb+Rf+Rb composante omnidirectionnelle (énergie)

X= Lf+Rf-Lb-Rb composante directionnelle dirigée vers l’avant

Y= Lb+Lf-Rf-Rb composante directionnelle dirigée vers la gauche

Z= Lf-Lb+Rb+Rf composante directionnelle dirigée vers le haut

Il peut être aussi nécessaire de compenser la non-coïncidence parfaite des capteurs due à l’encombrement
des capsules microphoniques, ainsi que leurs courbes de réponse.

53
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Avant la conception de ces microphones spécialisés, il a été utilisé des montages de microphones
constitués d’une capsule omnidirectionnelle et de trois ou deux capsules bidirectionnelles, pour effectuer
des enregistrements selon cette méthode.

Montage tétraédrique expérimental de quatre microphones électrostatiques Calrec montés en tétraèdre.

Ci-dessous, le montage de captation en format B horizontal du Dr Jonathan Halliday pour l’éditeur


anglais Nimbus Records (système Nimbus - Halliday). Les disques étaient ensuite encodés au format
UHJ (composantes Σ, ∆, T, Q) matriçage compatible mono et stéréo développé par Gerzon.

Montage de type Nimbus-Halliday utilisant des microphones Schoeps (un MK2 et deux MK8) et
hiérarchies des formats UHJ selon le nombre de canaux désirés.

54
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Équations de matriçage du format B et de l’UHJ

Matrices d’encodage et de décodage UHJ (j correspond à un déphasage de + π/2).

Le format B est un format de post production permettant de nombreuses manipulations, rotation du


champ acoustique dans toutes les directions de l’espace, dominance frontale (zoom multicanal)…

Le décodage du format B est détaillé par Gerzon qui envisage des configurations de haut-parleurs très
variées en deux ou trois dimensions.

Il étudie deux générations de décodeurs de premier ordre, la première pour des systèmes de diffusion
réguliers (décodeurs polygonaux pré Vienna), la seconde pour des configurations irrégulières tels que les
5.1, 6.1, 7.1 (décodeurs post Vienna) en référence à la convention AES de Vienne en 1992.

Les signaux issus du format B sont décodés en fonction de la géométrie du dispositif de restitution.

Pour un même ordre d’enregistrement, plus on a de sources de diffusion à la restitution, et meilleur est le
résultat. L’augmentation du nombre de haut-parleurs lors du décodage permet de détacher les sources
localisées de la position réelle des haut-parleurs. J’emprunte ici la figure et l’explication que Jérôme
Daniel donne dans sa thèse.

Avantage de multiplier les haut-parleurs pour préserver l’illusion sonore, tout en gardant la même
résolution spatiale (ambisonique d’ordre un). En s’écartant du centre du dispositif, la multiplication des
haut-parleurs permet de dématérialiser la localisation perçue de la position réelle des sources. Cela
favorise la fusion perceptive des sources réelles et renforce l’illusion perceptive.

55
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

L’arrangement le plus simple est le décodage horizontal pour quatre haut-parleurs disposés en carré. Cela
revient à une sorte de décodage MS généralisé avec :

LeftFront = 2W + X + Y RightFront = 2W + X − Y

LeftBack = 2W − X + Y RightBack = 2W − X − Y

Historiquement, un gain de 3 dB est appliqué sur les composantes directionnelles lors de l’enregistrement.
Le micro omni captant statistiquement plus de niveau que les bidirectionnels, il a été décidé d’uniformiser
l’énergie moyenne des quatre capsules. Cela permet, de plus, de ne pas limiter la dynamique d’un canal
par rapport aux autres. Ce facteur a été adopté par les différents acteurs de l’évolution ambisonique et fait
partie intégrante du format B actuellement. Ce gain sera compensé lors du décodage.

Dave Malham de l’université de York propose un décodeur périphonique pour huit haut-parleurs
disposés aux sommets d’un cube sur le même principe :

LeftFrontUpper = W + X + Y + Z RightFrontUpper = W + X − Y + Z
LeftFrontLower = W + X + Y − Z RightFrontLower = W + X − Y − Z
LeftBackUpper = W − X + Y + Z RightBackUpper = W − X − Y + Z
LeftBackLower = W − X + Y − Z RightBackLower = W − X − Y − Z

Gerzon propose, aussi, de minimiser les erreurs inhérentes aux systèmes d’ordres restreints par des
compensations psychoacoustique. Un décodeur ambisonique se devra de respecter au mieux la théorie de
localisation de Makita (en dessous 700 Hz - fréquences pour lesquelles la tête d’un auditeur est
transparente acoustiquement) et la théorie dite énergétique (au dessus de 700 Hz quand elle ne l’est plus).
Il ne prend pas en compte les effets du pavillon de l’oreille au dessus de 5 kHz.

La théorie de Makita suppose que la direction perçue - pour une tête fixe ou mobile - est celle du vecteur
r
vélocité rv au centre du dispositif d’écoute (localisation par le gradient de pression du champ acoustique).

Par la théorie énergétique, Gerzon suppose que la direction perçue - pour une fixe tête ou mobile - est
r
celle du vecteur intensité re , pour les fréquences ou l’auditeur n’est plus transparent (localisation selon la
densité d’énergie).

Pour optimiser ces vecteurs, il propose de filtrer les composantes de format B selon leur registre avant de
les matricer et d’alimenter les haut-parleurs du système de diffusion (phase-matched shelving filters).

Par exemple pour un décodeur polygonal horizontal :

Shelfs Gains f<700 Hz f>700Hz

W 1 1.224

X, Y 1 0.865

Ces coefficients assurent d’autre part la conservation du niveau d’énergie entre les hautes et basses
fréquences, avec : 0.865 2 + 0.865 2 + 1.224 2 = 1 + 1 + 1
56
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Structure d’un décodeur ambisonique d’ordre un en deux sous bandes.

Pour compenser l’effet de proximité des haut-parleurs (condition d’onde plane non respectée), Gerzon
conseille un filtrage passe haut de premier ordre dont la fréquence de coupure est donnée par :

53
fc = , d étant la distance de l’auditeur en mètres.
d

Bien entendu, ce filtrage disparaît pour un d grand (environ 5m).

Des études plus récentes proposent aussi des décodeurs tenant compte de l’étendue de la zone d’écoute :

Différentes conditions d’écoute selon l’étendue des auditeurs.

57
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Décodeur polygonal d’ordre un intégrant le paramètre de l’étendue de la zone d’écoute.

Je reprends ici les dessins de Jérôme Daniel et la synthèse proposée par Jean-Marc Jot pour quatre
configurations de décodeurs polygonaux pour ce qui est des coefficients k (gain sur les composantes). Le
paramètre « size » est relatif à la taille de la zone d’écoute souhaitée :

Décodage par sous-bandes en fonction de l’étendue de la zone d’écoute. Les fréquences de transition
entre les solutions basiques (rv = 1) et max rE et entre max rE et in-phase sont notées f b-m et f m-i.
58
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Remarque :

Les approches proposées par Ville Pulkki, en 1997 avec le Vector Based Amplitude Panning (VBAP) et
par J-M. Pernaux en 1998 avec le Vector Based Intensity Panning (VBIP) convergent dans le sens des
théories proposées par Gerzon. Ces méthodes de panoramiques discrets généralisés reviennent à une
sorte de décodage ambisonique local. Les haut-parleurs les plus proches de la localisation désirée tentent
r r
de maximiser les vecteurs de localisation. Le VBAP tente de maximiser rv et le VBIP re .
La fréquence de séparation reste à 700 Hz.

La principale limitation de l’ambisonique en termes de performances est due à l’ordre du système (un
pour le microphone Soundfield) et explique en partie la nécessité de compléter le décodage par une
optimisation perceptive. De plus c’est un système ne reposant que sur les I, et qui ne tient pas compte
de la présence de l’auditeur (effets du pavillon au dessus de 5 kHz).

High Order Ambisonics

De nombreux travaux ont étudié la possibilité de synthétiser des ordres de directivité microphoniques
supérieurs à partir de réseaux de microphones pour obtenir plus de composantes d’ordre plus élevé
(microphones plus sélectifs). Gerzon propose dès 1972 un capteur périphonique de deuxième ordre en
utilisant un arrangement de douze capsules cardioïdes et hypercardioïdes qui restera un prototype…

Ordre du Système Composantes en 2D Composantes en 3D Nombre de capteurs 2D/3D


1 3 4 3/4
2 5 9 12
3 7 16 8/32
4 9 25 32
5 11 36 ?

Evidemment, pour les ordres supérieurs, le nombre de capteurs peut être différent du nombre de
composantes du format B dans la mesure où l’on peut être amené à combiner différentes capsules pour
obtenir la composante désirée.

59
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Différents microphones expérimentaux ou commercialisés, comportent actuellement plusieurs dizaines de


microphones permettant de réaliser des encodages d’ordre supérieurs (HOA).

Prototypes d’ordre 2 et 4 de microphones HOA équipés de 12 et 32 capsules DPA 4060 en dodécaèdre et


pentaki dodécaèdre. Sphère de 7 cm. Les microphones sont espacés d’une longueur d’arc de 3,875 cm à
gauche (fréquence de repliement spatial de 4400 Hz). A droite la configuration amène deux distances
différentes entre capteurs adjacents de 2,5 et 2,283 cm (soit deux fréquence de repliement spatial de 6700
et 7500 Hz). France Télécom -Orange Labs.

Ils adoptent tous les deux des configurations régulières ou quasi-régulières pour limiter les erreurs
d’orthonormalité sur les harmoniques sphériques.

C’est aussi le cas de l’Eigenmike proposé par la société américaine MHacoustics composé de 32 capsules
réparties autour d’une sphère pour une captation d’ordre 4.

60
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

D’autre part, les progrès du traitement numérique des signaux permettent actuellement à des développeurs
des proposer des systèmes HOA à partir d’autres géométries de capteurs comme le système proposé par la
société Trinnov Audio avec leur réseau horizontal de huit capteurs disposés en fer à cheval.

A l’heure actuelle, certains équipements audio (hardware ou software) sont capables de travailler au
format B à différents ordre. Pan pots pour intégration d’appoints, rotation du champ acoustique, zoom
dans une direction…

De leur coté, les décodeurs de format B se déclinent en différentes versions pour des haut-parleurs
disposés régulièrement autour de l’auditeur, carré, cubes, dômes, sphères (…) ainsi que pour les
configurations irrégulières à dominance frontale accompagnant une image telle que les formats 5.1, 7.1…

Certains sont implémentés (et exportables sous forme de modules Pluggo compatibles VST) dans les
librairies et patchs Max/MSP du module de spatialisation sonore (~spat) de l’IRCAM.

61
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

L’approche ambisonique reste relativement économique en termes de coût de calcul (panoramiques en


format B, décodeurs, effets divers…) même si le dispositif de diffusion final est composé d’un grand
nombre de haut-parleurs…

Le décodeur restant basiquement une opération linéaire (matrice de décodage) il se décline aussi à
différents ordres pour des géométries de haut-parleurs variés (surtout réguliers - dômes…).

Des travaux universitaires relativement récents (Nikol, Emmerit - 1998) ont démontré que la
décomposition du champ acoustique en série de Fourrier - Bessel peut être considéré comme un cas
particulier de WFS.

La théorie ambisonique est mathématiquement équivalente à celle de la WFS si :

- Le champ acoustique original est un champ d’ondes planes


- La distribution des sources secondaires est un réseau circulaire ou sphérique
- Toutes les sources secondaires sont assez loin de l’auditeur et peuvent être assimilées à des
sources d’onde planes

Cette démonstration, très rigoureuse, relativise quelque peu la réputation sulfureuse de la secte ésotérique
des utilisateurs de Soundfield bien que cette équivalence ne soit vérifiée que pour une infinité de
composantes…

Il reste que l’approche ambisonique se distingue fondamentalement du système WFS, par la façon dont le
champ reconstruit converge vers le champ original en fonction de l’ordre du système. Avec
l’ambisonique, la progression de la reconstruction s’exprime en termes d’expansion radiale à partir du
centre. Avec la WFS, la qualité de reconstruction reste au contraire homogène sur toute la zone de
restitution, et la progression se manifeste par l’élargissement de la bande de fréquence où la
reconstruction est correcte. La convergence asymptotique entre l’ambisonique et la WFS ne se rencontre
que si les sources sonores simulées par WFS sont placées sur le périmètre des haut-parleurs, lorsqu’elles sont
encodées comme ondes planes.

De nombreux chercheurs tentent donc actuellement de développer des approches croisées pour améliorer
les performances des systèmes de captation et de restitution spatialisés. Par exemple, l’introduction d’un
∆T, avec ou sans auditeur (écran acoustique, tête), entre deux capteurs ambisoniques d’ordre un dans le
binaural B format proposé par J-M. Jot qui mêle ambisonique, techniques binaurales et décodeurs
optimisé (deux points de captation séparés).

La parenté théorique de l’ambisonique et de la WFS ainsi que leur spécificité ouvre aussi la voie aux
méthodes hybrides de captation et de restitution holophoniques pour des applications d’extrême
immersion sonore comme le fait remarquer Olivier Warusfel de l’IRCAM…

62
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes reposant sur des principes binauraux et transauraux

Les systèmes binauraux sont basés sur l’utilisation d’une tête artificielle à la prise de son pour une
restitution par casque. Des traitements appropriés ont aussi été développés pour une écoute sur haut-
parleurs (filtrage transaural - élimination des trajets croisés).

Ces systèmes reposent sur un principe simple : il devrait être possible de recréer l’illusion acoustique
perçue par un auditeur lors d’une écoute naturelle, au moyen de capteurs omnidirectionnels placés à
la place de ses tympans lors de l’enregistrement, puis de lui restituer par casque.

Comme le résume très bien Jérôme Daniel dans sa thèse : « dans ce cas, les informations enregistrées
incluent de façon naturelle l’effet des diffractions et réflexions de chaque évènement acoustique par le
corps, la tête, et les oreilles de l’auditeur. Celui-ci dispose donc d’un ensemble riche et cohérent d’indices
de localisation qui lui sont familiers : il s’agit des différences interaurales de temps et d’intensité
(Interaural Time Differences et Interaural Level Differences) qui donnent lieu à une détection latérale des
événements sonores, mais aussi des indices spectraux qui complètent la localisation directionnelle dans le
plan médian et résolvent notamment les indéterminations avant-arrière et sur la position verticale.

La restitution binaurale est donc susceptible de donner lieu à une reconstitution subjective du paysage
sonore en trois dimensions, s’affranchissant des limitations propres aux techniques traditionnelles de
restitution sur haut-parleurs. »

Dispositif de prise de son et de restitution binaurale. Une tête artificielle est utilisée pour la prise de
son. Cette tête est construite pour imiter le comportement acoustique d’une tête d’auditeur statistique
(taille, écartement des oreilles, propriétés de diffraction du pavillon...). Les capteurs (micros) sont à la
place des tympans. Les fonctions EQ représentent les filtres de correction destinés à l’égalisation des
transducteurs, à la compensation des indices spectraux personnalisés (HRTF) et à la compensation de
l’effet de propagation dans le canal auditif.

63
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Tête artificielle Neumann Mannequin expérimental KEMAR

Synthèse binaurale :

Les procédés de synthèse binaurale offrent quant à eux la possibilité de produire le champ acoustique
binaural en fonction d’une composition arbitraire de l’environnement sonore virtuel. Ils se basent sur
l’utilisation des réponses impulsionnelles binaurales associées à la position d’une source par rapport à
l’auditeur dans l’espace virtuel. Un signal monophonique est convolué avec les réponses
impulsionnelles binaurales d’un auditeur dans une salle par exemple.

Dans cette illustration, les fonctions de transfert binaurales sont définies par les HRIR
(Head Related Impulse Responses)
64
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Des jeux assez complet de HRTF et HRIR ont été mesurés par Martin et Gardner sur le mannequin
KEMAR et est très largement utilisé par la communauté scientifique. Disposant des réponses
impulsionnelles, la réalisation la plus directe du filtrage binaural consiste en une opération de
convolution du signal monophonique avec chaque HRIR.

Le coût de calcul d’une convolution dans le domaine temporel étant rapidement rédhibitoire, il est
généralement fait appel à des algorithmes de convolution rapide qui consistent à effectuer la
transformation dans le domaine fréquentiel à l’aide de FFT.

Pour satisfaire les mécanismes de localisation dynamique, le système binaural doit pouvoir prendre en
compte les mouvements de la tête à l’aide d’un système de suivi de la tête (Head-Tracking) et adapter la
restitution des informations binaurales en conséquence (changement dynamique des filtres en temps réel).

Techniques transaurales

Originellement développés pour une écoute au casque (techniques binaurales), les traitements
transauraux permettent de diffuser ces enregistrements sur des haut-parleurs.

Dans les techniques transaurales, l’enregistrement par tête artificielle est traité de façon à annuler les
trajets croisés d’un dispositif de haut-parleurs (fonctions hd et hg). Cela permet d’élargir la restitution
stéréophonique au-delà des enceintes de diffusion... Le traitement peut être individualisé (taille de la
tête, HRTFs…)

L’analyse de la diaphonie acoustique produite dans le cadre d’un dispositif d’écoute stéréophonique à
donné lieu à de nombreuses discussions. Certains ont adopté des positions radicales comme celle
soutenue par Ralph Glascal avec son dispositif ambiophonique.

Il propose de changer le dispositif d’écoute stéréophonique (position et directivité des haut- parleurs, mur
acoustique…). Son approche analyse assez finement les mystères du système de reproduction
stéréophonique et propose des solutions originales (www.ambiophonics.org).

65
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Ces approches se heurtent à plusieurs difficultés :

- La très grande individualité et très grande finesse des HRTFs (localisation apprise). Environ 300
HRTFs par oreille (et se pose notamment le problème d’interpolation des HRTFs).

- Le suivi nécessaire des mouvements de la tête de l’auditeur qui, en écoute naturelle, permettent de
lever les indéterminations lorsque les indices spectraux ne sont pas suffisamment exploitables
(systèmes de Head Tracking).

- Une fois la production binaurale réalisée, elle ne permet pas une adaptation aux mouvements de
la tête d’un auditeur quelconque lors de la restitution (Head Tracker lors de l’enregistrement ?).

- Le coût de calcul pour le filtrage binaural ou transaural qui doit pouvoir être effectué en temps
réel (la convolution rapide par FFT n’est pas des plus performantes en terme de qualité).

- La faible zone optimale d’écoute en cas de traitements transauraux et la difficulté d’annulation


des trajets croisés.

En général, les techniques binaurales et transaurales sont plus utilisées dans des contextes d’écoute au
casque (jeu vidéo, simulations d’environnement sonores virtuels). Elles permettent, en effet,
d’externaliser la perception sonore en écoute au casque, et d’élargir de façon notoire l’image sonore au-
delà des enceintes de restitution en cas d’écoute stéréophonique conventionnelle.

Dans le cas d’une écoute au casque, la réintroduction de ces trajets croisés, est un des facteurs
d’externalisation de l’image sonore perçue.

On voit ici se détacher le concept des haut-parleurs virtuels qui consiste à simuler par filtrage binaural
l’effet de chaque haut-parleur considéré comme une source virtuelle disposée autour de l’auditeur (virtual
surround) dans le cadre de l’écoute au casque.

Une des applications du principe des hauts parleurs virtuels à été développée pour la simulation de
systèmes de monitoring professionnels par G. Theile dans son BRS (Binaural Room Scanning). Ce
système permet une écoute au casque simulant différentes configurations de haut-parleurs et acoustiques
de contrôle.

Les techniques binaurales et transaurales restent néanmoins très individualisées et s’adaptent mal à un
dispositif de diffusion pour de larges audiences. Leur différence essentielle avec les techniques de
reconstruction physique du champ acoustique est la prise en compte de la présence de l’auditeur et de sa
tête.

66
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Généralisation de l’approche encodeur / décodeur

Une approche intéressante des systèmes multicanaux peut être faite en considérant le système global
(enregistrement, post production, transmission et reproduction) selon le schéma encodeur - décodeur.

L’encodeur est capable de mettre au format choisi une source monophonique (encodeur électronique) ou
un paysage sonore (encodeur acoustique). Le mixage des différentes sources, ou la transmission d’un
mixage se font sous forme encodée.

Le décodeur (éventuellement optionnel) reçoit le signal multicanal encodé et permet de le diffuser sur une
certaine géométrie de haut-parleurs.

Schéma de principe d’un encodeur / décodeur audio 3D

Encodeur Mixage Décodeur


P canaux Transmission N canaux

Dans la partie encodeur, les fonctions h peuvent représenter des coefficients de panoramiques, ou plus
généralement, des filtres linéaires dépendant de la direction. Celles-ci peuvent imiter les caractéristiques
de directivité d’un réseau microphonique et incluent les retards en cas d’enregistrements non-coïncidents.

Le grand avantage de ce modèle est l’indépendance du format d’enregistrement et de la configuration de


diffusion. Un changement de système de diffusion ne revient qu’à une adaptation du décodeur.

Les encodeurs acoustiques peuvent prendre la forme d’un réseau de microphones dont on a choisi les
directivités, orientations et positions. Cette catégorie englobe les couples stéréophoniques, les
microphones de format B, les têtes artificielles…

Les encodeurs électroniques (ou pan pots) sont essentiellement des banques de filtres linéaires capable
de produire les composantes du signal multicanal choisi à partir d’une source monophonique. Dans le cas
idéal, ils devraient être capables de remplacer un encodeur acoustique…

En revanche il est parfois impossible de trouver un encodeur acoustique équivalent à un encodeur


électronique. Le cas du panoramique d’intensité classique en est un exemple.

67
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les techniques de panoramiques discrets, qui supposent la connaissance du système de diffusion avant
encodage (pas de décodeur), sont très mal adaptables à un changement de système de diffusion sans
produire de sévères dégradations de l’image sonore spatialisée.

Pour un système d’encodage donné, un décodeur optimal se doit de produire, dans la zone d’écoute, un
signal identique (en tout cas, le plus proche possible) à l’original dans le lieu d’enregistrement. Quand
celui-ci est trop loin de l’original, il peut être nécessaire d’effectuer des traitements pour tenter de s’en
rapprocher au plus près lors du décodage. On se réfère souvent à ces traitements en termes de principe de
ré-encodage dans le design des décodeurs.

Le design des décodeurs tente, de maximiser les indices de localisation (ITD, ILD, HRTF, vecteurs de
localisation…) et décomposent souvent leurs traitements en fonctions des différents mécanismes de
localisation de l’oreille.

Aux basses fréquences, en dessous de 700 Hz, quand la tête de l’auditeur est transparente, la connaissance
de la pression et de la vitesse particulaire au centre d’écoute est suffisante pour déterminer le champ
acoustique à chaque oreille. Dans ce registre, l’ITD est prépondérant et il est possible de garder le vecteur
vélocité à sa valeur optimale rv=1.

En dessus de 700 Hz, la connaissance des grandeurs acoustique au centre n’est plus suffisante pour
pouvoir déterminer le champ acoustique aux oreilles de l’auditeur. Le critère de localisation
prépondérants devient l’ILD et reposent sur des critères énergétiques statistiques (vecteur. re).

Au-delà de 5 kHz, les indices spectraux prennent la relève…

Selon le modèle encodeur-décodeur, l’encodeur acoustique pour les techniques binaurales et


transaurales devient une tête artificielle. Dans le cas de l’encodeur électronique, il doit prendre en
compte les HRTFs mesurées sur une tête artificielle ou sur un auditeur.

Une écoute au casque de devrait donc demander au décodage qu’une correction spectrale pour compenser
les défauts des transducteurs dans le cas idéal où la tête de prise de son et celle d’écoute sont la même…

Dans le cas ou ces deux têtes sont différentes, le décodeur devra prendre en compte les caractéristique
morphologiques du nouvel auditeur, ce qui n’est pas toujours simple…

Pour la synthèse binaurale, une méthode efficace est de séparer les indices de temps (retard indépendant
de la fréquence) et les indices spectraux par factorisation des HRTFs.

Synthèse binaurale à partir d’une source mono.

Il faut garder à l’esprit que ces méthodes demandent des ressources de calcul importantes. Par exemple,
un module d’encodage binaural tel que celui présenté ci-dessus requiert environ 5 MIPS (millions
d’instructions par seconde) pour une fréquence d’échantillonnage de 48 kHz. Cette puissance de calcul est
d’au moins dix fois supérieure à celles requises par l’ambisonique ou les techniques de panoramiques
discrets.
68
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Une des applications du principe de ré-encodage est celle du décodage transaural de formats binauraux.
Dans le cas d’une écoute sur deux haut-parleurs, le décodeur se résume à un circuit d’élimination des
trajets croisés.

Malgré les nombreuses études sur ce cas, il s’avère peu réaliste d’en attendre une reproduction
satisfaisante aux oreilles d’un auditeur au-delà de 2 kHz dans la mesure où cela demanderait une
précision de moins d’un centimètre sur la position de ses oreilles.

Seul le rajout d’un système de head tacking, avec les difficultés de changement et de calcul des filtres
personnalisés en temps réel qu’il suppose, peut permettre de contourner cette limitation. Evidemment, le
traitement supplémentaire se devrait de rester transparent pour l’auditeur et les solutions réalistes passent
par des méthodes d’interpolations des HRTFs…

Une optique pour tenter de minimiser la puissance du décodeur peut aussi être d’utiliser un encodeur
acoustique permettant de capter plus d’informations, par exemple d’enregistrer les caractéristiques du
champ acoustique original en plusieurs points (systèmes intégrant un T). Une fois de plus, le binaural B
format peut être un encodeur acoustique approprié…

On peut théoriquement considérer que si la précision de la captation augmente (ordre du capteur


ambisonique, enregistrement binaural en différents points…), il devient alors possible d’étendre la zone
de reproduction au-delà de la tête d’un auditeur placé au sweet pot.

L’ambisonique d’ordre supérieur (HOA) revient à échantillonner le champ acoustique original dans une
zone de plus en plus large autour du capteur quand son ordre augmente (lien avec la WFS) et permet aussi
d’étendre l’étendue de la zone d’écoute en basse fréquence. Les techniques binaurales, outre
l’individualisation nécessaire des HRTFs, semblent un compromis intéressant dès que l’auditeur n’est
plus transparent…

Malgré le coté très séduisant intellectuellement de ce modèle, il n’en demeure pas moins relativement
complexe. Les traitements nécessaires dépassant souvent les possibilités des praticiens. Différents
compromis et systèmes « pragmatiques » sont actuellement utilisés par les ingénieurs du son, qui peuvent
en panachant différents systèmes, obtenir les résultats qu’ils recherchent. De plus peu d’outils de studio
intègrent ces concepts actuellement.

Les ingénieurs du son, utilisent, comme à leur habitude une panoplie d’astuces plus ou moins orthodoxes
dans les productions réelles, combinant de multiples outils pour tenter de trouver des solutions
esthétiquement et techniquement satisfaisantes. La question de la pratique de mise en œuvre, de la
fiabilité, de la transparence des traitements utilisés ne doit pas non plus être sous estimée.

De plus, certaines économies de traitement, nécessaires dans un environnement de production réel


peuvent minimiser à l’écoute la pertinence des principes utilisés. L’exemple des systèmes à convolution
temporelle qui se traduisent, pour des raisons économiques et de temps réel, par un traitement fréquentiel
(FFT, multiplication, puis FFT inverse) finissent parfois par être difficilement utilisable dans certaines
situations.

L’évolution technologique devrait prochainement permettre un traitement temporel de grande qualité des
informations sonore sans avoir recours aux compromis de calcul actuels.

Nous allons parcourir dans les pages suivantes certains systèmes mis en œuvre par les praticiens et étudier
leurs caractéristiques.

69
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

70
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes utilisant un double MS

La sphère KFM 360 de J. Buck, un double système transaural avant arrière

Ce système est constitué d’un écran acoustique sphérique de 18 cm de diamètre contenant deux capteurs
omnidirectionnels entouré de deux capsules bidirectionnelles orientées vers l’avant. C’est un double MS
avec écran. Il dérive de la sphère Schoeps KFM 6 utilisée en stéréophonie.

71
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le système utilise un dématriceur permettant de modifier le décodage en post production. Il permet aussi
de créer un canal central et l’ajout de retards arrière. Les décodages MS avant et arrière peuvent être
différents.

La localisation latérale repose sur des indices en I alors que la localisation avant arrière repose sur une
combinaison de T et de I dû à la diffraction sur la sphère.

Le format B binaural proposé par J.-M. Jot

Ce principe, repose sur l’utilisation de deux microphones de type Soundfield (introduction de T dans un
double système I) séparés ou non par un écran de diffraction.

Capteur Décodeur pour quatre haut-parleurs

Synthèse binaurale en binaural B format et décodeur pour une écoute au casque

72
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Un système original, le Holophone…

Selon le modèle, 6 (H3D pour le 5.1) ou 8 (H2 Pro pour le 7.1) capteurs omnidirectionnels sont encastrés
dans un profil elliptique de 19 cm sur 15 tentant d’imiter les caractéristiques acoustiques d’une tête
humaine...

Selon ses concepteurs, le système ne requiert pas de décodage particulier pour la diffusion. Chaque
microphone est routé vers son canal…

73
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Double MS sans écran

En utilisant trois microphones, il est possible de créer deux couples MS tête bêche partageant la capsule
bidirectionnelle. Les microphones M peuvent être cardioïdes ou hypercardioïdes. Un double décodage
permet ensuite de diffuser le signal enregistré sur un système 5.0 ou 6.0…

Ici, le micro M avant est remplacé par un micro canon…

74
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes dérivés du triangle DECCA

Utilisé par la société DECCA dans à partir de 1954, le triangle se compose de trois microphones à larges
membranes assez largement espacés (les ingénieurs du son de Decca sont passés des M49 aux KM56
puis aux M50 Neumann). Actuellement, le une tendance pour les TLM 50 se dessine assez fréquemment
dans les environnements de production assez riches pour cela…

Ce système de prise de son pensé pour la stéréophonie repose sur l’utilisation d’un couple de
microphones omnidirectionnels largement espacés pour couvrir de larges ensembles orchestraux,
complété par un microphone central pour combler le trou au centre.

La taille des microphones utilisés permet de considérer que ce système principalement T utilise aussi
assez rapidement le I. De plus la disposition du microphone central légèrement plus proche des sources
que ceux de la base du triangle introduit une légère avance du micro central, et permet d’en attendre une
certaine stabilité de l’image stéréophonique reproduite (effet de précédence au centre).

75
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le système à ensuite été décliné de différentes façons. Le I tente une percée par le remplacement du
microphone central par un couple MS pour la reproduction stéréo, un microphone Soundfield, des ailes
arrière, ou un système spatialisant indépendant sont aussi souvent utilisés pour la version multicanale…

76
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

D’autres ingénieurs du son étendent ce principe à des quintuplés microphoniques omnidirectionnels.

C’est le cas du système de Jean-Marc Lyzwa, qui utilise cinq capsules DPA (4041, 4003 ou 4006) en
tentant d’optimiser le recouvrement des différents couples, constitués par les microphones pris deux à
deux, par la distance entre les capsules et l’orientation de celles-ci. Chaque microphone est ensuite routé
vers un haut-parleur. Ce système peut être complété par des appoints mono ou stéréo dirigés par des
panoramiques discrets.

Cinq microphones DPA omnidirectionnels.

77
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Quintuplé microphonique de J.M. Lyzwa en situation au CNSMDP (microphones DPA 4041).

78
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes reposants sur la notion d’angle de prise de son

Les systèmes Optimised Cardioïd Triangle (OCT) et leurs dérivés

Le concept à été proposé par G. Theile et H. Wittek de l’IRT (Institut für RundfunkTechnik). C’est un
système d’enregistrement des canaux frontaux pour le multicanal 5.1. Le but recherché, ici, est une
localisation frontale optimale en tentant de réduire la diaphonie acoustique existant entre les images
fantômes multiples…

Il est ensuite complété par un système de captation arrière dans sa version OCT Surround.

Le principe OCT considère que les trois microphones constituent deux couples stéréophoniques adjacents
G/C et C/D.

C
L h R
b
Les microphones G et D sont hypercardioïdes, le microphone C, central est cardioïde.

Avec le placement du microphone central décalé de 8 cm vers l’avant (h = 8cm pour le système OCT1),
on obtient les angles de prise de son suivants en fonction de l’écartement des hypercardioïdes :

b = 40 cm : 160° b = 50 cm : 140°
b = 60 cm : 120° b = 70 cm : 110°
b = 80 cm : 100° b = 90 cm : 90°

79
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

On trouve sur www.hauptmikrofon.de l’application Java « Image Assistant » qui permet de simuler les
propriétés de localisation de divers systèmes de prise de son dont l’OCT (angle de prise de son en
fonction des distances entre les microphones et de leur orientation).

80
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Une variante se rapprochant du triangle DECCA (dite OCT2) propose de décaler le microphone central
de 40 cm afin d’introduire un retard de 1 ms entre les microphones.

Les versions OCT Surround

81
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes spatialisants annexes à un système de captation frontal

La croix de l’IRT

La croix microphonique IRT n'est pas un microphone surround principal mais une configuration de
microphones pour la prise de son d'ambiance complétant un système de captation frontal.

Elle est constituée de quatre microphones cardioïdes disposés en carré.

Le carré de Kimio Hamasaki de la NHK

Le carré Hamasaki est aussi un système d’appoint de captation d’ambiances.

Il est constitué de quatre microphones bidirectionnels, placés dans la salle, ne pointant pas vers la scène
frontale pour éviter la captation de son direct.

82
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

83
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les systèmes INA-5 (Ideale Nieren-Anordnung - Arrangement idéal de cardioïdes)

Les systèmes INA-3 et INA-5 sont des extensions du principe OCT. Ils reposent sur l’utilisation de
quintuplés microphoniques dont on peut choisir les directivités (en général cardioïdes). Les cinq
microphones sont souvent considérés comme formant trois couples stéréophoniques (G/C, C/D, AG/AD)
ou cinq selon la configuration (G/C, C/D, D/AD, AD/AG, AG/G).

Une des réalisations commerciales est le système ASM-5 (Adjustable Surround Microphone). Un
ensemble de 5 microphones de type VM 1 proposé par la société Brauner, dont le module ATMOS 5.1
propose, entre autre, le contrôle des directivités (microphones à double membrane).

25 cm 25 cm

L 35 cm R

53 cm 53 cm

LS 60 cm RS

Exemple du système ASM 5 Brauner.

84
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le Multichannel Microphone Array (MMA) de M. Williams et G. Le Dû

Ce système, constitué généralement de cinq capsules cardioïdes, repose aussi sur la théorie des angles de
prise de son entre cinq couples adjacents.

Sa géométrie peut varier selon les angles de prise de son désirés.

Le concept de critical linking permet de raccorder parfaitement les couvertures frontales, latérales, et
arrières.

Le Wide Cardioid Surround Array (WCSA) de Mikkel Nymand (DPA Microphones)

Une autre variante d’un quintuplet de microphones cardioïdes. Les configurations recommandées sont :

G-C : 60-75 cm D-C : 60-75 cm C-GD : 20 cm


Avant - Arrière : 150-200 cm AG-AD : 120-150 cm

85
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

86
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Comparatif de certains de ces différents systèmes


(Etude de l’ORF - Osterreichischer RundFunk - 2001)

87
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Mean Values - both musical examples

A: Stereo + C
+NHK
4
Decca - Tree

OCT + NHK
Judgement scale

Brauner/ INA 5

3
KFM

OCT Surround

Soundfield

1
0 1 2 3 4 5 6 7 8 9

Number of question (see questionary)

88
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Annexes - Nouveaux supports

HD DVD et Blu-Ray Disc

Les performances actuelles du DVD Vidéo (débit et capacité) étant insuffisantes pour le passage à la
télévision haute définition (TVHD), la bataille règne actuellement entre ses deux éventuels successeurs le
DVD haute définition (HD-DVD) mené par Toshiba, Microsoft et Intel et le DVD dit « Blu-ray Disc»
(BD) soutenu par Sony, Apple, Dell, Hitachi, LG Electronics, Matsushita-Panasonic, Pioneer, Philips,
Samsung, Sharp, TDK et Thomson.

Il est bien sur possible de lire les anciens DVD vidéos sur tous les lecteurs, et bien sur impossible de lire
un DVD Blu-ray sur une platine HD DVD et vice versa. Certains constructeurs proposent tout de même
des lecteurs hybrides…

Les éditeurs de films et les studios cinématographiques prennent part à la bataille en se ralliant à l’un ou à
l’autre. Fin 2007, le catalogue Blu-ray comportait 247 titres contre 180 pour le HD-DVD. Les studios
Warner Bros (seconde major sur le secteur des films avec une part de marché de 14%) vient de rejoindre
le camp du Blu-ray. Une adhésion qui pourrait entraîner selon certains celle des studios Paramount…

En attendant, les consoles de jeux viennent bouleverser la donne. La PlayStation (PS3) de Sony est
équipée d’un lecteur de disques Blu-ray alors qu’un lecteur HD-DVD n’est qu’en option pour la Xbox
360 de Microsoft…

Du point de vue des caractéristiques techniques, le Blu-ray supplante son rival en termes de capacité de
stockage 25 Go par couche contre 15 Go pour le HD-DVD. Hitachi envisage même la possibilité
technique de fabriquer des disques Blu-ray de 4 ou 8 couches par face (soient 100 ou 200 Go de capacité
de stockage). De son coté Toshiba propose un HD-DVD triple couche d’environ 50 Go…

Le format Blu-ray existe aussi pour des disques de 8 cm simple couche simple face. Ils ont une capacité
de 15 Go et sont prévus pour les équipements portables…

Pour ce qui est des débits, le Blu-ray et le HD-DVD se tiennent dans un mouchoir de poche autour de 36
Mbps (BD et HD-DVD 1x). Néanmoins, le consortium Blu-ray envisage un débit de lecture de base à 1,5
fois ce débit et le passage à 2 fois soient 54 Mbps et 72 Mbps...

Reste tout de même que le HD-DVD est plus économique dans la mesure où il peut utiliser les mêmes
chaînes de fabrication que le DVD Vidéo.

Le format BD-ROM (UDF v2.5) spécifie 3 codecs pour la vidéo, le H.264 / MPEG4 Advanced Video
Coding High Profile, le VC-1 basé sur le Windows Media 9 de Microsoft et le MPEG-2 codec principal
du DVD Vidéo mais dans sa version haute définition.

Les disques BD-R et BD-RE (inscriptibles et réinscriptibles), eux ne supportent que le standard MPEG-2
HD car c’est celui utilisé par la diffusion numérique en TVHD.

Les deux formats acceptent la pleine définition HD (full HD), à savoir 1920 x 1080 pixels en 16/9. Le
balayage peut être progressif (p pour progressive) ou entrelacé (i pour interlaced).

89
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les formats d’image en haute définition

Résolution Aspect Format Description


*
1024×768 16:9 720p/XGA Utilisé par les écrans PDP à pixels non carrés
1280×720 16:9 720p/WXGA Utilisé par les écrans DLP, LCD et les projecteurs vidéo LCOS
1366×768 16:9 720p/WXGA Utilisé par les écrans LCD et PDP (HD Ready 720p,1080i)
1024×1080 16:9 * 1080p/i Utilisé par les écrans PDP (Full HD, HD Ready 1080p)
*
1280×1080 16:9 1080p/i Utilisé par les écrans PDP (Full HD, HD Ready 1080p)
1920×1080 16:9 1080p/i Utilisé par toutes les technologies (Full HD, HD Ready 1080p)
3840x2160 16:9 2160p/i Quad HDTV, (pas encore de format HD Ready 2160p)

* : format à pixels rectangulaires.


PDP : Plasma DisPlay
DLP : Digital Light Processing
LCD : Liquid Crystal Display
LCOS : Liquid Crystal on Silicon

Le format DVD vidéo à une résolution de 720 x 576 à 50 Hz en PAL et de 720 x 480 à 60 Hz en NTSC
que ce soit en 4/3 ou en 16/9. Il propose donc un 16/9 anamorphosé dont la résolution est identique à celle
du 4/3.

Les interfaces vidéonumériques respectant la norme haute définition sont le DVI (Digital Video Interface)
dont la longueur de connexion est limitée à environ 2m, et le HDMI (High definition Multimedia
Interface) qui permet de transporter audio et vidéo numérique sur environ 15m.

Le HDMI à une bande passante de 10,2 Gbps.


Les formats audio associés
90
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Les méthodes d'encodage du flux audio incluent le PCM linéaire, le Dolby Digital, et le DTS dans leurs
derniers développements.

Dolby Digital (DD) : format utilisé pour le DVD Vidéo, version 5.1.
DTS Digital Surround : format utilisé pour le DVD Vidéo, version 5.1.

Dolby Digital Plus (DD+) : extension du Dolby Digital, 7.1 canaux possibles.
DTS-HD High Resolution Audio : extension du DTS, 7.1 canaux possibles.

Dolby TrueHD : codage sans pertes jusqu’à 8 canaux.


DTS-HD Master Audio : codage sans pertes jusqu’à 8 canaux.
PCM linéaire (LPCM) : jusqu’à 8 canaux.

Dolby Digital Plus (DD+)

Le Dolby Digital Plus (ou E-AC-3 pour Enhanced Audio Coding 3) est une évolution du Dolby Digital
pour les formats de la TVHD. C’est un codec à pertes.

Débits : de 0,032 à 6,144 Mbps


Nombre de canaux : jusqu’à 13.1
Fréquences d’échantillonnage : 32, 44,1, 48, 96 KHz
Résolution : jusqu’en 24 bits

Le transfert d’un flux DD+ peut être effectué par une connexion HDMI 1.3.

DTS-HD High Resolution Audio

Le DTS-HD High Resolution Audio est une extension du format DTS. Il est prévu comme une
alternative au DTS-HD Master Audio dans le cas ou un disque manquerait de place. C’est un codec à
pertes.

Débits : jusqu’à 6 Mbps


Nombre de canaux : jusqu’à 7.1
Fréquences d’échantillonnage : jusqu’à 96 KHz
Résolution : jusqu’en 24 bits

Le transfert d’un flux DTS-HD High Resolution Audio peut être effectué par une connexion HDMI 1.3.

Dolby True HD

Le Dolby True HD est un algorithme de compression sans perte utilisant le MLP (Meridian Losseless
packing). Il intègre aussi des données de contrôle (metadatas).

Débits : jusqu’à 18 Mbps


Nombre de canaux : jusqu’à 14
Fréquences d’échantillonnage : jusqu’à 192 KHz
Résolution : jusqu’en 24 bits

Le transfert d’un flux Dolby True HD peut être effectué par une connexion HDMI 1.3.
DTS-HD Master Audio

91
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Le DTS-HD Master Audio est un algorithme de compression sans perte. C’est un format optionnel pour
les formats Blu-ray et HD-DVD. Dans ce format, le flux DTS conventionnel est complété par un flux
additionnel codant les différences entre l’original et la compression à pertes effectuée par le codage DTS.
Ce flux résiduel est ensuite encodé sans pertes.

Débits : jusqu’à 24,5 Mbps pour le Blu-ray, et 18 Mbps pour le HD-DVD


Nombre de canaux : pas de limites théoriques
Fréquences d’échantillonnage : jusqu’à 192 KHz en stéréo, 96 KHz jusqu’en 8 pistes
Résolution : jusqu’en 24 bits

Le transfert d’un flux DTS-HD Master Audio peut être effectué par une connexion HDMI 1.3.

HD DVD Blu-Ray
Codec
Décodeur Canaux Débit max Décodeur Canaux Débit max
AC-3 obligatoire 1 à 5.1 504 kbps obligatoire 1 à 5.1 640 kbps
DTS optionnel 1 à 7.1 1,5 Mbps optionnel 1 à 7.1 1,5 Mbps
DD+ obligatoire 1 à 7.1 3 Mbps optionnel 1 à 7.1 4.7 Mbps
DTS-HD optionnel 1 à 7.1 3 Mbps optionnel 1 à 7.1 6 Mbps
obligatoire 1à2 18 Mbps 18 Mbps
Dolby TrueHD optionnel 1 à 8
optionnel 3à8 18 Mbps
DTS- HD MA optionnel 1à8 18 Mbps optionnel 1 à 8 24,5 Mbps

92
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Tableau de comparaison des medias haute définition. Le format DVD est inclut pour la comparaison.
Les codecs obligatoires doivent être décodés par le lecteur. Chaque disque doit utiliser un ou plusieurs codecs obligatoires.

Paramètres Blu-Ray Disc HD DVD DVD


Longueur d’onde du Laser 405 nm (bleu –violet) 650 nm (laser rouge)
Ouverture numérique (NA) 0.85 0.65 0.6
Capacité de stockage Par couche 25 Go 15 Go 4.7 Go
(simple face) maximum 50 Go / 200 Go (8 couches) 30 Go / 50 Go (3 couches) 8.5 Go
Codecs vidéo obligatoires H.264/MPEG-4 AVC / VC-1 / MPEG-2 MPEG-1 / MPEG-2
Dolby Digital Obligatoire @ 640 Kbps Obligatoire @ 504 Kbps Obligatoire @ 448 Kbps
DTS Obligatoire @ 1.5 Mbps Optionnel @ 1.5 Mbps
Perceptifs [c]
Dolby Digital Plus Optionnel @ 4.7 Mbps Obligatoire @ 3.0 Mbps N/A
Codecs Audio DTS-HD Haute Résolution Optionnel @ 6.0 Mbps Optionnel @ 3.0 Mbps N/A
PCM Linéaire Obligatoire
Sans pertes Dolby True HD Optionnel@18 Mbps max Obligatoire@18 Mbps max [a] N/A
DTS-HD Master Audio Optionnel@24,5 Mbps Optionnel@18 Mbps N/A
Débit de base 53.95 Mbps 36.55 Mbps 11.08 Mbps
Débit
maximum Audio + Vidéo + Sous-titres 48.0 Mbps 30.24 Mbps 10.08 Mbps
Vidéo 40.0 Mbps 29.4 Mbps 9.8 Mbps
[b]
Décodeur vidéo secondaire (PiP - Picture in Picture) Obligatoire pour les lecteurs « Bonus View » Obligatoire N/A
Décodeur audio secondaire Obligatoire pour les lecteurs « Bonus View [b] » Obligatoire N/A
Interactivité BDMV et Java pour disque Blu-ray (BD-J) Standard Content et Advanced Content Rudimentaire DVD Vidéo
Support Internet Optionnel (lecteurs BD-Live seulement) Obligatoire N/A
720x576 (PAL)
Résolution Vidéo (maximum) 1920×1080
720×480 (NTSC)
Nombre d’images par seconde 24/25p, 50/60i 24/25/30p, 50/60i 50/60i [d]
Digital Rights Management AACS - 128bit / BD+ / ROM-Mark * AACS -128bit CSS 40-bit
Codes Régionaux 3 Régions Pas de code régional 6 Régions
93
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012

Protection mécanique des disques Obligatoire Optionnel

* AACS (Advanced Access Content System), BD+ et ROM Mark sont trois procédés de protection des disques.

[a] : Tous les lecteurs HD-DVD doivent décoder les deux premiers canaux (droite et gauche) d’une piste encodée en Dolby TrueHD, néanmoins tous les
lecteurs HD-DVD réalisés pour le moment décodent les 5.1 premiers canaux du Dolby TrueHD.

[b] : Le premier novembre 2007, des décodeurs vidéo et audio secondaires sont devenus obligatoires pour les nouveaux lecteurs Blu-ray Disc quand la
recommandation « Bonus View »à été intégrée au standard. Néanmoins, les lecteurs introduits sur le marché avant cette date peuvent continuer à être vendus
sans « Bonus View ».

[c] : Il y a quelques différences d’implémentations du Dolby Digital Plus (DD+) entre les deux formats. Sur un disque Blu-ray, le DD+ peut seulement être
utilise comme extension d’un flux DD 5.1. Selon cette méthode, un débit de 640 Kbps est alloué au flux primaire DD 5.1 (lisible par un lecteur qui ne
supporte pas le DD+), et jusqu’à 1 Mbps peut être alloué à l’extension DD+. L’extension DD+ est utilisée pour remplacer les canaux arrière du flux DD avec
des versions de plus haute fidélité et la possibilité d’utilisation de canaux additionnels pour le 6.1 et le 7.1. Sur un disque HD-DVD, le DD+ est utilisé pour
encoder tous les canaux audio (jusqu’à 7.1), et l’utilisation de DD n’est pas utile car tous les lecteurs sont capable de décoder le format DD+.

[d] : Sur les DVDs NTSC, les contenus en 24 images par seconde sont transformés en 60 trames entrelacée par utilisation du procédé dit « 3:2 pulldown »,
qui s’il est effectué correctement peut être inversé pour retrouver la cadence originale de 24 images par seconde.

94
Codes régionaux

Code régional Pays


Amérique du nord, centrale et du sud, Japon, Taiwan, Corée du Nord et du sud,
A
Hong Kong et Asie du sud est.
Europe, Groenland, Territoires Français, Moyen orient, Afrique, Australie et
B
Nouvelle Zélande.
C Inde, Bengladesh, Népal, Chine, Pakistan, Russie, Asie centrale et du sud.

Profils des lecteurs Blu-Ray

La spécification BD-ROM définit quatre profils de lecteurs Blu-ray. En plus des trois profils spécifiés ci-
dessous, un profil BD-Audio est envisagé, ne requérant pas de décodage vidéo ni de navigation Java (BD-
J). Tous les lecteurs vidéo, en revanche, doivent implémenter la spécification BD-J, mais peuvent avoir
différentes configurations matérielles.

Matériel BD-Vidéo (Profil 1.0) Bonus View (Profil 1.1) BD-Live (Profil 2)
Mémoire persistante intégrée 64 Ko 64 Ko 64 Ko
Capacité de stockage intégrée [a] – 256 Mo 1 Go
Décodeur vidéo secondaire (PiP) Optionnel Obligatoire Obligatoire
[b]
Décodeur audio secondaire Optionnel Obligatoire Obligatoire
Virtual file system Optionnel Obligatoire Obligatoire
Support Internet Non Non Obligatoire

[a] : le stockage peut être intégré dans le lecteur ou être sous forme de mémoire amovible (carte mémoire
ou mémoire USB...)
[b] : Un décodeur audio secondaire est typiquement utilisé pour l’audio interactif et les commentaires.

Le premier novembre 2007, le profil 1.0 à cède sa place au format "Bonus View". A l’exception de la
PlayStation 3, les lecteurs de profil 1.0 ne peuvent pas être upgradés au format "Bonus View".
Le 17 décembre 2007, la PlayStation 3 est devenue compatible au format "Bonus View" 1.1 à travers sa
version système 2.10.

Un lecteur de profil 1.0 est tout de même capable de lire les informations principales d’un disque "Bonus
View".
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

96
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

DVD Vidéo : formats et débits

Débit utile maximum : 9,8 Mbits/s

9 flux vidéo, 8 flux audio, 32 sous-titres


En multi-angles, débit max. entre 6,8 et 7,8 Mbps selon le nombre d’angles
Sous-titres : 0,052 - 0,064 Mbps / (codage bitmap)

Encodage vidéo MPEG 1/2 (CBR/VBR)

Encodage Audio (PCM, MPEG 1/2, AC3, DTS, SDDS)

Capacités : 4,70 Go (simple face, simple couche)


8,54 Go (simple face, double couche)
9,40 Go (double face, simple couche)
(17,08 Go (double face, double couche))

Support de pré-mastering : bande informatique DLT (Digital Linear Tape)


Format : Disc Description Protocol 2.0 (DDP)

Audio Seul PCM Dolby AC3 MPEG 1 MPEG 2 DTS (opt) SDDS (opt)

Fréquence 48 / 96 kHz 48 kHz 48 kHz 48 kHz 48 kHz 48 kHz

Résolution 16 / 20 / 24 Compressé Compressé Compressé Compressé Compressé

Débit max. 6,144 Mbps 448 kbps 384 kbps 912 kbps 1536 kbps 1280 kbps

Nbre de pistes 8 max. 5.1 max. 2 max. 7.1 max. 5.1 max. 7.1 max.

97
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

DVD Vidéo : débits audio

Audio seul Min. Max. Moyen Nombre de Durée mono


Mbps Mbps Mbps pistes (4,7 Go)

PCM 16/44,1 Mono / Stéréo 0,7056 / 1,4112 Hors norme Hors norme

PCM 16/48 Mono / Stéréo 6,144 0,768 / 1,536 8 13h35min

PCM 20/48 Mono / Stéréo 6,144 0,960 / 1,920 6 10h52min

PCM 24/48 Mono / Stéréo 6,144 1,152 / 2,304 5 9h03min

PCM 16/96 Mono / Stéréo 6,144 1,536 / 3,072 4 6h47min

PCM 20/96 Mono / Stéréo 6,144 1,920 / 3,840 3 5h26min

PCM 24/96 Mono / Stéréo 6,144 2,304 / 4,608 2 4h31min

AC3 Stéréo / 48 kHz 0,064 0,448 0,192 2 54h23min

AC3 5.1 / 48 kHz 0,064 0,448 0,384 5.1 27h11min

MPEG 1 Mono / 48 kHz 0,064 0,192 0,192 1 54h23min

MPEG 1 Stéréo / 48 kHz 0,064 0,384 0,384 2 27h11min

MPEG 2 Main Stéréo + Ext. 0,384 +


0,064 0,912 7.1 11h27min
Streams / 48 kHz 0,528 = 0,912

DTS 1,536 5.1 6h47min

SDDS 1,280 7.1 8h09min

Remarque :

Pour le DVD, les capacités sont données en puissances de 10. 4,7 Go est donc équivalent à :
4,7 x 109 x 8 bits. La capacité informatique équivalente (qui raisonne en 210 = 1024) est de :
4,38 / 7,96 / 8,75 et 15,91 Go pour les quatre formats de DVD vidéo.

98
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

Super Audio CD (SACD)

Sony et Philips proposent un autre format concurrent au DVD Audio, le Super Audio CD (SACD).

Le Super Audio CD est un format multicouche englobant une couche CD DA compatible Red Book et
une couche haute densité encodée en Direct Stream Digital (DSD). Le DSD est une appellation
commerciale désignant une modulation sigma delta conventionnelle. Un disque double couche est
communément appelé un SACD Hybride.

Le SACD utilise un flux one bit à 2,8224 Mbps (64 x 44,1 kHz). Les caractéristiques annoncées sont de
plus de 120 dB de dynamique et plus de 100 kHz de bande passante. La couche haute densité peut se
composer d’une zone stéréo et d’une zone multicanale.

La couche haute densité utilise un algorithme de compression sans perte élaboré par les laboratoires
Philips : le DST (Direct Stream Transfer). Il permet un gain variable de 40 à 60 % selon les données.

Il est possible de mettre simultanément 74 mn d’audio stéréo haute résolution et 74 mn de 5.1 sur la
couche haute densité.

La couche haute densité est analogue à celle d’un DVD bien que le format des données soit différent. Le
support de pré-mastering adopté est l’AIT.

La structure logique du SACD est une extension de celle d’un CD DA. Une Master TOC adressera une
TOC stéréo et une TOC multicanale. Les flux annexes (texte, codes ISRC…) seront ajoutés dans une zone
dédiée du disque de la même façon que sur un CD Extra. Il est possible de mettre 8 flux de texte.

Le SACD englobe une série de protection contre la copie illégale : encryption des TOCs, SACD Mark,
Watermarking…

Remarque : 64 x 44100 > 24 x 96000

Pour ce qui est de la compatibilité DVD Audio / SACD, Sony et Philips annoncent que leurs lecteurs
SACD liront les DVD Audio. Les lecteurs de DVD Audio ont donc tout intérêt à lire les SACD…

Ce format semble actuellement avoir remporté la guerre commerciale sur le DVD Audio.

99
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

100
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

DVD Audio

La norme DVD Audio différencie deux types de disques : Les DVD Audio et les DVD AudioV. Dans le
cas du DVD AudioV, les éléments vidéo sont de même nature que ceux du DVD Vidéo avec quelques
restrictions (pas de contrôle parental, de codage régional, ni de multi-angle).

La norme DVD Audio inclut deux familles de fréquences d’échantillonnage : 44,1 / 88,2 / 176,4 kHz et
48 / 96 / 192 kHz aux résolutions de 16, 20, ou 24 bits. Il est permis d’utiliser 6 pistes par flux sauf dans
le cas des hautes résolutions (176,4 et 192 kHz) où le nombre de canaux est limité à deux. Quasiment tout
le débit disponible peut être utilisé par les flux audio (9,6 Mbps au lieu de 6,144 Mbps pour les flux son
en DVD Vidéo).

Il est possible de séparer les canaux en deux groupes, par exemple pour donner des caractéristiques
différentes aux canaux frontaux et arrière comme suit :

Groupe 1 (frontaux) Groupe 2 (arrière)

Nombre de 1–4 0-3


canaux

44.1 44.1
48 48
Fréquence
88.2 88.2 ou 44.1
d’échantillonnage
96 96 ou 48
(kHz)
176.4 (2 canaux max) X
192 (2 canaux max) X
16 16
Résolution (bits) 20 16 ou 20
24 16, 20 ou 24

Le DVD audio intègre, de plus, la Losseless Compression (MLP) de Peter Craven et Michael Gerzon
implantée par la société anglaise Meridian Audio. Celle-ci permet un gain moyen d’environ 50 % par
rapport au flux linéaire. Un flux PCM linéaire ou Losslessly compressed est obligatoire. Un deuxième
flux est possible sous forme compressée (Dolby Digital, DTS…).

Le DSD4 est envisagé comme option.

Pour assurer la compatibilité stéréo, le standard inclut jusqu’à 16 matrices 6 x 2 (une maximum par titre).
Les coefficients de gain sont codés sur 8 bits ; la phase sur un. Le système de downmixing est appelé
SMART (System Managed Audio Resource Technique).

Enfin, le standard intègre l’utilisation de menus (images fixes encodées en MPEG 2), 8 flux de
subpictures pour le texte, et des possibilités d’accès internet (liens URL). Les menus sont stockés en
RAM par le lecteur pour ne pas interrompre la lecture audio.

4
Direct Stream Digital : modulation sigma delta (1 bit, 2,8224 MHz)
101
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

Min. Max. Moyen / Max. Nombre Durée mono


Audio seul
Mbps Mbps Mbps de pistes (4,7 Go)

PCM 16/44,1 Mono / Stéréo 9,6 0,7056 / 1,4112 6 14h48min

PCM 20/44,1 Mono / Stéréo 9,6 0,8820 / 1,7640 6 11h50min

PCM 24/44,1 Mono / Stéréo 9,6 1,0584 / 2,1168 6 9h52min

PCM 16/48 Mono / Stéréo 9,6 0,7680 / 1,5360 6 13h35min

PCM 20/48 Mono / Stéréo 9,6 0,9600 / 1,9200 6 10h52min

PCM 24/48 Mono / Stéréo 9,6 1,1520 / 2,3040 6 9h03min

PCM 16/88,2 Mono / Stéréo 9,6 1,4112 / 2,8224 6 7h24min

PCM 20/88,2 Mono / Stéréo 9,6 1,7640 / 3,5280 5 / 6* 5h55min

PCM 24/88,2 Mono / Stéréo 9,6 2,1168 / 4,2336 4 / 6* 4h56min

PCM 16/96 Mono / Stéréo 9,6 1,5360 / 3,0720 6 6h47min

PCM 20/96 Mono / Stéréo 9,6 1,9200 / 3,8400 5 / 6* 5h26min

PCM 24/96 Mono / Stéréo 9,6 2,3040/ 4,6080 4 / 6* 4h31min

PCM 16/176,4 Mono / Stéréo 9,6 2,8224 / 5,6448 2 3h42min

PCM 20/176,4 Mono / Stéréo 9,6 3,5280 / 7,0560 2 2h57min

PCM 24/176,4 Mono / Stéréo 9,6 4,2336 / 8,4672 2 2h28min

PCM 16/196 Mono / Stéréo 9,6 3,0720 / 6,1440 2 3h23min

PCM 20/196 Mono / Stéréo 9,6 3,8400 / 7,6800 2 2h43min

PCM 24/196 Mono / Stéréo 9,6 4,7040 / 9,4080 2 2h13min

AC3 Stéréo / 48 kHz 0,64 0,448 0,1920 2 54h23min

AC3 5.1 / 48 kHz 0,64 0,448 0,384 5.1 27h11min

MPEG 1 Mono / 48 kHz 0,64 0,192 0,192 1 54h23min

MPEG 1 Stéréo / 48 kHz 0,64 0,384 0,384 2 27h11min

MPEG 2 Main Stéréo + Ext. 0,64 0,912 0,912 7.1 (?) 11h27min
Streams / 48 kHz

DTS 1,536 5.1 6h47min

SDDS 1,280 7.1 8h09min

102
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

* la deuxième valeur est donnée avec utilisation de la Losseless Compression.


Dans l’immédiat (premières générations de lecteurs DVD Audio), il n’est pas prévu de sortie numérique
haute résolution pour des raisons de copyright. Néanmoins, certains lecteurs multiformats commencent à
en proposer.

• Choix de la production :

- choix des formats utilisés (hybride CD-DA / DVD, SACD…)


- utilisation d’un canal central
- utilisation de fréquences d’échantillonnage différentes avant/arrière
- mixage stéréo séparé ou downmixé
- utilisation de la MLP et/ou de PCM linéaire, flux annexe en Dolby Digital ou DTS
- ajout de textes, URL’s, images fixes, vidéos…

• Obligation des lecteurs :

- système SMART
- lecture des CD-DA
- lecture d’au moins 2 canaux PCM linéaires avec sorties analogiques
- lecture des hybrides 1 couche CD-DA / 1 couche DVD

103
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008

104

Vous aimerez peut-être aussi