Académique Documents
Professionnel Documents
Culture Documents
Le son multicanal
Michael Gerzon (au centre), Peter Craven (à gauche) et Stephen Thornton (à droite) écoutant du son multicanal
matricé à partir d’une bande stéréo en juin 1970 (haut-parleurs électrostatiques, unités de contrôle et
amplificateurs à lampes Quad, magnétophones Revox F36HS et 736, Dolby A301). Photo P. Allen.
Pierre-Antoine Signoret
pa.signoret@free.fr
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
2
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Introduction ................................................................................................................................................39
Les systèmes de reconstruction physique du champ acoustique...............................................................39
Synthèse de front d’onde (Wave Field Synthesis) .....................................................................................39
Évolutions récentes du principe de la WFS...............................................................................................43
Nouvelles générations de transducteurs ....................................................................................................48
Prise de son WFS........................................................................................................................................50
Ambisonique et format B............................................................................................................................51
Ambisonique théorique...............................................................................................................................51
Directivité des harmoniques sphériques ....................................................................................................52
Équations de matriçage du format B et de l’UHJ .....................................................................................55
High Order Ambisonics ..............................................................................................................................59
3
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
4
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
L’idée de spatialisation du son suit de près l’invention du téléphone de Bell en 1876 et du phonographe
de Charles Cros en 1877. C’est le pionnier de l’aviation et inventeur Clément Ader qui lance le
mouvement avec son Théâtrophone en 1881. Une rampe de dix téléphones fut installée à l’Opéra
Garnier pour une transmission téléphonique en direct au Palais de l’Industrie...
Marcel Proust, client de la Compagnie du Théâtrophone (qui sera active jusqu’en 1932), écoutera le
Pellas et Mélisande de Debussy en direct de l’opéra comique chez lui en décembre 1911.
5
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En 1898, Auguste Baron, tente de synchroniser une image de film avec des lecteurs à rouleaux de cire
avec son Graphophonoscope. Maurice et Lioret reprennent cette idée avec leur Lioretgraphe à
l’exposition universelle de 1900. La première démonstration de son optique sur film 35 m/m est réalisée
par l’allemand Ruhmer la même année. En 1904, Messter tente de synchroniser projecteur de cinéma et
gramophone avec son Biophone pendant qu’Eugène Lauste synchronise deux projecteurs 35 m/m pour
l’image et le son. En 1905, Léon Gaumont propose son Chronophone ou Chronomégaphone qui utilise
des disques. Eugène Lauste brevète son Phonocinématophone en 1914 après l’invention de
l’amplificateur à lampes par Lee de Forest en 1912. De Forest, de son coté, brevètera le Phonofilm
procédé d’enregistrement sonore à densité variable sur film, le son prenant place à coté des
photogrammes dès 1921.
6
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Pendant ce temps, le grand public découvre avec enthousiasme cette nouveauté muette dans les foires.
« Cinéma muet, le mal nommé ? Oui si l’on considère le tapage qui escortait le cinéma primitif des trente
premières années. Accompagnée par des dispositifs sonores issus du théâtre, du cirque ou du music-hall,
la projection d’images muettes se déroulait souvent dans la plus grande animation. Les chansons filmées
de Georges Lordier, les bruitages en tout genre, les extrapolations des bonimenteurs commentant l’action
ou la sonorisation en direct des ciné-déclamateurs cachés derrière l’écran nous rappellent qu’à ses débuts
le cinéma était avant tout un spectacle de foire, populaire et vivant. »1
Le son au cinéma apparaît en 1907 par le biais de la musique quand les frères Pathé proposent une
version de Don Juan en (fausses) couleurs et son synchrone sur gramophone. Il est cependant d’usage de
considérer la fin du cinéma muet une vingtaine d’années plus tard de l’autre coté de l’atlantique.
En 1926, Alan R. Crossland proposera sa version de Don Juan pour la Warner Bros, avec John
Barrymore dans le rôle titre. Il utilise pour celui-ci le système Vitaphone Western Electric (son
synchronisé sur des disques). Il sera suivi en 1927 par le célèbre Jazz Singer avec Al Jolson qui va
marquer le début du cinéma parlant grand public, avec une minute et vingt secondes de paroles
synchrones...
Le cinéma sonore en 1926 et 1927 selon la Warner et la Western Electric, avec le Vitaphone.
1
Mathilde Blottière dans le Télérama n° 2839 du 9 juin 2004.
7
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Publicité pour le Phonofilm, l’enregistrement du son sur la pellicule en densité variable selon le brevet de
Lee de Forest à la fin des années 1920. Le procédé inventé par Lauste et de Forest aura de l’avenir…
Le son est très vite inscrit sous forme optique à coté des photogrammes de la pellicule (procédés à densité
puis élongation variable). Le procédé à élongation variable est breveté à la fin des années 1920 par RCA
sous le nom de Photophone.
Le son va rester monophonique pendant quelques années avant d’être inscrit assez durablement sur la
pellicule 35 m/m en double élongation variable, double trace...
Dès 1905, Léon Gaumont remarquait en déposant le brevet de son système de synchronisation image /
son : « En principe, la vitesse du cinématographe, ou pour mieux dire le nombre d’images transmises par
seconde, n’est pas absolu, notre œil pouvant supporter des écarts de vitesse sans être choqué, tandis que
l’oreille ne permet pas au phonographe la moindre variation de vitesse, car il en résulte non seulement un
changement dans les hauteurs des sons mais aussi dans leurs rapports… ».
Michel Chion ajoute : « C’est le son synchrone qui a obligé le cinéma à fixer et à stabiliser de manière
intangible à 24 images par secondes la vitesse d’enregistrement et de défilement des images ; alors que
l’on tournait auparavant en vitesse variable, entre 16 et 20 images environ, et qu’à la projection, on se
donnait une certaine latitude d’accélérer ou de ralentir le défilement selon la convenance des
programmateurs et la durée que l’on voulait donner à la séance… ».
8
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Dès le début, les réalisateurs vont pousser l’industrie cinématographique à améliorer sans cesse les
techniques du cinéma (image et son).
En 1927, Abel Gance tourne son Napoléon en Polyvision (25 ans avant le Cinerama de 1952). Trois
caméras 35 m/m sont synchronisées au tournage pour une projection par juxtaposition pouvant donner
une largeur d'image trois fois supérieure au format 35 m/m et/ou un récit en trois images différentes
(split screen). La musique est confiée à Arthur Honneger (qui avait déjà fait la musique de La Roue en
1922) et est enregistrée en «perspective sonore» (brevet Gance / Debrie de 1932 ancêtre de la
stéréophonie). Le film sortira en stéréo en 1935.
9
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En 1952, nait le Cinerama. C’est une technique de prises de vues par trois caméras 35 m/m synchronisées
et dont la triple projection se fait sur un écran courbe dont l’ouverture est de 146°. Les spécifications du
Cinerama prévoyaient une quatrième pellicule supportant sept canaux audio. La géométrie de projection
pouvait aller du 2.59:1 au 2.65:1.
Projection en Cinerama.
Image Cinerama restaurée du film How the West Was Won de 1962
(Henry Hathaway, John Ford, George Marshall, Richard Thorpe).
10
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le Cinerama sera concurrencé par le Cinemiracle qui utilisera des miroirs pour les projecteurs latéraux
afin de permettre un alignement optique du système. Cette astuce permet de minimiser les problèmes de
raccords entre les trois images. La projection se fait sur un écran courbe dont l’ouverture est de 120°. Ce
format permet l’utilisation de sept canaux audio magnétiques dont cinq frontaux et deux surround.
Le format de l’image est de 2.59:1.
En 1956, nait le Kinopanorama à Moscou. C’est une technique assez proche de celle du Cinerama
américain… Le format peut atteindre le 2.72:1.
Le CinemaScope commercialisé aux Etats-Unis en 1953 est issu de l’invention du français Henri
Chrétien qui dépose un brevet pour son objectif hypergonar en 1926. Il utilise un film 35 m/m
anamorphosé qui comprime horizontalement l’image pour obtenir un rapport allant de 2.35:1 à 2.66:1.
Le CinemaScope sera concurrencé par le Technirama reposant sur le même principe d’anamorphose
mais proposant une résolution d’image supérieure en utilisant la pellicule 35 m/m horizontalement. La
géométrie permet le 2.35:1. Ce format est très proche du VistaVision de 1954 qui utilise une
anamorphose moins forte (géométrie de 1.85:1).
11
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En 1955, Michael Todd, qui avait participé au Cinerama, contacte le Dr. Brian O'Brien de l’American
Optical Company. C’est la naissance du Todd-AO, format 70 m/m à 30 images par seconde. Ce format
sera utilisé pour des projections sur écrans incurvés à 120° ou plats. Il se présente comme le descendant à
pellicule et projection unique du Cinerama et sera utilisé sans anamorphose, en 30 et 24 images par
seconde. La géométrie de l’image est de 2.21:1.
Le format Super Panavision 70 concurrence le format Todd-AO en utilisant le film 70 m/m non
anamorphosé en 1959. Il permet une géométrie de 2.20:1. West Side Story (1961), Lawrence d’Arabie
(1962) et 2001 l’odyssée de l’espace (1968) seront tournés dans ce format.
Mais Panavision propose aussi des formats 70 m/m anamorphosés pouvant atteindre le 2.76:1 dès 1957.
Ce sont les formats MGM Camera 65 et Ultra Panavision 70.
Les films Ben Hur (1959) et Les révoltés du Bounty (1962) ont, entre autres, utilisé ces formats.
Enfin, Panavision est célèbre pour la mise à disposition des réalisateurs et cadreurs de caméras légères
Panaflex en 1972. Celles-ci, conjuguées avec les systèmes de stabilisation d’image en caméra portées (le
Steadicam est inventé par Garett Brown en 1972) permettent une grande liberté et des cadrages
jusqu’alors impossibles. C’est dans le film Shining de Stanley Kubrick (1980) que Garett Brown, alors
cadreur du film, en fera la meilleure publicité…
Travellings fluides dans les couloirs de l’hôtel Overlook utilisant le Steadicam dans Shining.
13
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En 1970 apparaît le format IMAX (Image MAXimum), une image sur pellicule 70 m/m synchronisée
avec une pellicule son 35 m/m sur laquelle sont couchées six pistes magnétiques rapidement remplacée
par un lecteur audionumérique multipiste synchronisé par Time Code.
Tandis qu'une pellicule traditionnelle de 70 m/m est composée d'image au format de 48,5 m/m de largeur
sur 22,1 m/m de longueur (pour le Todd-AO), le format IMAX donne à l'image une largeur de 69,6 m/m
et une longueur de 48,5 m/m (format 1.43:1) en utilisant la pellicule horizontalement. La projection se
fait à une vitesse standard de 24 images par secondes. En 1992, le format IMAX HD propose une
projection à 48 images par seconde.
Alternativement, le procédé Showscan utilise aussi un film 70 m/m, projeté à 60 images par seconde. Il
est utilisé par exemple au Futuroscope de Poitiers.
En 1973, apparaît un format dérivé de l’IMAX, L’OMNIMAX ou IMAX Dôme. Il est prévu pour des
projections hémisphériques. L’image est impressionnée à travers un objectif grand angle sur 180°
(fisheye). C’est un format anamorphosé à la prise de vue de l’IMAX projeté sur un écran hémisphérique.
L’image est projetée sur 180° horizontalement, 100° en élévation verticale et 22° sous l’horizon.
Ce dernier format deviendra l’IMAX 3D dans les années 1990 avec une caméra équipée d’une double
lentille séparées par une distance interoculaire de 64 m/m pour donner l’illusion de relief visuel et de
dix pistes son. Les deux images sont ensuite projetées simultanément. Le procédé deviendra numérique
en 2008.
Les formats d’image donnés sont à comparer avec le 4/3 (1.33:1) et le 16/9 (1.78:1).
14
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Pour ce qui est du son, depuis les années 1930, les études sur la stéréo et la spatialisation du son sont très
actives. Le britannique Allan Dover Blumlein est l’exemple même de la dynamique de ces recherches
(Stéréosonic, MS…). Il déposera, en effet un brevet tous les 16 jours durant sa carrière professionnelle
chez EMI des années 1930 à sa mort lors d’un accident d’avion en 1942…
Steinberg et Snow, à cette période, proposent de nombreux systèmes utilisant trois haut-parleurs frontaux.
Ils conçoivent des panoramiques à trois voies, et envisagent différentes configurations.
Les premiers enregistrements stéréophoniques datent des ces années. Une attention particulière est alors
portée aux systèmes stéréophoniques compatibles mono.
15
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Parmi les précurseurs dans l’utilisation de systèmes originaux, on trouve le Fantasia de Disney en 1940
dont la direction musicale des 110 musiciens de l’orchestre de Philadelphie est confiée à Leopold
Stokowski.
L’enregistrement à ensuite été réduit en quatre pistes optiques pour la diffusion (3 pistes son utiles, une
de contrôle) et diffusé sur 30 à 80 haut-parleurs selon les lieux de projection.
Un lecteur audio spécial synchronisé avec le projecteur image a été développé par la firme RCA pour le
new thrilling Fantasound…
Dans le domaine musical, dans les années 1950, Karlheinz Stockhausen expérimente et produit des
compositions électroniques très novatrices. Kontakte utilise des sons quadriphoniques spatialisés, générés
par du matériel électronique industriel dans le studio d’Herbert Eimert à la Westdeutscher Rundfunk
(WDR). Iannis Xenakis crée un « electronic surround-sound work » pour le pavillon Philips à la foire
internationale de Paris de 1958 pour lequel il collabora avec son ancien professeur Le Corbusier.
Le grand public découvrira la stéréo sur deux pistes optiques dans les années 1950 en même temps que
les grands écrans de projection. L’arrivée de la télévision en est, sans doute, un déclencheur déterminant.
Avec les grands écrans viennent le CinemaScope et la redécouverte des grands formats tels que le
70 m/m. Le son suit évidemment la tendance. On innove pour attirer le spectateur vers les salles obscures.
Le 70 m/m (re)nait en 1955 et peut offrir six pistes magnétiques face aux deux pistes optiques du
35 m/m. Certaines salles, à l’époque, n’ont pas hésité à synchroniser des défileurs son supplémentaires
avec le projecteur.
16
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En France, on trouve parmi les premiers films tournées en 70 m/m, La Tulipe noire de Christian Jacques
en 1964 et le Playtime de Jacques Tati en 1967 que pouvait projeter le célèbre Kinopanorama à Paris.
Les grands écrans demandent un grand nombre de H.P. pour couvrir leur surface. Les salles
s’agrandissent avec. Cinq canaux derrière l’écran et un canal son distribué autour de la salle ont été
utilisés pour le 70 m/m. Cette piste au départ nommée canal d’effet est l’ancêtre des actuels canaux
surround.
La fin des années 1960 voit apparaître les enregistreurs multipistes magnétiques avec le succès planétaire
du Sgt Pepper Lonely Hearts Club Band des Beatles en 1967. C’est le premier disque réalisé avec des
magnétophones quatre pistes synchronisés et qui, de plus, utilise la technique nouvelle du varispeed.
Cette évolution technique va alors lancer une grande vague de recherches sur la spatialisation sonore.
Une bataille théorique, technique et commerciale s’engage alors dans les années 1970 pour un nouveau
format dépassant la stéréo. Le rêve d’un son spatialisé, périphonique, identique à l’original, inspire les
recherches de passionnés audiophiles…
La NRBC (National Research and Development Corporation, ancêtre du British Technology Group)
fait confiance aux recherches menées par l’équipe du mathématicien et praticien de la prise de son
Michael Gerzon qui établit une hiérarchie complète de formats permettant de passer d’un certain nombre
de pistes enregistrées à de multiples configurations d’écoute.
L’éditeur de musique classique Nimbus Records, fondée en 1972 en Angleterre, n’hésite pas à mettre sur
le marché des disques enregistrés par le système de prise de son du Dr Jonathan Halliday, compatibles
stéréo et décodables en périphonie selon les préceptes de Gerzon et de son matriçage UHJ.
Les formats à quatre pistes discrètes tels que le CD-4 JVC (Compatible Discrete 4), l’UD4/UMX Denon
(Nippon/ Columbia), le Q4 pleine bande et le Q8 RCA…
Les formats quatre pistes matricés en deux tels que le SQ (Stereo Quadraphonic) de CBS/Sony, le QS
(Quadraphonic Stereo) de Sansui, l’EV4 d’Electro Voice, le DY Dynaquad de Dynaco, le Matrix H de la
BBC, et enfin, l’UHJ (mélange d’UD4/UMX, de Matrix H, et des développements 45J) utilisé par la
hiérarchie de codage proposée par le groupe des ambisonics (Gerzon, Fellgett, Barton) s’appuyant sur
les anciens travaux de Blumlein, et de l’équipe de recherche de Cooper & Shiga.
La question du matriçage stéréo est cruciale à l’époque pour une diffusion de ces formats auprès du grand
public.
Les imprécisions dans la localisation des sources sonores étaient l'un des principaux défauts des systèmes
quadriphoniques comme le montre ce test avec une source sonore se déplaçant sur un cercle autour de
l'auditeur. Seul l’UD-4 donne un résultat acceptable selon ses concepteurs...
17
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Cette myriade de systèmes incompatibles les uns avec les autres va faire échouer la quadriphonie auprès
du grand public, il n’empêche que cette dynamique est une véritable mise à feu intellectuelle dans le
monde audio de l’époque.
Ces systèmes reflètent la recherche d’un meilleur rendu que celui de la stéréo. Ils se sont heurtés de façon
commune à la nécessité de s’adapter aux supports et aux moyens de diffusion bipistes.
Le Dolby Stéréo
Les laboratoires Dolby développent le Dolby Stéréo en 1976 pour le cinéma à partir du procédé CBS SQ.
Il utilise un grand nombre de haut-parleurs de diffusion afin de couvrir de grandes surfaces et d’entourer
les spectateurs, et tente de résoudre les dilemmes de la sonorisation : intelligibilité, homogénéité de
couverture et localisation pour tous.
C’est un système de matriçage / dématriçage analogique des canaux son, permettant de stocker quatre
canaux sur les deux pistes optiques du film 35 m/m. Le dématriçage s’effectue en salle.
Le signal Dolby Stéréo (Lt/Rt) est le résultat du matriçage sur les deux pistes optiques du support.
Le Dolby Stéréo répartit ses canaux en gauche, centre, droite et surround. Typiquement le cinéma utilise
trois H.P. derrière l’écran et une piste diffusée sur un grand nombre de H.P. entourant le spectateur. Un
décodage optionnel du sub-bass (sans piste dédiée) est aussi proposé.
L’utilisation de sub-bass (piste dédiée ou non) est courante en diffusion depuis les années 1975.
Lors du dématriçage, une adaptation à la salle (égaliseurs, retards...) est effectuée pour permettre de
restituer les messages sonores en fonction de leur rôle. Le canal surround, par exemple, est retardé de 15
à 25 ms pour éviter les inversions avant / arrière dues à l’effet de précédence (effet Hass). Il n’apporte
qu’ambiance et enveloppement et n’est pas facteur de localisation.
En général, la répartition est la suivante : centre = dialogues ; gauche, droite = ambiances, musiques,
bruitages, effets stéréophoniques ; surround = ambiances, effets spéciaux.
18
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les deux canaux enregistrés sur le support sont appelés Gt et Dt (gauche totale et droite totale / LtRt).
On a :
C iS C iS
Gt = G + + Dt = D + −
2 2 2 2
Le procédé est inverse : le canal surround est filtré passe-bande entre 100 Hz et 7 kHz. Il passe ensuite
par un décodeur Dolby B puis il est retardé de 15 à 25 ms selon la salle. S’il n’y a pas de haut-parleur
central, la source fantôme est recréée par les haut-parleurs frontaux.
Le système reste compatible mono par annulation de la composante surround par simple sommation.
Néanmoins, il n’est pas possible de remonter aux signaux originaux car on a :
C + iS C − iS Gt + Dt G+D
G* = Gt = G + D* = Dt = D + C* = = +C
2 2 2 2
et
Gt − Dt G − D
S* = = + iS
2 2
Codage et décodage Dolby simplifié. L’encodeur permet, ici, d’encoder deux canaux surround séparés
Le Dolby Stéréo Surround 70 m/m utilise toujours les six pistes magnétiques en 1979. Les canaux se
répartissent, au choix, en frontaux, surround et sub-woofers.
Les premiers films à utiliser deux canaux surround séparés furent Superman de Richard Donner en 1978
et Apocalypse Now de Coppola en 1979. Depuis, Dolby a intégré l’option dans ses systèmes.
L’âge d’or de la production cinématographique s’essoufflant petit à petit au cours des années 1970, les
prix de production sont revus à la baisse. Le magnétique coûte cher… Le Dolby Stéréo semble alors une
bonne solution économique…
En 1982, Dolby a mis sur le marché de l’écoute domestique un système dérivé du Dolby Stéréo : le Dolby
Surround. Les quatre canaux étaient alors disponibles à la maison. Très souvent le canal central était
recréé en source fantôme par les H.P. frontaux.
Le système Dolby Pro Logic vers 1987 décode le canal central de façon indépendante. Il ajoute, de plus,
divers traitements actifs de séparation des canaux. Il est utilisé aussi bien pour le cinéma que les systèmes
domestiques. Les deux H.P. surround sont toujours alimentés par le même canal. Le Pro Logic II permet
de décoder les voies arrière en pseudo stéréo (décorrélation).
Le procédé de la Lucasfilm Home THX est une évolution du système Pro Logic. Il ajoute une
décorrélation gauche droite du canal surround (genre de pitch shift), une égalisation des H.P. frontaux et
un équilibrage des canaux avant et arrière.
Remarque : le Home THX n’a rien à voir avec le THX cinéma qui est un procédé de diffusion. Le THX
Cinéma impose aux exploitants l’égalisation du signal, la position et les caractéristiques des H.P., des
critères d’acoustique des salles (temps de réverbération imposé...), le réglage de la chaîne de diffusion,
l’amplification et le filtrage des H.P.
Le logo THX sur des supports de diffusion signifie que le mixage du film s’est fait dans une salle certifiée
THX.
Dolby, de même, impose certaines caractéristiques quant à l’emplacement, le type des haut-parleurs et les
amplificateurs à utiliser.
Il est important de remarquer qu’aucun de ces systèmes n’utilise quatre canaux discrets. Tous subissent
un encodage / décodage et sont stockés sur deux pistes. On dénomme souvent ces procédés comme 4.2.4.
Certains auteurs sceptiques n’hésitent pas à parler de systèmes 4.2.2,5.
Ce matriçage analogique des signaux est l’alter ego de la compression audionumérique actuelle.
En 1990, Eeastman Kodak invente le système audionumérique Cinema Digital Sound (CDS). Les
informations sonores audionumériques compressées (au sens du débit d’information) sont enregistrées à
la place des deux pistes optiques analogiques. Ce système cèdera sa place au Dolby SRD car celui-ci
permet de garder les pistes Dolby Stéréo optiques en cas de problème.
20
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En 1992, Dolby lance le Dolby SRD (Dolby Spectral Recording Digital), appelé aussi Dolby Stéréo
Digital, au cinéma. Les interstices entre les perforations du film 35 m/m sont alors utilisés pour stocker
l’information sonore sous forme audionumérique compressée. Le système se compose de six canaux
discrets dont 5 pleine bande (3 - 20 300 Hz) et un sub-bass (3 - 121 Hz). On parle alors de systèmes 5.1.
Les systèmes domestiques (home theatre / cinema) prennent l’appellation Dolby Surround Digital.
D’autres systèmes multicanaux discrets stockent l’information sonore sur des supports informatiques
séparés (CDRoms, disques magnéto-optiques à l’époque). Les lecteurs sont alors synchronisés par un
code temporel optique enregistré entre les perforations du film.
En cas de problème (perforations abîmées), le système bascule sur les pistes optiques matricées au format
Dolby Stéréo. Le système LC Concept, français de conception, a été le pionnier de ce type, dont les idées
sont actuellement exploitées commercialement par la firme DTS.
Les canaux sont répartis comme gauche, centre, droite, arrière gauche, arrière droite et sub-bass.
Les différences avec les systèmes précédents sont : une indépendance totale des canaux
(pas de diaphonie, surround stéréo possible...) et un canal supplémentaire optionnel pour les basses.
On différencie souvent les systèmes par la répartition de leurs canaux. Les appellations de systèmes 2/0,
3/1, 3/2 reflètent le rapport des pistes avant / arrière. Le 3/2, par exemple, est un système à trois pistes
frontales (gauche, centre, droite) et deux surrounds séparés (arrière gauche et arrière droit).
L’encodage de ces 5.1 pistes a été rendu possible par le développement du Dolby Audio Coding 3
(AC3 maintenant appelé Dolby Digital) permettant de ramener les débits sonores entre 32 et 640 Kilo bits
par seconde (kbps) selon le nombre de canaux. Au départ Dolby cherchait un débit de 320 kbps pour
pouvoir stocker les informations sonores entre les perforations du film 35 m/m.
Actuellement, les débits typiquement utilisés sont le 384 kbps pour le Dolby Surround AC3 5.1, et le 192
kbps pour la distribution stéréo. Les fourchettes données par la documentation Dolby sont : 32-96 kbps
pour un signal mono, 192-256 kbps pour un signal stéréo et 320-448 kbps pour le 5.1. Les sources
peuvent être aux fréquences d’échantillonnage de 32, 44,1, ou 48 kHz, et avoir une résolution de 16, 18,
20 ou 24 bits.
Dans le cas d’utilisation des 5.1 ou 7.1 canaux, les décodeurs Dolby Digital ou DTS sont capables de
fournir un mixage mono, stéréo, ou surround. Les différents paramètres de mixage sont prévus lors de
l’encodage (coefficients de downmix).
21
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Exemple d’un système d’encodage AC3 - 5.1 temps réel (Sonic Solutions).
22
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le Dolby Digital est un système de compression de données à pertes comme le sont le DTS (Digital
Theatre Sound), le SDDS (Sony Dynamic Digital Sound), les MPEG1 1, 2, 4 audio, l’ATRAC, le
PASC...
Le Dolby Digital AC3 succède aux algorithmes AC1 (220-325 kbps) et AC2 (129-192 kbps). Ces
codages, concurrents des couches ISO / MPEG, ont été utilisés pour la transmission par satellite,
l’échange par réseaux ou l’archivage de données audio.
Différents systèmes discrets 5.1 ou 7.1 se sont fait concurrence à l’apparition du DVD Vidéo2 : le MPEG,
le Dolby Digital, le DTS et le SDDS.
Actuellement, Dolby et DTS proposent des formats étendus et des codecs sans pertes.
Le Dolby Digital + et le DTS High Résolution Audio permettent d’ajouter des canaux audio et
d’augmenter les fréquences d’échantillonnage et résolutions tout en restant des codecs à pertes.
Les Dolby True HD et le DTS HD Master Audio utilisent des algorithmes de compression sans pertes.
Dolby a aussi développé des réducteurs de bruit tels que le Dolby A, Dolby SR pour le cinéma, les Dolby
B et C, S, pour les K7 Philips. Le SR est aussi utilisé pour l’enregistrement analogique professionnel sur
bande magnétique… Le Dolby HXPro est un système de pré-magnétisation variable pour
l’enregistrement magnétique.
Les systèmes évoqués ici, n’ont pas d’autre prétention que de baigner le spectateur de cinéma dans une
ambiance sonore tout en garantissant l’intelligibilité et la stabilité des dialogues. Ils n’ont pas été
développés pour améliorer les possibilités de localisation proprement dites mais plutôt d’enveloppement.
De plus ils s’adressent à de larges audiences et posent les problèmes de la sonorisation.
Le mixage pour le cinéma est une opération délicate de répartition et d’équilibrage des sources entre les
différents canaux de diffusion. Ces sources sont en général mono ou stéréo. Il s’agit donc de fabriquer une
mosaïque sonore profitant de l’espace de diffusion proposé par la salle de cinéma. Le mixage tel qu’il est
pratiqué actuellement n’utilise que les différences de niveaux pour la localisation (panpots d’intensité en
général…). Capable de puissants effets sonores, le système seul ne permet pas de rendre plus transparent
le système de reproduction.
Les systèmes son pour le cinéma n’envisagent pour le moment que les étapes de mixage, transmission et
diffusion. Il n’existe pas de procédé de prise de son spécifiquement adapté.
1
Moving Picture Expert Group
2
Digital Versatile Disc
23
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les systèmes multicanaux en conjonction avec les nouveaux supports (DVD, autoroutes de
l’information...) permettent l’utilisation de nouvelles techniques de prise de son adaptées aux différents
champs d’applications des techniques du son (cinéma, productions musicales, sonorisation…). Leur
application domestique permet de s’affranchir des difficultés de la sonorisation.
En dehors des essais quadriphoniques des années 1970 peu de systèmes réellement multicanaux ont été
envisagés dans le sens de la transparence de la chaîne de restitution et de la spatialisation. Actuellement
deux « écoles » se disputent le secteur, l’holophonie acoustique (Wave Field Synthesis et Ambisonique)
et les techniques binaurales et transaurales.
Face à ces approches théoriques, les praticiens proposent souvent des systèmes empiriques basés sur des
extensions de systèmes stéréophoniques existants ou l’utilisation de systèmes d’appoints spatialisants.
Exemples de films 35 m/m sur lesquels les pistes son sont inscrites en SDDS (sur les bords de la
pellicule), en Dolby Digital (entre les perforations) et en Dolby Stéréo (élongation variable). Une dernière
piste numérique de Time Code permet de synchroniser un lecteur informatique au format DTS.
24
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le Digital Cinema Initiative, une association regroupant 6 majors du cinéma, propose une spécification
pour le cinéma numérique. Le débit maximum de diffusion à été fixé à 250 Mbps pour le moment et
utilise le format d’image JPEG2000 et le format son BWF en 24 bits, 48 ou 96 KHz.
En 2009, la majorité des films étaient toujours tournés sur support argentiques et scannés en 2K (2048 /
1556 - 3,2 Méga pixels par image) ou 4K (4096 / 2160 - 8,85 Méga pixels par image) pour la post
production et éventuellement la diffusion.
Certains constructeurs de caméras proposent actuellement des caméras numériques atteignant les 2, 4, ou
5K (5120 / 2700 - 13,8 Méga pixels par image). Les évolutions futures envisagent les 6K (6654 / 4436 -
30 Méga pixels par image), 9K (9334 / 7000 - 65 Méga pixels par image) et 28K (28 000 / 9334 - 261
Méga pixels par image). Selon la résolution utilisée, le nombre d’image par seconde possible varie entre
12 et 300 actuellement.
Seules les résolutions égales ou supérieures au 4K peuvent êtres comparées à la pellicule 35 m/m.
En juillet 2011, environ la moitié des salles de cinéma françaises sont équipées en numérique.
Le passage au cinéma numérique suppose, bien sur, que les catalogues de films soient eux même
numérisés...
Le passage au cinéma numérique permet d’utiliser les salles de cinéma pour la diffusion de
programmes alternatifs en 2 ou 3 dimensions tels que les opéras, concerts, sports, jeu vidéo, duplex...
25
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
26
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
L’évolution des techniques audionumériques compressées (au sens de la réduction de débit), les usages du
son au cinéma, ainsi que l’arrivée de nouveaux supports audiovisuels (Blu Ray, DVD-V, DVD-A,
SACD…) ont conduit au nouveau standard de travail 5.1.
Par 5.1, il est entendu un système de diffusion à six canaux discrets répartis autour de l’auditeur. Cinq
canaux englobent toute la largeur de bande audio (20 - 20 000 Hz), le dernier étant un canal à bande
passante réduite réservé à la diffusion des infra basses (20 - 200 Hz soit 10% de la bande passante audio).
Les canaux se répartissent comme gauche, centre, droite, arrière gauche, arrière droite, et sub basse.
27
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Avec : H : hauteur de l’écran, B : largeur de la base du triangle d’écoute, D : distance d’écoute, Ecran
n°1 : HDTV - distance de référence 3H ( 1= 33°), Ecran n°2 : Ecran de projection (2 = 48°)
Ce nouveau standard permet de baigner le spectateur dans un champ sonore horizontal sur 360°. Il
surpasse la stéréophonie en termes de nombre de canaux, mais aussi en termes de possibilités de
localisation, démasquage, enveloppement, réalisme, confort d’écoute…
La disposition du système d’écoute 5.1 reste compatible avec la stéréophonie dans la mesure où les haut-
parleurs gauche et droite frontaux respectent la même disposition en triangle équilatéral avec l’auditeur.
Post-production 5.1
L’étape de post-production est décisive en 5.1. Les outils habituels se déclinent en version multicanale :
consoles de mixages automatisées possédant des « pan pots 5.1 », unités de réverbération artificielles
multicanales (M6000 TC Electronics, Lexicon 960…), plugins 5.1, les modules Max du spatialisateur
SPAT de l’IRCAM (…) et le mixage peut avoir lieu dans des cabines optimisées pour ce format.
Libre à l’utilisateur de traiter les canaux un par un (monophonie dirigée), par paire (avant / arrière) ou
d’avoir une vision plus globale des choses…
Du fait de la présence de six haut-parleurs dans toutes les directions de la pièce, les acoustiques des
cabines de post-production 5.1 sont relativement plus mates et symétriques que celle conçues pour la
stéréophonie (en général de type LEDE). Outre les critères habituels (pas de murs parallèles, pas de
résonance particulière…), des recommandations sont publiées. Je reprends, ici, les tableaux proposés par
la documentation Dolby :
Les mesures de niveau acoustique sont effectuées avec un sonomètre utilisant une constante de temps
d’intégration longue et une courbe de pondération C. La mesure de niveau se fait à l’aide de bruit rose
enceinte par enceinte. Toutes les enceintes sont réglées au même niveau à 0,5 dB près.
28
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
29
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Tous ces paramètres sont difficiles à respecter. Des compromis sont souvent faits. Les enceintes arrière
sont souvent plus petites que celles de l’avant et les courbes de bruit de fond sont quasi impossibles à
atteindre en milieu urbain…
30
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Configuration « musique »
31
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Bass management
Pour la gestion du canal de basse, un système de « bass management » fonctionne comme l’indique la
figure ci-dessous :
32
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le haut-parleur de Sub Woofer (ici SW) diffuse ce qui est prévu dans le canal dit LFE (Low Frequency
Effect - le .1 du 5.1) et prend éventuellement en charge la gestion des graves des cinq autres haut-
parleurs. Il est, en général, possible de régler la fréquence de coupure à 80 Hz ou 120 Hz. Le 80 Hz se
standardise actuellement…
Le gain de 10 dB ajouté au canal de LFE s’explique pour des raisons historiques. Le canal de LFE est, en
effet, enregistré 10 dB sous les autres pour éviter les problèmes de distorsion en analogique. Cette
différence de niveau est alors compensée à l’écoute.
Les décodeurs DTS et Dolby Digital ajoutent ces 10 dB lors de l’étape de décodage, de même que les
lecteurs de DVD Blu Ray, de DVD-Vidéo et Audio et de SACD.
Supports 5.1
Les supports usuels du 5.1 sont les DVD Blu Ray, DVD Vidéo, DVD audio et le SACD. Les nouveaux
standards du multimédia tel que le MPEG-4 audio englobent naturellement le son multicanal.
Selon le support utilisé et les contraintes de la ligne de transmission, le son peut être sous forme linéaire
ou compressé.
Seuls les DVD Blu Ray, DVD Audio et le SACD permettent de stocker du
son linéaire en 5.1 après une compression sans pertes.
D’autre formats étendus, tels que les 6.1, 7.1, 8.1, 10.2, 12.2 (…) sont, en général, destinés à des
applications particulières : cinéma panoramique ou sphérique, salles de multidiffusion, projections ou
installations expérimentales, 3D…
33
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
34
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
35
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Configurations 7.1
36
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Configuration 12.2
37
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
38
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Introduction
Conçu comme un système de diffusion issu du cinéma, de nombreux débats se posent actuellement, quant
aux techniques de prise de son compatibles avec le système d’écoute irrégulier du 5.1.
Certains de ces systèmes sont complexes à mettre en œuvre ou à optimiser. Ils requièrent parfois un
décodage ou un traitement approprié. Ils sont, de plus, relativement coûteux.
Nous verrons par la suite qu’il est intéressant de formaliser les différentes approches de ces systèmes par
le modèle encodeur / décodeur.
Les ingénieurs du son mélangent souvent différentes techniques de prise de son. Pour un enregistrement
en acoustique naturelle, il est assez simple et rapide de mettre en place un micro Soundfield, une tête
artificielle, des micros arrière (ailes ou carré…) conjointement à une microphonie de type
stéréophonique classique pour la scène frontale…
Dans certains cas, le manque d’outils de studio spécialisés pragmatiques rend l’utilisation de certains
formats complexe en post production. De plus il faut garder à l’esprit que le passage en 5.1 impose des
moyens (nombre de microphones, multipiste, traitements adaptés…) plus lourds qu’en stéréophonie.
Nous verrons aussi que certains systèmes sont difficiles à classer dans la mesure où ils peuvent être vus
selon plusieurs approches différentes.
Pour rédiger cette partie théorique, je me suis appuyé sur les travaux universitaires de Jean-Marc Jot,
Rozenn Nicol et Marc Emerit, Jérôme Daniel, Jeff Bamford, Edwin Verheijen, Werner de Bruijn,
Etienne Corteel et Sébastien Moreau, différentes publications de équipes de l’IRCAM, ainsi que sur les
publications de Michael Gerzon. J’espère qu’ils me pardonneront de leur avoir parfois emprunté quelques
illustrations ou explications.
La synthèse de front d’onde est une méthode physique de reconstruction du champ acoustique reposant
sur le principe de Huygens, base théorique de l’holophonie.
Bien que, dans son principe, l’holophonie, soit connue depuis longtemps (Jessel - 1973), elle n’a été mise
en œuvre que récemment grâce aux travaux de J. Berkhout de l’Université de Delft en 1988.
La méthode holophonique reposant directement sur le principe de Huygens, nécessite un très grand
nombre de capteurs et de transducteurs dont on maitrise les caractéristiques de directivité.
39
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Huygens a démontré que le rayonnement d’une source acoustique est équivalent à celui d’un ensemble de
sources secondaires réparties le long de son front d’onde. Si l’on connait les caractéristiques d’un champ
acoustique (pression et vitesse particulaire) sur une surface fermée entourant une source sonore, il est
alors possible de décrire le champ acoustique dans son intégralité en considérant la source comme la
combinaison d’une infinité de sources secondaires monopolaires et dipolaires pondérées le long de cette
surface.
La formalisation théorique de ce principe repose sur les formulations intégrales de Helmholtz, Kirchhoff
et Rayleigh. La mise en pratique de la WFS s’appuie sur un ensemble d’approximation de ces intégrales
(échantillonnage spatial à la captation, nombre fini de haut-parleurs à la diffusion...).
40
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Sur la frontière du domaine ∂Ω le champ acoustique est donné par l’intégrale suivante :
r
Où p0 est le champ de pression sur ∂Ω , k le nombre d’onde, et n , le vecteur unité dirigé vers l’extérieur.
r r r r r r
R est le vecteur entre la source secondaire positionnée à r0 et le point d’écoute r , tel que R = r − r0 .
Cette intégrale peut être interprétée comme la combinaison linéaire de termes monopolaires et dipolaires
car on y observe respectivement les expressions :
et
On y voit aussi que les amplitudes des sources secondaires monopolaires et dipolaires, le long de la
surface ∂Ω , dépendent du gradient de la pression pour les monopoles et de la pression elle-même pour
les dipôles.
Le principe revient donc à enregistrer les composantes de pression et de gradient de pression du champ
acoustique le long de ∂Ω (microphones de pression et de gradient de pression), puis de le re-synthétiser à
l’aide de haut-parleurs monopolaires et dipolaires.
Selon l’intégrale de Kirchhoff-Helmholtz, la reproduction est parfaite pour une infinité de capteurs et
de sources acoustiques de diffusion possédant les directivités requises. De plus elle est périphonique du
fait que Ω soit un volume.
Les limitations de cette méthode sont essentiellement dues à l’échantillonnage spatial et donc aux
problèmes de repliement du spectre spatial des microphones à la captation et des haut-parleurs à la
restitution (nombre fini, réponse en fréquence et en phase, maîtrise de leur directivité et de leur
rayonnement).
D’autre part, la distribution des haut-parleurs de restitution selon cette approche (nombre de sources et
géométrie du système d’écoute) est directement fonction de l’étendue de la zone de captation et détermine
la zone d’écoute possible…
La complexité de mise en œuvre de ce système dans le domaine de la prise de son provient du grand
nombre de microphones et de haut-parleurs nécessaires, de la difficulté à maitriser le rayonnement et les
réponses des sources électroacoustiques utilisées (monopoles, dipoles, interférences…), ainsi que de
l’importance du traitement numérique du signal nécessaire pour tenter de compenser ces différentes
approximations.
Elle est, pour le moment, peu utilisée dans les métiers du son sous cette forme.
41
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Face au très grand nombre de transducteurs nécessaires à la mise en œuvre de l’holophonique reposant
directement sur le principe de Huygens, de nombreuses recherches ont été menées dans le but de
simplifier le système.
La synthèse du champ acoustique est alors assurée dans le plan horizontal et devant les haut-parleurs
par cette méthode.
C’est cette dernière approche qui est utilisée actuellement sous le nom de Wave Field Synthesis,
appellation qui apparaît pour la première fois en 1993. C’est aussi à cette période que sont clairement
définis les concepts fondamentaux sous tendant cette nouvelle technique de spatialisation:
- La notion de source notionelle ou virtuelle qui permet une séparation complète entre les
dispositifs de captation et de diffusion. Le paysage sonore est décomposé en sources virtuelles
omnidirectionnelles dont on simulera par la suite la directivité et le rayonnement pour en déduire
les signaux d’alimentation des sources secondaires.
- Des simplifications quant à la géométrie du problème avec une correction des approximations
faites menant à la possibilité d’utiliser des réseaux de haut-parleurs finis et répartis en ligne.
Les travaux de l'université de Delft puis de France Télécom R&D au cours des années 1990 ont permis
d'améliorer la compréhension des phénomènes mis en jeu d'un point de vue objectif et subjectif afin de
valider cette approche.
Les études postérieures aux articles fondateurs s'attachent à garantir une qualité de reproduction sonore
indépendante de la position de l'auditeur au sein du dispositif en tentant d'étendre la zone d’écoute
ainsi que de synthétiser un effet de salle.
Dans ces systèmes WFS, la prise de son est presque toujours réduite à la captation de proximité et les
signaux monophoniques sont ensuite traités par des encodeurs spatiaux. Le système requiert donc
l’utilisation conjointe de synthétiseurs d’espace acoustiques.
Les puissances de calcul nécessaires à ces dispositifs sont relativement importantes et les antennes de
haut-parleurs relativement couteuses. Ces techniques sont donc pour le moment réservées à des
applications de diffusion en salle et trouvent leur place dans les applications requérant une immersion
sonore particulière (cinéma en 3D, réalités virtuelles, installations sonores, musiques mixtes…).
43
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
L’échantillonnage spatial des transducteurs dépend du critère de Shannon, et de fait, restreint la bande
passante spatiale du système holophonique. Des travaux expérimentaux effectués à l’Université de Delft
ont montrés que l’échantillonnage spatial des transducteurs de diffusion dégradait peu la localisation des
sources virtuelles synthétisées tant que le repliement du spectre spatial de descendait pas en dessous de
fréquence de 1,6 kHz.
Cette tolérance peut s’expliquer par la prépondérance des indices de localisation temporels en basse
fréquence. Cette limitation correspond à un espacement entre les transducteurs de l’antenne de haut-
parleurs de l’ordre de 11 cm.
Il a aussi été montré expérimentalement que si l’espacement entre les haut-parleurs de diffusion dépassait
cette limite, la localisation des sources virtuelles synthétisées restait relativement précise bien qu’elles
aient tendance à devenir plus larges en haute fréquence et que le spectre émis par le réseau pouvait
devenir dépendant de la position des auditeurs.
La taille réduite des haut-parleurs composant l’antenne, la pauvreté de la méthode de prise de son
envisagée pour le moment (microphones de proximité) et les différentes étapes de synthèse spatiales
(position et déplacement de la source acoustique, la simulation des espaces acoustiques) en font une
méthode complexe à l’heure actuelle.
Néanmoins, l’auditeur peut percevoir des effets de réalisme des sources sonores synthétisées saisissants
tel que celui de parallaxe naturels liés à la position de la source. Cette impression de réalisme sonore est
d’ailleurs renforcée par la stimulation cohérente de plusieurs dimensions sensorielles (vue/ouïe au
cinéma).
44
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les systèmes WFS actuels tels que celui de l’IRCAM, utilise des signaux issus de microphones placés en
proximité des sources originales, et resynthétise un champ acoustique par calcul des composantes des
sources secondaires qui sont ensuite diffusés par une antenne linéaire de 88 haut-parleurs espacés de 16
cm actuellement. Le projet envisage à terme des antennes de diffusions tout autour de la salle, soient 512
transducteurs pilotés en temps réel par des calculateurs audio. Il est complémenté par l’ajout de haut-
parleurs de Sub bass. L’antenne acoustique est gérée par un réseau de type Ethesound qui la relie aux
calculateurs spécialisés développés par l’IRCAM et la société Suisse SonicEmotion.
Le placement des sources est obtenu par convolution du signal issu du microphone par la fonction de
positionnement spatial souhaitée en temps réel, qui est ensuite elle même transmise et personnalisée pour
chaque haut parleur constituant l’antenne (retards, filtres…).
Le coût de calcul et le nombre de haut-parleurs reste important pour ce type d’application qui la rend plus
adaptée à des installations de sonorisation de salles de spectacle ou de cinémas.
La société allemande Iosono composée d’anciens chercheurs du Fraunhofer Institute - IDMT propose,
avec un certain succès, des équipements spécialisés pour des systèmes de sonorisation pour le cinéma en
relief utilisant les techniques de la WFS.
Système Iosono composé 627 haut-parleurs alimentés par 224 canaux installé dans les studios de la
Todd-AO à Los Angeles. Le système consomme 44 000 Watts d’amplification.
45
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Installation WFS au Mann Chinese Theater à Hollywood utilisant 376.8 canaux de diffusion.
Système de diffusion WFS installé dans l’auditorium de la Detmold Hochschule für Musik
46
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
47
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Du fait que la taille des transducteurs soit limitée rend théoriquement difficile l’utilisation de haut-
parleurs électrodynamiques classiques pour de larges bandes passantes (fréquentielle et spatiale) de
diffusion.
Les chercheurs on donc tenté de trouver des solutions alternatives sous forme de panneaux rayonnants à
excitateurs multiples.
Les haut-parleurs MAP (Multi-Actuator Panels) dérivent du principe de la DML (Distributed Mode
Loudspeakers). Ils sont constitués d’une plaque vibrante de polystyrène et/ou de carton qui est mise en
vibration par un ensemble d’excitateurs électrodynamiques à bobine mobile fixés derrière elle.
Chaque excitateur peut recevoir un signal indépendant, ce qui permet la création d’un système de
diffusion multipiste utilisant une seule surface commune.
Un des avantages de ce type de haut-parleurs est leur aspect physique de plaque permettant de les intégrer
discrètement dans différentes installations sans que le spectateur soit entouré de centaines de haut-
parleurs.
De plus, l’excursion de la surface vibrante est suffisamment faible pour être utilisée comme surface de
projection d’images en deux dimensions.
48
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
L’inconvénient de ces systèmes est que leur comportement acoustique est assez différent du rayonnement
omnidirectionnel des sources ponctuelles qui sont requises par la théorie de la WFS. Leur utilisation
impose de ce fait l’utilisation de méthodes d’égalisation appropriées…
49
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Malgré les limitations citées ci-dessus, certains chercheurs pensent qu’il est théoriquement possible
d’utiliser des réseaux de capteurs lors de l’étape de capatation en WFS. L’université de Delft a envisagé
des réseaux de microphones allant jusqu’à 288 cardioïdes disposés en cercle autour des sources…
L’équivalence des procédés de la WFS et des techniques ambisoniques d’ordre élevé (HOA) dans
certaines conditions tendent à démontrer qu’une captation par une méthode ou l’autre puissent être
interchangeables. De nombreux débats tentent de convenir de la méthode la plus efficace et économique
pour parvenir à ces fins actuellement.
50
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Ambisonique et format B
Les techniques dites ambisoniques et le format B découlent des travaux de M. Gerzon, P. Fellgett, P.
Craven et G. Barton effectués dans les centres de recherche travaillant dans le cadre de la quadriphonie
dans les années 1970.
Comme le principe holophonique, cette méthode ne tient pas compte de la présence de l’auditeur.
A la diffusion, le champ acoustique original est recréé par un ensemble de haut-parleurs régulièrement
espacés autour de l’auditeur (dôme de diffusion).
Le nombre de capteurs (et donc de pistes utilisées) est indépendant du nombre de haut-parleurs qui
constituent le système d’écoute.
Ambisonique théorique
D’un point de vue formel, l’ambisonique repose sur le développement en série de Fourier - Bessel du
champ acoustique original en un point de l’espace. Cette décomposition est possible pour tout champ
acoustique d’ondes planes et s’exprime comme :
Il est à noter que tout champ acoustique complexe peut se décomposer en somme de champs acoustiques
d’ondes planes.
51
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
L’ordre fini du système à la prise de son (nombre fini de capteurs) limite la fidélité spatiale du système et
l’étendue de la zone d’écoute. Plus on fait appel à des harmoniques sphériques d’ordre élevé et meilleure
est la résolution spatiale
Leur nombre dépend de l’ordre du système. Au-delà de l’ordre un, il est d’usage de parler de High Order
Ambisonics (HOA)…
Pour la restitution, le champ d’ondes planes est recomposé par un réseau de haut-parleurs régulièrement
espacés autour de l’auditeur. Le principe reste valable tant que le rayon du système de diffusion est
suffisamment grand pour considérer que le champ acoustique arrivant à l’auditeur est composé d’ondes
planes (au-delà de l’effet de proximité).
Gerzon établit pour une des premières fois dans l’histoire de l’audio que le nombre de microphone et
celui des haut-parleurs de restitution est indépendant. Le système brise la fausse évidence :
Selon l’ordre de développement envisagé, la captation ambisonique nécessite des capteurs de directivités
d’ordre croissant de plus en plus nombreux, et la restitution optimale de plus en plus de haut-parleurs.
Plus l’ordre augmente, et plus la zone de reconstruction s’élargit autour du point idéal.
52
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le nombre minimal de composantes N est défini comme N = (2 m + 1) pour un système 360° (deux
dimensions), et N = (m + 1) pour une reproduction périphonique à trois dimensions ; m étant l’ordre de
2
développement du système.
Le cas d’ordre un horizontal ne nécessite donc que trois composantes, le périphonique quatre.
Ces recherches entamées dans les années 1970 ont entraîné le développement d’un microphone
ambisonique de premier ordre, dont l’un des modèles actuels est le Mark V, par la société anglaise
Soundfield. C’est un microphone à quatre capsules cardioïdes disposées sur une sphère centrée sur le
point idéal d’enregistrement (montage tétraédrique) et orientées dans toutes les directions de l’espace.
Il est d’usage de parler pour les signaux sortant des microphones de format A.
Pour obtenir le format d’exploitation (format B), il est nécessaire de matricer les signaux venant des
capsules orientées selon leur direction Left front, Left back, Right front et Right back en effectuant un
matriçage de type :
Il peut être aussi nécessaire de compenser la non-coïncidence parfaite des capteurs due à l’encombrement
des capsules microphoniques, ainsi que leurs courbes de réponse.
53
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Avant la conception de ces microphones spécialisés, il a été utilisé des montages de microphones
constitués d’une capsule omnidirectionnelle et de trois ou deux capsules bidirectionnelles, pour effectuer
des enregistrements selon cette méthode.
Montage de type Nimbus-Halliday utilisant des microphones Schoeps (un MK2 et deux MK8) et
hiérarchies des formats UHJ selon le nombre de canaux désirés.
54
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le décodage du format B est détaillé par Gerzon qui envisage des configurations de haut-parleurs très
variées en deux ou trois dimensions.
Il étudie deux générations de décodeurs de premier ordre, la première pour des systèmes de diffusion
réguliers (décodeurs polygonaux pré Vienna), la seconde pour des configurations irrégulières tels que les
5.1, 6.1, 7.1 (décodeurs post Vienna) en référence à la convention AES de Vienne en 1992.
Les signaux issus du format B sont décodés en fonction de la géométrie du dispositif de restitution.
Pour un même ordre d’enregistrement, plus on a de sources de diffusion à la restitution, et meilleur est le
résultat. L’augmentation du nombre de haut-parleurs lors du décodage permet de détacher les sources
localisées de la position réelle des haut-parleurs. J’emprunte ici la figure et l’explication que Jérôme
Daniel donne dans sa thèse.
Avantage de multiplier les haut-parleurs pour préserver l’illusion sonore, tout en gardant la même
résolution spatiale (ambisonique d’ordre un). En s’écartant du centre du dispositif, la multiplication des
haut-parleurs permet de dématérialiser la localisation perçue de la position réelle des sources. Cela
favorise la fusion perceptive des sources réelles et renforce l’illusion perceptive.
55
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
L’arrangement le plus simple est le décodage horizontal pour quatre haut-parleurs disposés en carré. Cela
revient à une sorte de décodage MS généralisé avec :
LeftFront = 2W + X + Y RightFront = 2W + X − Y
LeftBack = 2W − X + Y RightBack = 2W − X − Y
Historiquement, un gain de 3 dB est appliqué sur les composantes directionnelles lors de l’enregistrement.
Le micro omni captant statistiquement plus de niveau que les bidirectionnels, il a été décidé d’uniformiser
l’énergie moyenne des quatre capsules. Cela permet, de plus, de ne pas limiter la dynamique d’un canal
par rapport aux autres. Ce facteur a été adopté par les différents acteurs de l’évolution ambisonique et fait
partie intégrante du format B actuellement. Ce gain sera compensé lors du décodage.
Dave Malham de l’université de York propose un décodeur périphonique pour huit haut-parleurs
disposés aux sommets d’un cube sur le même principe :
LeftFrontUpper = W + X + Y + Z RightFrontUpper = W + X − Y + Z
LeftFrontLower = W + X + Y − Z RightFrontLower = W + X − Y − Z
LeftBackUpper = W − X + Y + Z RightBackUpper = W − X − Y + Z
LeftBackLower = W − X + Y − Z RightBackLower = W − X − Y − Z
Gerzon propose, aussi, de minimiser les erreurs inhérentes aux systèmes d’ordres restreints par des
compensations psychoacoustique. Un décodeur ambisonique se devra de respecter au mieux la théorie de
localisation de Makita (en dessous 700 Hz - fréquences pour lesquelles la tête d’un auditeur est
transparente acoustiquement) et la théorie dite énergétique (au dessus de 700 Hz quand elle ne l’est plus).
Il ne prend pas en compte les effets du pavillon de l’oreille au dessus de 5 kHz.
La théorie de Makita suppose que la direction perçue - pour une tête fixe ou mobile - est celle du vecteur
r
vélocité rv au centre du dispositif d’écoute (localisation par le gradient de pression du champ acoustique).
Par la théorie énergétique, Gerzon suppose que la direction perçue - pour une fixe tête ou mobile - est
r
celle du vecteur intensité re , pour les fréquences ou l’auditeur n’est plus transparent (localisation selon la
densité d’énergie).
Pour optimiser ces vecteurs, il propose de filtrer les composantes de format B selon leur registre avant de
les matricer et d’alimenter les haut-parleurs du système de diffusion (phase-matched shelving filters).
W 1 1.224
X, Y 1 0.865
Ces coefficients assurent d’autre part la conservation du niveau d’énergie entre les hautes et basses
fréquences, avec : 0.865 2 + 0.865 2 + 1.224 2 = 1 + 1 + 1
56
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Pour compenser l’effet de proximité des haut-parleurs (condition d’onde plane non respectée), Gerzon
conseille un filtrage passe haut de premier ordre dont la fréquence de coupure est donnée par :
53
fc = , d étant la distance de l’auditeur en mètres.
d
Des études plus récentes proposent aussi des décodeurs tenant compte de l’étendue de la zone d’écoute :
57
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Je reprends ici les dessins de Jérôme Daniel et la synthèse proposée par Jean-Marc Jot pour quatre
configurations de décodeurs polygonaux pour ce qui est des coefficients k (gain sur les composantes). Le
paramètre « size » est relatif à la taille de la zone d’écoute souhaitée :
Décodage par sous-bandes en fonction de l’étendue de la zone d’écoute. Les fréquences de transition
entre les solutions basiques (rv = 1) et max rE et entre max rE et in-phase sont notées f b-m et f m-i.
58
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Remarque :
Les approches proposées par Ville Pulkki, en 1997 avec le Vector Based Amplitude Panning (VBAP) et
par J-M. Pernaux en 1998 avec le Vector Based Intensity Panning (VBIP) convergent dans le sens des
théories proposées par Gerzon. Ces méthodes de panoramiques discrets généralisés reviennent à une
sorte de décodage ambisonique local. Les haut-parleurs les plus proches de la localisation désirée tentent
r r
de maximiser les vecteurs de localisation. Le VBAP tente de maximiser rv et le VBIP re .
La fréquence de séparation reste à 700 Hz.
La principale limitation de l’ambisonique en termes de performances est due à l’ordre du système (un
pour le microphone Soundfield) et explique en partie la nécessité de compléter le décodage par une
optimisation perceptive. De plus c’est un système ne reposant que sur les I, et qui ne tient pas compte
de la présence de l’auditeur (effets du pavillon au dessus de 5 kHz).
De nombreux travaux ont étudié la possibilité de synthétiser des ordres de directivité microphoniques
supérieurs à partir de réseaux de microphones pour obtenir plus de composantes d’ordre plus élevé
(microphones plus sélectifs). Gerzon propose dès 1972 un capteur périphonique de deuxième ordre en
utilisant un arrangement de douze capsules cardioïdes et hypercardioïdes qui restera un prototype…
Evidemment, pour les ordres supérieurs, le nombre de capteurs peut être différent du nombre de
composantes du format B dans la mesure où l’on peut être amené à combiner différentes capsules pour
obtenir la composante désirée.
59
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Ils adoptent tous les deux des configurations régulières ou quasi-régulières pour limiter les erreurs
d’orthonormalité sur les harmoniques sphériques.
C’est aussi le cas de l’Eigenmike proposé par la société américaine MHacoustics composé de 32 capsules
réparties autour d’une sphère pour une captation d’ordre 4.
60
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
D’autre part, les progrès du traitement numérique des signaux permettent actuellement à des développeurs
des proposer des systèmes HOA à partir d’autres géométries de capteurs comme le système proposé par la
société Trinnov Audio avec leur réseau horizontal de huit capteurs disposés en fer à cheval.
A l’heure actuelle, certains équipements audio (hardware ou software) sont capables de travailler au
format B à différents ordre. Pan pots pour intégration d’appoints, rotation du champ acoustique, zoom
dans une direction…
De leur coté, les décodeurs de format B se déclinent en différentes versions pour des haut-parleurs
disposés régulièrement autour de l’auditeur, carré, cubes, dômes, sphères (…) ainsi que pour les
configurations irrégulières à dominance frontale accompagnant une image telle que les formats 5.1, 7.1…
Certains sont implémentés (et exportables sous forme de modules Pluggo compatibles VST) dans les
librairies et patchs Max/MSP du module de spatialisation sonore (~spat) de l’IRCAM.
61
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le décodeur restant basiquement une opération linéaire (matrice de décodage) il se décline aussi à
différents ordres pour des géométries de haut-parleurs variés (surtout réguliers - dômes…).
Des travaux universitaires relativement récents (Nikol, Emmerit - 1998) ont démontré que la
décomposition du champ acoustique en série de Fourrier - Bessel peut être considéré comme un cas
particulier de WFS.
Cette démonstration, très rigoureuse, relativise quelque peu la réputation sulfureuse de la secte ésotérique
des utilisateurs de Soundfield bien que cette équivalence ne soit vérifiée que pour une infinité de
composantes…
Il reste que l’approche ambisonique se distingue fondamentalement du système WFS, par la façon dont le
champ reconstruit converge vers le champ original en fonction de l’ordre du système. Avec
l’ambisonique, la progression de la reconstruction s’exprime en termes d’expansion radiale à partir du
centre. Avec la WFS, la qualité de reconstruction reste au contraire homogène sur toute la zone de
restitution, et la progression se manifeste par l’élargissement de la bande de fréquence où la
reconstruction est correcte. La convergence asymptotique entre l’ambisonique et la WFS ne se rencontre
que si les sources sonores simulées par WFS sont placées sur le périmètre des haut-parleurs, lorsqu’elles sont
encodées comme ondes planes.
De nombreux chercheurs tentent donc actuellement de développer des approches croisées pour améliorer
les performances des systèmes de captation et de restitution spatialisés. Par exemple, l’introduction d’un
∆T, avec ou sans auditeur (écran acoustique, tête), entre deux capteurs ambisoniques d’ordre un dans le
binaural B format proposé par J-M. Jot qui mêle ambisonique, techniques binaurales et décodeurs
optimisé (deux points de captation séparés).
La parenté théorique de l’ambisonique et de la WFS ainsi que leur spécificité ouvre aussi la voie aux
méthodes hybrides de captation et de restitution holophoniques pour des applications d’extrême
immersion sonore comme le fait remarquer Olivier Warusfel de l’IRCAM…
62
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les systèmes binauraux sont basés sur l’utilisation d’une tête artificielle à la prise de son pour une
restitution par casque. Des traitements appropriés ont aussi été développés pour une écoute sur haut-
parleurs (filtrage transaural - élimination des trajets croisés).
Ces systèmes reposent sur un principe simple : il devrait être possible de recréer l’illusion acoustique
perçue par un auditeur lors d’une écoute naturelle, au moyen de capteurs omnidirectionnels placés à
la place de ses tympans lors de l’enregistrement, puis de lui restituer par casque.
Comme le résume très bien Jérôme Daniel dans sa thèse : « dans ce cas, les informations enregistrées
incluent de façon naturelle l’effet des diffractions et réflexions de chaque évènement acoustique par le
corps, la tête, et les oreilles de l’auditeur. Celui-ci dispose donc d’un ensemble riche et cohérent d’indices
de localisation qui lui sont familiers : il s’agit des différences interaurales de temps et d’intensité
(Interaural Time Differences et Interaural Level Differences) qui donnent lieu à une détection latérale des
événements sonores, mais aussi des indices spectraux qui complètent la localisation directionnelle dans le
plan médian et résolvent notamment les indéterminations avant-arrière et sur la position verticale.
La restitution binaurale est donc susceptible de donner lieu à une reconstitution subjective du paysage
sonore en trois dimensions, s’affranchissant des limitations propres aux techniques traditionnelles de
restitution sur haut-parleurs. »
Dispositif de prise de son et de restitution binaurale. Une tête artificielle est utilisée pour la prise de
son. Cette tête est construite pour imiter le comportement acoustique d’une tête d’auditeur statistique
(taille, écartement des oreilles, propriétés de diffraction du pavillon...). Les capteurs (micros) sont à la
place des tympans. Les fonctions EQ représentent les filtres de correction destinés à l’égalisation des
transducteurs, à la compensation des indices spectraux personnalisés (HRTF) et à la compensation de
l’effet de propagation dans le canal auditif.
63
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Synthèse binaurale :
Les procédés de synthèse binaurale offrent quant à eux la possibilité de produire le champ acoustique
binaural en fonction d’une composition arbitraire de l’environnement sonore virtuel. Ils se basent sur
l’utilisation des réponses impulsionnelles binaurales associées à la position d’une source par rapport à
l’auditeur dans l’espace virtuel. Un signal monophonique est convolué avec les réponses
impulsionnelles binaurales d’un auditeur dans une salle par exemple.
Dans cette illustration, les fonctions de transfert binaurales sont définies par les HRIR
(Head Related Impulse Responses)
64
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Des jeux assez complet de HRTF et HRIR ont été mesurés par Martin et Gardner sur le mannequin
KEMAR et est très largement utilisé par la communauté scientifique. Disposant des réponses
impulsionnelles, la réalisation la plus directe du filtrage binaural consiste en une opération de
convolution du signal monophonique avec chaque HRIR.
Le coût de calcul d’une convolution dans le domaine temporel étant rapidement rédhibitoire, il est
généralement fait appel à des algorithmes de convolution rapide qui consistent à effectuer la
transformation dans le domaine fréquentiel à l’aide de FFT.
Pour satisfaire les mécanismes de localisation dynamique, le système binaural doit pouvoir prendre en
compte les mouvements de la tête à l’aide d’un système de suivi de la tête (Head-Tracking) et adapter la
restitution des informations binaurales en conséquence (changement dynamique des filtres en temps réel).
Techniques transaurales
Originellement développés pour une écoute au casque (techniques binaurales), les traitements
transauraux permettent de diffuser ces enregistrements sur des haut-parleurs.
Dans les techniques transaurales, l’enregistrement par tête artificielle est traité de façon à annuler les
trajets croisés d’un dispositif de haut-parleurs (fonctions hd et hg). Cela permet d’élargir la restitution
stéréophonique au-delà des enceintes de diffusion... Le traitement peut être individualisé (taille de la
tête, HRTFs…)
L’analyse de la diaphonie acoustique produite dans le cadre d’un dispositif d’écoute stéréophonique à
donné lieu à de nombreuses discussions. Certains ont adopté des positions radicales comme celle
soutenue par Ralph Glascal avec son dispositif ambiophonique.
Il propose de changer le dispositif d’écoute stéréophonique (position et directivité des haut- parleurs, mur
acoustique…). Son approche analyse assez finement les mystères du système de reproduction
stéréophonique et propose des solutions originales (www.ambiophonics.org).
65
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
- La très grande individualité et très grande finesse des HRTFs (localisation apprise). Environ 300
HRTFs par oreille (et se pose notamment le problème d’interpolation des HRTFs).
- Le suivi nécessaire des mouvements de la tête de l’auditeur qui, en écoute naturelle, permettent de
lever les indéterminations lorsque les indices spectraux ne sont pas suffisamment exploitables
(systèmes de Head Tracking).
- Une fois la production binaurale réalisée, elle ne permet pas une adaptation aux mouvements de
la tête d’un auditeur quelconque lors de la restitution (Head Tracker lors de l’enregistrement ?).
- Le coût de calcul pour le filtrage binaural ou transaural qui doit pouvoir être effectué en temps
réel (la convolution rapide par FFT n’est pas des plus performantes en terme de qualité).
En général, les techniques binaurales et transaurales sont plus utilisées dans des contextes d’écoute au
casque (jeu vidéo, simulations d’environnement sonores virtuels). Elles permettent, en effet,
d’externaliser la perception sonore en écoute au casque, et d’élargir de façon notoire l’image sonore au-
delà des enceintes de restitution en cas d’écoute stéréophonique conventionnelle.
Dans le cas d’une écoute au casque, la réintroduction de ces trajets croisés, est un des facteurs
d’externalisation de l’image sonore perçue.
On voit ici se détacher le concept des haut-parleurs virtuels qui consiste à simuler par filtrage binaural
l’effet de chaque haut-parleur considéré comme une source virtuelle disposée autour de l’auditeur (virtual
surround) dans le cadre de l’écoute au casque.
Une des applications du principe des hauts parleurs virtuels à été développée pour la simulation de
systèmes de monitoring professionnels par G. Theile dans son BRS (Binaural Room Scanning). Ce
système permet une écoute au casque simulant différentes configurations de haut-parleurs et acoustiques
de contrôle.
Les techniques binaurales et transaurales restent néanmoins très individualisées et s’adaptent mal à un
dispositif de diffusion pour de larges audiences. Leur différence essentielle avec les techniques de
reconstruction physique du champ acoustique est la prise en compte de la présence de l’auditeur et de sa
tête.
66
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Une approche intéressante des systèmes multicanaux peut être faite en considérant le système global
(enregistrement, post production, transmission et reproduction) selon le schéma encodeur - décodeur.
L’encodeur est capable de mettre au format choisi une source monophonique (encodeur électronique) ou
un paysage sonore (encodeur acoustique). Le mixage des différentes sources, ou la transmission d’un
mixage se font sous forme encodée.
Le décodeur (éventuellement optionnel) reçoit le signal multicanal encodé et permet de le diffuser sur une
certaine géométrie de haut-parleurs.
Dans la partie encodeur, les fonctions h peuvent représenter des coefficients de panoramiques, ou plus
généralement, des filtres linéaires dépendant de la direction. Celles-ci peuvent imiter les caractéristiques
de directivité d’un réseau microphonique et incluent les retards en cas d’enregistrements non-coïncidents.
Les encodeurs acoustiques peuvent prendre la forme d’un réseau de microphones dont on a choisi les
directivités, orientations et positions. Cette catégorie englobe les couples stéréophoniques, les
microphones de format B, les têtes artificielles…
Les encodeurs électroniques (ou pan pots) sont essentiellement des banques de filtres linéaires capable
de produire les composantes du signal multicanal choisi à partir d’une source monophonique. Dans le cas
idéal, ils devraient être capables de remplacer un encodeur acoustique…
67
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les techniques de panoramiques discrets, qui supposent la connaissance du système de diffusion avant
encodage (pas de décodeur), sont très mal adaptables à un changement de système de diffusion sans
produire de sévères dégradations de l’image sonore spatialisée.
Pour un système d’encodage donné, un décodeur optimal se doit de produire, dans la zone d’écoute, un
signal identique (en tout cas, le plus proche possible) à l’original dans le lieu d’enregistrement. Quand
celui-ci est trop loin de l’original, il peut être nécessaire d’effectuer des traitements pour tenter de s’en
rapprocher au plus près lors du décodage. On se réfère souvent à ces traitements en termes de principe de
ré-encodage dans le design des décodeurs.
Le design des décodeurs tente, de maximiser les indices de localisation (ITD, ILD, HRTF, vecteurs de
localisation…) et décomposent souvent leurs traitements en fonctions des différents mécanismes de
localisation de l’oreille.
Aux basses fréquences, en dessous de 700 Hz, quand la tête de l’auditeur est transparente, la connaissance
de la pression et de la vitesse particulaire au centre d’écoute est suffisante pour déterminer le champ
acoustique à chaque oreille. Dans ce registre, l’ITD est prépondérant et il est possible de garder le vecteur
vélocité à sa valeur optimale rv=1.
En dessus de 700 Hz, la connaissance des grandeurs acoustique au centre n’est plus suffisante pour
pouvoir déterminer le champ acoustique aux oreilles de l’auditeur. Le critère de localisation
prépondérants devient l’ILD et reposent sur des critères énergétiques statistiques (vecteur. re).
Une écoute au casque de devrait donc demander au décodage qu’une correction spectrale pour compenser
les défauts des transducteurs dans le cas idéal où la tête de prise de son et celle d’écoute sont la même…
Dans le cas ou ces deux têtes sont différentes, le décodeur devra prendre en compte les caractéristique
morphologiques du nouvel auditeur, ce qui n’est pas toujours simple…
Pour la synthèse binaurale, une méthode efficace est de séparer les indices de temps (retard indépendant
de la fréquence) et les indices spectraux par factorisation des HRTFs.
Il faut garder à l’esprit que ces méthodes demandent des ressources de calcul importantes. Par exemple,
un module d’encodage binaural tel que celui présenté ci-dessus requiert environ 5 MIPS (millions
d’instructions par seconde) pour une fréquence d’échantillonnage de 48 kHz. Cette puissance de calcul est
d’au moins dix fois supérieure à celles requises par l’ambisonique ou les techniques de panoramiques
discrets.
68
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Une des applications du principe de ré-encodage est celle du décodage transaural de formats binauraux.
Dans le cas d’une écoute sur deux haut-parleurs, le décodeur se résume à un circuit d’élimination des
trajets croisés.
Malgré les nombreuses études sur ce cas, il s’avère peu réaliste d’en attendre une reproduction
satisfaisante aux oreilles d’un auditeur au-delà de 2 kHz dans la mesure où cela demanderait une
précision de moins d’un centimètre sur la position de ses oreilles.
Seul le rajout d’un système de head tacking, avec les difficultés de changement et de calcul des filtres
personnalisés en temps réel qu’il suppose, peut permettre de contourner cette limitation. Evidemment, le
traitement supplémentaire se devrait de rester transparent pour l’auditeur et les solutions réalistes passent
par des méthodes d’interpolations des HRTFs…
Une optique pour tenter de minimiser la puissance du décodeur peut aussi être d’utiliser un encodeur
acoustique permettant de capter plus d’informations, par exemple d’enregistrer les caractéristiques du
champ acoustique original en plusieurs points (systèmes intégrant un T). Une fois de plus, le binaural B
format peut être un encodeur acoustique approprié…
L’ambisonique d’ordre supérieur (HOA) revient à échantillonner le champ acoustique original dans une
zone de plus en plus large autour du capteur quand son ordre augmente (lien avec la WFS) et permet aussi
d’étendre l’étendue de la zone d’écoute en basse fréquence. Les techniques binaurales, outre
l’individualisation nécessaire des HRTFs, semblent un compromis intéressant dès que l’auditeur n’est
plus transparent…
Malgré le coté très séduisant intellectuellement de ce modèle, il n’en demeure pas moins relativement
complexe. Les traitements nécessaires dépassant souvent les possibilités des praticiens. Différents
compromis et systèmes « pragmatiques » sont actuellement utilisés par les ingénieurs du son, qui peuvent
en panachant différents systèmes, obtenir les résultats qu’ils recherchent. De plus peu d’outils de studio
intègrent ces concepts actuellement.
Les ingénieurs du son, utilisent, comme à leur habitude une panoplie d’astuces plus ou moins orthodoxes
dans les productions réelles, combinant de multiples outils pour tenter de trouver des solutions
esthétiquement et techniquement satisfaisantes. La question de la pratique de mise en œuvre, de la
fiabilité, de la transparence des traitements utilisés ne doit pas non plus être sous estimée.
L’évolution technologique devrait prochainement permettre un traitement temporel de grande qualité des
informations sonore sans avoir recours aux compromis de calcul actuels.
Nous allons parcourir dans les pages suivantes certains systèmes mis en œuvre par les praticiens et étudier
leurs caractéristiques.
69
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
70
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Ce système est constitué d’un écran acoustique sphérique de 18 cm de diamètre contenant deux capteurs
omnidirectionnels entouré de deux capsules bidirectionnelles orientées vers l’avant. C’est un double MS
avec écran. Il dérive de la sphère Schoeps KFM 6 utilisée en stéréophonie.
71
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le système utilise un dématriceur permettant de modifier le décodage en post production. Il permet aussi
de créer un canal central et l’ajout de retards arrière. Les décodages MS avant et arrière peuvent être
différents.
La localisation latérale repose sur des indices en I alors que la localisation avant arrière repose sur une
combinaison de T et de I dû à la diffraction sur la sphère.
Ce principe, repose sur l’utilisation de deux microphones de type Soundfield (introduction de T dans un
double système I) séparés ou non par un écran de diffraction.
72
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Selon le modèle, 6 (H3D pour le 5.1) ou 8 (H2 Pro pour le 7.1) capteurs omnidirectionnels sont encastrés
dans un profil elliptique de 19 cm sur 15 tentant d’imiter les caractéristiques acoustiques d’une tête
humaine...
Selon ses concepteurs, le système ne requiert pas de décodage particulier pour la diffusion. Chaque
microphone est routé vers son canal…
73
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
En utilisant trois microphones, il est possible de créer deux couples MS tête bêche partageant la capsule
bidirectionnelle. Les microphones M peuvent être cardioïdes ou hypercardioïdes. Un double décodage
permet ensuite de diffuser le signal enregistré sur un système 5.0 ou 6.0…
74
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Utilisé par la société DECCA dans à partir de 1954, le triangle se compose de trois microphones à larges
membranes assez largement espacés (les ingénieurs du son de Decca sont passés des M49 aux KM56
puis aux M50 Neumann). Actuellement, le une tendance pour les TLM 50 se dessine assez fréquemment
dans les environnements de production assez riches pour cela…
Ce système de prise de son pensé pour la stéréophonie repose sur l’utilisation d’un couple de
microphones omnidirectionnels largement espacés pour couvrir de larges ensembles orchestraux,
complété par un microphone central pour combler le trou au centre.
La taille des microphones utilisés permet de considérer que ce système principalement T utilise aussi
assez rapidement le I. De plus la disposition du microphone central légèrement plus proche des sources
que ceux de la base du triangle introduit une légère avance du micro central, et permet d’en attendre une
certaine stabilité de l’image stéréophonique reproduite (effet de précédence au centre).
75
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le système à ensuite été décliné de différentes façons. Le I tente une percée par le remplacement du
microphone central par un couple MS pour la reproduction stéréo, un microphone Soundfield, des ailes
arrière, ou un système spatialisant indépendant sont aussi souvent utilisés pour la version multicanale…
76
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
C’est le cas du système de Jean-Marc Lyzwa, qui utilise cinq capsules DPA (4041, 4003 ou 4006) en
tentant d’optimiser le recouvrement des différents couples, constitués par les microphones pris deux à
deux, par la distance entre les capsules et l’orientation de celles-ci. Chaque microphone est ensuite routé
vers un haut-parleur. Ce système peut être complété par des appoints mono ou stéréo dirigés par des
panoramiques discrets.
77
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
78
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le concept à été proposé par G. Theile et H. Wittek de l’IRT (Institut für RundfunkTechnik). C’est un
système d’enregistrement des canaux frontaux pour le multicanal 5.1. Le but recherché, ici, est une
localisation frontale optimale en tentant de réduire la diaphonie acoustique existant entre les images
fantômes multiples…
Il est ensuite complété par un système de captation arrière dans sa version OCT Surround.
Le principe OCT considère que les trois microphones constituent deux couples stéréophoniques adjacents
G/C et C/D.
C
L h R
b
Les microphones G et D sont hypercardioïdes, le microphone C, central est cardioïde.
Avec le placement du microphone central décalé de 8 cm vers l’avant (h = 8cm pour le système OCT1),
on obtient les angles de prise de son suivants en fonction de l’écartement des hypercardioïdes :
b = 40 cm : 160° b = 50 cm : 140°
b = 60 cm : 120° b = 70 cm : 110°
b = 80 cm : 100° b = 90 cm : 90°
79
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
On trouve sur www.hauptmikrofon.de l’application Java « Image Assistant » qui permet de simuler les
propriétés de localisation de divers systèmes de prise de son dont l’OCT (angle de prise de son en
fonction des distances entre les microphones et de leur orientation).
80
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Une variante se rapprochant du triangle DECCA (dite OCT2) propose de décaler le microphone central
de 40 cm afin d’introduire un retard de 1 ms entre les microphones.
81
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
La croix de l’IRT
La croix microphonique IRT n'est pas un microphone surround principal mais une configuration de
microphones pour la prise de son d'ambiance complétant un système de captation frontal.
Il est constitué de quatre microphones bidirectionnels, placés dans la salle, ne pointant pas vers la scène
frontale pour éviter la captation de son direct.
82
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
83
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les systèmes INA-3 et INA-5 sont des extensions du principe OCT. Ils reposent sur l’utilisation de
quintuplés microphoniques dont on peut choisir les directivités (en général cardioïdes). Les cinq
microphones sont souvent considérés comme formant trois couples stéréophoniques (G/C, C/D, AG/AD)
ou cinq selon la configuration (G/C, C/D, D/AD, AD/AG, AG/G).
Une des réalisations commerciales est le système ASM-5 (Adjustable Surround Microphone). Un
ensemble de 5 microphones de type VM 1 proposé par la société Brauner, dont le module ATMOS 5.1
propose, entre autre, le contrôle des directivités (microphones à double membrane).
25 cm 25 cm
L 35 cm R
53 cm 53 cm
LS 60 cm RS
84
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Ce système, constitué généralement de cinq capsules cardioïdes, repose aussi sur la théorie des angles de
prise de son entre cinq couples adjacents.
Le concept de critical linking permet de raccorder parfaitement les couvertures frontales, latérales, et
arrières.
Une autre variante d’un quintuplet de microphones cardioïdes. Les configurations recommandées sont :
85
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
86
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
87
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
A: Stereo + C
+NHK
4
Decca - Tree
OCT + NHK
Judgement scale
Brauner/ INA 5
3
KFM
OCT Surround
Soundfield
1
0 1 2 3 4 5 6 7 8 9
88
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Les performances actuelles du DVD Vidéo (débit et capacité) étant insuffisantes pour le passage à la
télévision haute définition (TVHD), la bataille règne actuellement entre ses deux éventuels successeurs le
DVD haute définition (HD-DVD) mené par Toshiba, Microsoft et Intel et le DVD dit « Blu-ray Disc»
(BD) soutenu par Sony, Apple, Dell, Hitachi, LG Electronics, Matsushita-Panasonic, Pioneer, Philips,
Samsung, Sharp, TDK et Thomson.
Il est bien sur possible de lire les anciens DVD vidéos sur tous les lecteurs, et bien sur impossible de lire
un DVD Blu-ray sur une platine HD DVD et vice versa. Certains constructeurs proposent tout de même
des lecteurs hybrides…
Les éditeurs de films et les studios cinématographiques prennent part à la bataille en se ralliant à l’un ou à
l’autre. Fin 2007, le catalogue Blu-ray comportait 247 titres contre 180 pour le HD-DVD. Les studios
Warner Bros (seconde major sur le secteur des films avec une part de marché de 14%) vient de rejoindre
le camp du Blu-ray. Une adhésion qui pourrait entraîner selon certains celle des studios Paramount…
En attendant, les consoles de jeux viennent bouleverser la donne. La PlayStation (PS3) de Sony est
équipée d’un lecteur de disques Blu-ray alors qu’un lecteur HD-DVD n’est qu’en option pour la Xbox
360 de Microsoft…
Du point de vue des caractéristiques techniques, le Blu-ray supplante son rival en termes de capacité de
stockage 25 Go par couche contre 15 Go pour le HD-DVD. Hitachi envisage même la possibilité
technique de fabriquer des disques Blu-ray de 4 ou 8 couches par face (soient 100 ou 200 Go de capacité
de stockage). De son coté Toshiba propose un HD-DVD triple couche d’environ 50 Go…
Le format Blu-ray existe aussi pour des disques de 8 cm simple couche simple face. Ils ont une capacité
de 15 Go et sont prévus pour les équipements portables…
Pour ce qui est des débits, le Blu-ray et le HD-DVD se tiennent dans un mouchoir de poche autour de 36
Mbps (BD et HD-DVD 1x). Néanmoins, le consortium Blu-ray envisage un débit de lecture de base à 1,5
fois ce débit et le passage à 2 fois soient 54 Mbps et 72 Mbps...
Reste tout de même que le HD-DVD est plus économique dans la mesure où il peut utiliser les mêmes
chaînes de fabrication que le DVD Vidéo.
Le format BD-ROM (UDF v2.5) spécifie 3 codecs pour la vidéo, le H.264 / MPEG4 Advanced Video
Coding High Profile, le VC-1 basé sur le Windows Media 9 de Microsoft et le MPEG-2 codec principal
du DVD Vidéo mais dans sa version haute définition.
Les disques BD-R et BD-RE (inscriptibles et réinscriptibles), eux ne supportent que le standard MPEG-2
HD car c’est celui utilisé par la diffusion numérique en TVHD.
Les deux formats acceptent la pleine définition HD (full HD), à savoir 1920 x 1080 pixels en 16/9. Le
balayage peut être progressif (p pour progressive) ou entrelacé (i pour interlaced).
89
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le format DVD vidéo à une résolution de 720 x 576 à 50 Hz en PAL et de 720 x 480 à 60 Hz en NTSC
que ce soit en 4/3 ou en 16/9. Il propose donc un 16/9 anamorphosé dont la résolution est identique à celle
du 4/3.
Les interfaces vidéonumériques respectant la norme haute définition sont le DVI (Digital Video Interface)
dont la longueur de connexion est limitée à environ 2m, et le HDMI (High definition Multimedia
Interface) qui permet de transporter audio et vidéo numérique sur environ 15m.
Les méthodes d'encodage du flux audio incluent le PCM linéaire, le Dolby Digital, et le DTS dans leurs
derniers développements.
Dolby Digital (DD) : format utilisé pour le DVD Vidéo, version 5.1.
DTS Digital Surround : format utilisé pour le DVD Vidéo, version 5.1.
Dolby Digital Plus (DD+) : extension du Dolby Digital, 7.1 canaux possibles.
DTS-HD High Resolution Audio : extension du DTS, 7.1 canaux possibles.
Le Dolby Digital Plus (ou E-AC-3 pour Enhanced Audio Coding 3) est une évolution du Dolby Digital
pour les formats de la TVHD. C’est un codec à pertes.
Le transfert d’un flux DD+ peut être effectué par une connexion HDMI 1.3.
Le DTS-HD High Resolution Audio est une extension du format DTS. Il est prévu comme une
alternative au DTS-HD Master Audio dans le cas ou un disque manquerait de place. C’est un codec à
pertes.
Le transfert d’un flux DTS-HD High Resolution Audio peut être effectué par une connexion HDMI 1.3.
Dolby True HD
Le Dolby True HD est un algorithme de compression sans perte utilisant le MLP (Meridian Losseless
packing). Il intègre aussi des données de contrôle (metadatas).
Le transfert d’un flux Dolby True HD peut être effectué par une connexion HDMI 1.3.
DTS-HD Master Audio
91
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Le DTS-HD Master Audio est un algorithme de compression sans perte. C’est un format optionnel pour
les formats Blu-ray et HD-DVD. Dans ce format, le flux DTS conventionnel est complété par un flux
additionnel codant les différences entre l’original et la compression à pertes effectuée par le codage DTS.
Ce flux résiduel est ensuite encodé sans pertes.
Le transfert d’un flux DTS-HD Master Audio peut être effectué par une connexion HDMI 1.3.
HD DVD Blu-Ray
Codec
Décodeur Canaux Débit max Décodeur Canaux Débit max
AC-3 obligatoire 1 à 5.1 504 kbps obligatoire 1 à 5.1 640 kbps
DTS optionnel 1 à 7.1 1,5 Mbps optionnel 1 à 7.1 1,5 Mbps
DD+ obligatoire 1 à 7.1 3 Mbps optionnel 1 à 7.1 4.7 Mbps
DTS-HD optionnel 1 à 7.1 3 Mbps optionnel 1 à 7.1 6 Mbps
obligatoire 1à2 18 Mbps 18 Mbps
Dolby TrueHD optionnel 1 à 8
optionnel 3à8 18 Mbps
DTS- HD MA optionnel 1à8 18 Mbps optionnel 1 à 8 24,5 Mbps
92
Pierre-Antoine Signoret CNSMDP - Le son multicanal v2.0 - janvier 2012
Tableau de comparaison des medias haute définition. Le format DVD est inclut pour la comparaison.
Les codecs obligatoires doivent être décodés par le lecteur. Chaque disque doit utiliser un ou plusieurs codecs obligatoires.
* AACS (Advanced Access Content System), BD+ et ROM Mark sont trois procédés de protection des disques.
[a] : Tous les lecteurs HD-DVD doivent décoder les deux premiers canaux (droite et gauche) d’une piste encodée en Dolby TrueHD, néanmoins tous les
lecteurs HD-DVD réalisés pour le moment décodent les 5.1 premiers canaux du Dolby TrueHD.
[b] : Le premier novembre 2007, des décodeurs vidéo et audio secondaires sont devenus obligatoires pour les nouveaux lecteurs Blu-ray Disc quand la
recommandation « Bonus View »à été intégrée au standard. Néanmoins, les lecteurs introduits sur le marché avant cette date peuvent continuer à être vendus
sans « Bonus View ».
[c] : Il y a quelques différences d’implémentations du Dolby Digital Plus (DD+) entre les deux formats. Sur un disque Blu-ray, le DD+ peut seulement être
utilise comme extension d’un flux DD 5.1. Selon cette méthode, un débit de 640 Kbps est alloué au flux primaire DD 5.1 (lisible par un lecteur qui ne
supporte pas le DD+), et jusqu’à 1 Mbps peut être alloué à l’extension DD+. L’extension DD+ est utilisée pour remplacer les canaux arrière du flux DD avec
des versions de plus haute fidélité et la possibilité d’utilisation de canaux additionnels pour le 6.1 et le 7.1. Sur un disque HD-DVD, le DD+ est utilisé pour
encoder tous les canaux audio (jusqu’à 7.1), et l’utilisation de DD n’est pas utile car tous les lecteurs sont capable de décoder le format DD+.
[d] : Sur les DVDs NTSC, les contenus en 24 images par seconde sont transformés en 60 trames entrelacée par utilisation du procédé dit « 3:2 pulldown »,
qui s’il est effectué correctement peut être inversé pour retrouver la cadence originale de 24 images par seconde.
94
Codes régionaux
La spécification BD-ROM définit quatre profils de lecteurs Blu-ray. En plus des trois profils spécifiés ci-
dessous, un profil BD-Audio est envisagé, ne requérant pas de décodage vidéo ni de navigation Java (BD-
J). Tous les lecteurs vidéo, en revanche, doivent implémenter la spécification BD-J, mais peuvent avoir
différentes configurations matérielles.
Matériel BD-Vidéo (Profil 1.0) Bonus View (Profil 1.1) BD-Live (Profil 2)
Mémoire persistante intégrée 64 Ko 64 Ko 64 Ko
Capacité de stockage intégrée [a] – 256 Mo 1 Go
Décodeur vidéo secondaire (PiP) Optionnel Obligatoire Obligatoire
[b]
Décodeur audio secondaire Optionnel Obligatoire Obligatoire
Virtual file system Optionnel Obligatoire Obligatoire
Support Internet Non Non Obligatoire
[a] : le stockage peut être intégré dans le lecteur ou être sous forme de mémoire amovible (carte mémoire
ou mémoire USB...)
[b] : Un décodeur audio secondaire est typiquement utilisé pour l’audio interactif et les commentaires.
Le premier novembre 2007, le profil 1.0 à cède sa place au format "Bonus View". A l’exception de la
PlayStation 3, les lecteurs de profil 1.0 ne peuvent pas être upgradés au format "Bonus View".
Le 17 décembre 2007, la PlayStation 3 est devenue compatible au format "Bonus View" 1.1 à travers sa
version système 2.10.
Un lecteur de profil 1.0 est tout de même capable de lire les informations principales d’un disque "Bonus
View".
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
96
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
Audio Seul PCM Dolby AC3 MPEG 1 MPEG 2 DTS (opt) SDDS (opt)
Débit max. 6,144 Mbps 448 kbps 384 kbps 912 kbps 1536 kbps 1280 kbps
Nbre de pistes 8 max. 5.1 max. 2 max. 7.1 max. 5.1 max. 7.1 max.
97
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
PCM 16/44,1 Mono / Stéréo 0,7056 / 1,4112 Hors norme Hors norme
Remarque :
Pour le DVD, les capacités sont données en puissances de 10. 4,7 Go est donc équivalent à :
4,7 x 109 x 8 bits. La capacité informatique équivalente (qui raisonne en 210 = 1024) est de :
4,38 / 7,96 / 8,75 et 15,91 Go pour les quatre formats de DVD vidéo.
98
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
Sony et Philips proposent un autre format concurrent au DVD Audio, le Super Audio CD (SACD).
Le Super Audio CD est un format multicouche englobant une couche CD DA compatible Red Book et
une couche haute densité encodée en Direct Stream Digital (DSD). Le DSD est une appellation
commerciale désignant une modulation sigma delta conventionnelle. Un disque double couche est
communément appelé un SACD Hybride.
Le SACD utilise un flux one bit à 2,8224 Mbps (64 x 44,1 kHz). Les caractéristiques annoncées sont de
plus de 120 dB de dynamique et plus de 100 kHz de bande passante. La couche haute densité peut se
composer d’une zone stéréo et d’une zone multicanale.
La couche haute densité utilise un algorithme de compression sans perte élaboré par les laboratoires
Philips : le DST (Direct Stream Transfer). Il permet un gain variable de 40 à 60 % selon les données.
Il est possible de mettre simultanément 74 mn d’audio stéréo haute résolution et 74 mn de 5.1 sur la
couche haute densité.
La couche haute densité est analogue à celle d’un DVD bien que le format des données soit différent. Le
support de pré-mastering adopté est l’AIT.
La structure logique du SACD est une extension de celle d’un CD DA. Une Master TOC adressera une
TOC stéréo et une TOC multicanale. Les flux annexes (texte, codes ISRC…) seront ajoutés dans une zone
dédiée du disque de la même façon que sur un CD Extra. Il est possible de mettre 8 flux de texte.
Le SACD englobe une série de protection contre la copie illégale : encryption des TOCs, SACD Mark,
Watermarking…
Pour ce qui est de la compatibilité DVD Audio / SACD, Sony et Philips annoncent que leurs lecteurs
SACD liront les DVD Audio. Les lecteurs de DVD Audio ont donc tout intérêt à lire les SACD…
Ce format semble actuellement avoir remporté la guerre commerciale sur le DVD Audio.
99
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
100
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
DVD Audio
La norme DVD Audio différencie deux types de disques : Les DVD Audio et les DVD AudioV. Dans le
cas du DVD AudioV, les éléments vidéo sont de même nature que ceux du DVD Vidéo avec quelques
restrictions (pas de contrôle parental, de codage régional, ni de multi-angle).
La norme DVD Audio inclut deux familles de fréquences d’échantillonnage : 44,1 / 88,2 / 176,4 kHz et
48 / 96 / 192 kHz aux résolutions de 16, 20, ou 24 bits. Il est permis d’utiliser 6 pistes par flux sauf dans
le cas des hautes résolutions (176,4 et 192 kHz) où le nombre de canaux est limité à deux. Quasiment tout
le débit disponible peut être utilisé par les flux audio (9,6 Mbps au lieu de 6,144 Mbps pour les flux son
en DVD Vidéo).
Il est possible de séparer les canaux en deux groupes, par exemple pour donner des caractéristiques
différentes aux canaux frontaux et arrière comme suit :
44.1 44.1
48 48
Fréquence
88.2 88.2 ou 44.1
d’échantillonnage
96 96 ou 48
(kHz)
176.4 (2 canaux max) X
192 (2 canaux max) X
16 16
Résolution (bits) 20 16 ou 20
24 16, 20 ou 24
Le DVD audio intègre, de plus, la Losseless Compression (MLP) de Peter Craven et Michael Gerzon
implantée par la société anglaise Meridian Audio. Celle-ci permet un gain moyen d’environ 50 % par
rapport au flux linéaire. Un flux PCM linéaire ou Losslessly compressed est obligatoire. Un deuxième
flux est possible sous forme compressée (Dolby Digital, DTS…).
Pour assurer la compatibilité stéréo, le standard inclut jusqu’à 16 matrices 6 x 2 (une maximum par titre).
Les coefficients de gain sont codés sur 8 bits ; la phase sur un. Le système de downmixing est appelé
SMART (System Managed Audio Resource Technique).
Enfin, le standard intègre l’utilisation de menus (images fixes encodées en MPEG 2), 8 flux de
subpictures pour le texte, et des possibilités d’accès internet (liens URL). Les menus sont stockés en
RAM par le lecteur pour ne pas interrompre la lecture audio.
4
Direct Stream Digital : modulation sigma delta (1 bit, 2,8224 MHz)
101
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
MPEG 2 Main Stéréo + Ext. 0,64 0,912 0,912 7.1 (?) 11h27min
Streams / 48 kHz
102
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
• Choix de la production :
- système SMART
- lecture des CD-DA
- lecture d’au moins 2 canaux PCM linéaires avec sorties analogiques
- lecture des hybrides 1 couche CD-DA / 1 couche DVD
103
Pierre-Antoine Signoret CNSMDP Le son multicanal - Octobre 2008
104