Vous êtes sur la page 1sur 56

AUDIONUMÉRIQUE

« Le numérique c’est simple, c’est soit 0 soit 1 »

1)INTRODUCTION
Historique
1974: Sony X-12DTC

12bit, 56 têtes, 250kg… sur bande magnétique.

1976: Sony Disque de 15 pouces lu par laser


30 min, 12bit, 2 canaux
1977: Sony PCM-1

60MIN, 13bit, 2 canaux

1978: PCM Audio disc 2h30min !


1978: ENREGISTREURS MULTIPISTES PCM3224
puis 3324

16bit, 24 canaux
Versions HR : 24bit, 24 puis 48 canaux

1981: SYSTÈME DE MASTERING DIGITAL


PCM-1610 + DAE-1100 + DRE-2000

PCM-1610 convertisseur A/N et N/A


PCM-1610 + magnétoscope U-Matic

DAE-1100 « Digital editing console »

DRE-2000 réverbération numérique


1982: PROTOTYPES DE LECTEURS CD SONY ET
PHILIPS

1ERS LECTEURS CD COMMERCIALISÉS

Philips CD100
Sony CDP-101

En 1982, le disque compact fait son apparition sur le marché comme


un format destiné à remplacer les disques de vinyle.

Il a été mis au point par Sony et Philips

Le CD est entièrement différent du vinyle: c’est le premier format


audionumérique disponible en grand public.
Il utilise un système appelé modulation par impulsions codées, ou
PCM (Pulse Code Modulation), pour décrire les signaux audio.

L’audionumérique règle plusieurs problèmes liés aux médias


analogiques comme le bruit de fond, la réponse en fréquence
irrégulière, le pleurage et scintillement, et la distorsion
harmonique.

La publicité de l’époque lançait des phrases comme « Le son est


parfait – pour toujours ». Cependant, les plaintes commencèrent à
fuser. Ceux que les nouveaux disques brillants n’impressionnaient
pas se plaignaient de « rudesse sonore » et de « manque de vie » –
des plaintes qui furent largement ignorées.

Les fabricants et autres professionnels de l’industrie audio en vinrent


à comprendre qu’il y avait d’autres problèmes associés aux formats
numériques.
Certains de ces problèmes résultaient de limites technologiques qui
ont été largement dépassées ou complètement réglées dans les 20
dernières années:

Précision de description du signal analogique (Nbit):


Elle détermine la dynamique du signal décrit en PCM:
Dyn(dB) = 6,02dB x Nbit +1,76
Le CD a une précision de 16bit

Les convertisseurs Analogique—>Numérique et Numérique—>


Analogique s’améliorent progressivement:

16bit (96dB) dans les années 80,


20bit (120dB) début 90’s,
24bit (144dB) fin 90’s,
32bit (192dB) dans les années 2010.

Bande passante du signal décrit (Fe):


- Elle dépend de la Fréquence d’échantillonnage Fe (Sampling
Frequency Fs), et va de 0Hz à 1/2Fe Hz.
Le CD a une fréquence d’échantillonnage de 44,1KHz

Aux Fe d’origine:

32KHz (BP 0Hz---->16KHz),


44,1KHZ (BP 0Hz---->22,05KHz)
et 48KHz (BP 0Hz---->24KHz),

on a rajouté les Fe de:

88,2KHz (BP 0Hz---->44,1KHz),


96KHz (BP 0Hz---->48KHz),
176,4KHz (BP 0Hz---->88,2KHz),
192KHz (BP 0Hz---->96KHz)

Et ainsi de suite jusqu’à 768KHz (BP 0Hz---->384KHz).


Mais la cause principale des plaintes était en fait la médiocrité
des premières générations de convertisseurs
Numérique—>Analogique, particulièrement en grand public.
Deux améliorations se sont généralisées et ont permis d’avoir des
convertisseurs de bonne qualité à prix raisonnable:
- Le suréchantillonnage
- Les convertisseurs sigma-delta

Le format CD (16bit/44,1KHz) est tout à fait suffisant pour une


écoute domestique finale sans traitement ultérieur, et écouté avec
de bons convertisseurs, procure un vrai plaisir d’écoute.

Par contre, 16bit/44,1KHz pour de la production audio est


insuffisant, car les conversions A/N et N/A ainsi que les traitements
numériques ou analogiques seront meilleurs avec des formats
supérieurs, comme en 24bit/96KHz par exemple.

Il y avait donc certaines limites du format CD qui ne pouvaient être


entièrement corrigées sans changer du tout au tout ses
caractéristiques
1987: R-DAT DTC-100ES

Après avoir remplacé le vinyle par le CD, Sony a voulu remplacer la


K7 audio par la DAT (Digital Audio Tape)

-16bit
- 32 / 44,1 (Rec sur DAT Pro seulement) / 48KHz
- Liaisons numériques SPDIF cuivre et optique
- Système SCMS (Serial Copy Management System)
- Liaisons numériques AES/EBU (DAT Pro seulement)

La DAT fut un échec commercial en grand public (trop fragile et


complexe à l’utilisation), mais fut largement adopté en audio pro.
Jusqu’au début des années 2000 on s’en servait de 2-Track.
1992: DCC
Philips lança en 1992 la DCC (Digital Compact Cassette), qu’il
abandonna moins de 5 ans plus tard.

- Compression de données PASC (Precision Adaptive Sub-band


Coding, similaire au MPEG-1) qui engendre une qualité inférieure au
DAT.
1992: MINI-DISC

- Compression de données ATRAC (Adaptive Transform Acoustic


Coding), moins mauvaise que le MP3, mais non disponible sur
ordinateur, ce qui pousse Sony à abandonner le MINI-DISC en 2007.
- Version enregistrable en ATRAC puis PCM

1996: DVD-VIDEO
Un nouveau format basé sur le disque optique, appelé DVD (Digital
Vidéo Disc) fait son apparition.
Il présente un certain nombre d’avantages sur le format du CD audio
– surtout l’introduction de l’audio 5.1, connu aussi comme le son
« surround »:
-cinq canaux pour haut-parleurs pleine bande
-plus un canal LFE (effets de basses fréquences) qui doit être
reproduit par un haut-parleur à basse fréquence appelé caisson de
basse.

Il y a cependant un fait indéniable, c’est que le DVD (appelé ensuite


disque DVD vidéo) possède plus de canaux audio disponibles
qu’un CD , mais que chacun de ces canaux a une qualité sonore
moins bonne qu’un CD typique.

C’est parce que presque tous les disques DVD vidéo utilisent un
système de compression des données avec perte, comme le
Dolby AC-3 (ou Dolby Digital), MPEG-1 Audio Layer II, MPEG-2,
ou DTS, de façon à insérer tout le contenu audio sur un seul disque,
à côté de l’information vidéo.
Cette compression est produite par un algorithme qui prédit quels
éléments du signal audio vous serez incapable d’entendre parce
qu’ils seront psychoacoustiquement masqués par d’autres éléments
dans le même signal. L’algorithme décide que, puisque vous ne
pouvez pas entendre ces éléments, ils n’ont pas besoin de se
retrouver dans le signal compressé.

Ce système fonctionne très bien la plupart du temps, surtout parce


que votre attention est attirée par les images à l’écran. Un problème
se pose lorsqu’il n’y a pas d’images pour vous distraire et que vous
pouvez entendre mieux que l’algorithme de compression ne l’a prédit.

Le DVD video a donc contribué à habituer le grand public à écouter


de l’audio compressé avec pertes.

La seule façon d’y stocker du son de qualité meilleure que le CD


est sous la forme LPCM : jusqu’à 8 canaux à 48 ou 96-kHz et 16,
20 ou 24 bits par sample, mais pas tout en même temps.
Malheureusement le débit maximum de 6.144 Mb/s laisse alors peu
de bande passante pour la vidéo, ainsi que moins de temps total.

Il aurait onc été techniquement possible de créer une variante de


DVD vidéo sans vidéo, qui aurait permis au grand public de profiter
du son 5.1 en qualité égale ou supérieure au CD, écoutable sur son
système Home Cinéma.

1999: DVD-AUDIO
Il en résulta l’introduction d’un nouveau format basé sur la plate-
forme DVD, mais limité à l’audio de haute qualité et excluant presque
entièrement la vidéo.
Après des années de discussions et de réunions de comités (plus le
« crackage » du CSS), ce DVD audio fut finalisé au printemps 1999.

Le standard DVD audio permet l’utilisation d’un seul algorithme de


compression appelé MLP ou Meridian Lossless Packing
( compactage sans pertes Méridian) qui, comme son nom l’indique,
ne produit pas de perte d’information. De plus, la qualité audio du
DVD audio est largement supérieure à celle du CD.
Malheureusement, un schéma de protection de copie embarqué dans
l’audio est obligatoire, et le « bruit supposé inaudible » qui en résulte
doit être évalué subjectivement par chacun (ce signal est censé
résister à une copie analogique !)

La méthode utilisée pour encoder l’audio dans le DVD audio est


essentiellement une version améliorée du PCM utilisé dans le CD (Fe
et Nbit supérieurs). Il faut aussi mentionner que la spécification DVD
audio permet jusqu’à six canaux audio pleine bande, dont un peut
servir de canal LFE( effets de basses fréquences) si désiré.

1999: SACD 2 CANAUX


Un concurrent du format DVD audio fut lancé par les concepteurs
originaux du CD.
Baptisé Super Audio CD (SACD), il fut présenté à l’automne 1999
comme un format stéréo à deux canaux et, au printemps 2001,
comme un format à six canaux (qui, encore une fois, peut servir de
système 5.1).

Ce format utilise une méthode tout à fait différente d’encodage


numérique des signaux audio appelée DSD pour Direct Stream
Digital (flux numérique direct).
On utilise une Fe très élevée (minimum 64x44,1KHz=2,8MHz) et un
seul bit. On parle de bitstream.

- Les conversions A/N et N/A peuvent être meilleures qu’en PCM

- Un flux DSD est très complexe voire impossible à traiter tel quel
numériquement. Par exemple une simple atténuation en numérique
génère du PCM en sortie de l’atténuateur, qui requiert un
transcodage PCM—>DSD pour profiter des conversions N/A en DSD.

- La quasi totalité des outils numériques (DAWs, Plug-ins) ne


travaillent qu’en PCM. Certaines productions font les prises en DSD
pour la qualité de conversions, puis un transcodage DSD—>PCM
pour utiliser les outils habituels. Après le mixage, lors du mastering
on reste en PCM dans la plupart des cas, ou bien on refait un
transcodage PCM—>DSD pour une diffusion en DSD (cas du
SACD).

- Les formats d’interfaces qui véhiculent du DSD sont peu répandues:


SDIF (Sony Digital InterFace), DoP (DSD over PCM, pour
transmettre un flux DSD via une interface PCM comme le SPDIF), ou
protocole informatique comme l’USB.

Le PCM est un système multibit, le DSD est un système one-bit.

2001: SACD 6 CANAUX

Les copies illégales sont de plus en plus répandues : CD vers CD-R,


DIVX sur CD-R, etc.
Le grand public s’équipe d’ordinateurs avec quasi-
systématiquement un lecteur de disques optiques et un ou plusieurs
graveurs.

L’argent va vers les fabricants de drives optiques et de supports


enregistrables plutôt qu’aux ayant-droit de la musique. La maigre
taxe sur les supports enregistrables ne peut compenser le manque à
gagner.

Les systèmes anti-copies sont de plus en plus « puissants » et


pénalisent plus l’acheteur loyal que le pirate (cas du CD de Natalie
Imbruglia chez Sony, cas du HDCP pour les DVD-vidéo), donnant
envie aux acheteurs fidèles de passer « du côté obscur ».

Suite à cette guerre de formats DVD-Audio /SACD, les deux


formats disparaissent (sauf le SACD au Japon). Puis rebelote avec
HD-DVD contre BLU-RAY, seul ce dernier subsiste. Beaucoup de
monde perd beaucoup d’argent.

Une telle guerre au moment ou le grand public se tourne vers


internet pour consommer de la musique, est une très mauvaise idée.

Comment expliquer que les Labels, dont le métier est de vendre de la


musique, ne l’aient pas fait via Internet, alors qu’un vendeur de
téléphones y arrive ?

2001: ITUNES: le download


Steve Jobs lance sa plateforme iTunes, c’est le début de la
dématérialisation. Son vif succès montre que les labels, englués
dans leur modèle basé sur les supports physiques, et en pleine
paranoïa anti-copies, n’ont pas su être visionnaires.
2000-20..? : L’INVASION DU MP3

Depuis 1982, pour les auditeurs, rien de nouveau. Le grand public,


laissé à lui-même, se gave de fichiers mp3 à la qualité sonore plutôt
médiocre. Mais c’est « gratuit », alors peu s’en plaignent.

La musique n’est pas gratuite, c’est clairement du vol. La plupart des


gens n’ont même pas l’idée de permettre aux artistes qu’ils aiment,
de vivre de leur art, en achetant un CD par exemple.

C’est le mode de consommation (pouvoir écouter « tout », tout de


suite) qui prime sur la qualité sonore et l’aspect moral.

Le grand public s’habitue à écouter du mp3, sur des « enceintes de


PC » (c’est le plus pratique), et devient de moins en moins exigeant.

Les plateformes de téléchargement et/ou streaming illégales se


multiplient et ont un énorme « succès ». On assiste à une perte de
contrôle de la qualité du contenu diffusé.

En effet, lors du mastering d’un CD, l’artiste et l’ingénieur


choisissent ensemble le son de l’oeuvre qui va être diffusée, c’est
à dire présentée au public.

Ce son est le même sur tous les CD pressés. L’auditeur en


entendra une version plus ou moins proche selon la qualité de son
système d’écoute, qui est souvent liée à son implication.

À l’inverse, sur une plateforme illégale comme par exemple


Grooveshark, en effectuant la recherche d’un titre ce n’est pas une
seule version de son qu’on obtient, mais plutôt des dizaines,
d’une qualité très variable. C’est parce que le contenu est fourni
par les utilisateurs, qui s’improvisent diffuseurs, sans en ayant les
compétences (certains mp3 ont audiblement subi plusieurs codages
avec pertes successifs, parfois mono, etc).
Cette variabilité de qualité sonore rend le grand public encore
moins exigeant, ce qui pousse les producteurs à diminuer les
budgets (« de tout façon ça finira en mp3 »).

Et vous, en tant qu’ingénieur ou artiste, apprécieriez-vous qu’un


amateur diffuse votre oeuvre sans votre avis et avec un son bien
inférieur à celui que vous avez patiemment travaillé ?

Alors que les revenus de la vente des CD ne cessaient


d’augmenter depuis 1982, à partir de 2001 (pic) ils ne cessent de
diminuer (c’est toujours le cas en 2020), avec quasiment rien
d’autre pour compenser (hormis le live).

LE STREAMING
Le CD est un support audio qui permet l’écoute en le lisant, mais
aussi en le « rippant » sur un NAS par exemple, ce qui est plus
confortable mais requiert de l’espace de stockage. Il peut être
conservé indéfiniment et servir d’archive (pratique quand le
stockage informatique est défaillant, quoique long à « ripper » à
nouveau). Mais il prend de la place.

En download, au moins on possède un fichier. En streaming on


paye pour une écoute instantanée (plus l’accès internet), il n’en
reste aucune trace.

Mais le grand public s’est habitué à la dématérialisation (« merci »


youtube) et semble prêt à payer ce type de service.

Arrive le streaming payant (légal). Dès 2017, le streaming crée


plus de revenus que tout les autres vecteurs de diffusion
additionnés, et continue d’augmenter. On a enfin « touché le fond »,
bonne nouvelle !

Hormis certains abonnements (souscriptions) coûteux, toutes les


plateformes diffusent de l’audio compressé avec perte, chacune
avec son propre format, donc avec un son plus ou moins
différent mais inférieur au CD.

Par exemple : Spotify en OggVorbis, Apple en AAC, pour Youtube ça


dépendra du navigateur internet…

Ce modèle de consommation étant très rentable, on voit rapidement


de gros acteurs débarquer : Apple, Amazon, Google, qui veulent
prendre le marché aux Qobuz, Spotify, Tidal, Pandora, Deezer et
autres.

Pour se faire concurrence, les plateformes de streaming jouent


l’argument de la qualité audio !. Tant mieux, même si ce n’est pas
que par amour de l’art…

En 2019, Amazon annonce qu’ en plus du mp3 (ils vont arrêter le


format CD physique), il vont vendre de la « HD », de la « UHD », et
même du son Atmos !

À savoir :
SD = 44,1KHz/16bit
HD = 44,1KHz/24bit
UHD = Fe>44,1KHz/24bit

Enfin on peut imaginer la généralisation du streaming en audio


sans pertes !

Mais attention, ces gros acteurs - après avoir pris le marché des
diffuseurs et même de labels (Spotify), derniers maillons de la
chaîne de production - vont chercher à la remonter.

Juste avant la diffusion se trouve le Mastering.

Il est déjà prévu de proposer un mastering par IA dès l’upload de


l’audio, avec un bouton « Master it ! ». L’interaction entre l’uploader et
l’algorithme d’IA ne va cesser de se développer, afin d’impliquer au
maximum le « client ». C’est du mastering « assisté ».
Le Mastering « automatique » ou « assisté » est le traitement le plus
simple à faire.

Juste avant le Mastering se trouve le Mixage.

Le mixage « automatique » ou « assisté » demande beaucoup plus


de ressources, mais ce n’est qu’une question de temps, ces gros
acteurs disposant de budgets de recherche immenses comparés à
ceux de la corporation audio.

Ceux qui veulent oeuvrer dans le mastering ou le mixage doivent


donc anticiper ces changements

La démocratisation des outils de production audionumérique a


généré énormément de création de contenu, et elle s’amplifie.

- Il y aura trop de contenu pour que les mixes ou mastering de qualité


soient tous faits par des humains, les « robots » de mastering feront
le reste
- Beaucoup se satisferont du travail des « robots », ou même y
prendront plaisir via l’interactivité
- les professionnels de l’audio utiliseront des outils avec IA spécifique
- Rien n’est plus difficile à modéliser que l’inspiration et le contact
humain : il y aura toujours ceux qui préfèrent collaborer avec des
humains

L’humain a la capacité de créer des outils. Pendant longtemps il a


créé des outils pour soulager son physique, puis pour soulager sa
mémoire, nous arrivons à l’ère ou l’humain va créer des outils pour
soulager son intellect… L’IA doit rester un outil et non pas nous dicter
ses ordres.

Parfois, l’intelligence artificielle est préférable à la bêtise naturelle…


2)CONVERSIONS A/D ET D/A EN PCM

A - CONVERSION A/D : elle se fait en 3 étapes


1 - ECHANTILLONNAGE
Pour convertir un signal analogique en son équivalent numérique, il
faut échantillonner, c.a.d. mesurer le niveau de tension à une
cadence régulière appelée fréquence d’échantillonnage
(l’équivalent des images par seconde au cinéma).

Fig.1 Signal analogique

Fig.2 Signal échantillonné

Le résultat est une perte de l’information entre échantillons


adjacents. En fait, il a été établi qu’en stockant le son de cette
manière, l’énergie dont la fréquence dépasse la moitié de la
fréquence d’échantillonnage n’est pas conservée.
De plus toute énergie >1/2Fe va être convertie en fréquences
plus basses, par effet d’aliasing.
On constate expérimentalement la présence d'un effet
"stroboscopique" appelé aliasing : au signal de fréquence trop élevée
se substitue un signal de fréquence apparente plus basse. Tout se
passe comme si les fréquences hautes étaient "repliées" dans la
partie du spectre inférieure à Fe /2

Pour exclure du système toute énergie à haute fréquence non


désirée, le signal passe d’abord dans un appareil appelé filtre
antirepliement (ou anti-aliasing, ou de garde), lequel permet aux
basses fréquences de passer, mais empêche les fréquences
supérieures à la moitié de la fréquence d’échantillonnage d’atteindre
les circuits d’échantillonnage.


Théorème de Shannon
Le théorème de Shannon, également appelé théorème de
l’échantillonnage, est un des fondements du traitement numérique
des signaux :

Ce théorème découle immédiatement de l’analyse précédente


concernant le phénomène de recouvrement : l’échantillonnage à une
fréquence Fe d’une fonction f(t) qui respecte le théorème de Shannon
ne produit pas de recouvrement spectral. Par conséquent, le signal
original f(t) peut être reconstitué par le filtrage du signal impulsionnel
F + (t) par un passe-bas idéal de fréquence de coupure f M=1/2Fe.

1/2Fe est appelée fréquence de Nyquist (collaborateur de


Shannon).

Le premier traitement du signal est donc théoriquement un filtre


passe-bas analogique à 1/2Fe, de pente infinie. Ce filtrage
impossible à réaliser en analogique est la cause de fortes
dégradations du signal, avant même qu’il soit échantillonné,
typiques des premiers convertisseurs A/D et D/A.

La solution est le suréchantillonnage.

Oversampling (Suréchantillonnage)


ANALOG ANALOG
BRICK WALL A-D D-A BRICK WALL
FILTER CONVERTOR CONVERTOR FILTER
INPUT OUTPUT
C C

Fe
CLOCK
Conventional System GENERATOR

DIGITAL DIGITAL
BRICK WALL BRICK WALL
ANALOG OVER SAMPLING OVER SAMPLING ANALOG
LOW PASS A-D FILTER FILTER D-A LOW PASS
FILTER CONVERTOR CONVERTOR FILTER
INPUT OUTPUT
C C
Fe x
Sur
CLOCK
Oversampling System GENERATOR

Le signal échantillonné est toujours dans le domaine analogique, le


signal analogique d’origine a juste été discrétisé dans le temps.

L’étape suivante du procédé est l’enregistrement des mesures


comme valeurs pouvant être stockées ou transmises.

2 - QUANTIFICATION

Quantifier, c’est attribuer à chaque échantillon un code numérique


(mot audio) qui décrit son amplitude.

On va donc mesurer l’amplitude de chaque échantillon à l’aide d’une


« règle » numérique.

Cette « règle » est graduée en « Quantums » (niveaux de


quantification).
Le nombre de Quantums dépend de Nbit : NQ=2 puissance Nbit

16bit—>65 536Q
24bit—>16 777 216Q

La « règle » ne changeant pas de taille, les mesures sont beaucoup


plus précises en 24bit.
Malheureusement, il est impossible de fabriquer un système capable
de mesurer parfaitement le niveau de tension -- tout comme on ne
peut pas mesurer avec exactitude une distance de 4,23 mm à l’aide
d’une règle graduée en millimètres.
Il faut, par conséquent, quantifier ou arrondir la mesure à la plus
proche valeur reconnaissable par le système. En comparant les
figures 3 et 4, on peut voir que la quantification a pour conséquence
une erreur d’arrondi des mesures des niveaux des échantillons
individuels, appelée erreur de quantification Edq.


Fig.3 Fig.4

Cette Edq est fixe et =+/-1/2Q.


Elle est donc très faible pour les samples de grande amplitude, mais
atteint 50% dans le 1er Quantum.

Le résultat de cette erreur de quantification est le bruit de


quantification, lequel peut, sans autre correction, interférer avec les
signaux les plus faibles dans l’enregistrement.

Il est donc impératif lors d’une conversion A/D que le signal


analogique atteigne le niveau le plus proche du maximum
(0dBfs=0dB full scale, le niveau max en PCM) afin de l’éloigner le
plus possible du bruit de quantification.

- Pour obtenir la qualité 16bit en sortie d’un A/D 16bit il faut atteindre
au moins une fois 0dBfs lors de la conversion, disons le Q65 536
pour simplifier.

- Si on atteint -6dBfs (-1bit) la sortie sera en qualité 15bit et le bruit a


augmenté de 6dB

- Si on atteint -12dBfs (-2bit) la sortie sera en qualité 14bit et le bruit


a augmenté de 12dB

Et ainsi de suite.

- Avec un A/D 24bit, si on atteint -48dBfs (-8bit=Q65 536) la sortie


sera en qualité 16bit (24bit-8bit=16bit), et le bruit a augmenté de
48dB comparé à une conversion qui atteindrait 0dBfs.

Le bruit de quantification en 16bit est donc 48dB plus fort qu’en


24bit.

Dans les années 80, en 16bit, on était toujours en risque d’écrêtage,


en essayant de moduler au plus proche du 0dBfs, et pour obtenir au
mieux la qualité 16bit.

En 24bit, même si on n’atteint que -12dBfs, la qualité est de 22bit.


Le travail est plus confortable en restant de qualité.

En 32bit, même si on n’atteint que -48dBfs, la qualité est de 24bit.


Le bruit de quantification est 96dB plus bas qu’en 16bit et est donc
négligeable.

Plus le nombre des niveaux de quantification est élevé, plus chaque


quantum sera fin, et plus les mesures seront précises , ce qui
diminue à la fois le degré d’erreur possible et le bruit résultant du
système.

https://www.audiocheck.net/audiotests_dithering.php

L’une des faiblesses du système tient au fait que la fréquence


maximale pouvant être numérisée est limitée à la moitié de la
fréquence d’échantillonnage (fréquence de Nyquist).

Il faut donc filtrer le signal d’entrée pour éliminer toute information de


haute fréquence avant qu’elle n’arrive au convertisseur en utilisant un
filtre passe-bas antirepliement.

En général, nous aimerions néanmoins avoir autant de contenu de


haute fréquence que possible et, ainsi, ce filtre est habituellement
conçu de manière à ce qu’il laisse passer toutes les fréquences
jusqu’à la fréquence de Nyquist et élimine toute fréquence
supérieure.

Autrefois, ces filtres étaient conçus et construits comme des


appareils analogiques. Les designs étaient compliqués (donc
coûteux) et utilisaient des combinaisons particulières de résistances,
d’inducteurs et de condensateurs qui filtraient les signaux selon les
besoins. Malheureusement, ces filtres avaient le plus souvent
tendance à altérer la qualité des signaux audio résultants.

Les systèmes numériques s’étant améliorés, il fut décidé d’effectuer


ce filtrage en utilisant un traitement numérique du signal. Au lieu
de faire passer le signal dans un filtre antirepliement analogique et
d’effectuer les mesures de niveaux directement à la sortie, un
nouveau système supérieur et plus économique fut créé, inspiré du
suréchantillonnage.

Ce système a l’avantage d’éliminer le filtrage considérable requis


pour produire la conversion PCM; un filtre beaucoup plus doux suffit
(toujours analogique), lequel altère beaucoup moins le signal audio à
enregistrer.

Dans ce système, maintenant utilisé dans presque tous les appareils


d’enregistrement numérique, le signal analogique (figure 1) est
d’abord converti en train binaire en utilisant une méthode autre que le
PCM.

Cette méthode, appelée modulation sigma-delta ou SDM, utilise


un seul chiffre binaire en alternant très rapidement entre des valeurs
hautes et basses (0 et 1) pour représenter le niveau du signal audio
analogique. En utilisant un seul bit donc un seul Quantum, on évite la
grande difficulté à fabriquer des quantificateurs ayant un très grand
nombre de quantums, lesquels devant être idéalement tous
identiques en taille.

Contrairement à la forme d’onde PCM, qui ressemble à une


simplification en escalier, le résultat du convertisseur SDM est une
curieuse onde en carré (figure A), où la moyenne des chiffres
binaires adjacents dans le flux constitue le niveau de la forme d’onde
originale.

Fig. A Échantillonnage 1-bit

Par conséquent, lorsque le niveau analogique est élevé, il se trouve


plus de 1 que de 0 dans le train numérique (et inversement).

Lorsque le niveau analogique est nul, les 1 et les 0 sont en nombre


égal (alternance 0-1).

Dans le système PCM, ce train binaire (bitstream) est, par la suite,


filtré en utilisant un processeur de signal numérique (DSP), puis
converti en une représentation PCM avant d’être stocké sur un
support numérique.

Toutefois, certains ingénieurs se sont demandé si une telle


conversion en PCM était nécessaire. Pourquoi ne pas simplement
stocker le train binaire du convertisseur SDM?

Le résultat fut ce que nous appelons maintenant le Direct Stream


Digital ou DSD, l’encodage utilisé dans les disques compacts super
audio (SACD). Le signal stocké sur le disque est le train de chiffres
binaires simples qui serait normalement utilisé comme matière
première à partir de laquelle le signal PCM est produit.

En outre, le système offre cet autre avantage technique d’utiliser un


seul bit (au lieu des 16 bits du disque audionumérique ou des 24 bits
du DVD audio) pour représenter le niveau de chaque échantillon. Le
désavantage technique est qu’un signal DSD doit être échantillonné à
une fréquence sensiblement plus élevée qu’un signal PCM. En fait,
pour un SACD, la fréquence d’échantillonnage est 64 fois celle d’un
CD -- soit 2 822 400 échantillons par seconde, ou environ 2,8 MHz.

Après la quantification , le signal est dans le domaine numérique, il


est décrit par des nombres binaires.

3 - STOCKAGE

Une fois quantifiés, les échantillons individuels sont prêts à être


stockés. Nous pouvons maintenant simplement dresser la liste des
niveaux consécutifs de l’échantillon sous forme de mots audio (16,
24 ou 32bit).

Par exemple, si l’on regarde la forme de l’onde quantifiée de la figure


4, les niveaux des échantillons sont (en décimal) : 0, 2, 3, 4, 4, 4, 4,
3, 2, -1, -2, -4, -4, -4, -4, -4, -2, -1, 1, 2, 3. Essentiellement, il s’agit
d’une représentation numérique de notre oscillogramme original.

Fig.4

La norme pour les mots audio PCM est le codage C2 (complément à


2) des samples négatifs, qui permet de coder le signe de chaque
mot audio sans bit supplémentaire. De plus le C2 permet de
manipuler les samples comme les tensions électriques qu’ils
représentent.

Pour l’instant nous avons quantifié le signal en unipolaire (sans


changement de signe).

Pour transformer le signal analogique bipolaire en unipolaire, on lui


ajoute un DC offset (décalage courant continu) = +1/2Vmax, toute
la plage de quantums couvrant 0V à +Vmax.

atténuation en analogique :
symétrique autour du 0 V.
étendue de valeurs possibles en numérique

création d'un offset

C’est la méthode Signed Magnitude (amplitude/signe).


1/2Vmax va correspondre au 0V analogique.
Ensuite on quantifie et on obtient les mots audio.
Puis on soustrait le DC offset (qu’on avait ajouté en analogique)
mais dans le domaine numérique (sous forme de mot audio).
On obtient le signal numérique bipolaire.

Les samples > 1/2Vmax sont les mots audio positifs.


Les samples < 1/2Vmax sont les mots audio négatifs.

Les mots audio positifs sont laissés tels quels.

Les mots audio négatifs sont codés en C2 des mots audio positifs :
{mots audio négatifs} = C2( {mots audio positifs} )

0111
A +B
etc.

0101 Signal A
0100
0011
0010
0001
0000
1111
1110 Signal B
1101
1100 0001 0010 0011 0011 0010
1011 + + + + +
0010 0011 0001 1110 1101
etc. = = = = =
0011 0101 0100 0001 1111
1000

Two's Complement Code (code complément à 2)

Résultat : le signe des mots audio est codé par le MSB (Most
Significant Bit = Bit de poids fort) de chaque mot.

0=+
1=-

Niveau max positif : Mot 011111111…1


Niveau max négatif : Mot 100000000…0

Les mots audio se manipulent alors comme les tensions électriques


qu’ils représentent :

Mot audio {+2V} + Mot audio {-2V} = Mot audio {0V}


Un moteur de sommation numérique n’a donc qu’à additionner, à
chaque instant d’échantillonnage (chaque « top d’horloge » de Fe),
les mots audio des signaux à mélanger.

La liste des mots audio consécutifs est la description PCM du signal


analogique sous forme de codage logique binaire (information 0 ou
1).

Ces valeurs logiques 0 ou 1 prendront ensuite une forme physique


concrète après un « codage électrique », qui varie selon chaque
support ou interface.

Dans un ordinateur, le « PCM » peut être encapsulé dans différents


« containers » informatiques, par exemple :

.wav
.aiff (le .wav d’Apple)
.bwf (broadcast wave format)

Le meilleur choix est le .bwf car il contient le plus de metadata, par


exemple :

Original time stamp :


Adresse temporelle extrêmement précise du premier simple de tout
fichier ouvert ou crée avec la DAW.
Permet d’importer les fichiers audio dans une autre DAW à
l’emplacement temporel exact d’origine.
Utile en l’absence de protocole d’échange entre DAWs.
Sauve le coup si vous avez enregistré plein de segments audio la
veille et que aujourd’hui la session de DAW est buggée et ne veut
pas s’ouvrir.

Originator :
Nom de la DAW qui a crée le fichier
Date et heure de création
Coding History :
Fe et Nbit explicites

Il y a aussi de nombreux champs metadata pour indiquer les crédits :


Artiste, mixeur, producteur, etc.

Le logiciel gratuit Wave Agent de Sound Devices permet d’explorer et


de modifier certaines metadata.

B - CONVERSION D/A
La reconstruction du signal analogique à partir du signal numérique
stocké ressemble à la chaîne A/D mais avec les étapes en sens
inverse.

Un appareil (CNA) reçoit la chaîne de nombres stockés et les


convertit en tensions, comme le montre la ligne pointillée de la Fig 5.


Fig.5

Ce signal ressemble en tout point au signal échantillonné de la Fig.2


(hormis arrondis de quantification).

C’est normal, il contient le signal analogique d’origine (mais discrétisé


en temps et en amplitude), mélangé à Fe.

En faisant passer ce signal dans un filtre passe-bas à 1/2Fe appelé


filtre de reconstruction, le signal est interpolé en signal continu et
reconstruit en une courbe qui ressemble à la forme d’onde
analogique originale, comme le montre la Fig 6. Le filtre a aussi pou
rôle d’enlever Fe, qui n’a plus rien à faire dans le signal.

La façon dont le signal est reconstruit fait que :

- Plus Fe est basse, plus le filtre doit résonner longtemps. Les pré-resonnances
deviennent de plus en plus audibles.
- Même avec un filtre parfait, si les échantillons ne défilent pas parfaitement
régulièrement (Clock jitter), la reconstruction sera dépendante du signal lui-
même .
.
Fig.1 Fig.6

Toutefois, comme l’indique également la Fig 6, la reproduction n’est


pas parfaite, et ce, pour deux raisons :

Premièrement, le système ne possède pas une résolution infinie


dans le temps ;
Deuxièmement, il ne possède pas non plus une résolution infinie du
niveau.

La reproduction parfaite n’est pas nécéssaire, mais elle doit


légèrement dépasser la perception humaine pour ne pas entendre
ses imperfections, qui devraient être inférieures à -120dBfs.

Précisons que cet exemple à but didactique souffre d’une sévère


sous-quantification (8 valeurs, de -4 à +4, donc description 3bit)
… comme les bas-niveaux en PCM.

Pour améliorer le système, nous devons augmenter la résolution


dans chaque dimension.
Quelle est la meilleur qualité ? 96k/16b ou 48k/24b ?

En 96k/16b on code 0Hz —> 48000Hz avec bruit de quantification


max à -96dBfs

En 48k/24b on code 0Hz —> 24000Hz avec bruit de quantification


max à -144dBfs

Il vaut mieux coder 0Hz —> 24000Hz proprement (24b)


Que rajouter 24000Hz —> 48000Hz avec +48dB de bruit de
quantification (16b).

Il y a aussi une adéquation entre Fe et Nbit. Si on augmente trop Fe


sans augmenter Nbit, on va créer des samples en plus mais qui
seront arrondis au même quantum que les samples adjacents.

La qualité CD est bien proportionnée. Pour une meilleure qualité,


nous devons augmenter la résolution dans chaque dimension.

44k/16b —> 96k/24b (FeX2, Nbit+8b)


(On passe directement à 96k car on est directement compatible avec
les Fe utilisées à l’image, qui sont multiples de 48k, le 88,2kHz est
peu employé)

96k/24b —> 192k/32b (ou 192k/24b tant que le 32b n’est pas
généralisé)
On ne peut pas dire que 192k/24b n’est pas supérieur à 96k/24b,
mais il ne faut pas oublier qu’on double la charge de nos outils
numériques : si on pouvait mixer 50 pistes max en 96k/24b, on
pourra en mixer au max 25 en 192k/24b (doublement de la bande
passant d’accès aux données, et de la charge de travail des plug-
ins).

À l’heure actuelle en production, le 96k/24b est une résolution


nécessaire et suffisante.

Quand on fait des prises de son, la résolution de numérisation doit


être explicitement indiquée sur les documents et supports.

3) DÉTECTION, CORRECTION ET CAMOUFLAGE


D’ERREURS

Les erreurs sont inévitables : défaut de transmission, sur un support,


Clock jitter, etc.
Sur une bande magnétique où on enregistre un signal analogique, un
défaut d’une taille d’1mm sera peu ou pas audible.
Le même défaut sur une bande magnétique où on enregistre un
signal numérique peut donner un artefact très audible (clic violent),
par exemple si le MSB d’un mot audio est faux (changement de signe
brutal de ce sample).

Un système anti-erreurs est donc impératif. Sans lui, le numérique


serait inexploitable. Il est appelé schéma ECC (Error Correction and
Concealment).

1- Des mots de redondance vont être calculés à partir des mots


audio, puis stockés à côté d’eux

2- Lors de toute lecture, ces mots de redondance seront recalculés à


la volée, puis comparés :
3- Si ils sont identiques aux mots de redondance stockés, c’est que
les données sont intègres.
4- Si ils sont différents des mots de redondance stockés, c’est que
les données sont corrompues, le système ECC va alors essayer de
les recalculer. Si il ne peut pas il va camoufler les erreurs.

Il y a 2 catégories de mots de redondance :

- Mots de détection d’erreur : CRCC (Cyclic Redondance Check


Code)
- Mots de correction d’erreur : P et Q (certains algorithmes vont
bien au-delà : R,S,T,U,V, etc… mais en audio on n’utilise le plus
souvent que 2 mots de correction par bloc de mots audio=code à
double effacement)

L’ensemble des paramètres de calcul et d’utilisation de P,Q,CRCC


(taille des blocs, algorithmes, etc…) est adapté à chaque support ou
interface, et porte un nom de code spécifique.

- Reed Solomon : code type double effacement avec pointeur


d’erreur CRCC, conçu dans les années 1930, il est très efficace.
C’est le code anti-erreurs du DAT

- Crossword Code : code à parités entrelacées par blocs


C’est le code anti-erreurs du PCM1630

- CIC+CRCC : Cross Interleaved Code=code croisé par


entrelacement.
C’est le code anti-erreurs du format DASH (PCM-3324)

- CIRC : Cross Interleaved Reed Solomon Code.


C’est le code anti-erreurs du CD, capable de corriger 4000 mots/s

Mot de correction P (pour Parité)

Soit une série de mots issus du CAN : M0,M1,M2,M3,M4,etc…

Ils vont être regroupés par blocs de calcul de parité. Un mot de


parité est calculé pour chaque bloc, qui sera alors protégé par son
mot de parité.

Si les mots audio font n bits, le mot P fera aussi n bits (même poids).

Exemple sur des blocs de 4 mots : M0,M1,M2,M3

La série devient M0,M1,M2,M3,P0,M4,M5,M6,M7,P4,M8,M9,etc…


Le mot P porte le numéro du premier mot du bloc qu’il protège.

RECORD PLAYBACK
M0 1010 M0 1010 M0 1010
M1 1110 M1 1110 M1 1110 1010
M2 —faux“ 1100
+ (modu lo 2)
M2 0110 M2 1100 M2 1100
M3 1001 M3 1001 M3 1001 M2 —vrai“ 0110
P0 1011 P0 1011 P0 1011
1010
par première admettons que à partir de cette nouvelle
somme M2 soit mal relu nouvelle recalcule
modulo 2 somme M2 —vrai“

- Un mot est mal relu : détection par le CRCC, recalcul grâce à P

- Le CRCC est mal relu : on présume qu’un mot est erroné dans le
bloc, on recalcule tout ce qui est possible. L’algorithme est conçu
pour que les mots corrects recalculés restent identiques.

- Le mot P est mal relu : c’est la raison pour laquelle on va calculer un


autre mot Q avec une autre formule de calcul.

Mot de correction Q

La plupart des codes font appel à un deuxième mot de parité pour


renforcer la protection d’un bloc. Ce mot peut être calculé de deux
façons :

- Par multiplication des mots du bloc par une constante K


(polynomiale) définie par le standard de l’appareil :
(KxM0) + (KxM1) + (KxM2) + (KxM3) = Q0
- Par calcul faisant appel à un petit délai d’entrelacement :
M0 + M1 + M2 + M3 = P0
M4 + M5 + M6 + M7 = P4
M8 + M9 + M10 + M11 = P8
M12 +M13 + M14 + M15 = P12
= = = =
Q0 Q1 Q2 Q3

Mot pointeur d’erreur CRCC

On fait la somme des mots, qu’on divise par une constante K’ (autre
que pour le mot Q). Le CRCC est le reste de cette division.

Somme Mots/K = Quotient,Reste

La série devient
M0,M1,M2,M3,P0,Q0,CRCC,M4,M5,M6,M7,P4,Q4,CRCC,M8,M9,etc

Entrelacement

Pour augmenter l’efficacité du système ECC, on enregistre les


données sur le support de manière non-consécutive.
Cette dispersion calculée des données aura pour conséquence, lors
du désentrelacement à la lecture, de disperser les erreurs pour les
isoler, les rendant plus faciles à corriger.
Enregistrement sans entrelacement :
M0 M1 M2 M3 P0 Q0 CRCC M4 M5 M6 M7 P4 Q1 CRCC M8 M9 M10 M11 P8 Q2 etc..
Enregistrement du train binaire sans entrelacement

M0 M1 M2 M3 P0 Q0 CRCC M4 M5 M6 M7 P4 Q1 CRCC M8 M9 M10 M11 P8 Q2 etc..


Lecture (un drop s‘est produit)

M0 M1 M2 M3 P0 Q0 CRCC M4 M11 P8 Q2 etc..


Impossible de faire appel aux redondances pour rattrapper ces erreurs.

Enregistrement avec entrelacement :

L’entrelacement est optimisé suite à des mesures statistiques


d’erreurs effectuées sur le support.

Les mots (audio+redondance) sont regroupés en blocs


d’entrelacement (100 à 2000 mots). L’entrelacement est effectué sur
le bloc, puis on passe au suivant. Les mots patientent dans un buffet,
en attendant que le bloc soit plein.
Nous avons donc des :

- BITS
organisés en
- MOTS AUDIO
organisés en
- BLOCS DE CALCUL DE PARITÉ
organisés en
- BLOCS D’ENTRELACEMENT
parfois organisés en
- TRAMES (Frames)

Notons que les blocs n’étant pas numérotés, une machine lectrice
travaille « en aveugle », mais elle les remettra en ordre sans
problème.

On voit pourquoi le numérique n’est pas temps réel, il y a une suite


d’opérations à effectuer successivement, presque toutes générant un
délai, et le délai d’entrelacement est le plus grand de tous.

Camouflage d’erreur

Les schémas ECC ont un « pouvoir limite de correction ». Si le taux


d’erreur est trop important et dépasse cette limite, les données ne
pourront pas être recalculées.

Les erreurs seront alors camouflées, selon différentes méthodes.

Effet des différentes méthodes de camouflage d’erreur

4) CODAGE ÉLECTRIQUE (CHANNEL CODING)


Il s’agit de représenter physiquement (électriquement à l’origine) le
train binaire audio en sortie du système anti-erreur, en faisant appel à
des codes spécifiques qui régiront la forme d’onde en fonction des
bits 0 ou 1.
Les données sont souvent serialisées et multiplexées. Par exemple
dans une liaison SPDIF cuivre, le câble coaxial (donc 2 conducteurs)
transporte 2 canaux jusqu’à 96KHz/24bit.
Les bits des mots (audio et redondance) sont transmis en série (l’un
après l’autre), et on alterne 1sample Canal 1/ 1sample Canal 2
(multiplexage).
HORLOGE : elle sert de repère temporel pour la mise en forme du
signal. Elle « découpe le temps en tranches » : un bit sera émis à
chaque 1/2 période de cette horloge. On a déterminé des bit cells.
Cette horloge a une fréquence beaucoup plus élevée que Fe :
H = Fe x Nbit x Ncanaux + %Redondance + %Infos annexes
Ex pour un CD : (44100 x 16 x 2) +35% = 2,12MHz ou 2,12Mb/s
Ensuite un jeu de règles détermine des transitions : de tension, de
fréquence, de phase, de lumière, etc…

H
bits 0 1 0 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 1 0
R.Z.

N.R.Z

N.R.Z.I

F.S.K

P.S.K

P.E.

F.M.

M.F.M

Mill er
2
HDM
1

Formes d‘onde des différents codages électriques

Notions :

- Run Length : durée entre deux transitions successives


- Min Run Length : plus courte durée entre deux transitions
successives. Détermine la Fmax du code.
- Max Run Length : plus longue durée entre deux transitions
successives.
Détermine la Fmin du code et la composante continue (problème de
slicing).

- Code Self-Clocking : 1 liaison transporte DATA+Horloge. Pour ça il


faut suffisamment de transitions/sec.

- Code Non-Self-Clocking : 1 liaison transporte DATA


+ 1 liaison transporte Horloge

Modulations X à Y

Dans certains cas, on ne peut pas encoder directement le train


binaire audio car il comporte des combinaisons gênantes.

On va alors lui appliquer une modulation X à Y, c’est à dire remplacer


les combinaisons gênantes X par des combinaisons non-gênantes Y,
selon un tableau de mapping propre au format.

Ex du CD :

Combinaisons gênantes :
- Si trop de bits 1 consécutifs —> les cuvettes et les plateaux qui
représentent l’information dans le sillon seront trop petits pour un
moulage correct.

- Si trop de bits 0 consécutifs —> les cuvettes et les plateaux qui


représentent l’information dans le sillon seront trop grands et le sillon
ne sera plus self-clocking, le faisceau laser n’aura plus de repères
dans le comptage des bits 0.

Solution :
On découpe le train binaire audio en groupes de 8 bits, à partir
desquels on crée des groupes de 14 bits répondant aux règles
suivantes :
- Il faut au minimum 2 bits 0 entre 2 bits 1
- Il faut au maximum 10 bits 0 entre 2 bits 1

277 combinaisons 14bits répondent à ces deux règles. Seules les


256 plus typées (occurence statistique) sont retenues. C’est le
tableau de mapping de la modulation EFM (Eight to Fourteen
Modulation) utilisée pour le CD.

Enfin, pour pouvoir repérer les mots de 14bits, et pour éviter que
deux combinaisons 14bits consécutives ne puissent enfreindre les
deux règles, on les sépare par des mots de 3bits (abc : bits de
packing) impossibles à trouver dans les combinaisons 14bits.

Le débit final est augmenté de 17/8ème : 2,12MHz x 17/8 = 4,5MHz

Cette modulation EFM est ensuite codée en NRZI.


Codage final NRZI du bitstream modulé en EFM du CD
5) SYNTHÈSE :
Schéma de principe d'un
Enregistreur/Lecteur Numérique
Analogique Entrée Ana logique

Etage de
conversion
A-->N S&H
H
CAN
Entrée
Numérique INT

Calcul Mo ts de
redondance
Applic ation du Sché ma
Anti -err eur s
Entrelacement

Mise en form e
P.C.M.
Electr ique

Numérique SUPPORT

Remise en forme
Décryptage
Binair e

D és entrelacement
Récupéra tion du flot
audio brut V érification de
l'intégralité des données

Sortie INT
Numérique
CNA
H
Etage de S&H
conversion
N-->A

Analogique Sortie Analogique

6) INTERFACES AUDIONUMÉRIQUES :
Comment transmettre en temps réel (streamer) les données d’une
machine A vers une machine B ?
SUPPORT A SUPPORT B
signal éle ctrique véritable DUB signal éle ctrique
(vidéo)
Décodage électr. Codage électr.
message binaire message binaire

Vérific ation re calcul ? Redondances Interface


Interface
Ajout infos
mots audio brut DUB numérique mots audio brut
Exploit° Infos
(forma t identique)
Conve rsion Conve rsion
Codage élect. Décodage élect.

AN ALOG IQU E Travail de Goret ! AN ALOG IQU E

NU MERIQUE Copie Numérique NU MERIQUE

(format différent)

Différentes —
options“ pour effectuer une copie

On doit avant tout synchroniser les Horloges des différentes


machines

- Une machine réglée en Horloge Interne est soit autonome soit


Maître d’Horloge (Clock Master).

- Il ne peut y avoir qu’une seule Clock Master dans un ensemble


de machines travaillant ensemble en synchro digitale.

- Une machine réglée en Horloge Externe est Esclave de l’Horloge


entrante, et sera synchronisée avec cette Horloge.

- Soit la machine A est en Horloge Interne et la machine B est en


Horloge Externe, donc asservie à l’Horloge A

- Soit c’est l’inverse (B en Interne, maître de A en Externe)

- Soit les machines A et B sont toutes les deux en Horloge Externe, et


toutes les deux asservies à une autre horloge

Une fois la Synchro d’Horloge effective, on peut transmettre de A vers


B ou de B vers A ou les deux en même temps (du moment que les
liaisons DATA sont effectuées).
Il faut donc d’abord relier les machines :

- 1 liaison DATA+Horloge de A vers B pour les interfaces Self-


clocking : AES3, SPDIF, ADAT

- 1 liaison DATA + 1 liaison Horloge pour les interfaces Non-Self-


Clocking : MADI, SDIF. La liaison Horloge se fera en WORDCLOCK.

Notons qu’on peut utiliser 1 liaison DATA+Horloge en n’exploitant que


les DATA, et effectuer la Synchro d’Horloge en parallèle (via
WORDCLOCK ou AES3 « vide »).

Il faut ensuite régler le statut d’Horloge (Interne ou Externe) sur


chaque machine.

AES3 et SPDIF :

- Liaisons Self-clocking unidirectionnelles 2 canaux —> 96KHz/24bit

C’est la même interface, en mode PRO (AES3) ou CONSUMER


(SPDIF). Les metadata et le câblage diffèrent selon le mode.

AES3 : (ou AES/EBU ou IEC-958 1 ou EIAJ-CP340 1)

Couche logique :
- 2 canaux —> 96KHz/24bit jusqu’à 100m
- mode 20bits + Lo-Fi Channel (16KHz/12bit)
- Horloge (norme AES-11) : Grade 1 : +/- 1ppm, Grade 2 : +/- 10ppm,
Grade 3 : Varispeed +/- 12,5%

Couche physique :


En IEC-958 1 la symétrie électronique est possible.

SPDIF : (ou IEC-958 2 ou EIAJ-CP340 2 ou EIAJ-CP1201)

Couche logique :
- 2 canaux —> 96KHz/24bit jusqu’à 10m
- Gestion SCMS
- Horloge (norme AES-11) : Grade 1 : +/- 50ppm, Grade 2 : +/-
1000ppm, Grade 3 : Varispeed +/- 12,5%

Couche physique :
- Version optique : connecteur Toslink + Fibre multimode —>10m

Protocole :


The data structure of the AES/EBU protocol. The data stream is stuctured in subframes,
frames and blocks.

Structure d’une subframe


Extraction des mots de User Data et Channel Data


Format d’un mot de Channel Data 192 bits
ADAT :

Couche logique :
- Liaison Self-clocking unidirectionnelle 8 canaux —> 48KHz/24bit
jusqu’à 10m
- Modes optionnels Smux1(4ch/96K/24bit) ou Smux2(2ch/192K/24bit)
- Varispeed +/- 12,5%

Couche physique :
- Liaison optique : connecteur Toslink + Fibre multimode —>10m

MADI : ( Multichannel Audio Digital Interface, ou AES10)

- Liaison Non-Self-clocking unidirectionnelle 64 canaux@48K/24bit


ou 32 canaux@ 96KHz/24bit

- Transport :
1 liaison DATA connecteur BNC sur câble RG-59/U (coaxial 75
Ohms) —>100m
+ 1 liaison Horloge : signal WORDCLOCK connecteur BNC sur câble
RG-59/U (coaxial 75 Ohms), ou liaison AES3
- Midi over Madi

SDIF-2 :

- Liaison Non-Self-clocking unidirectionnelle 1 canal

- Transport :
1 liaison DATA par canal, connecteur BNC sur câble RG-58 (coaxial
75 Ohms) —>100m
+ 1 liaison Horloge : signal WORDCLOCK connecteur BNC sur câble
RG-58 (coaxial 75 Ohms)
Sert en DSD
Problèmes d’Horloge :

Jitter dans les interfaces :


- Machines reliées en série en AES3, SPDIF, ADAT : Le jitter
s’accumule mais ne s’incorpore pas aux DATA. Il est juste audible
durant le streaming. Pour éviter ça on « clocke » chaque machine sur
la même horloge maître, qui doit avoir autant de sortie Clock que de
machines à clocker.

Jitter lors de conversions :


Le jitter va s’incorporer à l’audio lors des trois changements de
domaine possibles :

- A/D : sampling jitter (s’incorpore aux DATA)


- D/A : playback jitter (seulement audible)
- Fe1—>Fe2 (SRC temps réel : s’incorpore aux DATA)

Un SRC, même algorithmique, peut créer de l’aliasing (voir src-


comparisons.com)

Une machine a le moins de jitter quand elle est en Horloge Interne.

7) AMÉLIORATIONS DU SYSTÈME DE BASE :


Pre-emphasis :

ANALOG ANALOG
BRICK WALL PR E- A-D D-A DE- BRICK WALL
FILTER EMPHASIS CONVERTOR CONVERTOR EMPHASIS FILTER
INPUT OUTPUT
C C

En entrée En sortie

- CCITT J-17 : pour la diffusion


- EIAJ 50/15usec : pour les supports. +6dB/Ove de 3,18KHz à
10,6KHz, +10dB fixe au-dessus.
Le bit de préemphasis existe dans tous les interfaces et supports.
Utile en 16bit, pas au-delà. Les machines récentes doivent gérer
cette fonctionnalité car nous avons un grand héritage de contenu pré-
emphasé.

Dithering :

Permet de diminuer le bruit de quantification en rajoutant au signal


audio un bruit, le dither noise.

1) Analog dither (conversions A/D) : utile si Nbit<24

2) Digital dither (re-dithering) : s’utilise lors de toute troncation

Types de dither:
- Flat dither, le meilleur est le TPDF (Triangular Probability Density
Function)
- Noise Shaped dither
- Noise Shaped dither Program-adaptive

Ex: Pow-R, Waves IDR, Ozone mBit+

8) SIGNAL FLOW NUMÉRIQUE :


Vous mixez en numérique. Tous les fichiers des pistes sont en16bit.
Vous bouncez en combien de bits ?

Considérons à un instant t un sample d’amplitude=7Quantums.


Ce sample passe ensuite dans un fader@-6dB.
Quelle est l’amplitude du sample en sortie du fader ?
Réponse : le sample a une amplitude de 3,5Q

Il est hors de question de l’arrondir (= requantification).

Au contraire on doit maintenir la précision de description du


signal.
Pour ça il faut que le bus vers lequel est routé le fader ait une plus
grande précision (un plus grand nombre de bits) que le fichier
source.
C’est la notion de Footroom, qui est une réserve pour les bas-
niveaux afin de ne pas les arrondir. Analogie avec Headroom, réserve
haut-niveaux en analogique.

Donc : tout traitement appliqué à un fichier de précision Nbit,


génère en sortie des mots de beaucoup plus que Nbit

Ce n’est pas une augmentation de résolution mais un maintien de la


précision de description du signal.

On peut voir ça avec un bitmètre (ou bit scope)


- Inserez un bitmetre sur le bus master de la daw.
- Lisez un fichier audio 16bit. Tous les faders doivent être à UG et
aucun traitement actif.
- Le bitmetre affiche 16bits
- appliquez n’importe quel traitement, même bouger le fader de
tranche de 0,1dB, et le bitmetre affichera beaucoup plus que 24bit

2 bitmetres gratuits :
- Le X-ISM de SSL (qui en plus affiche la distorsion inter sample)
- Le BITTER de Stillwell Audio (qui affiche aussi la distorsion inter
sample, mais différemment)

La distorsion inter sample se produit dès que plusieurs samples


consécutifs sont à OdBfs. On la mesure en dBTP (dBTruePeak).
Lors de la conversion D/A le signal analogique reconstruit dépassera
l’équivalent du OdBfs, faisant travailler les D/A à des niveaux non
prévus.

Le codage en mp3 (ou similaire), ou le SRC d’un fichier ayant de la


distorsion inter sample (>ou= à 0dBTP) va générer des artefacts
audibles. C’est pourquoi les plateformes de streaming rejettent les
fichiers qui dépassent -1dBTP.

Footroom dans les outils :

- Traitements natifs (calculs effectués par un CPU générique )


Le plus simple est de programmer à la même précision que les CPU,
qui travaillent au moins en 32bit float, la plupart en 64bit float.

Bit fixe : pour écrire 1000000 (décimal) on a besoin de 7 digits


Bit float : on écrit 10puissance6, on a besoin de 3 digits (10=mantisse
et 6=exposant)

En 32bit float, on a une mantisse 24bit et un exposant 8bit, donc


chaque sample est codé en 24bit (mantisse) puis multiplié par un
coefficient de gain codé en 8bits (exposant). Les arrondis sont à
environ -1000dBfs, donc footroom=-1000dBfs.

- Traitements dédiés (DSP): les calculs sont effectués par un DSP


Le footroom dépend du DSP. Par exemple les derniers Protools
travaillent en 64bit float en natif et en DSP. Les versions précédentes,
PTHD—>50bit fixe (footroom= -300dBfs), PTLE—>32bit float.