Vous êtes sur la page 1sur 46

PRINCIPE DU CODEC AUDIO MPEG1

1
INTRODUCTION
Le son et autres signaux audibles sont la seconde composante des signaux transmis
dans un système de radiodiffusion numérique avec le signal vidéo.

A la différence d’un signal vidéo, les variations du son sont traduites, à l’aide d’un
microphone (monophonique) ou deux microphones (stéréophoniques) en signaux 1D
qui varient en fonction du temps.

Une fois sous forme électrique, le son


peut être manipulé (amplifié, édité, etc.),
combiné sélectivement avec d'autres sons,
stockés pour une récupération ultérieure.

L’analyse spectrale d’un tel signal a toujours montré que la bande spectrale occupée
est beaucoup plus faible que celle occupée par un signal vidéo et elle est comprise
entre quelques dizaine de Hz et une 15000 Hz (approximativement).

De point de vue naturel le son est généré par les vibrations de l’air sous l’effet d’une
pression 2
SIGNAUX AUDIBLES
La transmission de parole met en jeu les étapes suivantes :

1. la production : un message produit par le cerveau d’un locuteur donne lieu à un


signal de parole qui consiste en des sons ou ondes de pression produites par
l’organe vocal de ce locuteur. La composition du message est régie par les règles
de communication orale (intonation, silence, écoute, etc) ;

2. la propagation : le signal acoustique ou l’onde de pression se propage dans l’air à


une vitesse de 300m/s et atteint l’oreille de l’auditeur ;

3. la perception : les sons captés par l’auditeur sont déchiffrés, interprétés et le


message est ainsi reçu.
SIGNAUX AUDIBLES
 Trois groupes d'organes assument les fonctions essentielles dans l'acte de parole,
ou phonation :
l'appareil respiratoire, ( diaphragme,
poumons, trachées), soufflerie qui fournit l’énergie
et la quantité d'air nécessaire

le larynx, organe vibrant, où naît le


son ;

Le conduit vocal, formé des cavités résonantes


supra‐laryngées (pharynx, bouche, nez) où
s'effectue l'articulation proprement dite par les
changements de forme du tractus vocal.

Ces changements résultent surtout des


mouvements des lèvres, de la langue, du voile du
palais (dont l'abaissement fait intervenir une
cavité supplémentaire, les fosses nasales) et de la
mâchoire inférieure.
SIGNAUX AUDIBLES
Production naturelle de la parole

Cavité narines
nasale

C. buccale
x lèvres
langue
ryn
a
ph

oesophage

glotte
larynx Trachée artère
SIGNAUX AUDIBLES
Cordes
Le larynx : vocales
épiglotte
- voisé ou non voisé
- fréquence fondamentale (pitch)

muqueuse
glotte
Le larynx est le lieu où le type du signal de parole est défini :

- voisé ou non voisé (vibration ou non des cordes vocales)

- fréquence fondamentale ou pitch, dans le cas d’un son voisé (fixée par la
fréquence de vibration des cordes vocales) :
- (80-200 Hz) voix masculine
- (150-450 Hz) voix féminine
- (200-600 Hz) voix enfantine
SIGNAUX AUDIBLES

Système auditif : Oreille Externe

Fonction de transfert
SIGNAUX AUDIBLES
Système auditif : Oreille Moyenne

- (1) Marteau
- (2) Ligament du marteau
1. Marteau
- (3) Enclume
2. Enclume - (4) Ligament de l'enclume
3. Étrier - (5) Muscle de l'étrier
4. Tympan - (6) Platine de l'étrier
5. Fenêtre ronde - (7) Tympan
- (8) Trompe d'Eustache
6. Trompe d’eustache - (9) Muscle du marteau
- (10) Corde du tympan sectionnée
NUMERISATION DES SIGNAUX AUDIBLES
PCM : Pulse Code Modulation

Opérations lors de la numérisation:

• Echantillonnage
Temps

• Quantification

Temps

Temps
NUMERISATION DES SIGNAUX AUDIBLES

Exemple
Quel est le débit (bps) de l'audio numérisé à l'aide du codage PCM? E.g: fréquence
d'échantillonnage de CD, F = 44,1 KHz (période d'échantillonnage: T = 1 / F = 0,0227
ms)
• Quantification avec B=16 bits (N=216 = 65,536).
• Débit= BxF = 705.6 Kbps = 88.2 KBytes/s
• E.g: 1 minute de musique stereo donne plus de10 MB

Quelle est la “bonne” fréquence d'échantillonnage F?


Si F est trop grand, nous avons un débit trop élevé.
Si F est trop petit, nous avons une distorsion ou un aliasing.
Le repliement signifie que nous perdons trop d'informations dans l'opération
d'échantillonnage et que nous ne sommes plus en mesure de reconstruire (interpoler)
le signal d'origine x (t) à partir de x (n).
NUMERISATION DES SIGNAUX AUDIBLES
Exemples de signaux audibles numériques

Data Rate Data Size in


Sampling Bits per
Quality Kbits/s 1 minute
Rate (KHz) Sample
Kbytes/s 1 hour

64Kbps 480KB
Telephone 8 8 (Mono)
8 28.8MB
88.2Kbps 660KB
AM Radio 11.025 8 (Mono)
11.0 39.6MB
705.6Kbps 5.3MB
FM Radio 22.050 16 (Stereo)
88.2 317.5MB
1.41Mbps 10.6MB
CD 44.1 16 (Stereo)
176.4 635MB

Conclusion  besoin d'un codage avancé pour la compression des données sonores
NUMERISATION DES SIGNAUX AUDIBLES
Exemples de signaux audibles numériques

• Taux d'échantillonnage communs


• 8KHz (Téléphone) ou 8.012820513kHz
• 11.025kHz (1/4 CD std) Std : Standard
• 16kHz (G.722 std)
G.722 est un codec audio large bande standard ITU-T 7 kHz
• 22.05kHz (1/2 CD std)
fonctionnant à 48, 56 et 64 kbit / s. Il a été approuvé par
• 44.1kHz (CD, DAT) l'UIT-T en novembre 1988. La technologie du codec est
• 48kHz (DAT) basée sur la sous-bande ADPCM (SB-ADPCM).
• Bits per Sample Standard CD pour le son offre un son numérique non
• 8 or 16 compressé de 44,1 kHz
• Number of Channels
• mono/stereo/quad/ etc. Standard ½ CD : Fréquence d’échantillonnage à 22,05 kHz

Standard 1/4 CD Fréquence d’échantillonnage à 11,025 kHz

DAT: Digital Audio Tape


COMPRESSION DES SIGNAUX AUDIBLES

Echantill Quantificat Codage

Compression
Algorithms

Entropy Differential Parametric/ Sub-band


Coding Coding LPC Coding Coding

Signal Signal time Sound Sound


Probability Correlation Generation Hearing
Model Model Model Model
COMPRESSION DES SIGNAUX AUDIBLES

Les techniques de compression audio, comme pour tout autre codec, diffèrent dans les
compromis entre les différentes contraintes et objectifs visés :

 La complexité du codeur et du décodeur,

 La qualité audio compressée,

 Le taux de compression.
COMPRESSION DES SIGNAUX AUDIBLES

Comme s’était le cas pour les images et pour la vidéo, les méthodes de compression
du son peuvent être divisées en deux grandes familles :

1. Compression sans perte :


• Le son décodé est mathématiquement équivalent à l'original,
• Inconvénient: n'atteint qu'un niveau de compression faible

2. La compression avec perte:


• L'audio décodé est dégradé par rapport à l'original,
• Avantage: atteint un très haut degré de compression

Objectif: maximiser le degré de compression dans certaines qualités


COMPRESSION DES SIGNAUX AUDIBLES
Formats de fichiers son communs

• Mulaw (Sun, NeXT) .au


• RIFF Wave (MS WAV) .wav
• MPEG Audio Layer (MPEG) .mp2 .mp3
• AIFC (Apple, SGI) .aiff .aif
• HCOM (Mac) .hcom
• SND (Sun, NeXT) .snd
• VOC (Soundblaster card proprietary standard) .voc
• …etc
AUDIO NUMERIQUE EN TELEDIFFUSION

Débit brut obtenu de


l’ordre de 1,5 MBit/s

A l’aide d’un Codec


son MPEG1-L2, le
débit compressé sera
de l’ordre de 192
kBit/s

Son en SDTV
COMPRESSION AUDIO MPEG1
Le principe de la a compression d’un signal audio (son) numérique est
basé sur le modèle psychoacoustique de l’oreille humaine, En effet, le
seuil de sensibilité de l’oreille dépend de la fréquence audible.

BP=[20Hz ; 20kHz] fE>40kHz

Bande passante : Seuil d’audibilité d’une fréquence


COMPRESSION AUDIO MPEG1
Masquage fréquentiel

Psychoacoustique : Les courbes obtenues quand on enregistre les pressions


acoustiques nécessaires pour qu’un son test devienne audible ou inaudible en
présence d’un son parasite ou masquant sont tout aussi importantes pour
caractériser l’ouïe.
COMPRESSION AUDIO MPEG1
Masquage fréquentiel

Effets de masquage

• Masquage de fréquence: si une tonalité d'une certaine fréquence et d'une certaine


amplitude est présente, aucune autre tonalité ou aucun bruit de fréquence similaire
ne peut être entendu par l'oreille humaine.
• Le ton le plus fort masque le ton le plus faible.

Jouer une tonalité de 1


kHz (tonalité de
masquage) à un niveau
fixe (60dB)

Jouez la tonalité d'essai


(1,1 kHz) à un niveau
différent, augmentez le
niveau jusqu'à ce que
vous entendiez.
COMPRESSION AUDIO MPEG1
Masquage fréquentiel

Effets de masquage

Si nous avons un ton fort avec une fréquence de 1000 Hz. Nus avons également une
tonalité à proximité, disons de 1100 Hz.
Cette seconde tonalité est inférieure de 18 dB. Nous n'entendrons pas cette seconde
tonalité. Il est complètement masqué par la première tonalité de 1000 Hz.
En fait, tout son relativement faible à proximité d'un son fort est masqué. Si vous
introduisez une autre tonalité à 2000 Hz également 18 dB en dessous de la première
tonalité de 1000 Hz, vous l'entendrez.
On doit baisser la tonalité de 2000 Hz à quelque chose comme 45 dB en dessous de la
tonalité de 1000 Hz avant qu'elle ne soit masquée par la première tonalité. Ainsi, plus
on s’éloigne d'un son, moins il a d'effet de masquage. .
COMPRESSION AUDIO MPEG1

Outre un pouvoir sélectif exceptionnellement grand, l’oreille


humaine possède la remarquable faculté d’intégrer certaines
zones de fréquence en bandes appelées bandes critiques.

• On appelle Bark la largeur de cette bande critique de


fréquence quelle que soit sa fréquence centrale.

• Sa largeur vaut 100 Hz jusqu’à 500 Hz et au-delà est égale à


20% environ de la fréquence centrale, valeur assez proche de
1/3 d’octave.
COMPRESSION AUDIO MPEG1
Bandes critiques fréquentielles (critical bands)

Détection
Passage de f+dfau??Bark
des Hertz
10

Bark

1  f f
2 
 
Bf   6 log    1
 600  600  
 
10 100 1k 10k
f(Hz)
Remarque : Par contre si on émet 2 sons dans la même bande, ils se somment d ’un
point de vue perceptif.
COMPRESSION AUDIO MPEG1

Phénomène de masquage fréquentiel et bandes critiques


COMPRESSION AUDIO MPEG1
Masquage temporel

Après un son relativement fort, masquage de la bande critique


(et voisines…) pendant un certain délai.
COMPRESSION AUDIO MPEG1
Effet de masque temporel
Niveau du son « juste masqué »

Réactif Proactif

Masquant
COMPRESSION AUDIO MPEG1
Effet de masque temporel
• Masquage temporel: si nous entendons un son fort, il s’arrête, cela
prend un peu de temps avant que nous puissions entendre une
tonalité douce à proximité.

• Le codeur audio utilise le seuil de masquage pour déterminer le bruit


de quantification maximal admissible à chaque fréquence afin de
minimiser la perceptibilité du bruit: élimine les parties de signal que
nous ne pouvons pas percevoir.
COMPRESSION AUDIO MPEG1
Effet de masque temporel

Le masquage masque le bruit ainsi que certaines composantes du signal, le bruit de


quantification peut être masqué.

Lorsqu'un son de masquage est présent, le signal peut être quantifié de manière
relativement grossière.
COMPRESSION AUDIO MPEG1
Masquage fréquentiel et temporel
COMPRESSION AUDIO MPEG1
Approche de compression audio utilisée dans MPEG

Principe : utiliser les propriétés de masquage de certaines


zones de fréquence pour réduire le débit nécessaire.

Pertes non perceptibles

Passage dans le domaine de Fourier nécessaire

Codage en sous-bandes
COMPRESSION AUDIO MPEG1
Norme MPEG Audio

- Etat des lieux

Qualité Audio Numérique


44.1kHz
16bit (96dB relativement au seuil d ’audibilité)
loi de distribution inconnue (pas de A-law)
stéréo

Débit de 1,4Mbit/s
COMPRESSION AUDIO MPEG1
Norme MPEG Audio

- Objectifs

•Stockage (CD) : morceau de musique de 50 ’


1.4Mbit/s*50*60=5.05Gbit=630MO

•Transmission (TVHD, multimedia) : temps réel


diminuer le débit pour améliorer les capacités de
transmission.

Compression sans pertes audibles


Normalisation nécessaire
COMPRESSION AUDIO MPEG1
Norme MPEG Audio
- MPEG Audio

Janvier 1988 : naissance, groupe mandaté par ISO/EIC


MPEG = normalisation vidéo / audio / system

MPEG-1 : qualité VHS sur CD-rom


(352x288 + CD audio @ 1.5Mbit/s)

MPEG-2 : TVHS, multimedia ==>TV numérique


AAC (fin Avril97) Advanced Audio Coding

MPEG-4 : diminuer le débit; coder infos complémentaires


==>Multimédia
COMPRESSION AUDIO MPEG1
Norme MPEG Audio

- MPEG-1 audio

3 couches définies (qualité/complexité du codage)


pour qualité audio :
Tx de réduction
layer 1 : 384 kb/s 1/4
layer 2 : 256…192 kb/s 1/6..1/8
layer 3 : 128…112 kb/s 1/10..1/12

Mais différentes fréquences d ’échantillonnage et débits


autorisés (32kHz, 44.1kHz, 48kHz)
COMPRESSION AUDIO MPEG1
Norme MPEG Audio

Principe général de MPEG-1 (et suivants)

Filtres Quantification
Allocation des
in Décomposition +-
bits (f(s²))
en bandes critiques Codage

Exploitation
masquage
COMPRESSION AUDIO MPEG1
Norme MPEG Audio
Principe général de MPEG-1 (et suivants)

384 ech.

Layer 1 : Masquage fréquentiel + QScal


Layer 2 : + Masquage temporel
Layer 3 : + Redondance stéréo + Huffman
COMPRESSION AUDIO MPEG1
Norme MPEG Audio
Principe général de MPEG-1 (et suivants)

Chaque vecteur traité comprends 384 échantillons, divisé dans 32 sous-bandes de 12


échantillons (exploitation du masquage fréq).

Puis dans la couche 2, on utilise le masquage temporel avec le précédent et le suivant.

Dans la 3ieme couche, masquage temporel généralisé, filtres de bandes critiques


meilleurs, model psychoacoustic, redondance stéréo, et codage d ’Huffman en final.
COMPRESSION AUDIO MPEG1
Résumé de la procédure pour MPEG

1. transformer le signal du domaine temporel au domaine fréquentiel


2. Utilisez des filtres de convolution pour diviser le signal audio (son de 48 kHz, par
exemple) en sous-bandes de fréquences proches des 32 bandes critiques (filtrage
en sous-bandes).
3. Déterminer la quantité de masquage pour chaque bande causée par la bande
voisine (modèle psychoacoustique).
4. Si la puissance dans une bande est inférieure au seuil de masquage, ne la codez
pas..
5. Sinon, déterminer le nombre de bits nécessaires pour représenter le coefficient,
de sorte que le bruit introduit par la quantification soit inférieur à l'effet de
masquage
6. Format bitstream
COMPRESSION AUDIO MPEG1
Résumé de la procédure pour MPEG
COMPRESSION AUDIO MPEG1
Exemple d’un échantillon de son compressé en MPEG

• Après analyse, les premiers niveaux de 16 des 32 bandes sont les


suivants:-------------------------------------------------------
Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Level(db)0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1
-------------------------------------------------------
• Si le niveau de la 8ème bande est de 60 dB, cela donne un masquage de 12 dB dans
la 7ème bande et de 15 dB dans la 9ème.

• Le niveau dans la 7ème bande est 10 dB ( < 12 dB ), alors ignorez-le.

• Le niveau dans la 9ème bande est 35 dB ( > 15 dB ), alors envoyez le.

[Seule la quantité au-dessus du niveau de masquage doit être envoyée. Par


conséquent, au lieu d'utiliser 6 bits pour le coder, nous pouvons utiliser 4 bits (6x4 =
24 dB alors une économie de 2 bits (= 12 dB).]
COMPRESSION AUDIO MPEG1

Schéma de principe d’un encodeur Audio MPEG1-L2


COMPRESSION AUDIO MPEG1

Schéma de principe d’un encodeur Audio MPEG1-L2


AUTRES NORMES DE COMPRESSION AUDIO
• Depuis plusieurs décennies, d’autres normes de compression des signaux audio ont
été proposées.
• L’objectif est toujours le même réduire le bitrate tout en assurant une meilleure
qualité.
• Il s’agit du fameux compromis Qualité/débit
MP3 : MPEG Audio Layer 3
AAC : Advanced Audio Coding
OPUS : format ouvert de
compression audio avec pertes
VORBIS : codec audio numérique,
sans brevet, ouvert et libre.
SPEEX : codec libre et sans
brevets.
AMR-WB : Adaptive Multi Rate
narrow-band. Norme de codec
vocal par le 3GPP en 1998
AMR-NB : Adaptive Multi Rate
narrow-band. Norme de codec
vocal par le 3GPP en 1998
G.711 : Norme de compression
audio de l'UIT-T
iLBC : Internet Low Bitrate Codec
LA NORME MPEG-4 AAC
Les schémas de principe du codeur et du décodeur de MPEG-AAC sont représentés sur
les figures suivantes.
Ce codec est basé sur différents profils audio ou types d'objets audio pris en charge
par le système, il peut avoir différents outils optionnels dans la partie de traitement
spectral pour l'encodeur et le décodeur.

Schéma de principe du codeur MPEG-AAC Schéma de principe du décodeur MPEG-AAC


Source : Yujie Gao, ‘’Audio Coding Standard Overview: MPEG4-AAC, HE-AAC, and HE-AAC V2’’.
Mobile Multimedia Broadcasting Standards pp 607-627, 2009
LA NORME MPEG-4 AAC

• La famille de décodeurs MPEG-4 AAC se compose de trois membres: AAC, HE-AAC


et HE-AAC V2,
• Chacun de ces deux derniers étant un véritable surensemble de son prédécesseur
et peut également atteindre une efficacité de codage globalement plus élevée que
son prédécesseur.
• En outre, la syntaxe de flux binaire pour la famille de décodeurs AAC est conçue de
manière à garantir une compatibilité maximale.
• Ainsi, les codecs de la famille de décodeurs AAC sont couramment adoptés dans
une large gamme de téléviseurs mobiles actuels, de lecteurs multimédias
portables et d'applications Internet.
• De plus, les techniques de compression et de codage associées avec la
compatibilité descendante sont toujours utilisées dans le développement et la
normalisation de la transmission audio. , stockage et diffusion.
LA NORME G. 711
La norme G.711 a été révisée en 2000. Elle est la base du transport de la voix sur le
réseau téléphonique commuté ou RTC (PSTN en anglais ‘’ Public Switched Telephone
Network’’)

Alors que le MP3 est une norme de ISO/CEI , G. 711 est une norme de compression
audio de l'UIT-T qui définit les codages PCM-U et PCM-A, s'appuyant sur les lois de
quantification A (Afrique et Europe) ou µ (Amérique du Nord, Japon). A-Law ou µ-Law
est un système de quantification logarithmique d'un signal audio.

Parmi les caractéristiques de la norme G. 711 nous pouvons citer :


 Echantillonnage : 8000 Hz pour une bande passante allant de 300-3400Hz
 Débit sur le réseau : 64 ou 56 kbit/s
 Type de codage : MIC (Modulation d'impulsion codée, PCM en anglais)

Vous aimerez peut-être aussi