Académique Documents
Professionnel Documents
Culture Documents
Chapitre 2. Les signaux multimédia II.1.3. Timbre : est le paramètre qui permet de différencier
Son (Ton ou hauteur tonale, Intensité, timbre, Durée, un son d'un autre son. Il montre la proportion dans laquelle
analyse spectrale …etc), Image, vidéo. Rappels sur la la fréquence fondamentale du son est mélangée à d'autres
compression image. Descriptif sur la Compression des fréquences multiples de la fréquence fondamentale et
signaux Audio. Introduction sur la compression vidéo. appelées sons harmoniques.
Problématique du changement de formats. Edition de II.1.4 Durée : la répétition d'une onde sonore donne à son
documents multimédia. tour la durée du son. Elle s'exprime en secondes et
II.1 Le son : est une onde qui se propage dans l'air et qui correspond au temps pendant lequel l'énergie du son est
est perceptible grâce au détecteur de pression qu'est le perceptible.
tympan, logé dans l'oreille. Ces vibrations sont ensuite Exemple1 : une source émet une puissance acoustique W
converties en signaux transmis au cerveau par le nerf = 3 W, calculer :
auditif. 1. L'intensité acoustique à 5 m de la source, et à 10 m.
Les propriétés de l'onde acoustique peuvent être exprimées 2. Le niveau d'intensité sonore à 5 m, à 10 m.
sous la forme de grandeurs objectives : hauteur tonale, 3. Le niveau de puissance de la source.
-12 2 -12
intensité, timbre et durée. Ces quatre paramètres suffisent à On donne : I0 = 10 W/m ; W0 = 10 W.
décrire globalement un son. **
II.1.1. Ton ou hauteur tonale : le nombre d'oscillations 1. I1 = W/4πd12 = 3/4π.52 = 9,55.10-3 W/m2 , I2 = I1/4 =
d'un son dans un temps donné (1s) est sa fréquence, c'est la 2,39.10-3 W/m2
2. = 10.log I1/I0 = 10.log 9,55.109 = 100 dB , = 94
hauteur tonale ou ton du son perçu (La fréquence
dB
fondamentale). L'oreille humaine répond aux fréquences 3. = 10.log W/W0 = 125 dB
allant de 20 Hz (son grave) à 20 Khz (son aigu). On parle Exemple2 : Les évolutions temporelles de deux sons sont
d’infrasons quand les fréquences sont inférieures à 20 Hz représentées par la Figure 1 (10 ms→7,2 cm ,4T→ 6,6 cm)
et d’ultrasons quand les fréquences sont supérieures à 20 et la figure 2 (10 ms→7,5 cm, 4T→6,8cm).
KHz (Infrasons < plage audible (20HZ-20 KHZ) <
Ultrasons).
II.1.2. L’intensité : l’intensité correspond au volume
d’énergie d’une onde. L’amplitude du son est la mesure du
changement de pression par rapport à une valeur moyenne.
Cette mesure est l’intensité acoustique I qui est la
puissance transportée par unité de surface du front d’onde
Figure1 Figure 2
et s’exprime en [W/m²].
Calcul de l’intensité acoustique, le niveau d’intensité
acoustique, et le niveau de puissance :
2. Quelle caractéristique du son est associée à la fréquence Exemple : 1573157 2557255 1573157 070007 2557255
fondamentale d’un son ? 08990899 1573157 08990899
3. L’analyse spectrale du son de la Figure 2 fournit le 1573157 codé par 1
graphique de la Figure 4. 2557255 codé par 2
3.1. À quoi correspondent les différents pics ? 070007 codé par 3
3.2. Quelle caractéristique du son associe-t-on à leur 08990899 codé par 4
présence et à leur amplitude relative ? La séquence donnée devient : 121332414
3.3. Compléter, en justifiant, le spectre de la Figure 1sur - ALAC: L'ALAC (Apple Lossless Audio Codec), est un
de la Figure 4. format de codage sans perte (lossless) créé en 2004 par
*** Apple.
1. f1 = 436 Hz, f2=441 Hz. II.2.2. Algorithme de compression avec perte : la suite
2. La fréquence fondamentale du son traduit sa hauteur. de bits obtenue après les opérations de compression et de
3.1. Les différents pics correspondent aux fréquences des décompression est différente de l’originale mais
harmoniques qui composent le son. l’information reste sensiblement la même, utilisé pour les
Le premier pic est l’harmonique n°1 ou fondamental de types de données : images, sons et vidéos.
fréquence f1 = 441 Hz. Les algorithmes utilisés pour le son sont principalement le
Les pics suivants sont les harmoniques (n° 2, 3, 4 et 5) du MPEG (pour le format MP3), l’AAC (MP3Pro),
son dont les fréquences sont des multiples de f1, telles que l’ATRAC (Sony Minidisc), le PASC (Philips DCC), et
fn = n.f1 avec n Є N enfin les Dolby AC-1, AC-2 et AC-3.
3.2. Le profil spectral caractérise le timbre du son. II.2.3. Etude d’un algorithme : MP3
3.3. Un seul pic : le fondamental dont la fréquence est de Le MPEG-1/2 Audio Layer 3, plus connu sous son
436 Hz. abréviation de MP3, est la spécification sonore du standard
MPEG-1/MPEG-2, du Moving Picture Experts Group
(MPEG). C'est un algorithme de compression audio
capable de réduire sensiblement la quantité de données
nécessaire pour restituer de l'audio, mais qui, pour
l'auditeur, ressemble à une reproduction du son original
non compressé : avec une bonne compression la différence
de qualité devenant difficilement perceptible. L'extension
de nom de fichier est .mp3
Le codage MP3 s’effectue en trois phases :
- Au début de la conversion le programme découpe le
II.2. Descriptif sur la Compression des signaux Audio : fichier audio en petit «paquets» de durée égale, les chunks.
On distingue les algorithmes de compression avec et sans La taille des chunks peut influencer sur la qualité de
perte. conversion.
II.2.1. Algorithmes de compression sans perte : la suite - Puis le programme analyse chaque chunk dans le
de bits obtenue après les opérations de compression et de domaine audible (analyse spectrométrique par transformée
décompression est strictement identique à l’originale, ces de Fourier), cette opération ne produit pas de perte de
algorithmes sont utilisés pour nombreux types de données qualité.
(documents, fichiers exécutables, fichiers textes,…). - Ensuite, le programme utilise un profil
- RLE (Run Length Encoding : Codage par plages): Toute psycho*acoustique pour supprimer les sons que l’oreille
suite de bits ou de caractères identiques est remplacé par humaine ne peut pas entendre, le choix du type de profil est
un couple :(nombre d’occurrence, bit ou caractère répété) déterminant pour la qualité finale.
Exemple1 : AAAAAAAAZZZEEEE devient 7A3Z4E. - Pour finir, les informations restantes sont codées dans le
Exemple2 :125 fichier MP3 en appliquant un algorithme de Huffman,
125 125 125 125 005 005 005 005 000 255 255 255 255 07 (algorithme de codage de type ZIP) cela permet de gagner
6 076 076 076 076 076 devient encore presque 20% sur la taille du fichier sans perte de
0061250040050010000042555006076 qualité.
- LZW (Lempel Ziv Welch) : Codage par dictionnaire (une II.3. L’image : est une perception visuelle d’un objet
table de données contenant des chaînes de caractères), peu donné par une surface réfléchissante de lumière et de
efficace pour les images et donne de bons résultats pour les couleurs.
textes et les données informatiques en général (plus de 50
II.3.1. La couleur
%).
un mélange d'encres jaune et magenta. II.5.2. La vidéo numérique : est constituée d’une suite de
L'encre jaune laisse passer le rouge et le trames formées d'une matrice rectangulaire de pixels. Le
vert mais bloque le bleu. L'encre magenta principe de balayage utilisé est sensiblement le même que
veste
laisse passer le rouge et le bleu mais bloque pour la vidéo analogique mais l’entrelacement n'est
rouge
le vert. Un "mélange" des 2 encres jaune et généralement pas utilisé en vidéo numérique puisque les
magenta bloque le bleu et le vert mais laisse
moniteurs rafraîchissent l'écran 75 fois par seconde ou
passer le rouge.
plus.
un mélange d'encres jaune, cyan et II.6. Introduction sur la compression vidéo
magenta. L'encre jaune laisse passer le II.6.1. Hiérarchie des données :
rouge et le vert mais bloque le bleu. L'encre - Hiérarchie des données Vidéo :
chapeau cyan laisse passer le vert et le bleu mais
noir. bloque le rouge. L'encre magenta laisse
passer le rouge et le bleu mais bloque le
vert. Un "mélange" des 3 encres jaune, cyan
et magenta bloque le bleu, le rouge, le vert.
Rien ne passe : NOIR
chaussures
l'encre magenta.
magenta
Un mélange des 2 encres cyan (vert + bleu)
pantalon
et magenta (rouge et bleu) laisse passer le
bleu.
bleu. Les données sont hiérarchisées de la façon suivante :
feuille Un mélange des 2 encres jaune et cyan ne Séquence vidéo: elle commence par une en-tête de
vertes laisse passer que le vert. séquence, contient un ou plusieurs groupe d'images et
s'achève par un code de fin de séquence.
manteau Aucune encre n'est déposée sur la partie de Groupe d'images : il regroupe une en-tête et une série
blanc la feuille limitant le manteau. d'une ou plusieurs images permettant d'y accéder de façon
tablier aléatoire.
l'encre cyan.
cyan. Images : c'est l'unité élémentaire pour le codage de la
séquence vidéo. Une image est un groupe de trois matrices
II.5. La vidéo: une vidéo est une succession d'images à rectangulaires qui représentent la luminance (Y) et la
chrominance (Cb et Cr), un élément de la matrice
une certaine cadence. L'œil humain a comme
représentant un pixel. Cette représentation YCbCr est
caractéristique d'être capable de distinguer environ 20 équivalente à celle RGB. Elle lui est préférable, car l'œil
images par seconde. On caractérise la fluidité d'une vidéo étant plus sensible à la luminosité qu'à la chrominance, il
par le nombre d'images par secondes, exprimé en FPS n'est pas nécessaire de stocker autant d'informations dans
(Frames per second, en français trames par seconde). les matrices Cb et Cr que dans la matrice Y, alors qu'en
Il existe deux grandes familles de systèmes vidéo : les RGB, les trois matrices sont de même taille. Les matrices
systèmes vidéo analogiques et les systèmes vidéo Cb et Cr sont ainsi de dimension deux fois plus petites que
la matrice Y.
numériques.
II.5.1. La vidéo analogique : représente l'information
comme un flux continu de données analogiques, destiné à
être affichées sur un écran de télévision. Chaque image est
affichée en deux temps : les lignes impaires sont affichées
en premier, suivies de lignes paires.
Parmi les normes, citons :
- NTSC (National Television Standards Committee), Tranche : les tranches sont un ou plusieurs macro blocs
utilisée aux Etats- Unis et au Japon, utilise un système de adjacents ordonnées de gauche à droite puis de haut en bas.
525 lignes entrelacées à 30 images/sec (donc à une Ce sont des éléments importants pour la gestion des
fréquence de 60Hz). erreurs. Si le flux de données contient une erreur, le
- PAL/SECAM : (Phase Alternating Line/Séquentiel décodeur peut sauter la tranche et passer au début de la
Couleur avec Mémoire), utilisé en Europe pour la suivante directement. Plus il y a de tranches, meilleur est le
traitement des erreurs mais fait perdre de la place.
télévision hertzienne, permet de coder les vidéos sur 625
Macro blocs : c'est une matrice rectangulaire de dimension
lignes (576 seulement sont affichées car 8% des lignes 2 et constituée de blocs.
servent à la synchronisation) à raison de 25 images par Blocs : c'est un ensemble des valeurs de luminance et
seconde à un format 4:3 chrominance de 8 lignes de 8 pixels.
- Hiérarchie des données Audio: le standard MPEG
Dans la pratique... Afin d'optimiser le codage MPEG, les - Compensation du mouvement : la compensation de
séquences d'images sont dans la pratique codées suivant mouvement est une technique pour optimiser la
une suite d'images I, B, et P (D étant comme on l'a dit compression des images intermédiaires et des images clés
réservé à l'avance rapide) dont l'ordre a été déterminé en éliminant la redondance temporelle. Les algorithmes de
expérimentalement. La séquence type appelée GOP compensation de mouvement travaillent au niveau des
(Group Of Pictures ou en français groupes d'images) est la macro blocs. Quand un macro bloc est compressé par la
suivante: IBBPBBPBBPBBI technique de compensation de mouvement, le fichier
Une image I est donc insérée toutes les 12 frames. compressé contient les informations suivantes :
II.6.4. Principe de la compression vidéo MPEG1: Le vecteur spatial entre le macro bloc de référence et le
Il faut ajouter 2 types de compressions pour la vidéo : macro bloc qui va être codé (vecteur déplacement)
- Compression temporelle : La différence entre le contenu du macro bloc de référence
Son objet est de ne stocker que ce qui est modifié lors du et du macro bloc qui va être codé (terme d'erreurs)
passage d'une image à une autre dans une séquence vidéo. Toutes les informations d'une image ne peuvent pas être
Les images ainsi compressées peuvent être de deux types : prédites de l'image précédente. Considérons une scène
image clé ou image delta. Les images clés sont des images dans laquelle une porte s'ouvre : les détails visuels de la
de références, qui contiennent en elle-même, toute chambre derrière la porte ne peuvent pas être prédits de
l'information. Les images delta ne contiennent que les l'image précédente quand la porte était fermée.
pixels modifiés vis à vis de l'image précédente, qui peut Quand un cas comme celui-ci arrive, c'est-à-dire lorsqu'un
être elle-même une image clé ou une image delta. La macro bloc ne peut pas être codé de manière efficace dans
première image est nécessairement une image clé. Des une image prédite par la technique de la compensation de
techniques particulières, dont la compensation de mouvement, il est codé de la même façon qu'un macro bloc
mouvement, permettent d'optimiser la génération et la dans son image clé.
compression des images delta. La différence, au niveau de la compensation de
- Compression spatiale : mouvement, entre une image prédite et une image
Cette compression s'applique exclusivement à une image bidirectionnelle est la suivante : les macro blocs d'une
donnée (clé ou delta), sans tenir compte des images image prédite n'utilisent que des références à l'image
environnantes. Il y a là différentes techniques : null antérieure, alors que les images bidirectionnelles utilisent
suppression, RLE (Run Length Encoding), JPEG (Join toute combinaison d'images futures et/ou passées.
Pictures Expert Group), Vector Quantization. MPEG Il y a ainsi quatre types d'encodage d'un macro bloc d'une
utilise la compression JPEG. image prédite :
II.6.5. Application de la Compression temporelle : Codage interne : pas de compensation de mouvement
Le standard MPEG spécifie trois types d'images : Prédiction avant : l'image de référence précédente est
Images clés : Ces images sont comprimées utilisée comme référence
indépendamment de leur contexte, c'est à dire qu'on ne Prédiction arrière : l'image suivante est utilisée comme
tient compte que du contenu de l'image elle-même et non référence
des images environnantes. Elles autorisent l'accès aléatoire, Prédiction bidirectionnelle : deux images de référence sont
soit l'accès à la séquence vidéo depuis n'importe lequel de utilisées, la précédente image de référence et la prochaine
ses points. Elles ont un taux de compression moderé, image de référence.
typiquement 2 bits par pixel codé.
- L'encodage des images clés : La compression MPEG
compressé s'est d'images avec un algorithme prend trois
étapes : Transformation en cosinus discrète (DCT),
Quantification , Run-length encoding