Vous êtes sur la page 1sur 104

Chapitre 2.

Les signaux
multimédia

ST 33 : Technologie et protocoles pour le


multimédia
Introduction
Qui dit multimédia dit échange d’information, principalement
de nature visuelle ou auditive,
ainsi qu’une série d’actions. Autrement dit, l’interactivité
multimédia se traduit par un échange de signaux entre les
différentes composantes des équipements.
Les signaux tels que nous les percevons sont analogiques,
c’est-à-dire qu’il n’est pas possible de déceler une
discontinuité. De la même manière que l’aiguille d’un
compteur kilométrique évolue d’une position vers une autre,
les sons arrivent à notre oreille en continu.
Les applications multimédia mettent en jeu plusieurs types de
signaux ainsi qu’une série de processus de mise en forme de
ces signaux.

ST 33 : Technologie et protocoles pour le


multimédia
Nous appellerons ces différents moyens de représenter de
l’information multimédia, des « objets multimédias ». Les
objets multimédias de base sont donc : du texte, du son, de
l’image et de la vidéo.
Au moins un type de dispositif d’acquisition permet de créer
un objet multimédia (ex. un enregistrement sonore) puis au
moins un type de dispositif de restitution permet de le rendre
accessible à l’utilisateur (ex. par le biais de haut-parleurs).

ST 33 : Technologie et protocoles pour le


multimédia
Objets multimédia composites
L’intégration de plusieurs objets multimédias de
base se fera dans un objet multimédia dit
composite.
Remarquons que la vidéo devrait être considérée
comme un objet multimédia composite (images
animées et son), même si elle est communément
considérée comme un objet multimédia de base.

ST 33 : Technologie et protocoles pour le


multimédia
Chaîne de traitements multimédia : les
grands principes
Une « chaîne de traitements multimédia » est
l’ensemble des traitements et modifications
possibles sur un objet multimédia entre le
dispositif d’acquisition et le dispositif de
restitution. Le schéma général d’une chaîne de
traitements multimédia peut-être représenté ainsi
:

ST 33 : Technologie et protocoles pour le


multimédia
ST 33 : Technologie et protocoles pour le
multimédia
Elle est constituée de différents traitements
modifiant l’objet multimédia. Ce dernier peut
être sauvegardé dans des fichiers, sous différents
formats (format des fichiers avec des extensions
qui permet à l’utilisateur de les identifier
facilement), à chaque étape.
Voici les détails des différents éléments de la
chaîne de traitement :

ST 33 : Technologie et protocoles pour le


multimédia
• Les dispositifs d’acquisition ont été pour la plupart
déjà énumérés dans le tableau précédent pour les
différents types d’objets multimédias.
• Données avec un codage de base sont celles qui
contiennent l’information enregistrée depuis le
dispositif d’acquisition sans traitement.
• Les traitements de compression et/ou recodage
peuvent avoir plusieurs objectifs. Le premier est de
recoder l’information dans les multiples formats
plus adaptés aux logiciels qui vont la lire. Le
deuxième est de réduire la taille de l’information
stockée dans un fichier .Une fois compresser et/ou
recoder, l’information sera enregistrée dans des
fichiers avec un encodage différent de celui de base.

ST 33 : Technologie et protocoles pour le


multimédia
• Les fichiers avec un autre encodage sont ceux qui contiennent
l’information enregistrée sous différents formats après traitements
dans la chaîne.
• Le logiciel d’édition permet alors de lire un fichier multimédia avec
un encodage approprié et permet à l’utilisateur de le modifier et de
l’enregistrer à nouveau sous forme de fichier.
• Le logiciel de rendu est celui qui va permettre à d’autres utilisateurs
de lire le fichier final une fois toutes les modifications de
l’utilisateur effectuées sur le logiciel d’édition. Il peut ainsi rendre
l’objet multimédia définitif accessible à tout utilisateur.

• Les dispositifs de restitution (pour la plupart déjà énumérés dans le


tableau précédent).

• Finalement, la majeure partie des logiciels que nous utilisons font


partie de ces chaînes de traitement multimédia.

ST 33 : Technologie et protocoles pour le


multimédia
Les signaux de base

ST 33 : Technologie et protocoles pour le


multimédia
Le texte

ST 33 : Technologie et protocoles pour le


multimédia
Chaine de traitements pour le texte

ST 33 : Technologie et protocoles pour le


multimédia
Codage de texte
Comme vous pouvez vous en douter, les codages
de texte sont plus ou moins riches, selon les
informations qu’on ajoute au texte pour gérer la
mise en forme et parfois même pour y insérer
des images, des feuilles de calculs d’un tableur
etc. (ex. dans les fichiers .doc et .docx de Word).
Remarquons que dans ce dernier cas, nous
manipulons alors un objet multimédia composite

ST 33 : Technologie et protocoles pour le


multimédia
Codage de l’information
Pour mieux comprendre, regardons comment l’information est
stockée dans un ordinateur.
Pour stocker et représenter une information plus complexe que
cette information très simple, on va regrouper les bits par paquets
de 8; on appellera un paquet de 8bits, 1 octet (octet vient du latin
et du grec signifiant octo, signi-fiant 8). Avec un octet, on pourra
représenter une information plus complexe, avec toutes les
possibilités de combinaisons de 0 et de 1 pour chacun des 8 bits.
On pourra alors coder par exemple des nombres entre 0 et 255
(soit 256 valeurs = 28). Et si on a besoin de stocker des valeurs
encore plus grandes, on fera des paquets de 2 octets (16 bits), 4
octets (32 bits) ou 8 octets (64 bits).
Le symbole utilisé pour l’unité de mesure de l’octet dans le
système international d’unités est le « o » minuscule.

ST 33 : Technologie et protocoles pour le


multimédia
Multiples normalisés de l’octet
Traditionnellement, les préfixes « kilo », « méga », « giga
», etc. dans le monde informatique, ne représentaient pas
une puissance de 10 (10^3 = 1 000), mais une puissance
de 2 (2^10 = 1 024). Cependant cette tradition contredit
les normes en vigueur pour les autres unités, y compris le
bit. Une nouvelle norme a donc été créée pour noter les
multiples de 2^10 = 1024 : les « kibi » (kilo binaire), «
mébi » (méga binaire), « gibi » (giga binaire), etc. On
parlera alors, pour les grandes quantités d’octets, de
kibioctet (1 Kio = 210 octets = 1024 octets), mébioctet (1
Mio = 220 octets = 1024 Kio = 1 048 576 octets),
gibioctet (1 Gio = 230 octets = 1024 Mo = 1 073 741 824
octets), tebioctet (1 Tio = 240 octets), ...
ST 33 : Technologie et protocoles pour le
multimédia
Cette distinction (entre préfixes binaires et
décimaux) est nécessaire, car la confusion entre
les deux séries de coefficients est utilisée depuis
longtemps par les fabricants de matériels (de
disques durs en particulier) pour afficher
commercialement des valeurs supérieures à
celles données par les puissances de 2 et ainsi
introduire une erreur d’appréciation.

ST 33 : Technologie et protocoles pour le


multimédia
Le codage du texte
Parmi un grand nombre de codages, voici les
plus répandus pour des raisons historiques :
l’ASCII étendu intégré dans des codes plus
récents et les codes actuellement utilisés dit «
UNICODE » comme UTF-8, UTF-16, UTF-32

ST 33 : Technologie et protocoles pour le


multimédia
Unicode
Au lieu d'utiliser seulement les codes 0 à 127, il utilise des
codes de valeur bien plus grandes. Le code UNICODE
permet de représenter tous les caractères spécifiques aux
différentes langues. De nouveaux codes sont
régulièrement attribués pour de nouveaux caractères:
caractères latins (accentués ou non), grecs, cyrillics,
arméniens, hébreux, thaï, hiragana, katakana... L'alphabet
Chinois Kanji comporte à lui seul 6879 caractères.
L'Unicode définie donc un correspondance entre
symboles et nombres.
(Le symbole "Ő" sera représent par le nombre 213).
Voici une toute petite partie des tables UNICODE (les
nombres sont présentés en notation hexadécimal):
ST 33 : Technologie et protocoles pour le
multimédia
ST 33 : Technologie et protocoles pour le
multimédia
UTF-8 ( Universal Character
Set Transformation Format - 8 bits)
Mais dans la pratique, c'est une autre paire de manches:
Généralement en Unicode, un caractères prend 2 octets.
Autrement dit, le moindre texte prend deux fois plus de
place qu'en ASCII. C'est du gaspillage. De plus, si on
prend un texte en français, la grande majorité des
caractères utilisent seulement le code ASCII. Seuls
quelques rares caractères nécessitent l'Unicode. On a donc
trouvé une astuce: l'UTF-8.
Un texte en UTF-8 est simple: il est partout en ASCII, et
dès qu'on a besoin d'un caractère appartenant à l'Unicode,
on utilise un caractère spécial signalant "attention, le
caractère suivant est en Unicode".

ST 33 : Technologie et protocoles pour le


multimédia
Par exemple, pour le texte "Bienvenue chez Sébastien !", seul le "é"
ne fait pas partie du code ASCII. On écrit donc en UTF-8:

Pour être rigoureux, on indique quand même au début du fichier que


c'est un fichier en UTF-8 à l'aide de caractères spéciaux:

L'UTF-8 rassemble le meilleur de deux mondes: l'efficacité de


l'ASCII et l'étendue de l'Unicode. D'ailleurs l'UTF-8 a été adopté
comme norme pour l'encodage des fichiers XML*. La plupart des
navigateurs récents supportent également l'UTF-8 et le détectent
automatiquement dans les pages HTML*.

*XML : Le XML, acronyme de eXtensible Markup Language (qui signifie: langage de


balisage* extensible), est un langage informatique qui sert à enregistrer des données
textuelles.
*Balise :Marque utilisée dans un texte pour signaler au programme qu'une
commande spécifique doit être exécutée.
*HTML : L'HyperText Markup Language, généralement abrégé HTML, est le
langage de balisage conçu pour représenter les pages web.
ST 33 : Technologie et protocoles pour le
multimédia
Le son

ST 33 : Technologie et protocoles pour le


multimédia
Chaîne de traitements pour le son
Une chaîne de traitement pour le son se décline de la même manière
que la chaîne de traitement du texte vue précédemment

ST 33 : Technologie et protocoles pour le


multimédia
Son?

Le son est une vibration de l'air, c'est-à-dire une


suite de surpressions et de dépressions de l'air
par rapport à une moyenne, qui est la pression
atmosphérique.

ST 33 : Technologie et protocoles pour le


multimédia
Acquisition
Il y a différentes façons de récupérer un objet multimédia
audio. La première, la plus simple, est d’utiliser une
source audio déjà sous forme numérique (un fichier audio
comme celui stocké sur un CD audio en utilisant un
logiciel approprié, un fichier que l’on récupère sur
Internet, en ayant vérifié qu’ils sont libres de droits). Ceci
est très pratique pour ajouter des bandes sonores à vos
objets multimédia composites. Nombreux sont les sites
qui vous le permettent.
La deuxième façon consiste à capturer un son du monde
réel, grâce à un microphone branché sur la carte audio de
votre machine, et de la stocker dans l’ordinateur.

ST 33 : Technologie et protocoles pour le


multimédia
Restitution
La façon la plus simple de reproduire un son actuellement est de faire
vibrer un objet. De cette façon un violon émet un son lorsque l'archet
fait vibrer ses cordes, un piano émet une note lorsque l'on frappe une
touche, car un marteau vient frapper une corde et la fait vibrer.
Pour reproduire des sons, on utilise généralement des haut-parleurs. Il
s'agit en fait d'une membrane reliée à un électroaimant, qui, suivant les
sollicitations d'un courant électrique va aller en avant et en arrière très
rapidement, ce qui provoque une vibration de l'air situé devant lui,
c'est-à-dire du son !

ST 33 : Technologie et protocoles pour le


multimédia
De cette façon on produit des ondes sonores qui
peuvent être représentées sur un graphique
comme les variations de la pression de l'air (ou
bien de l'électricité dans l'électroaimant) en
fonction du temps.

ST 33 : Technologie et protocoles pour le


multimédia
Représentation du son sous forme
numérique
Le passage d’un son analogique (du monde
physique) à un son numérisé se déroule suivant 3
étapes :

ST 33 : Technologie et protocoles pour le


multimédia
Echantillonnage et Fréquence
Pour pouvoir représenter un son sur un ordinateur, il faut arriver à le
convertir en valeurs numériques . Il s'agit donc de relever des
échantillons de son (ce qui revient à relever des différences de pression)
à des intervalles de temps précis. On appelle cette action
l'échantillonnage ou la numérisation du son. L'intervalle de temps entre
deux échantillons est appelé taux d'échantillonnage ou la fréquence
d’échantillonnage. Le système de conversion numérique du son a été
mis au point en 1957 dans les laboratoires Bell par Max Mathews.

ST 33 : Technologie et protocoles pour le


multimédia
Voici quelques exemples de fréquences
d'échantillonnage et de qualités de son associées
:

ST 33 : Technologie et protocoles pour le


multimédia
La valeur du taux d'échantillonnage, pour un CD audio
par exemple, n'est pas arbitraire, elle découle en réalité de
la théorie de Shannon. La représentation numérique
fidèle d'un son ne pouvait être obtenue qu'en
échantillonnant celui-ci au moins au double de sa
fréquence (2,2 fois pour être précis). Théoriquement, tout
échantillonnage numérique devrait donc s'effectuer à 44.1
kHz (44 000 valeurs par seconde), puisque l'oreille
humaine peut percevoir les fréquences acoustiques jusqu'à
20.05 kHz.
A chaque échantillon est associée une valeur qui
détermine la valeur de la pression de l'air à ce moment, le
son n'est donc plus représenté comme une courbe continue
présentant des variations mais comme une suite de valeurs
pour chaque intervalle de temps.

ST 33 : Technologie et protocoles pour le


multimédia
Prenons l’exemple du fichier “music1”
Son original :
Qualité radio :
Qualité téléphone:
Codé sur 8 bits :

ST 33 : Technologie et protocoles pour le


multimédia
Quantificateur et codage de
l’information (résolution)
Il faut déterminer le nombre de valeurs que
l'échantillon peut prendre. Cela revient à fixer le
nombre de bits sur lequel on code les valeurs des
échantillons (donc les surpressions et les
dépressions d’air).
− Avec un codage sur 8 bits, on a 28 possibilités de
valeurs, c'est-à-dire 256 valeurs possibles.
− Avec un codage sur 16 bits, on a 216 possibilités
de valeurs, c'est-à-dire 65536 valeurs possibles.
ST 33 : Technologie et protocoles pour le
multimédia
Avec la seconde représentation, on aura bien
évidemment une qualité de son bien meilleure,
mais aussi un besoin en mémoire beaucoup plus
important. L’inconvénient de ce format (qui est
celui utilisé en mémoire) est qu’il n’est pas
compact et produit de très gros fichiers.

ST 33 : Technologie et protocoles pour le


multimédia
Son multicanal
Le terme « son multicanaux » (parfois « multi-
voies ») désigne l'utilisation de plusieurs pistes
audio en vue de la restitution sur un système
comportant plusieurs enceintes. Il existe une
terminologie associée, constituée de deux
chiffres séparés par un point (2.1, 5.1, 6.1, 7.1,
etc.), permettant de classifier le type de
configuration spatiale des enceintes en fonction
du nombre de pistes audio utilisées.

ST 33 : Technologie et protocoles pour le


multimédia
Le premier chiffre indique le nombre de canaux
principaux destinés chacun à être restitués sur une
enceinte, tandis que le second désigne la présence
d'effets basse fréquence (en anglais Low Frequency
Effect, notés LFE) destinés à être restitué sur un caisson
de basses*. Ainsi, 1.0 correspond à un son audio mono
(sous-entendu monocanal) et 2.0 correspond à une
source sonore stéréo.
*Un caisson de basses, également appelé "subwoofer" ou "caisson de graves" est une
enceinte utilisée exclusivement pour émettre les fréquences sonores graves. Le caisson
de basses est généralement utilisé pour reproduire les fréquences sonores inférieures à
80Hz.

ST 33 : Technologie et protocoles pour le


multimédia
Exemple : Dans le cas d’un son 5.1, nous aurons 5
pistes pour envoyer le son sur : le haut-parleur avant
gauche, avant droit, arrière gauche, arrière droit, celui
du centre (ou la voie), ce qui fait 5 canaux plus une
dernière piste pour le caisson de basse, ce qui nous
donne 5 + 1, noté 5.1.

ST 33 : Technologie et protocoles pour le


multimédia
Un son est donc représenté (numériquement) par
plusieurs paramètres :
− la fréquence d'échantillonnage
− le nombre de bits d'un échantillon
− le nombre de voies (une seule correspond à du
mono, deux à de la stéréo, etc.)
Il est alors simple de calculer la taille d'une
séquence sonore non compressée. En effet, en
connaissant le nombre de bits sur lequel est codé
un échantillon, on connaît la taille de celui-ci (la
taille d'un échantillon est le nombre de bits...).

ST 33 : Technologie et protocoles pour le


multimédia
Pour connaître la taille d'une voie, il suffit de connaître
le taux d'échantillonnage, qui va nous permettre de
savoir le nombre d'échantillons par seconde, donc la
taille qu'occupe une seconde de musique. Celle-ci vaut :
Taille Voie = Taux d'échantillonnage x Nombre de bits
Ainsi, pour savoir l'espace mémoire que consomme un
extrait sonore de plusieurs secondes, il suffit de
multiplier la valeur précédente par le nombre de
secondes :
Taille Extrait sonore = Taux d'échantillonnage x
Nombre de bits x Nombre de secondes

ST 33 : Technologie et protocoles pour le


multimédia
La taille finale de l'extrait est à multiplier par le
nombre de voies (elle sera alors deux fois plus
importante en stéréo qu'en mono...).
La taille en bits d'un extrait sonore est ainsi égale
à:
Taille fichier = Taux d'échantillonnage x Nombre
de bits x Nombre de secondes x Nombre de voies

ST 33 : Technologie et protocoles pour le


multimédia
Codage, Décodage, Recodage des
données représentant un son
Le codage de chaque échantillon de son par «
modulation par impulsion et codage » (ou en anglais
Pulse Code Modulation) est le format dit PCM ;
c’est le format brut des données pour encoder un
son. Ce format est utilisé dans la phase de
numérisation et est aussi utilisé en mémoire pour la
manipulation des données par les logiciels. Le
traitement indépendant de chaque échantillon
implique qu'il n'y a ni chiffrement, ni compression
des données.

ST 33 : Technologie et protocoles pour le


multimédia
PCM?

ST 33 : Technologie et protocoles pour le


multimédia
Mais enregistrer directement ces données sur un
support de sauvegarde (disque dur ou clé USB),
nécessite de grandes capacités de stockage. Pour
éviter une perte trop importante de place pour le
stockage de ces informations au format brut
PCM, plusieurs algorithmes ont été créés. Ces
algorithmes sont appelés des « codecs »
(compression des mots coder et décoder).

ST 33 : Technologie et protocoles pour le


multimédia
Les plus connus ont donné lieu à des noms qui
sont utilisés pour l’extension du fichier qui
contient des données compressées avec ces
codecs. Il faut alors distinguer deux types
d’algorithmes de traitement de ces données
brutes : les algorithmes sans perte et avec perte
de données.

ST 33 : Technologie et protocoles pour le


multimédia
Codec de compression audio sans perte
d’information
Il est donc possible de modifier la manière de
représenter l’information à l’aide d’un
algorithme qui va encoder et décoder
l’information à chaque enregistrement ou
relecture des données. Ainsi les données écrites
sur le support de stockage seront plus compactes
et nécessiteront moins de place sur le support de
stockage.

ST 33 : Technologie et protocoles pour le


multimédia
Les algorithmes dits sans perte d’information, sont
des algorithmes qui n’altèrent pas l’information de
base. L’algorithme se contente de représenter la
même information sous une autre forme (avec un
autre encodage), cette nouvelle forme occupant
moins de place (utilisant moins d’octets) que la
forme initiale. Les codecs répondant à cette
définition sont peu nombreux :
− FLAC : Free Lossless Audio Codec (réduction de
30 à 70% par rapport à PCM)
− ALAC : Apple Lossless Audio Codec (réduction
de 40 à 50% par rapport à PCM)
− Shorten qui signifie raccourcir en anglais.

ST 33 : Technologie et protocoles pour le


multimédia
Codec de compression audio avec
perte d’information
D’autres algorithmes pour la compression et la
décompression (codecs) ont été développés. Pour
pouvoir compresser encore plus l’information, ces
formats sont basés sur le fait de perdre des données
qui sont jugées comme non essentielles et
permettent ainsi un gain de place important. Cette
perte d’information impact peu la qualité sonore ;
on n’entend peu voir pas de différence. Il faut des
appareils très performants et une très bonne ouïe
pour faire la différence.

ST 33 : Technologie et protocoles pour le


multimédia
Ces codecs avec perte de de données sont
beaucoup plus nombreux et vous les avez
surement déjà utilisés :
− MP3 : MPEG-1/2 Audio Layer III (reduction
de 80 à 90M pa rapport à PCM)
− AC-3: (ou Dolby Digital) : utilisé pour la
diffusion TV HD, les supports DVD et Blu-ray
− Vorbis : plus performant que mp3, mais moins
populaire. Souvent utilisé dans les fichiers .ogg.
− WMA : Windows Media Audio (format
propriétaire de Microsoft)
ST 33 : Technologie et protocoles pour le
multimédia
Les différents formats de fichier audio
Certains formats de fichiers audio, identifiables à leur
extension, ne correspondent pas forcément au codec qui est
utilisé pour le codage de l’information audio. Si un fichier
.mp3 va bien contenir des données correspondant à l’encodage
de son avec le codec mp3, ce n’est pas toujours le cas.
Certains formats de fichiers peuvent contenir des données
encodées avec différents codecs. On appelle ces types de
fichiers des conteneurs (des fichiers qui peuvent contenir des
informations de plusieurs types). Le début du fichier (l’entête)
correspond alors à la description de la manière dont les
informations suivantes ont été encodées (avec quel codec lire
la suite des données).
C’est le cas par exemple des fichiers .wav ou .ogg qui peuvent
contenir des informations dans différents formats.
ST 33 : Technologie et protocoles pour le
multimédia
- Wav : Le format wav (waveform audio file
format) est un conteneur basé sur le format de
fichier RIFF* (ressource interchange file
format), il peut contenir des codages audio
avec réduction du débit, mono, stéréo ou multi
canal, il a été mis au point par Microsoft.
*Le Resource Interchange File Format (RIFF) définit un modèle générique de
format de fichier à destination des contenus multimédia. Ainsi, il ne s'agit pas d'un
format de fichier en soi mais plutôt d'une méthode d'organisation des données sur
laquelle reposent plusieurs formats.

ST 33 : Technologie et protocoles pour le


multimédia
- MP3 : MP3 est l’abréviation MPEG – AUDIO
LAYER 3. Spécifie uniquement les opérations
de décodage, afin de permettre la lecture des
fichiers sur tous les appareilles .et un format de
compression qui permet de réduire la taille des
fichiers audionumériques.
- FLAC : Le format FLAC (free lossless audio
codec) est un format libre de compression
audio sans perte .il n’enlève aucune
information du flux audio.
ST 33 : Technologie et protocoles pour le
multimédia
- WMA : Le format WMA (Windows media
audio), il utilisé par le logiciel Windows media
Player, qui permet définit une durée de vie
limité pour les fichiers ou l’interdire les
possibilités gravure.
- VORBIS : Il segmente les sources audio en
paquets successives l’algorithme de
compression agissant dans un premier temps
sur chaque paquet indépendamment des autres.
Celui lui permet de conserver la même qualité
quel que soit le type de fichier.
ST 33 : Technologie et protocoles pour le
multimédia
Comparaison entre les différents
formats

Prenons l’exemple du fichier music 2.wav sous


les différents formats présentés précédemment
(On note que la taille du fichier d’origine est de
1.6 Mo que la vitesse est de 1411kbits/s).

ST 33 : Technologie et protocoles pour le


multimédia
• WAV
• AC3
• FLAC
• MP3
• VORBIS
• WMA

ST 33 : Technologie et protocoles pour le


multimédia
Les formats de fichier Remarques La taille de fichier La vitesse

Mp3 Qualité plus haute, 223ko 189kbits/s


son plus fort
Flac Aucune perte de 1.09Mo 956kbits/s
qualité sonore
Ogg Vorbis Très bonne qualité 201ko 165kbits/s

Wma Meilleur qualité et 163ko 128kbits/s


bonne puissance et
ajout d’une seconde
Ac3 Son démuni, moins 187ko 107kbits/s
bonne qualité

ST 33 : Technologie et protocoles pour le


multimédia
Le constat le plus important s’est fait au niveau
des codes, en les comparant on observe les
avantages des formats ogg vorbis par rapport à
mp3 en terme d’économie de taille du fichier et
de qualité de son (en plus d’être gratuit et libres)
cependant il est nécessaire d’utiliser un lecteur
comme VLC pour pouvoir lire ce format sous
Windows . Le format le plus commercialisé et le
plus répandu actuellement reste néanmoins le
format MP3.

ST 33 : Technologie et protocoles pour le


multimédia
Lecteurs Audio
La plupart des lecteurs logiciels audio (players) lisent la
quasi-totalité des formats. Certains, comme Windows
Media Player, chargent les codecs2 dynamiquement pour
de nouveaux formats. Il n’en va pas de même des lecteurs
intégrés à du matériel dit de salon ou vos téléphones
mobiles. Les lecteurs typiques et les extensions des
fichiers de base associés sont :
− RealOne Player: .ra
− Windows Media Player: .wma
− Winamp : .mp3, .ogg
− ou un lecteur générique comme VLC qui permet de lire
à la fois l’audio et la vidéo pour de nombreux codecs.
ST 33 : Technologie et protocoles pour le
multimédia
L’image

ST 33 : Technologie et protocoles pour le


multimédia
Chaîne de traitements pour image

ST 33 : Technologie et protocoles pour le


multimédia
Acquisition
Il y a différentes façons de récupérer un objet
multimédia image. La première, la plus classique,
est d’utiliser une webcam ou un scanner sur votre
PC. La seconde est d’utiliser un appareil photo
numérique puis de transférer vos images grâce à une
liaison USB ou la lecture de la carte mémoire de
votre appareil sur votre ordinateur.
Enfin, vous pouvez récupérer des fichiers sur le
Web, en ayant vérifié qu’ils sont bien libres de
droits. Nombreux sont les sites qui vous le
permettent. Ceci est très pratique pour ajouter des
images à vos objets multimédia composites.
ST 33 : Technologie et protocoles pour le
multimédia
Quand on passe d’une information physique à une information
numérique pour les images, on doit spécifier une donnée
importante. En effet, quand on utilise un scanner par exemple,
il faut spécifier nombre de points que l’on va créer pour une
analyse de x centimètres sur le document physique. C’est la
résolution qui est exprimée en points par pouces (ppp ou dpi
en anglais) et qui représente le nombre de points créés pour
une distance de 2,54cm. Attention, cette mesure ce fait à l’aide
d’une unité en 1D et non surfacique (2D).
Ce même procédé est utilisé quand on passe d’une image
numérique à une image physique à l’aide de l’imprimante
(résolution courante de 300dpi ou 600dpi) ou même de l’écran
(couramment 96dpi) .
Attention à ne pas confondre les points qui constituent l’image
avec les pixels de l’écran. Il est possible que 1 point = 1 pixel
à l’écran, mais c’est un cas particulier.

ST 33 : Technologie et protocoles pour le


multimédia
Qu’est-ce qu’une image numérique ?
Une image numérique est composée d’unités
élémentaires (appelées pixels) qui représentent
chacun une portion de l’image. Une image est
définie par :
• Le nombre de pixels qui la compose en largeur
et en hauteur
• L’étendue des teintes de gris ou des couleurs
que peut prendre chaque pixel (on parle de
dynamique de l’image ).
ST 33 : Technologie et protocoles pour le
multimédia
Les images binaires (noir ou blanc)
• Images les plus simples
• Un pixel peut prendre uniquement les valeurs
noir ou blanc. C’est typiquement le type
d’image que l’on utilise pour scanner du texte
quand celui ci est composé d’une seule
couleur.

ST 33 : Technologie et protocoles pour le


multimédia
Les images en teintes de gris
En général, les images en niveaux de gris
renferment 256 teintes de gris. Image à 256
couleurs, simplement chacune de ces 256
couleurs est définie dans la gamme des gris. Par
convention la valeur zéro représente le noir
(intensité lumineuse nulle) et la valeur 255 le
blanc (intensité lumineuse maximale).

ST 33 : Technologie et protocoles pour le


multimédia
Les images couleurs
S’il existe plusieurs modes de représentation de
la couleur, le plus utilisé pour le maniement des
images numériques est l’espace couleur Rouge,
Vert, Bleu (R,V,B).
Cet espace couleur est basé sur la synthèse
additive des couleurs, c’est `a dire que le
mélange des trois composantes (R, V, B) donne
une couleur.

ST 33 : Technologie et protocoles pour le


multimédia
Vocabulaire utilisé en traitement
d’images

ST 33 : Technologie et protocoles pour le


multimédia
Résolution spatiale
→ Echantillonnage

Résolution tonale
→ Quantification

ST 33 : Technologie et protocoles pour le


multimédia
Echantillonnage et information
L'échantillonnage est une étape fondamentale qui
doit tenir compte du contenu informationnel
pertinent de l'image à analyser. Sur l'exemple ci-
contre, en 1d, le signal échantillonné « ressemble
» à une sinusoïde de fréquence 8 fois plus faible :

ST 33 : Technologie et protocoles pour le


multimédia
Ce phénomène appelé aliasing est encore pire en
2d, car il affecte la fréquence et la direction des
structures périodiques. Imaginons par exemple
qu'on souhaite échantillonner l'image
correspondant aux bandes noires ci-contre :

Avec un échantillonnage adapté, l'image


numérique fait apparaître des structures
conformes à l'information présente dans l'image :

Mais en considérant seulement 1


échantillon sur 2, une structure
différente apparaît, dont l'analyse (ici
des bandes verticales, plus épaisses) ne
sera pas conforme à la réalité de l'objet :
ST 33 : Technologie et protocoles pour le
multimédia
Quantification et information
La quantification peut également faire apparaitre
des distorsions dans les images. Comme pour
l’échantillonnage, il existe des règles pour
déterminer la bonne quantification (le bon nombre
de bits) pour coder les images numériques. L'une
dépend du capteur*, et de sa capacité effective à
observer des signaux de valeurs différentes : le
rapport signal sur bruit.
Un capteur photographique est un composant électronique photosensible servant à
convertir un rayonnement électromagnétique (UV, visible ou IR) en un signal
électrique analogique. Ce signal est ensuite amplifié, puis numérisé par
un convertisseur analogique-numérique et enfin traité pour obtenir une image
numérique. Le capteur est donc le composant de base des appareils photo et
des caméras numériques. ST 33 : Technologie et protocoles pour le
multimédia
Le rapport signal sur bruit est défini à partir du
rapport entre l’amplitude des niveaux de gris
mesurables par le capteur Nmax − Nmin et le niveau du
bruit, en gros l’écart-type 𝜎 n de la perturbation
aléatoire qui affecte les niveaux de gris. En prenant
le logarithme, on a le nombre de bits utile au capteur
pour coder les images.

ST 33 : Technologie et protocoles pour le


multimédia
Codage, Recodage et Compression
Le codage de l’information pour les images utilise aussi des valeurs
stockées dans des bits regroupées en octets. Ainsi, il faut coder la
couleur de l’information pour chaque point de l’image.

ST 33 : Technologie et protocoles pour le


multimédia
Plusieurs représentations de l’information sont
possibles, suivant le nombre de couleurs que l’on
souhaite exprimer. Si on stocke la valeur de chaque
point sur 1 bit, on pourra avoir des images avec
deux couleurs : noir ou blanc. Attention, ce n’est pas
la photo en noir et blanc tel qu’on la connaît. Pour
coder numériquement de telles photos, il faut passer
à une représentation des données en 8 bits ou 1 octet
pour exprimer la couleur d’un point. On peut ainsi
spécifier 256 niveaux de gris différents allant du gris
très foncé (noir = 00000000) à du gris très clair
(blanc = 11111111).
ST 33 : Technologie et protocoles pour le
multimédia
Si l’on souhaite passer au stockage des informations
pour une image en couleur et n’utiliser qu’un octet
pour chaque point, on utilise une palette de couleurs
de 256 couleurs et on stocke pour chaque pixel la
valeur correspondant à la nième entrée dans la
palette (collection de couleurs différents qui seront
les seules utilisables dans l’image). Enfin, si l’on
souhaite coder une image en « vraie » couleur, il
faudra stocker l’information correspondant à la
composante de rouge de vert et de bleu de la couleur
pour chacun des points de l’image. On pourra dans
certains cas ajouter une quatrième composante
permettant d’exprimer la transparence du point. On
arrive alors à une représentation nécessitant 4 octets
pour chaque point de l’image.
ST 33 : Technologie et protocoles pour le
multimédia
Formats d’images non compressées
Nombreux sont les formats d’image non compressés. Ils
sont historiquement associés à des constructeurs de
matériel et de logiciel.
Par exemple le format GIF (Graphics Interchange Format)
dont l'extension est .gif est le format que la firme
américaine Compuserve, créé pour Apple, il y a une
trentaine d’années. La couleur de chaque point est codée
sur 8 bits (256 couleurs au maximum dans la palette).
Ensuite se sont entre autre enchaînés les formats
MacPaint, Pict (fichiers avec l’extension .pct), Bitmap
(fichiers avec l’extension .bmp).

ST 33 : Technologie et protocoles pour le


multimédia
Formats d’images compressées
Les formats compressés ont pour objectif de réduire la taille de l’espace
de stockage des images sans trop altérer leur qualité.
Par exemple, lorsque la photographie numérique s'est organisée, le
format JPEG (Joint Photographic Experts Group) (fichiers .jpg) est
apparu. Il s’agit d’une norme de compression d'images numériques qui
respecte la qualité de l'image si on ne la compresse pas trop (qualité
moyenne ou supérieure) ou la comprime très fortement mais en
détruisant une partie des informations contenues sur la photo. Il est
codé en 32 bits et permet donc l’affiche de 16 millions de couleurs.
L’autre exemple est celui du format TIFF (Tagged Image File Format)
dont l'extension est .tif, utilisé par les imprimeurs. Il est utilisé parce
qu'il restitue parfaitement les images et les photographies et bien qu'il
puisse être compressé (compression LZW), il prend de la place sur le
disque dur (on dit qu'il est lourd !). Il est aussi codé en 32 bits et permet
l’affichage de 16 millions de couleurs.

ST 33 : Technologie et protocoles pour le


multimédia
Plusieurs formats d’images sont disponibles,
chacun ayant ses possibilités, ses avantages et
ses inconvénients. Vous trouverez dans le tableau
ci-dessous un résumé des principales
caractéristiques pour les 5 formats les plus
utilisés : BMP, JPEG, GIF, TIFF et PNG
(Portable Network Graphic).

ST 33 : Technologie et protocoles pour le


multimédia
*Lorsqu’un format est dit progressif cela signifie que ce dernier permet d'afficher l'image
progressivement au cours du chargement, ce qui donne l'impression d'une navigation plus
rapide.

ST 33 : Technologie et protocoles pour le


multimédia
Visionneuses d'images et publication sur le Web
Logiciels Logiciels propriétaires
propriétaires payants gratuits ou gratuiciels
• ACDSee • academium
• Adobe Bridge • cam2pc Freeware
• l'application Aperçu incluse
Edition
dans système d'exploitation
Apple Mac OSX • CocoViewX
• « Aperçu des images et des • MobaPhoto
télécopies Windows » • Futuris Imager
(shimgvw.dll, inclus • Image Browser Arctic
dans Windows XP) • IrfanView
• cam2pc • KoffeePhoto
• celum IMAGINE • Konvertor
• ePhoto
• Picasa
• ExifPro Image Viewer
• Firehand Ember • Vallen JPegger
• IMatch • XnView
• iPhoto • FastStone Image Viewer
• KITVIEW • PlainViewer
• Orange Logic: Cortex3 • Regards
• P3dO Explorer Image Viewer • STDU Viewer
• Pixephore
• Shell Picture
ST 33 : Technologie et protocoles pour le
multimédia
La vidéo

ST 33 : Technologie et protocoles pour le


multimédia
Le signal vidéo
Jusqu’à présent, nous avons supposé que l’image
ne changeait pas dans le temps. Or les signaux de
télévision ( par exemple) changent en fonction
du temps, d’où le besoin d’une composante
temporelle dans la description d’une image.
Il convient donc d’ajouter une autre définition :
le temps. On parle alors de signal vidéo plutôt
que de signal image.

ST 33 : Technologie et protocoles pour le


multimédia
Le procédé mis en œuvre pour reproduire un
signal vidéo sur un écran consiste à afficher une
nouvelle image à une fréquence élevée, à la
manière d’un film. Cette fréquence est
supérieure à 25 [Hz] (25 images par secondes) ,
fréquence en dessous de laquelle on percevrait
une discontinuité.

ST 33 : Technologie et protocoles pour le


multimédia
Nombre d’images par seconde et
résolution
Lorsque l’oeil humain perçoit une suite d’images
séquentielles, il se produit un phénomène
étonnant. Si les images sont affichées
suffisamment rapidement, l’oeil ne distingue pas
chacune d’entre elles séparément, mais perçoit
une légère animation. C’est sur cette base que
sont élaborés les films et les vidéos.

ST 33 : Technologie et protocoles pour le


multimédia
La cadence de l’animation est désignée sous le
terme de nombre d’images par seconde. Pour
qu’une légère animation, soit perceptible à l’oeil,
une cadence d’environ 10 images par seconde est
nécessaire.
Les films que vous voyez au cinéma sont tournés
et projetés sur une base de 24 images par
seconde. A la télévision, les films sont projetés
sur une base de 30 images par seconde environ,
variable selon les standards vidéos utilisés dans
les pays de diffusion.

ST 33 : Technologie et protocoles pour le


multimédia
Résolution?
la qualité des films ne dépend pas seulement du nombre d’images
par seconde. La quantité d’informations contenues dans chaque
image est également déterminante. Elle est désignée sous le terme
de résolution d’image. La résolution correspond en règle générale
au nombre d’éléments individuels constituant l’image (pixels)
affichés à l’écran.
Elle est exprimée sous la forme du nombre de pixels utilisés sur
l’axe horizontal de l’image multiplié par le nombre de pixels
utilisés sur l’axe vertical (par exemple, 640 x 480 ou 720 x 480).
Toutes choses étant égales par ailleurs, une résolution plus élevée
permet d’obtenir une image de meilleure qualité.

ST 33 : Technologie et protocoles pour le


multimédia
La résolution horizontale de l’image est directement liée à
la largeur de la bande passante utilisée pour transporter ou
enregistrer le signal vidéo. Elle est traditionnellement
exprimée en « lignes TV » (ou plus simplement en lignes),
et fait référence au nombre maximal de lignes verticales
blanches et noires pouvant être distinctement perceptibles
sur l’écran. Elle se calcule au moyen de l’équation
suivante, prenant en compte le ratio 4/3 de l’image :

ST 33 : Technologie et protocoles pour le


multimédia
Standards de vidéo pour télévision
analogique

ST 33 : Technologie et protocoles pour le


multimédia
Signal vidéo
Le signal vidéo est nettement plus complexe
qu’un son. Il comporte des informations
visuelles, exprimées pour une image
généralement sous la forme de trois couleurs
fondamentales pour tout point de l’espace, et une
information temporelle née du mouvement des
objets. De plus, le signal de télévision est un
mélange du signal vidéo et de la partie audio ; il
s’agit d’un signal composite.
ST 33 : Technologie et protocoles pour le
multimédia
Le signal composite occupe une bande de fréquences
d’approximativement 5 MHz. En pratique, on considère une
bande de 8 MHz par signal vidéo en Europe.
Occupation fréquentielle d’une vidéo PAL:

*Luminance : Quotient de l'intensité lumineuse d'une surface par l'aire apparente de


cette surface pour un observateur lointain.
* U pour ultraviolet (ultraviolet) et V pour visible, visuel en français (visual)

ST 33 : Technologie et protocoles pour le


multimédia
Les fréquences d’échantillonnage du
signal vidéo : La luminance
Les fréquences d’échantillonnage des
composantes du signal vidéo ont été choisies
communes aux systèmes à 625 et 525 lignes, de
manière à s’affranchir définitivement des
problèmes d’incompatibilité entre les différentes
zones géographiques du globe. L’information de
luminance dispose d’une bande passante de 6
MHz.

ST 33 : Technologie et protocoles pour le


multimédia
Celle-ci est nominalement plate jusqu’à 5,5
MHz, avec un affaiblissement d’au moins 12 dB
à 6,75 MHz. La fréquence d’échantillonnage du
signal vidéo doit donc, pour respecter le critère
de Shannon-Nyquist, être au moins égale à 12
MHz. La compatibilité à l’échelle mondiale
impose par ailleurs de choisir une valeur qui soit
un multiple commun des fréquences lignes des
systèmes à 625 et 525 lignes, soit respectivement
15 625 Hz et 15 734,25 Hz. Plusieurs essais ont
été effectués avec des fréquences allant de 12
MHz à 14,3 MHz.

ST 33 : Technologie et protocoles pour le


multimédia
Les paramètres étudiés ont principalement été la
qualité de l’image avant et après traitement, le
rapport qualité/coût, la capacité potentielle des
magnétoscopes numériques, ainsi que la
réduction du débit binaire. C’est ainsi qu’a été
adoptée, comme norme mondiale, une fréquence
d’échantillonnage du signal de luminance égale à
:
Fe(Y) = 13,5 MHz

ST 33 : Technologie et protocoles pour le


multimédia
Les fréquences d’échantillonnage du
signal vidéo : La chrominance
Les signaux de différence de couleurs ont une
bande passante nominalement plate jusqu’à 2,75
MHz, avec un affaiblissement d’au moins 12 dB
à 3,375 MHz. Ils sont échantillonnés à une
fréquence deux fois plus faible que le signal de
luminance :
Fe (Cr) = Fe (Cb) = 6,75 MHz

ST 33 : Technologie et protocoles pour le


multimédia
La norme de codage 4:2:2
La norme de codage numérique destinée aux applications
de studio a été baptisée « 4:2:2 ». Ces nombres
représentent le rapport entre les fréquences
d’échantillonnage du signal de luminance (le « 4 ») et des
deux signaux de différence de couleur (les « 2 »). Le
choix du « 4 » remonte à l’origine des travaux sur la
numérisation du signal vidéo, quand la première solution
envisagée reposait sur la numérisation du signal
composite. La fréquence d’échantillonnage de la
luminance avait été choisie égale à 4 fois la fréquence de
la sous-porteuse du signal PAL ou NTSC, soit
respectivement17,7 MHz ou 14,3 MHz.

ST 33 : Technologie et protocoles pour le


multimédia
Lorsque cette solution a été abandonnée en
faveur d’un standard en composantes unique à
l’échelle mondiale, le chiffre « 4 » a été
conservé, bien que n’ayant plus de véritable
signification. Selon la convention adoptée, ce
chiffre représente la fréquence d’échantillonnage
de la luminance, soit 13,5 MHz. Les chiffres
suivants indiquent, quant à eux, la fraction de
cette fréquence qui est attribuée aux signaux de
différence de couleur, soit ici la moitié : 6,75
MHz (on peut dire que le « 1 » présente la
fréquence unitaire de 3,75 MHz).

ST 33 : Technologie et protocoles pour le


multimédia
Cependant, on s’est assez rapidement rendu compte
qu’il était peu probable que l’ensemble des
applications actuelles et futures de la télévision
s’accomodent d’un seul niveau de codage
numérique, à savoir le 4:2:2. C’est pourquoi
d’autres paramètres de codage ont été également
définis, formant des normes « légères » d’une part,
et des normes « haute qualité » d’autre part. Notons
que les modifications apportées ne concernent que
le traitement de la chrominance, la luminance
restant intacte. Les normes légères sont caractérisées
par un sous-échantillonnage des composantes de
couleurs en horizontal (4:1:1) ou en vertical (4:2:0).

ST 33 : Technologie et protocoles pour le


multimédia
ST 33 : Technologie et protocoles pour le
multimédia
La quantification du signal vidéo
À l’origine, la norme 4:2:2 spécifiait une
quantification sur 8 bits des composantes du signal
vidéo. Une quantification sur 8 bits permet de
disposer de 256 niveaux numériques, dont 220 utiles
pour représenter les niveaux sur une échelle de gris
avec une marge de réserve en dessous du noir et au-
dessus du blanc. Or, si ce nombre de niveaux
convenait pour la diffusion et le reportage, il s’est
vite avéré insuffisant pour les applications de
production et de postproduction haut de gamme.

ST 33 : Technologie et protocoles pour le


multimédia
En outre, un codage sur 8 bits donne un rapport
S/B de 58 dB, alors que les performances des
caméras ont été améliorées pour atteindre un
rapport S/B supérieur à 60 dB.
La norme 4:2:2 a donc logiquement évolué en
étendant de 8 à 10 le nombre de bits par
échantillon. Une quantification sur 10 bits
permet d’accroître dans un facteur 4 la précision
de la numérisation, pour une augmentation du
volume d’information de seulement 25 %.

ST 33 : Technologie et protocoles pour le


multimédia
On dispose alors de 1 024 niveaux, dont 880 utiles
pour traduire toutes les valeurs que peut prendre le
signal vidéo analogique entre 0 et 0,7 V.
La plupart des convertisseurs analogique/
numérique, ainsi que les sources d’images
numériques travaillent aujourd’hui sur 10 bits.
Le signal de luminance est toujours positif, alors
que les signaux de différence de couleurs sont
bipolaires.
Avec 10 bits, le rapport signal sur bruit passe à 70
dB.
ST 33 : Technologie et protocoles pour le
multimédia
Quantification sur le signal de luminance et
sur les signaux de différence de couleurs

ST 33 : Technologie et protocoles pour le


multimédia
Formats vidéos
Remarque : Certains formats sont des
"containers" , c'est à dire qu'ils peuvent contenir
un peu n'importe quoi (par ex: divers types de
compression, de résolution, etc.)

ST 33 : Technologie et protocoles pour le


multimédia
1. .mov (Apple) container -> tous formats/résolutions et mélanges de
ceux-ci
2. .avi (MS) container -> divers formats y compris DivX Voir la note
1 en fin de document. .
3. swf (Adobe Flash) container --> wmv, RealVideo ou h.264
4. .dv idéal pour le montage vidéo avec iMovie ou autre faible
compression => fichiers très gros mais sans perte de qualité
5. .mpg .mpeg obsolète, faible compression, mauvaise qualité
d'image et de son
6. .wmv (Windows Media Player) divers codecs propriétaires non
compatible QuickTime sauf via pluginsFlip4Mac ou Perian
7. .rv .rm .rvbm (RealNetwork) format propriétaire basé sur h.263
(MPEG-2)
8. .flv (Adobe Flash) format propriétaire
9. .mp4 MPEG-4 = forte compression, standardisé, accepté partout
10. .divx .Xdiv diverses déclinaisons pirates dérivées de h.264
(MPEG-4) trop de versions => on n'est jamais sur de pouvoir lire
le fichier .vob DVDs commerciaux
11. .m2t, .m2ts, .mts, .mod, .tod Digital Video Camera formats
ST 33 : Technologie et protocoles pour le
multimédia
Le meilleur format?
Cela dépend beaucoup du type du document vidéo concerné et de son
utilisation future:
.dv (ou .mov avec compression DV) idéal pour le montage vidéo mais
surtout pas pour la diffusion
.mp4 idéal pour le web car format normalisé, fichiers petits et acceptés
par tous les browsers, mais refusé par la version Windows de
PowerPoint
.flv pas mal utilisé sur le web car les vidéos en ligne ne sont pas/pas
facilement copiables. A proscrire donc si on veut que le lecteur puisse
aisément récupérer la vidéo. Ne pas oublier que c'est un format
propriétaire, donc peu d'outils simples et/ou gratuits pour le manipuler.
.vob si on veut faire de jolis DVDs lisibles sur n'importe quel lecteur de
salon. Dans ce cas il faut passer par un outil de création de DVDs
comme iDVD d'Apple.

ST 33 : Technologie et protocoles pour le


multimédia

Vous aimerez peut-être aussi