Vous êtes sur la page 1sur 62

Chapitre II

Formats et données multimédias


Introduction
Une base de données multimédia est un type
de base de données consacré l’indexation, le
stockage, la recherche, la transmission et la
restitution de données multimédia : documents
sonores, images, vidéos. Elles peuvent s'appuyer
sur différentes architectures de bases de données,
les types les plus utilisés étant le modèle
relationnel et le modèle objet.
Les formats de données (normes de codage)
permettent de stocker et de transmettre les
données multimédias de manière unique.
textes

(compression)
numérisation
images données
informatiques
(formats)
vidéo

sons
Les textes
1. Composés de caractères dits d'imprimerie, la
numérisation s'opère simplement par codage
de chaque caractère en une suite de 0 et de 1.
2. Le code ASCII (American Standard Code for
Information Interchange) sur 7 bits permet de
coder 128 caractères usuels. Le 8ème est de parité.
3. Un livre de 300 pages, chaque page contient
3000 caractères, nécessite 900ko de mémoire.
Les formats des textes structurés
• Standard General Markup Language (SGML)
• HyperText Markup Language (HTML)
• Extensible Markup Language (XML)
• LaTex:
• Portable Document Format (PDF).
• Office Document Architecture (ODA),
Compression des textes
• Le besoin en mémoire est modéré relativement aux
autres types.
• La compression des textes doit être sans perte de
données.
• 3 méthodes de compression des textes sera
exposées (Huffman, RLE (Run-Length Encoding) et
LZW (Lempel-Ziv-Welch)
Codage (compression) d’Huffman
• Il attribue moins de bits pour les symboles qui
apparaissent le plus souvent et plus de bits à des
symboles qui apparaissent le moins souvent.

• Le dictionnaire des codes (codebook)

Caractère probabilité code


E 0.8 1
T 0.16 01
X 0.02 001

z 0.02 000
Codage (compression) d’Huffman
• Pour un fichier de 1000 caractères, il en faut
1000 (1 * 0.8 +2 * 0,16 +3 * 0,02 +3 * 0,02) = 1.240 bits

• Si les codes sont de même taille, il en faut


1000*2= 2000 bits (sachant qu’il faut 2 bits pour
coder 4 caractères)

• Le taux de compression =2000/1240=1.61


Le codage RLE (Run-Length Encoding)
•Le codage RLE est une méthode de compression
sans perte
•Utilisé pour compresser des images, tels que les
formats d’image BMP, PCX et TIFF
•Il tire parti de la redondance des données au sein
de l'information
•La performance du codage RLE est directement
liée à la redondance contenue dans l’information
•Exemple : soit la chaine « eeeeeeetnnnnnnnn »
L’encodage(codage, compression) est @e7t@n8
Le codage RLE (Run-Length Encoding)

Pour chaque caractère répété est associé 3 champs :

Sc X C

Sc : caractère spécial indiquant la répétition


X : le nombre d’occurrence
C : le caractère répété
Le codage LZW (Lempel-Ziv-Welch)

• La compression LZW construit une table de


traduction de chaîne de caractères partir du texte à
compresser.

• Cette table relie des codes de taille fixée


(généralement 12-bit) aux chaînes de caractères.

• La table est initialisée avec tous les caractères (256


entrées dans le cas de caractères codés sur 8 bits).
Le codage LZW (Lempel-Ziv-Welch)

Soit un fichier de 10000 caractères


- Avec 8 bits par caractère, on a besoin de
80000 bits pour encoder ce fichier
- Supposant que le fichier à 2000 mots ou
phrases sur lesquels 500 sont distincts (il faut
9 bits pour coder chaque mot ou phrase), on a
besoin de 18.000 bits pour coder ce fichier
Le taux de compression pour cet exemple est de
80000/18000=4.4
image
• Il existe deux types de format :
– Le format matriciel (jpg, gif, png…) ;
– Le format vectoriel (ai, eps).
• L’image matricielle (ou bitmap): Elle est composée de petits points
appelés « pixels » que l’on ne voit pas à l’œil nu. Lors de
l’agrandissement d’une image matricielle, cette dernière devient
floue car les pixels ressortent, ce sont les carrés qui apparaissent
sur l’écran.
• L’image vectorielle : Elle est composée de lignes de segments qui
sont liés entre eux par des formules mathématiques. Il s’agit d’un
système de proportionnalité et de coordonnées. Grâce à la
vectorisation, chaque élément a une place bien définie ce qui
empêche la déformation de l’image.
Image bitmap
• L’image numérique est un tableau rectangulaire de pixels.
• La qualité de l’image est mesurée par deux paramètres : la
taille et la profondeur du pixel.
• La taille est déterminée par le nombre de pixels en en ligne
et le nombre de pixels en colonne.
• La profondeur du pixel est définie par le nombre de bits
pour représenter un pixel
• Si, pour une image, la taille et la profondeur d’un pixel sont
connues, la quantité d’espace mémoire nécessaire à cette
image peut être calculée.
• Par exemple, pour une image de 512 pixels par 512 lignes
de pixel de 24 bits de profondeur, la quantité requise de
données D = 512 * 512 * 24 bits = 768 KB.
Résolution d’image
• unité de mesure de résolution: nombre de pouce
par mesure de longueur
• PPP(pixel par pouce) DPI(dote per inch)
• Nombre de points dans une longueur de 2,54 cm.
• Selon les normes:72 ppp pour le web et ou
moins 150 ppp pour l’impression.
• Plus de PPP
Qualité meilleur mais taille plus grandes
• Image en niveaux de gris
• Image en couleur
Image en niveaux de gris
• La gamme de d’intensité du noir au blanc
détermine la qualité de l’image en niveaux de
gris.
• Avec 8 bits, 256 niveaux de gris sont utilisés du
noir (0) au blanc(255).
• une image en niveaux de gris peut être
représentée comme un tableau à deux
dimensions. Chaque élément du tableau
correspond à un pixel.
• La mémoire utilisée pour stocker une image est
appelé framestore ou frame buffer
Image en couleur
• Une image en couleur est également un tableau rectangulaire de pixels.
plusieurs types de codification des couleurs:

• RGB (RVB)
• HSV –TSL
• Espace CIE - L*a*b*
Couleur- RGB
• 􀂄 Représentation à l’aide de trois
composantes RGB
• (Red, Green, Blue)
• Un pixel = un triplet (r,g,b) avec r,g,b ∈
[0,255]
• (0,0,0) pour noir,
• (255,255,255) pour blanc,
• (200,60,60) pour rose
Couleur RGB
• Espace de couleurs RGB (Red, Green, Blue)
Couleur - HSV
• Espace de couleurs HSV – TSL:(Hue - Teinte, Saturation,
Value - Luminance)
• 􀂄 Teinte : indication du type de couleur: (rouge, jaune, bleu,
etc.) Exprimée par un nombre correspondant à sa position
angulaire surle cercle chromatique ( à partir du haut, dans le
sens horaire). ex : rouge :0; vert : 120; magenta : 300.
Couleur - HSV
• Saturation : indication de la pureté de la couleur (pâle - tons
pastels - ou vive).
Représentée sur le rayon du cercle, par un pourcentage de
pureté : maximale sur le cercle (100%) et minimale au centre (0
= gris)
Couleur - HSV
• Luminosité : indication de la clarté de la couleur.
Exprimée par un pourcentage : de 0% ( noir) à
100% (blanc).
• En résumé la couleur est représenté en 3
paramètres: HSV
Couleur CIE - L*a*b*
Espace CIE - L*a*b*
(Commission Internationale de
l'Eclairage )
• L – luminosité de noir (0%) à
blanc (100%)
• a – gamme du vert au rouge
• b – couleurs du bleu au jaune
Image vectorielle et Animation

• - image vectorielle (les éléments graphiques sont


représentés par des modèles prédéfinis ou des
formules mathématiques)
• Les éléments graphiques d’une image vectorielle
peuvent être changés facilement en modifiant ses
paramètres (translation, changement d’échelle,
rotation, etc.)
Image vectorielle et Animation
• Les images vectorielles ne sont pas exigent en espace
mémoire.
• La principale différence avec les image est qu’une image
vectorielle peut être agrandie sans perdre sa qualité alors
qu’une image matricielle perd en netteté à
l’agrandissement.
• Il est relativement facile d’extraire le contenu des images
vectorielles.
• Les propriétés de chaque élément, telles que sa forme et
sa taille, peuvent être extraites à partir du fichier
graphique et utilisé pour l'indexation et la recherche.
• Les professionnels (graphistes, illustrateurs ou
concepteurs) réalisent la majorité de leurs
visuels en vectoriel afin de pouvoir les
modifier à volontés sans les altérer.
Comment créer un fichier vectoriel ?
• Pour vectoriser un fichier, il ne suffit pas de le créer sur Photoshop ou
Illustrator. En effet la vectorisation est un peu plus compliquée.
• Pour vectoriser, il vous faut un logiciel de publication assistée par
ordinateur (PAO) comme Illustrator, Corel Draw ou Photoshop, puis
couleur par couleur, forme par forme, vous devez définir un à un tous
les vecteurs et lignes de l’image.
• Une fois la vectorisation finie, vous pouvez enregistrer votre image
sous le format que vous souhaitez : ai, eps, tiff, png….
• Attention : Le format jpeg ne permet pas de conserver la vectorisation
de l’image. En effet le jpeg est une image. Lorsque vous enregistrer
un fichier en jpeg vous enregistrer une photo prise à un moment
précis.
• L’image ainsi enregistrée redevient matricielle et perd toute les
caractéristiques de la vectorisation.
Les avantages de l’image vectorisée
• L’avantage de la vectorisation est de pouvoir
agrandir ou réduire une image à volonté sans
qu’elle ne perde en qualité. Les lignes vectorielles
qui composent l’image étant créées par des
formules mathématiques, ces dernières sont
recalculées et réadaptées à chaque changement
de taille. Cette technique permet de garantir à
100 % la qualité de l’image.
Peut-on tout vectoriser ?

• On ne peut pas tout vectoriser. En effet, les


photos et les dégradés de couleurs ne se
vectorisent pas. La vectorisation aplatie les
couleurs et élimine les dégradés.
Les animations
•L’animation est une création artificielle du
mouvement créé par une suite d’images
superposées
•Beaucoup plus léger qu’une vidéo
•Utilité de l’animation
 Attirer l’attention
 Démontrer un concept
 Imager une transition ou l’attente
 Expliquer le flot d’un système
 Interagir avec l’utilisateur
•Les animations sont efficaces i.e. dynamiques
•La répétition de la même animation sans
interaction est ennuyant
•Élimine la nécessité de logiciels locaux
•Minimiser les ‘downloads’
Compression des images
• Cette compression a pour utilité de réduire la
redondance des données d'une image afin de
pouvoir l'emmagasiner sans occuper
beaucoup d'espace ou la transmettre
rapidement.
• La compression d'image peut être
effectuée avec perte de données ou sans
perte.
compression d'image sans perte
• Les méthodes les plus importantes de
compression d'image sans perte sont :
• la méthode du codage des répétitions, utilisée
sur les premiers scanners et télécopieurs ;
• le codage entropique ( appliqué aux textes. Ex:
Huffman)
• les algorithmes à dictionnaire adaptable tels
que LZW, davantage adaptés à l'information
de type texte.
Exemple RLE
compression avec perte
• Les méthodes les plus importantes de compression avec perte sont :
• la réduction de l'espace des couleurs aux couleurs les plus fréquentes dans
une image. Les couleurs choisies sont indiquées dans la palette de couleur
dans l'en-tête de l'image compressée. Chaque pixel indique juste une
référence sur une couleur dans la palette de couleurs.
• le sous-échantillonnage de la chrominance. Cette méthode profite du fait que
l'œil perçoit la luminosité plus vigoureusement que la couleur, en laissant
tomber au moins la moitié des informations de chrominance dans l'image.
• le codage par transformation. C'est généralement la méthode la plus utilisée.
La transformée en cosinus discrète et la transformation par ondelettes sont les
transformations les plus populaires. Le codage par transformation comprend
l'application de la transformation à l'image, suivie d'une quantification et
d'un codage entropique.
Compression fractale:
• Compression fractale:
reposent sur le principe
que les objets peuvent
être constitués d’objets
identiques à eux
mêmes après des
transformations
simples (affines)
JPEG
• le codage par transformation. C'est généralement la méthode la plus utilisée.
La transformée en cosinus discrète et la transformation par ondelettes sont les
transformations les plus populaires. Le codage par transformation comprend
l'application de la transformation à l'image, suivie d'une quantification et
d'un codage entropique.
• Codage zigzag
Exemple jpeg
Les sons
• Il faut savoir que le pascal (Pa) est l'unité de pression
et que la pression d'une atmosphère est de l'ordre
de 1020 hectopascals (1,02.105 Pa).
• Le son est causé par une perturbation de la pression
de l'air qui atteint le tympan de l'oreille.
• L’intervalle des fréquences du son audible est de 20 à
20.000 Hz.
• Cet intervalle correspond à des variations de
pression de 20 micropascals (seuil de sensibilité) à
100 pascals (seuil de douleur).
Numérisation
Pour numériser un son enregistré de manière analogique, on procède en trois
étapes :

1. Echantillonnage : l'amplitude du signal analogique est mesurée à une


fréquence d'échantillonnage f. On obtient ainsi une collection de mesures.

2. Quantification : une échelle arbitraire allant de 0 à 2n-1 est employée pour


convertir les mesures précédentes. Une approximation est faite de manière
à ce que chaque mesure coïncide avec une graduation de l'échelle (cette
approximation, qui modifie légèrement le signal, est appelée bruit de
quantification).

3. Codage : suivant sa grandeur dans cette nouvelle échelle, chaque mesure


est codée sur n bits et placée séquentiellement dans un fichier binaire.
Numérisation
• Les valeurs de f (fréquence d’échantillonnage) et
de n (nombre des niveaux de quantification) sont
critiques pour la taille du fichier résultant.
• Usuellement 3 qualités de numérisation sont
employées :
- La qualité Hifi ou CD audio : f=44.1 KHz, n=16
bits, stéreo (2 signaux sonores)
- La qualité "radio" : f= 22 KHz, n=8 bits, mono ou
stéréo
- La qualité "téléphonique" : f=8 KHz, n=8 bits,
mono
Détermination de la fréquence
d'échantillonnage (Taux d’échantilllonage)

• La fréquence d'échantillonnage dépend de la fréquence


maximale du signal analogique à convertir.
• Selon le théorème de Nyquist, si un signal analogique
contient une fréquence maximale de f HZ, la fréquence
d'échantillonnage doit être au moins 2f Hz
• Par exemple, le taux d'échantillonnage des CD-audio est de
44,1 kHz pour couvrir la fourchette des fréquences audibles
[20Hz,20kHz]
• La fréquence maximale de la voix humaine est 3,1 kHz.
Ainsi, le système téléphonique analogique limite le signal à
transmettre à 3,1 kHz. Pour convertir ce signal vocal en un
signal numérique, un taux d'échantillonnage de 8 kHz est
utilisés.
Détermination du nombre de niveaux
de quantification
• Le nombre des niveaux de quantification utilisé
détermine la fidélité du signal numérique par
rapport au signal analogique original.
• La différence maximale entre les valeurs des
échantillons quantifiés et les valeurs
correspondantes du signal analogique est égale
au pas de quantification(erreur ou bruit de
quantification).
• Le nombre des niveaux de quantification est
inversement proportionnel au pas de
quantification et au bruit de quantification
Détermination du nombre de niveaux
de quantification
La compression audio
Compte tenu des contraintes théoriques de restitution d’un signal analogique
de bonne qualité (pour l’oreille humaine) à partir d’un signal
échantillonné, on a imposé aux CD audio un format de stockage du son
ayant les données suivantes : La fréquence d’échantillonnage (Fe) : 44.1
kHz, La quantification (Q) : 16 bits (2 octets), Son stéréo.
La formule est la suivante : D= F*Q*P*T avec :
D qui est la taille du fichier en kilo-octets,
F qui est la fréquence d’échantillonnage,
Q qui est le nombre d’octets utilisés pour coder le signal,
P qui le nombre de piste. En stéréo on utilise deux pistes,
T qui est le temps de l’enregistrement en seconde.
D=44.1*2*2*60 soit environ 10 Mo
Par conséquent la compression audio est essentiel.
La compression audio
• Deux formats de compression sont possibles :
la compression sans perte de données (wave,
aiiff) et la compression avec perte de données
(mp3).
Les formats MPEG-1 et MPEG-2
• La norme MPEG-1 audio spécifie l'utilisation de
fréquences d’échantillonnage à 32 KHz, 44.1 KHz, ou 48
KHz. Il existe 3 modes de compression, ce sont les
Layers I, II, et III exigeant plus ou moins de temps de
calcul.
• La norme MPEG-2 audio est compatible du standard
MPEG-1. Les différences principales tiennent dans :
- le taux d'échantillonnage qui peut être
éventuellement plus bas (16, 22.05, et 24 KHz)
- l’encodage multi-canal et psycho-acoustique.
La vidéo numérique
• Il existe deux grandes familles de systèmes vidéo : les systèmes vidéo
analogiques et les systèmes vidéo numériques.

• Le principe des systèmes vidéo analogiques :

Une caméra balaye l'image bidimensionnelle qu'elle a devant elle par


un faisceau d'électrons qui se déplace très rapidement de gauche à
droite et plus lentement de haut en bas, produisant un signal
électrique fonction du temps. Elle enregistre ainsi l'intensité
lumineuse, et à la fin du balayage on a ce qu'on appelle une trame
(frame), et le faisceau revient à l'origine pour recommencer.
Le récepteur va recevoir cette intensité fonction du temps, et pour
reconstruire l'image, va répéter le processus de balayage.
La vidéo numérique
• Les paramètres précis de ce balayage varient d'un pays
à l'autre, mais deux grandes familles existent :
-En Europe (système PAL/SECAM (Phase Alternating
Line / SEquentiel Couleur Avec Mémoire)) le système
utilise 625 lignes (dont seulement 576 sont affichées),
et un rapport vertical/horizontal de 4/3 et 25 images
par seconde
-En Amérique et au Japon (système NTSC ( National
Television Standards Committee), 525 lignes (483 sont
affichées)), 30 trames par seconde.
La vidéo numérique
• Lorsque les luminophores (dispositifs
d'affichages) sont frappés par un faisceau
d'électrons, ils émettent de la lumière pendant
une courte période. On pourrait percevoir des
scintillements.
• Pour résoudre ce problème, au lieu d'augmenter
le débit des trames, on a préféré afficher d'abord
les lignes impaires puis les lignes paires. Cette
technique est appelée l'entrelacement
Vidéo numérique
• Par exemple, une séquence vidéo de 10
minutes avec une image de dimension
512X512, et une profondeur de pixel de 24
bits et un débit d’image de 25 images par
seconde, il faut 600 * 25 * 512 * 512 * 3 = 13
Go
• Par conséquent, il est essentiel de compresser
la vidéo.
La compression des vidéos
• La vidéo est compressée en réduisant les redondances et en
exploitant les propriétés la perception humaine.
• La vidéo est une séquence d'images, elle a donc une
redondance spatiale.
• les images voisines dans une séquence vidéo sont à priori
similaires. Cette similitude est appelée redondance
temporelle.
• La redondance temporelle entre les images est éliminée par
les méthodes de compression prédictives.
• Les redondances spatiales sont éliminées par des techniques
de compression spatiale. Les redondances temporelles sont
éliminées par des techniques de compression temporelle.
Estimation et compensation de mouvement

• L’estimation et la compensation de mouvement


permet d'exploiter la redondance temporelle dans
la vidéo.
• Le mouvement dans les images implique que les
pixels de l'image précédente sont dans une
position différente dans l'image courante.
• Dans les techniques d'estimation et de
compensation de mouvement, chaque image est
divisée en blocs de taille fixe (généralement de
16X16 pixels)
Compression vidéo MPEG
•La compression MPEG(MovingPicture Experts Group) permet la compression de la

vidéo, elle est réalisée avec perte.

•La compression MPEG reprend une bonne partie des spécifications de la norme

JPEG(Joint PhotographicExperts Group) et lui ajoute des traitements propres à l’image

animée.

•Une image de référence entière est conservée, et pour les images successives, on ne

conserve que les modifications.

•MPEG-1 restitue une image avec une résolution de 352 pixels et 282 lignes, à raison

de 25 images par seconde, ou 352 x 240 à 30 images par seconde.

•MPEG-2 offre un débit plus élevé (plus de 20 Mbit/s). La résolution des images peut

atteindre 1920 x 1080 à raison de 60 images par seconde.


MPEG-1, MPEG-2 et 4
MPEG-1
• La norme MPEG-1 est enregistrée à l'ISO (International
Organisation for Standardisation) sous le codeISO/IEC
11172. Elle a été finalisée en 1992.
• L’objectif de MPEG-1 était de fournir de la vidéo et de
l’audio au taux de transfert d’un CD.
• La partie audio du MPEG-1 est décomposée en MPEG-1
Audio Layer I, II et III. Ce dernier format est plus connu
sous le nom de MP3 et permet une compression sur 2
voies audio.
• MPEG 1 vidéo utilise les techniques de compensation de
mouvement et DCT.
• MPEG 1 définit 4 types d’images :
- I-pictures (intracoded pictures), ils sont compresser sans faire
référence aux autres images, ils servent de référence aux predictive
coded pictures
- P-pictures (predictive coded pictures), ils sont compressés en
utilisant les techniques de la compensation de mouvement sur la
précédente I-picture ou P-picture. Ils sont utilisés comme
références pour d’autres prédictions.
- B-pictures (bidirectionally predictive-coded), ils permettent des
taux de compression plus élevés, mais ils utilisent les précédentes
et les futures images de références. B-pictures ne sont jamais
utilisés comme images de référence.
- D-pictures (DC-coded pictures), ils compresser sans faire référence
aux autres images.
• I-pictures et P-pictures sont générallement appelés images de
référence.
Le GOP (Group of pictures) le plus courant s’écrit :
IBBPBBPBBPBB.

Prédiction « Forward » et « Backward »


MPEG 4
• Les objectifs de cette norme sont assez nombreux et touchent de vastes
domaines. En fait, MPEG-4 a pour ambition de fusionner trois mondes :
l'informatique, les télécommunications et la télévision.
• Cette norme s'appuie sur le développement de la télévision numérique,
des applications graphiques interactives et du multimédia.
• MPEG-4 appréhende la vidéo selon la méthode orientée objets : une
scène devient alors une composition d'objets médias hiérarchisés, chaque
objet étant décomposé en différents paramètres.
• MPEG-4 propose une approche radicalement différente pour le codage
des vidéos, en décomposant chaque scène en plusieurs objets médias
hiérarchisés : des objets audiovisuels (AVO, pour Audio-Video Objects).
Dans l'arborescence de cette hiérarchie, on trouve des images fixes
(arrière-plan), des objets vidéo (objets en mouvement sans arrière-plan)
et des objets audio (la voix associée à l'objet en mouvement).
• Une scène audiovisuelle doit être comprise comme la composition
d'objets audiovisuels selon un script décrivant leurs relations spatiale et
temporelle.

Vous aimerez peut-être aussi