Cours Tech Multimédia

Faculté des sciences économiques Souhir Ben Souissi
et de gestion de Nabeul
2009-2010 Niveau : 1ère année IAG
Introduction de L’Information Multimédia
1. introduction :
Aujourd’hui une quantité considérable d’informations, traitée de diverses

manières se répand sur l’homme.
Ces données sont plus ou moins reçues et traitées sciemment (et donc
inconsciemment).
Les informations, images et son, sont combinées les unes aux autres sous des
aspects didactiques et esthétiques exclusivement centrés sur le produit
Le terme multimédia décrit l’emploi des différents moyens et techniques
permettant la transmission d’informations.
*Définition :
Le terme Multimédia désigne l’intégration

de textes,
graphiques,
sons
animations
et images vidéo
A des fins d’information.
Dans cette ordre d’idée que le mot interaction est important.
Un environnement multimédia est un ensemble de matériels et de logiciels

permettant:
de créer
de stocker et d'organiser
de consulter et modifier en temps réel
de transmettre des documents structurés de façon homogène comportant des

informations textuelles, de la voix, des images fixes ou animées codées
numériquement.
1
Cet environnement doit permettre de jouer “naturellement“ sur les relations

syntaxiques et sémantiques liant les différents média.
2. Structure de l’information multimédia
Un document multimédia est un document contenant des éléments de

nature diverses (textes, images, vidéo, son,…)
Ces données multimédias sont stockées dans des fichiers
Ces fichiers regroupent plusieurs médias et de méta -données,
synchronisées sur une même base de temps
La contrainte de la continuité de certains de ces éléments, d’une part, et
le lien sémantique qui peut exister entre eux d’autre part, imposent une
synchronisation assurant une cohérence sémantique de cette information.
Exemple :
Un reportage d’un journal télévisé est rendu incompréhensible si les
commentaires du journaliste sont décalés par rapport à la vidéo, elle-même
décalé par rapport aux illustrations graphiques.
---Le système sous –jacent devrait assurer la synchronisation entre plusieurs
médias (vidéo, image, texte…).
Un document multimédia
Une structure multicouche

Organisé selon plusieurs dimensions :
Physique
Logique
Temporelle
Spatiale
En général on distingue les deux types de structure :

………physique / logique
Pourquoi ?
Comprendre un document nécessite d'en reconnaître ses structures ( physique,

logique…)
2
Comment ?
Étape1: la reconnaissance de la structure physique fait apparaître les blocs(

texte, lignes, mots…séquences, scène, plan..)
Étape2: de reconnaissance de la structure logique, les entités physiques sont

interprétées comme des entités signifiantes
La structure physique :
Désigne le positionnement de composants d’un document,
leur agencement les uns par rapport aux autres, ainsi que l’ensemble des
caractéristiques typographiques
La structure physique désigne la segmentation d’un document en zones

homogènes, partageant les mêmes propriétés typographiques ou
graphiques
Structure logique :
La structure logique décrira le rôle et la nature de chaque élément d’un

document multimédia ainsi que l’ensemble des liens hiérarchiques et / ou
logique qui les lient les uns avec les autres
La structure logique permet de regrouper les blocs physiques en entités

logiques la structure logique d'un document permet de le décomposer en sous
parties.
Une structure physique bien conçue aura pour principal qualité de rendre lisible
la structure logique du document ce qui peut amener à confondre les deux.
3
La structure thématique :
Concerne le contenu correspond à une segmentation en blocs sémantiquement

homogènes.
Les structures temporelles et spatiales :
Elles ne sont cependant pas indépendantes de la structuration logique qui pose

en quelque sorte des frontières spatio-temporelles à l’intérieur du document.
3. Composant de l’information multimédia
-texte
-image
-son
-vidéo
4
L’image
1. Définition :
Une image, du latin imago: désigne la représentation visuelle d'un objet par
différents moyens ou supports:
Peinture
Dessin
Photographie
Image numérique
Vidéo…
Les images que permettent les appareils numériques sont des images matricielles
une image matricielle / numérique est constituée d’une succession d’éléments

de base lumineux (pixels) disposés régulièrement selon deux dimensions (3
dimensions dans le cas d’images 3D)
Plus la densité des points est élevée, plus la résolution de l’image est élevée
La place et la durée de traitement est plus grande
Le pixel représente une valeur que peut prendre son intensité:

Dans le cas des images à niveau du gris, cette valeur représente la luminance
du signal du départ.
Dans celui des images en couleur, la valeur du pixel est constituée de trois
composants : rouge, vert et bleu. La composition de ces trois couleurs primaires
permet de décrire l’ensemble des couleurs.
2. Eclairage :
2.1. Introduction :
Une image est l’interaction entre la lumière de la source d’éclairage et la surface
des objets.
L’intensité reçue au niveau de l’image résulte des différents facteurs :
-la lumière incidente (la nature, la qté, la position,…).
-la propriété de réflexion …
-système d’acquisition (réception).
-pour faire varier l’image (la qualité) on peut agir que sur l’éclairage et la
caméra.
5
2.2. Les types de sources d’éclairage :

- La lumière naturelle (éclairage naturels) soleil.
Les ampoules à l’incandescence (Av : accessible _ Inc :le rendement est
médiocre).
-Les lampes halogènes (Av : forte luminosité, accessible)
-Les diodes (vie infinie)
6
-Les lampes à quartz (très intenses)
3. Les caméras :
3.1. Distance focale :
La distance focale d'un système optique est la mesure de sa puissance de

convergence (focus) ou divergence (diffusion) de la lumière.
7
Un système avec une longueur de focale plus courte a plus de puissance

optique qu'un autre avec une longue focale.
Il y a des appareils :
-à distance focale fixe ou constante.
-ajustable (faire le zoom).
3.2. Le diaphragme :
Le diaphragme est le « régulateur de la netteté des prises de vues sur un

appareil photographique mécanique. Il s'agit d'un mécanisme ajustant
l'ouverture par laquelle passe la lumière.
8
Remarquez le rapport entre l'ouverture du diaphragme et la quantité de

de lumière qui le traverse.
Retenons :
Le diaphragme c’est le trou qui permet de contrôler la qté de lumière qui entre.
3.3. Formation de l’image sur le plan géométrique :

On parle de système de projection perspective
9
Pinhole
Trou de pingle
3.4. La caméra CCD (Charge-Coupled Device)
Les caméras CCD sont constituées par un assemblage de photodiodes. Chacune

d'entre elles délivrant une intensité proportionnelle à un pixel. Contrairement
aux cameras à tube qui fournissent un signal continu qu'il faut échantillonner
spatialement pour isoler chaque pixel, les caméras CCD fournissent directement
l'intensité
pour chaque point de l'image puisqu'à chacun correspond une photodiode. En
1905, Einstein a démontré que lorsque la lumière frappe certains matériaux, des
électrons sont produits. Plus il y a de lumière, plus nombreux sont les électrons
produits.
Le capteur à CCD est donc un composant basé sur une technologie de

composants à semi-conducteurs. L'arrivée de photons sur le silicium va créer des
charges électriques, charges qui vont s'accumuler dans des zones appelées
"puits". Ces zones sont la résultante de différentes tensions électriques
appliquées localement. En jouant sur ces tensions, nous allons modifier la
position des puits, et donc forcer les charges à se déplacer. Ces capteurs peuvent
se présenter sous forme d'une barrette (caméra linéaire) ou sous forme d'un
rectangle (caméra matricielle).
10
3.4.1. Caméra linéaire :
Les caméras industrielles de type linéaire réalisent des prises de vue en une
dimension (1D) ; elles peuvent être synchronisées sur la vitesse de défilement du
produit par le biais d’un signal encodeur.
Les caméras linéaires sont principalement utilisées pour le contrôle et
l’inspection de produits de longueur infinie fabriqués en continu (ex: verre,
papier, non-tissé, plastique...)
3.4.2. Caméra matricielle :
Une caméra vidéo est dite matricielle lorsque les pixels qui composent son
capteur (forment une matrice de taille nxm avec n et m supérieurs strictement à
1.
4. Types d’image :
4.1. Image matricielle :
Ce type d'image est composé d'une mosaïque de rectangles colorés. Ces
rectangles s'appellent des pixels. Plus ces points sont petits par rapport à la taille
de l'image, plus la définition de l'image est précise.
A un certain niveau de grossissement, l'image finit immanquablement par se

transformer en un canevas de gros carrés de couleur : les fameux pixels.
Tout format d'image matricielle, fonctionne selon ce principe. Si au départ le

format bitmap (bmp) se contente d'enregistrer le tableau de pixels tel quel, des
formats différents d'image (gif, pict, tiff...) se proposent d'enregistrer l'image de
façon plus économique (en groupant par exemple les pixels voisins de même
couleur).Il s'agit de la compression.
11
INC :
-Le nombre de point à traiter est très grand -> besoin de processus très
performant.
-Besoin énorme de la mémoire.
4.2. Image vectorielle :

Une image vectorielle est un dessin géométrique défini par des éléments
positionnés dans un espace, tel que des points et des courbes.
Une image vectorielle par exemple codera un disque rouge en retenant les
coordonnées de son centre, la grandeur de son rayon et la couleur de
remplissage, c'est à dire en gros 3 informations.
AV :
-Indépendance vis-à-vis des périphériques.
-bien adapté au schéma.
-La taille est en fonction de la complexité.
INC :
-peu adapté aux images complexes (photo).
-L’affichage implique des calculs.
4.3. Résolution d’image :
-Notion très importante.

-Nombre de pixel par unité de longueur de la structure à numérisée est mesuré
en DPI (dots par inches ) ou PPP (points par pouce).
-Ce paramètre est définit lors de la numérisation et dépend principalement des
caractéristiques de matériel utilisé lors de processus du numérisation.
- + le nombre de pixel par unité de longueur de la structure à numériser est
élevée, + la qté d’information qui décrit cette structure est importante et + le
degré de détail qui va être représenté sur cette image est élevé.
-> Meilleurs qualité.
12
-Certains matériels de numérisation permettent de faire varier la résolution lors

de l’acquisition de l’image.
-Les phénomènes de numérisation dépendent des deux équations suivantes :
(X *résolution)=x pixels
(Y*résolution)=y pixels
Où : X et Y : taille en pouce ou mètres de la structure à numériser,
Résolution : résolution de numérisation.
x et y : taille en pixel de l’image.
Exemple :
Une image de 1*1 pouce scanné à 100 dpi aura une taille x,y de
(1*100)*(1*100)=100 pixel sur 100 pixel.
1 pouce= 2.54cm
-la taille en pixel diminue quand la résolution diminue.

4.4. Représentation d’image :
4.4.1. Codage matriciel
*Codage brut par point

Un écran étant une matrice de pixels, on représente une image par une matrice
dont chaque élément code un pixel; ainsi si une image possède m lignes et n
colonnes, donc m.n points ou pixels :n image binaire (pixels noirs ou blancs) : 1
pixel est codé sur 1 bit (0 ou 1) -->matrice de m.n bits n image à nuances de gris
(2l nuances) : 1 pixel est codé sur l bits --> matrice de m.n.l bits. image couleur
(2l quantités de R, V, B) : 1 pixel est codé sur 3.l bits --> 3matrices de m.n.l bits.
Donnons quelques ordres de grandeur : pour une image 512x512 pixels :
-image binaire : fichier de 32 Ko
- image à 256 nuances de gris : chaque pixel étant codé sur 8 bits, on a un fichier
de 256 Ko.
- image à 256 nuances de R,V,B : le fichier est équivalent à 3 fois le précédent :
fichier de 768 Ko.
On constate que pour des images de haute qualité (beaucoup de couleurs, haute
définition), les fichiers images seront très volumineux d'où la nécessité de les
compresser.
*Codage par plage

Le principe consiste à ne pas répéter des suites de points identiques se situant sur une
même ligne. En se basant sur la figure suivante, on
13
on obtient le codage suivant :

ligne * ………………………….
ligne ** ……………………………..
ligne *** ……………………………………..
ligne **** ……………………………………………….
ligne *****
…………………………………………………………………..
* Arbres quaternaires (Quad Trees)
Un arbre quaternaire résulte de la division d'une image, supposée carrée, en 4

quadrants; chaque quadrant est à son tour divisé en 4 sous-quadrants et ainsi de suite.
La figure suivante explicite le principe du codage par arbre quaternaire.
-liste ordonnée des pixels noirs :

………. …………………………………………………………………………………
…………………………………………………………………………………
-liste compactée : 4 codes consécutifs ne différant que par les premiers chiffres du
code, on met x comme dernier chiffre :

…………………………………………………………………………………………
………………………………………………………………………………………….
14
4.4.2. Codage vectoriel :
* Description dynamique :
Elle s'exprime sous forme des programmes de tracé :
* Codage de Freeman :
Sous sa forme la plus simple, le codage de Freeman décrit un pixel par rapport
au pixel précédent par la direction du tracé. 8 directions de base sont définies :
* Courbes fractales :
Les courbes fractales, consistent à répéter un même motif des milliers de fois,
avec, en général l'introduction d’un facteur aléatoire dans le processus de
génération. On les utilise en rendu réaliste, notamment pour réaliser des effets de
texture.
15
Si, au lieu d'utiliser un facteur aléatoire, on utilise des règles bien définies, on
parle alors de courbes graftales. La figure ci-dessous donne un exemple de
construction d'une courbe fractale.
5. La représentation des couleurs :

La couleur d'un objet dépend de sa géométrie, de la source de lumière qui
l'éclaire, de l'environnement, du système visuel humain.
Produire des images avec des effets de transparence, des textures, des ombrages,
nécessite une grande quantité de couleurs qu'il faut évidemment coder.
Rappelons que la lumière est une onde électromagnétique qui possède une
distribution spectrale en fréquence ou en longueur d'onde. La lumière visible
(par l'œil humain) correspond à un spectre compris entre 380 et 770 nanomètres
(de l'ultra violet à l'infra rouge). Une lumière monochromatique correspond à
une longueur d'onde bien précise (en fait à une bande de largeur 1 nanomètre).
On montre expérimentalement que l'on peut reconstituer toute lumière visible à
partir de trois lumières monochromatiques bien choisies, appelées couleurs
primaires. Les couleurs primaires les plus naturelles sont R, V, B (rouge, vert,
bleu)
16
5.1. RVB :
Le modèle RVB (RGB en anglais) s'appuie sur le principe de la synthèse
additive. C'est donc par la donnée d'un niveau de rouge, de vert et de bleu qu'est
reconstituée une couleur. Ce modèle est celui utilisé pour l'affichage de couleurs
sur un moniteur (3 faisceaux frappent la surface du tube, "éclairant" des
luminophores rouges, verts et bleus). Le modèle RVB étant très proche du
fonctionnement des écrans, c'est le modèle de base pour "parler" à un moniteur:
c'est celui qui demande le moins de transformations pour sa restitution.
Si le modèle RVB est le plus simple pour parler couleurs avec votre écran, c'est aussi l'un des moins
évidents humainement parlant, car nous sommes habitués à composer les couleurs en mélangeant les
teintes, c'est-à-dire suivant le système de synthèse soustractive. Aussi, il n'est pas très naturel de se
dire qu'un jaune est obtenu avec du rouge et du vert...
5.2. YUV :
Le standard YUV, auparavant baptisée YCrCb (Y Cr Cb), est un modèle de
représentation de la couleur dédié à la vidéo analogique.
Il se base sur un mode de transmission vidéo à composantes séparées utilisant

trois câbles différents pour faire transiter les informations de luminance
(luminosité) et les deux composantes de chrominance (couleur). Il s'agit du
format utilisé dans les standards PAL (Phase Alternation Line) et SECAM
(Séquentiel Couleur avec Mémoire).
Le paramètre Y représente la luminance (c'est-à-dire l'information en noir et

blanc), tandis que U et V permettent de représenter la chrominance, c'est-à-dire
l'information sur la couleur. Ce modèle a été mis au point afin de permettre de
transmettre des informations colorées aux téléviseurs couleurs, tout en s'assurant
que les téléviseurs noir et blanc existant continuent d'afficher une image en tons
de gris.
17
Voici les relations liant Y à R, G et B, U à R et à la luminance, et enfin V à B et

à la luminance :
• Y = 0.299R + 0.587 G + 0.114 B

• U = -0.147R - 0.289 G + 0.436B = 0.492(B - Y)
• V = 0.615R -0.515G -0.100B = 0.877(R-Y)
Ainsi U est parfois noté Cr et V noté Cb, d'où la notation YCrCb.
5.3. CMYK :
Ce système utilisé par certaines imprimantes couleurs à impact, à jet d'encre; on
parle alors de quadrichromie ou de modèle CMYK (K pour noir !) : 4 cartouches
d'encre sont nécessaires à l'impression couleur, la cartouche d'encre noire permet
d'obtenir un noir parfait, le mélange des autres couleurs ne donnant pas un
résultat satisfaisant.
6. Numérisation
La fabrication des images numérique peut s'opérer :
• soit à partir d'un équipement spécialisé (scanner, appareil photo

numérique, caméra vidéo analogique ou numérique si votre ordinateur est
équipé d'une carte de numérisation).
Le jeu intitulé "Créascan" proposé lors des 24 heures de l'ECM de novembre 2000 illustrant
d'ailleurs parfaitement les possibilités de création d'images à partir d'objets scannés
directement.
• soit à partir de rien, c'est à dire, par des tracés et des "coup de pinceaux"
réalisé directement dans un logiciel spécialisé.
Numériser un document (ou, digitaliser un document) consiste à le transformer

en quelque chose de compréhensible et manipulable par l'ordinateur ;
Cette étrange bestiole ne comprenant ultimement (pour résumer très

schématiquement !) que des 1 et des 0 selon que le courant électrique passe ou
ne passe pas, elle ne peut ni voir ni entendre de la façon dont nous le faisons ;
tout doit donc lui être restitué sous forme binaire.
Pour ce faire, des périphériques d'acquisition ont été construits, qui se chargent
de transformer l'image en séries de 0 et de 1. Le résultat est pour cette raison
numérique et non analogique
18
6.1. Principe
Comme les images doivent être représentées par un grand nombre de valeurs
numériques, la structuration des données, c'est-à-dire l'attribution d'une
signification à chacune de ces valeurs, va avoir beaucoup d'importance dans le
codage. Cette structure rend compte de l'organisation des données, et définit le
modèle de représentation utilisé pour ces images.
La numérisation des images ne peut donc se faire sans une modélisation

préalable. Le modèle retenu en général est bien connu :
• Quand il s'agit d'images animées, on décompose les variations de l'image

en une succession d'images fixes, à une fréquence de 10, 12, 24, 25 ou 30
images fixes par seconde.
• Les images fixes sont elles-mêmes décomposées en une matrice de
cellules, en général carrées. Ces cellules représentent alors les unités
élémentaires de l'image et sont appelées pixels (de l'anglais picture
element).
• Chaque pixel est caractérisé par une couleur (unique, puisque le pixel est
considéré comme indivisible).
En théorie, numériser une image revient donc à numériser les informations de

couleur pour chaque pixel, à les représenter par des valeurs numériques ayant
une signification précise, et à structurer les données produites dans un ensemble
cohérent et réutilisable.
Dans la pratique, tout n'est pas si simple. Pour numériser, il faut pouvoir
mesurer, et donc passer par des instruments de mesure et des capteurs.
• Les instruments numérisant des images fixes, comme les scanneurs, sont
en général conçus pour produire directement des données compatibles
avec la modélisation vue plus haut. Ils utilisent des capteurs permettant de
numériser les couleurs au niveau de chaque pixel.
• Pour numériser des images venant d'une source vidéo analogique

(camescope, caméra vidéo, magnétoscope, programme diffusé), on doit
raisonner différemment : l'opération consiste à numériser un signal vidéo,
considéré comme un flux d'informations, avec pour objectif de savoir le
restituer le plus fidèlement possible. On peut numériser ce signal sans
19
tenir compte de sa structure interne, ou au contraire s'appuyer, pour

faciliter le travail, sur la modélisation de l'image déjà présente dans le
signal. En effet, bien que de nature analogique, un signal vidéo a une
structure très précise qui correspond à un découpage en une succession
d'images et, pour chaque image, à un découpage en lignes d'écran. La
modélisation des images induite est légèrement différente de celle qu'on a
évoquée plus haut (on ne descend pas au niveau du pixel), mais il est
assez facile de passer d'un modèle à l'autre. En consé-quence, les procédés
de numérisation sont différents puisque c'est un signal vidéo variable dans
le temps qu'on numérise, et non les informations de couleur de chaque
pixel.
6.2. Échantillonnage
L’échantillonnage d’un signal analogique s(t) consiste à prélever à intervalles

réguliers des échantillons de s(t) pour créer un deuxième signal analogique noté
s(n) ou s*(t), toujours nul, sauf aux instants d’échantillonnage t =n*Te, où il
prend la même valeur que s(t).
Si l’on respecte certaines règles, on ne perd pas d’information dans l’opération,
c’est-à-dire qu’on peut retrouver l’intégralité du signal analogique à partir du
signal échantillonné.
Te est appelé la période d’échantillonnage : c’est la durée qui sépare 2 instants
d’échantillonnage.
On appelle Fe la fréquence d’échantillonnage correspondante, c’est donc le
nombre d’échantillons qu’on prélève en une seconde : fe=1/Te. Te est exprimée
en secondes, la fréquence fe, en Hertz.
20
7. Format d’image
Les modes de codage des images numériques sont malheureusement très
nombreux ; certains se sont toutefois imposés comme " standards " de fait; par
ailleurs des processus de normalisation sont en cours. Nous passons en revue ci-
dessous les formats d'image numérique les plus courants.
*Formats d'image matricielle :
- BMP origine Microsoft pour Windows 3.x; environnement PC; de plus en plus
répandu.
-PCX origine Paintbrush de Z-soft; utilisé en environnement PC; permet de
traiter des images 8 bits; non adapté aux images 16, 24, 32 bit; algorithme de
compression : RLC
-GIF assez répandu; d'origine Compuserve; utilisé dans un environnement PC;
codage effectué sur 8 bits (256 couleurs); algorithme de compression : LZW
-TIFF origine Aldus et Microsoft, pour les images scannées; utilisé en
environnement PC et Mac; plusieurs algorithmes de compression : RLC, LZW
- PICT format de base de QuickDraw de Mac; traite aussi le
vectoriel;environnement Mac.
-TGA origine Truevision; algorithme de compression RLC; environnement PC
-FAX utilisé pour la transmission de documents (télécopie); codage
binaire;application d'un codage RLC puis d'un codage de Huffman.
*Formats d'image vectorielle :
-PICT déjà mentionné .

-DXF origine Autocad, standard en CAO; adapté au travail en 2D; connu et très
répandu
-HPGL origine Hewlett Packard; format répandu pour les périphériques de
traçage
-EPS origine : format du langage Postscript pour Adobe; environnement PC et
Mac
-CGM format dérivé de GKS; universel, normalisé
-IGES permet l'échange de données en CAO; environnement des stations de
travail
-EDIGEO adapté à la cartographie; normalisé par l'AFNOR
6. Compression d’image
Une image matricielle 640x480 en 256 couleurs (codage sur 8 bits)
représenterait 307 Ko environ. 4 images satureraient donc une disquette
courante de 1,4 Mo. La numérisation d'images animées implique des problèmes
plus sérieux: pour des images du type précédent et une fréquence vidéo de 25
21
images/s, une séquence d'une seconde occuperait près de 8 Mo et une séquence

d'une heure 27,6 Go. Par ailleurs, le taux de transfert des supports magnéto-
optiques comme les CD-ROM est de l'ordre de 300 Ko/s. Il devient donc
indispensable de "réduire" la taille des images dans un rapport d'environ 27.
Pour une image de qualité photographique (16 M de couleurs codées sur 24
bits), il faut 3 fois plus, soit un facteur de compression de 75. Par ailleurs, la
capacité d'un CD-ROM est limitée à 650 Mo, ce qui permet de stocker
seulement 2000 images non compressées, soit 1 min 30 sec de vidéo! Il est donc
incontournable de réduire la taille des images pour des raisons de taille et de
débit.
La réduction de la taille des images appartient à deux classes de méthodes : le
compactage (réduction du volume sans perte d'information) et la compression
(réduction du volume avec perte d'information).
Les techniques employées reposent sur les méthodes suivantes :
-élimination des redondances : emploi d'un facteur de répétition
-élimination de certaines informations : suppression des détails les moins
perceptibles
-pour les images animées, enregistrement seulement des différences entre deux
images successives.
*quelques techniques courantes :
*****sans perte :
-codage RLC (Run Length Coding) : toute suite d'octets identiques est
remplacée par l'octet suivi du nombre d'occurrences (par exemple sur 3 octets);
ainsi la séquence
666666666 est codée 6/9.
-codage de Huffman : le principe est le codage statistique de blocs de bits sur

un nombre variable de bits en fonction de la fréquence d'apparition des blocs.
Les blocs peu fréquents auront un codage " long " et les blocs très fréquents, un
codage " court ". Bien entendu, il est nécessaire d'effectuer une première passe
pour calculer les fréquences.
-codage LZW (Lempel, Ziv, Welch) : des blocs répétitifs de bits sont
répertoriés dans une table et codés par leur adresse dans cette table.
Un important processus de normalisation a été effectué ces dernières années ce
qui a permis d'aboutir aux normes JPEG pour les images fixes et MPEG pour les
images animées; ces normes impliquent l'emploi de plusieurs procédés de
compression.
22
***avec perte :
-JPEG :
Les étapes de la compression JPEG sont les suivantes :
• Ré échantillonnage de la chrominance, car l'oeil ne peut discerner de

différences de chrominance au sein d'un carré de 2x2 points
• Découpage de l'image en blocs de 8x8 points, puis l'application de la
fonction DCT (Discrete Cosinus Transform, transformation discrète en
cosinus) qui décompose l'image en somme de fréquences
• Quantification de chaque bloc, c'est-à-dire qu'il applique un coefficient
de perte (qui permet de déterminer le ratio taille/qualité) "annulera" ou
diminuera des valeurs de hautes fréquences, afin d'atténuer les détails en
parcourant le bloc intelligemment avec un codage RLE (en zig-zag pour
enlever un maximum de valeurs nulles).
• Encodage de l'image puis compression avec la méthode d'Huffman.
23
Le son
1. Définition
Le son est une vibration de l'air, c'est-à-dire une suite de surpressions et de
dépressions de l'air par rapport à une moyenne, qui est la pression
atmosphérique.
La façon la plus simple de reproduire un son actuellement est de faire vibrer un

objet.
Pour reproduire des sons, on utilise généralement des haut-parleurs. Il s'agit en

fait d'une membrane reliée à un électroaimant, qui, suivant les sollicitations d'un
courant électrique va aller en avant et en arrière très rapidement, ce qui
provoque une vibration de l'air situé devant lui, c'est-à-dire du son !
De cette façon on produit des ondes sonores qui peuvent être représentées sur un
graphique comme les variations de la pression de l'air (ou bien de l'électricité
dans l'électroaimant) en fonction du temps. On obtient alors une représentation
de la forme suivante :
2. Numérisation
Pour pouvoir représenter un son sur un ordinateur, il faut arriver à le convertir
en valeurs numériques, car celui-ci ne sait travailler que sur ce type de valeurs. Il
24
s'agit donc de relever des petits échantillons de son (ce qui revient à relever des
différences de pression) à des intervalles de temps précis. On appelle cette
action l'échantillonnage ou la numérisation du son. L'intervalle de temps entre
deux échantillons est appelé taux d'échantillonnage. Etant donné que pour
arriver à restituer un son qui semble continu à l'oreille il faut des échantillons
tous les quelques 100 000èmes de seconde, il est plus pratique de raisonner sur le
nombre d'échantillons par seconde, exprimés en Hertz (Hz). Voici quelques
exemples de taux d'échantillonnage et de qualités de son associées :
Taux d'échantillonnage Qualité du son

44 100 Hz qualité CD
22 000 Hz qualité radio
8 000 Hz qualité téléphone
La valeur du taux d'échantillonnage, pour un CD audio par exemple, n'est pas

arbitraire, elle découle en réalité du théorème de Shannon. La fréquence
d'échantillonnage doit être suffisamment grande, afin de préserver la forme du
signal. Le théorème de Nyquist - Shannon stipule que la fréquence
d'échantillonnage doit être égale ou supérieure au double de la fréquence
maximale contenue dans ce signal. Notre oreille perçoit les sons environ jusqu'à
20 000 Hz, il faut donc une fréquence d'échantillonnage au moins de l'ordre de
40 000 Hz pour obtenir une qualité satisfaisante. Il existe un certain nombre de
fréquences d'échantillonnage normalisées :
• 32 kHz : pour la radio FM en numérique (bande passante limitée à 15

kHz)
• 44.1 kHz : pour l'audio professionnelle et les compact-disques
• 48 kHz : pour les enregistreurs numériques multipistes professionnels et
l'enregistrement grand public (DAT, MiniDisc...)
A chaque échantillon (correspondant à un intervalle de temps) est associée une

valeur qui détermine la valeur de la pression de l'air à ce moment, le son n'est
donc plus représenté comme une courbe continue présentant des variations mais
comme une suite de valeurs pour chaque intervalle de temps :
25
L'ordinateur travaille avec des bits, il faut donc déterminer le nombre de valeurs
que l'échantillon peut prendre, cela revient à fixer le nombre de bits sur lequel
on code les valeurs des échantillons.
• Avec un codage sur 8 bits, on a 28 possibilités de valeurs, c'est-à-dire 256

valeurs possibles
• Avec un codage sur 16 bits, on a 216 possibilités de valeurs, c'est-à-dire
65536 valeurs possibles
Avec la seconde représentation, on aura bien évidemment une qualité de son

bien meilleure, mais aussi un besoin en mémoire beaucoup plus important.
Enfin, la stéréophonie nécessite deux canaux sur lesquels on enregistre

individuellement un son qui sera fourni au haut-parleur de gauche, ainsi qu'un
son qui sera diffusé sur celui de droite.
Un son est donc représenté (informatiquement) par plusieurs paramètres :
• la fréquence d'échantillonnage
• le nombre de bits d'un échantillon
• le nombre de voies (une seule correspond à du mono, deux à de la stéréo,
et quatre à de la quadriphonie)
Calcul de mémoire requise pour enregistrer un son
Il est simple de calculer la taille d'une séquence sonore non compressée. En

effet, en connaissant le nombre de bits sur lequel est codé un échantillon, on
connaît la taille de celui-ci (la taille d'un échantillon est le nombre de bits...).
26
Pour connaître la taille d'une voie, il suffit de connaître le taux

d'échantillonnage, qui va nous permettre de savoir le nombre d'échantillons par
seconde, donc la taille qu'occupe une seconde de musique. Celle-ci vaut :
Taux d'échantillonnage x Nombre de bits
Ainsi, pour savoir l'espace mémoire que consomme un extrait sonore de

plusieurs secondes, il suffit de multiplier la valeur précédente par le nombre de
secondes :
Taux d'échantillonnage x Nombre de bits x Nombre de secondes
Enfin, la taille finale de l'extrait est à multiplier par le nombre de voies (elle sera
alors deux fois plus importante en stéréo qu'en mono...).
La taille en bits d'un extrait sonore est ainsi égale à :
Taux d'échantillonnage x Nombre de bits x Nombre de secondes x Nombre de voies
3. Caractéristique de son
Fréquence et hauteur(Sons graves, sons aigus)
La caractéristique qui permet de dire si un son est aigu ou grave est appelée
hauteur.
On associe à la hauteur d’un son la fréquence de son mode de vibration
fondamentale, exprimée en hertz (symbole : Hz).
Lorsque les sons se succèdent ou se superposent, l’oreille est sensible au rapport

de leur hauteur.
Intensité (Sons forts, sons faibles)
Correspond aux variations de pression de l’onde. Le son peut être fort ou doux
-L’intensité acoustique se mesure en décibels (DB). Une échelle de
perception graduée de 0 à200 par apport au seuil de perception de
l’oreille humaine
-La distinction entre sons forts ou faibles est liée à l'amplitude des vibrations de
l'air transmettant les sons à l'oreille
27
Timbre
Le son d’une même note (même fréquence fondamentale), mais émise par deux
instruments différents n’est pas perçu de la même façon par l’oreille. On dit
alors que ces deux sons n’ont pas le même timbre.
Autrement dit, le timbre d’un son dépend de l’instrument qui émet ce son.
- Le timbre est une notion subjective permettant de qualifier et de distinguer

des sons de hauteur et d'intensité identiques
4. Les sous ensembles de son
Le bruit
Phénomène acoustique produisant une sensation auditive considérée comme
désagréable ou gênante.
La superposition de sons purs (c'est-à-dire à une seule fréquence) donne un
phénomène acoustique aléatoire, où l'on ne peut distinguer de fréquences (à
l'inverse des sons complexes), on est alors en présence de bruit.
La voix
Son ou ensemble de sons quand les cordes vocales entrent en vibration (sous
l'effet d'une excitation nerveuse rythmique
La voix, parce qu'elle est le produit acoustique d'un comportement sensori-
moteur, porte l'empreinte corporelle des trois systèmes (respiratoire, phonatoire,
articulatoire) impliqués dans sa production.
Exemple : le cri néonatal est un phénomène sonore d’une durée de 1à4 secondes,
d’une intensité de 82 décibels, et d’une hauteur fréquentielle plutôt aigu de 350
à500
La musique
Une succession de sons organisés
Une combinaison des sons provenant d’instruments de musique et de silences
28
’’L’art des sons’’, englobe toute construction artistique, combinatoire ou

aléatoire, destinée a être perçu par l’ouïe.
La musique est " un système de différences qui structure le temps sous la
catégorie du sonore "
5. Norme midi
Le Musical Instrument Digital Interface est conçu initialement comme un
protocole de communication entre équipements musicaux.
Origine: 1983.
La norme MIDI permet aux instruments électroniques de communiquer entre
eux et aujourd'hui, avec un faible coût de mise œuvre, un environnement
MIDI permet des échanges d'informations en temps réel entre les appareils
les plus divers.
-Des câbles Midi relient les différentes prises des appareils

-Les prises Midi sont généralement au nombre de trois: Midi In, Midi Out, Midi
Thru
-Le standard Midi utilise un mode de transmission série asynchrone
6. Compression
Comment opère-t-on une compression sur un fichier audio ? En fait, on devrait
plutôt parler d'un ensemble de techniques utilisées pour arriver au résultat final.
Parmi ces techniques, certaines sont dites destructrices d'autres non. Une
compression destructrice, c'est une compression qui est réalisée en perdant de
l'information. Cela signifie que si l'on décompresse le signal compressé à l'aide
d'une telle technique, on ne retrouvera pas le signal de départ.
Parmi les techniques de compression destructrices, on a essentiellement des

méthodes qui exploitent les propriétés de l'oreille humaine. Cette dernière
entend les fréquences situées dans la gamme 20 Hz 20 kHz. Si un morceau
contient des fréquences hors de cette gamme, on peut donc purement et
simplement les supprimer sans perte de qualité audio puisque l'oreille ne les
entend pas. En fait, on entend surtout correctement les fréquences situées dans la
gamme 2 kHz 5 kHz. En effet, il faut moins de 5dB pour entendre les fréquences
de cette bande alors qu'il faut plus de 20dB pour entendre les fréquences situées
en dessous de 100Hz ou au dessus de 10kHZ. Ces constatations peuvent être
exploitées pour réduire la taille des fichiers. On peut par exemple décider que
29
toutes les fréquences au dessus de 15kHz seront supprimées. On peut utiliser

aussi le principe des fréquences masquées. Si dans un groupe de fréquences,
certaines ont un niveau sonore beaucoup plus élevé que d'autres, il n'est pas
nécessaire de conserver les fréquences de niveau sonore faible : on ne les
entendra pas. Pour utiliser une comparaison plus marquante, imaginez que vous
êtes dans votre jardin et que vous entendez le pépiement des oiseaux. Le
Concorde passe au dessus de votre tête (même très haut). Vous n'entendrez plus
les oiseaux car le son qu'ils produisent est beaucoup plus faible que celui généré
par l'avion. C'est comme si les oiseaux n'existaient plus ou avaient arrêté de
chanter. On voit bien qu'il n'est pas nécessaire de coder toutes les fréquences
présentes dans un morceau pour que l'oreille humaine le perçoive correctement
quand même. Enfin, si les deux voies d'un son stéréo présentent des séquences
semblables, au lieu de dupliquer ces séquences, on en stocke évidemment qu'une
et l'information qu'à ce moment là, voie droite et voie gauche sont identiques.
Au rang des techniques non destructrices, que trouve-t-on ? Principalement

des techniques de codage : Un son, c'est une fréquence. Une seconde de musique
c'est donc une succession de fréquences. Imaginons que dans la suite
d'échantillons composant une seconde de musique (rappelons qu'il y en a 44100)
on ait plusieurs fois de suite la même fréquence, par exemple 10 fois. Si au lieu
de stocker ces 10 points, on en stocke 1 seul et le nombre de fois où il se répète,
on a besoin de coder 2 nombres et non 10. Si, de plus, on applique cette méthode
à des fréquences non plus identiques mais très proches les unes des autres (si
proches que l'oreille humaine moyenne ne puisse les distinguer), on peut encore
gagner en place. Cette fois, la compression est destructrice puisque l'on
remplace une fréquence par une autre (presque identique). On utilise également
l'algorithme de Huffman (1952) comme méthode de codage des informations.
Cette méthode est utilisée dans tous les algorithmes de compression
(compression de fichiers texte, compression d'images, compression de sons).
Elle repose sur l'utilisation d'un code de longueur variable et la probabilité
d'apparition d'un événement (en l'occurrence ici d'une fréquence). Plus une
fréquence apparaît souvent, plus son code sera court (nombre de bits faible pour
la représenter). Le fichier est lu une 1ère fois et on dresse un tableau des
fréquences apparaissant et le nombre de fois où elles apparaissent. On en déduit
le code approprié. Ce codage est utilisé en dernier lieu. C'est la phase finale de la
compression. C'est un codage non destructeur.
30
L'utilisation de toutes les possibilités de réduction évoquées dépend de la place

que l'on souhaite accorder à 1 mn de son compressé et donc du taux de
compression que l'on va devoir appliquer.
Il existe plusieurs normes de compression audio (MPEG1, MPEG2, ...). Ces

normes sont établies par des organismes de normalisation. A partir des normes
établies, des groupes de travail développe des outils permettant de compresser
un signal audio tout en respectant les normes. Ce travail débouche sur des
formats de compression et parfois le dépot d'un brevet. Parmi les formats audio
compressés, on trouve le MP3, le mp3PRO, le format Ogg Vorbis, le WMA qui
constituent les formats les plus connus mais il existe aussi les formats AAC,
VQF ... Lorsqu'on compresse un morceau dans un format donné, on dit que l'on
encode le fichier audio au format souhaité. Nous avons traité l'encodage en
MP3, mp3PRO, Ogg Vorbis, FLAC et WMA pour répondre aux cas les plus
couramment utilisés.
31
32

Cours Tech Multimédia

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Tech Multimédia

Transféré par

Droits d'auteur :

Formats disponibles

Faculté des sciences économiques Souhir Ben Souissi

2009-2010 Niveau : 1ère année IAG

Introduction de L’Information Multimédia

Aujourd’hui une quantité considérable d’informations, traitée de diverses

Le terme Multimédia désigne l’intégration

Un environnement multimédia est un ensemble de matériels et de logiciels

de consulter et modifier en temps réel

de transmettre des documents structurés de façon homogène comportant des

2009-2010 Niveau : 1ère année IAG

Cet environnement doit permettre de jouer “naturellement“ sur les relations

2. Structure de l’information multimédia

Un document multimédia est un document contenant des éléments de

Une structure multicouche

En général on distingue les deux types de structure :

Comprendre un document nécessite d'en reconnaître ses structures ( physique,

2009-2010 Niveau : 1ère année IAG

Étape1: la reconnaissance de la structure physique fait apparaître les blocs(

Étape2: de reconnaissance de la structure logique, les entités physiques sont

Désigne le positionnement de composants d’un document,

La structure physique désigne la segmentation d’un document en zones

La structure logique décrira le rôle et la nature de chaque élément d’un

La structure logique permet de regrouper les blocs physiques en entités

2009-2010 Niveau : 1ère année IAG

Concerne le contenu correspond à une segmentation en blocs sémantiquement

Les structures temporelles et spatiales :

Elles ne sont cependant pas indépendantes de la structuration logique qui pose

2009-2010 Niveau : 1ère année IAG

une image matricielle / numérique est constituée d’une succession d’éléments

La place et la durée de traitement est plus grande

Le pixel représente une valeur que peut prendre son intensité:

2009-2010 Niveau : 1ère année IAG

2.2. Les types de sources d’éclairage :

-Les lampes halogènes (Av : forte luminosité, accessible)

-Les diodes (vie infinie)

2009-2010 Niveau : 1ère année IAG

-Les lampes à quartz (très intenses)

La distance focale d'un système optique est la mesure de sa puissance de

2009-2010 Niveau : 1ère année IAG

Un système avec une longueur de focale plus courte a plus de puissance

Le diaphragme est le « régulateur de la netteté des prises de vues sur un

2009-2010 Niveau : 1ère année IAG

Remarquez le rapport entre l'ouverture du diaphragme et la quantité de

3.3. Formation de l’image sur le plan géométrique :

2009-2010 Niveau : 1ère année IAG

3.4. La caméra CCD (Charge-Coupled Device)

Les caméras CCD sont constituées par un assemblage de photodiodes. Chacune

Le capteur à CCD est donc un composant basé sur une technologie de

2009-2010 Niveau : 1ère année IAG

3.4.1. Caméra linéaire :

3.4.2. Caméra matricielle :

A un certain niveau de grossissement, l'image finit immanquablement par se

Tout format d'image matricielle, fonctionne selon ce principe. Si au départ le

2009-2010 Niveau : 1ère année IAG

-Besoin énorme de la mémoire.

4.2. Image vectorielle :

-Indépendance vis-à-vis des périphériques.

-bien adapté au schéma.

-La taille est en fonction de la complexité.

-peu adapté aux images complexes (photo).

-L’affichage implique des calculs.

4.3. Résolution d’image :

-Notion très importante.

2009-2010 Niveau : 1ère année IAG