multimédia Introduction Qui dit multimédia dit échange d’information, principalement de nature visuelle ou auditive, ainsi qu’une série d’actions. Autrement dit, l’interactivité multimédia se traduit par un échange de signaux entre les différentes composantes des équipements. Les signaux tels que nous les percevons sont analogiques, c’est-à-dire qu’il n’est pas possible de déceler une discontinuité. De la même manière que l’aiguille d’un compteur kilométrique évolue d’une position vers une autre, les sons arrivent à notre oreille en continu. Les applications multimédia mettent en jeu plusieurs types de signaux ainsi qu’une série de processus de mise en forme de ces signaux.
ST 33 : Technologie et protocoles pour le
multimédia Nous appellerons ces différents moyens de représenter de l’information multimédia, des « objets multimédias ». Les objets multimédias de base sont donc : du texte, du son, de l’image et de la vidéo. Au moins un type de dispositif d’acquisition permet de créer un objet multimédia (ex. un enregistrement sonore) puis au moins un type de dispositif de restitution permet de le rendre accessible à l’utilisateur (ex. par le biais de haut-parleurs).
ST 33 : Technologie et protocoles pour le
multimédia Objets multimédia composites L’intégration de plusieurs objets multimédias de base se fera dans un objet multimédia dit composite. Remarquons que la vidéo devrait être considérée comme un objet multimédia composite (images animées et son), même si elle est communément considérée comme un objet multimédia de base.
ST 33 : Technologie et protocoles pour le
multimédia Chaîne de traitements multimédia : les grands principes Une « chaîne de traitements multimédia » est l’ensemble des traitements et modifications possibles sur un objet multimédia entre le dispositif d’acquisition et le dispositif de restitution. Le schéma général d’une chaîne de traitements multimédia peut-être représenté ainsi :
ST 33 : Technologie et protocoles pour le
multimédia ST 33 : Technologie et protocoles pour le multimédia Elle est constituée de différents traitements modifiant l’objet multimédia. Ce dernier peut être sauvegardé dans des fichiers, sous différents formats (format des fichiers avec des extensions qui permet à l’utilisateur de les identifier facilement), à chaque étape. Voici les détails des différents éléments de la chaîne de traitement :
ST 33 : Technologie et protocoles pour le
multimédia • Les dispositifs d’acquisition ont été pour la plupart déjà énumérés dans le tableau précédent pour les différents types d’objets multimédias. • Données avec un codage de base sont celles qui contiennent l’information enregistrée depuis le dispositif d’acquisition sans traitement. • Les traitements de compression et/ou recodage peuvent avoir plusieurs objectifs. Le premier est de recoder l’information dans les multiples formats plus adaptés aux logiciels qui vont la lire. Le deuxième est de réduire la taille de l’information stockée dans un fichier .Une fois compresser et/ou recoder, l’information sera enregistrée dans des fichiers avec un encodage différent de celui de base.
ST 33 : Technologie et protocoles pour le
multimédia • Les fichiers avec un autre encodage sont ceux qui contiennent l’information enregistrée sous différents formats après traitements dans la chaîne. • Le logiciel d’édition permet alors de lire un fichier multimédia avec un encodage approprié et permet à l’utilisateur de le modifier et de l’enregistrer à nouveau sous forme de fichier. • Le logiciel de rendu est celui qui va permettre à d’autres utilisateurs de lire le fichier final une fois toutes les modifications de l’utilisateur effectuées sur le logiciel d’édition. Il peut ainsi rendre l’objet multimédia définitif accessible à tout utilisateur.
• Les dispositifs de restitution (pour la plupart déjà énumérés dans le
tableau précédent).
• Finalement, la majeure partie des logiciels que nous utilisons font
partie de ces chaînes de traitement multimédia.
ST 33 : Technologie et protocoles pour le
multimédia Les signaux de base
ST 33 : Technologie et protocoles pour le
multimédia Le texte
ST 33 : Technologie et protocoles pour le
multimédia Chaine de traitements pour le texte
ST 33 : Technologie et protocoles pour le
multimédia Codage de texte Comme vous pouvez vous en douter, les codages de texte sont plus ou moins riches, selon les informations qu’on ajoute au texte pour gérer la mise en forme et parfois même pour y insérer des images, des feuilles de calculs d’un tableur etc. (ex. dans les fichiers .doc et .docx de Word). Remarquons que dans ce dernier cas, nous manipulons alors un objet multimédia composite
ST 33 : Technologie et protocoles pour le
multimédia Codage de l’information Pour mieux comprendre, regardons comment l’information est stockée dans un ordinateur. Pour stocker et représenter une information plus complexe que cette information très simple, on va regrouper les bits par paquets de 8; on appellera un paquet de 8bits, 1 octet (octet vient du latin et du grec signifiant octo, signi-fiant 8). Avec un octet, on pourra représenter une information plus complexe, avec toutes les possibilités de combinaisons de 0 et de 1 pour chacun des 8 bits. On pourra alors coder par exemple des nombres entre 0 et 255 (soit 256 valeurs = 28). Et si on a besoin de stocker des valeurs encore plus grandes, on fera des paquets de 2 octets (16 bits), 4 octets (32 bits) ou 8 octets (64 bits). Le symbole utilisé pour l’unité de mesure de l’octet dans le système international d’unités est le « o » minuscule.
ST 33 : Technologie et protocoles pour le
multimédia Multiples normalisés de l’octet Traditionnellement, les préfixes « kilo », « méga », « giga », etc. dans le monde informatique, ne représentaient pas une puissance de 10 (10^3 = 1 000), mais une puissance de 2 (2^10 = 1 024). Cependant cette tradition contredit les normes en vigueur pour les autres unités, y compris le bit. Une nouvelle norme a donc été créée pour noter les multiples de 2^10 = 1024 : les « kibi » (kilo binaire), « mébi » (méga binaire), « gibi » (giga binaire), etc. On parlera alors, pour les grandes quantités d’octets, de kibioctet (1 Kio = 210 octets = 1024 octets), mébioctet (1 Mio = 220 octets = 1024 Kio = 1 048 576 octets), gibioctet (1 Gio = 230 octets = 1024 Mo = 1 073 741 824 octets), tebioctet (1 Tio = 240 octets), ... ST 33 : Technologie et protocoles pour le multimédia Cette distinction (entre préfixes binaires et décimaux) est nécessaire, car la confusion entre les deux séries de coefficients est utilisée depuis longtemps par les fabricants de matériels (de disques durs en particulier) pour afficher commercialement des valeurs supérieures à celles données par les puissances de 2 et ainsi introduire une erreur d’appréciation.
ST 33 : Technologie et protocoles pour le
multimédia Le codage du texte Parmi un grand nombre de codages, voici les plus répandus pour des raisons historiques : l’ASCII étendu intégré dans des codes plus récents et les codes actuellement utilisés dit « UNICODE » comme UTF-8, UTF-16, UTF-32
ST 33 : Technologie et protocoles pour le
multimédia Unicode Au lieu d'utiliser seulement les codes 0 à 127, il utilise des codes de valeur bien plus grandes. Le code UNICODE permet de représenter tous les caractères spécifiques aux différentes langues. De nouveaux codes sont régulièrement attribués pour de nouveaux caractères: caractères latins (accentués ou non), grecs, cyrillics, arméniens, hébreux, thaï, hiragana, katakana... L'alphabet Chinois Kanji comporte à lui seul 6879 caractères. L'Unicode définie donc un correspondance entre symboles et nombres. (Le symbole "Ő" sera représent par le nombre 213). Voici une toute petite partie des tables UNICODE (les nombres sont présentés en notation hexadécimal): ST 33 : Technologie et protocoles pour le multimédia ST 33 : Technologie et protocoles pour le multimédia UTF-8 ( Universal Character Set Transformation Format - 8 bits) Mais dans la pratique, c'est une autre paire de manches: Généralement en Unicode, un caractères prend 2 octets. Autrement dit, le moindre texte prend deux fois plus de place qu'en ASCII. C'est du gaspillage. De plus, si on prend un texte en français, la grande majorité des caractères utilisent seulement le code ASCII. Seuls quelques rares caractères nécessitent l'Unicode. On a donc trouvé une astuce: l'UTF-8. Un texte en UTF-8 est simple: il est partout en ASCII, et dès qu'on a besoin d'un caractère appartenant à l'Unicode, on utilise un caractère spécial signalant "attention, le caractère suivant est en Unicode".
ST 33 : Technologie et protocoles pour le
multimédia Par exemple, pour le texte "Bienvenue chez Sébastien !", seul le "é" ne fait pas partie du code ASCII. On écrit donc en UTF-8:
Pour être rigoureux, on indique quand même au début du fichier que
c'est un fichier en UTF-8 à l'aide de caractères spéciaux:
L'UTF-8 rassemble le meilleur de deux mondes: l'efficacité de
l'ASCII et l'étendue de l'Unicode. D'ailleurs l'UTF-8 a été adopté comme norme pour l'encodage des fichiers XML*. La plupart des navigateurs récents supportent également l'UTF-8 et le détectent automatiquement dans les pages HTML*.
*XML : Le XML, acronyme de eXtensible Markup Language (qui signifie: langage de
balisage* extensible), est un langage informatique qui sert à enregistrer des données textuelles. *Balise :Marque utilisée dans un texte pour signaler au programme qu'une commande spécifique doit être exécutée. *HTML : L'HyperText Markup Language, généralement abrégé HTML, est le langage de balisage conçu pour représenter les pages web. ST 33 : Technologie et protocoles pour le multimédia Le son
ST 33 : Technologie et protocoles pour le
multimédia Chaîne de traitements pour le son Une chaîne de traitement pour le son se décline de la même manière que la chaîne de traitement du texte vue précédemment
ST 33 : Technologie et protocoles pour le
multimédia Son?
Le son est une vibration de l'air, c'est-à-dire une
suite de surpressions et de dépressions de l'air par rapport à une moyenne, qui est la pression atmosphérique.
ST 33 : Technologie et protocoles pour le
multimédia Acquisition Il y a différentes façons de récupérer un objet multimédia audio. La première, la plus simple, est d’utiliser une source audio déjà sous forme numérique (un fichier audio comme celui stocké sur un CD audio en utilisant un logiciel approprié, un fichier que l’on récupère sur Internet, en ayant vérifié qu’ils sont libres de droits). Ceci est très pratique pour ajouter des bandes sonores à vos objets multimédia composites. Nombreux sont les sites qui vous le permettent. La deuxième façon consiste à capturer un son du monde réel, grâce à un microphone branché sur la carte audio de votre machine, et de la stocker dans l’ordinateur.
ST 33 : Technologie et protocoles pour le
multimédia Restitution La façon la plus simple de reproduire un son actuellement est de faire vibrer un objet. De cette façon un violon émet un son lorsque l'archet fait vibrer ses cordes, un piano émet une note lorsque l'on frappe une touche, car un marteau vient frapper une corde et la fait vibrer. Pour reproduire des sons, on utilise généralement des haut-parleurs. Il s'agit en fait d'une membrane reliée à un électroaimant, qui, suivant les sollicitations d'un courant électrique va aller en avant et en arrière très rapidement, ce qui provoque une vibration de l'air situé devant lui, c'est-à-dire du son !
ST 33 : Technologie et protocoles pour le
multimédia De cette façon on produit des ondes sonores qui peuvent être représentées sur un graphique comme les variations de la pression de l'air (ou bien de l'électricité dans l'électroaimant) en fonction du temps.
ST 33 : Technologie et protocoles pour le
multimédia Représentation du son sous forme numérique Le passage d’un son analogique (du monde physique) à un son numérisé se déroule suivant 3 étapes :
ST 33 : Technologie et protocoles pour le
multimédia Echantillonnage et Fréquence Pour pouvoir représenter un son sur un ordinateur, il faut arriver à le convertir en valeurs numériques . Il s'agit donc de relever des échantillons de son (ce qui revient à relever des différences de pression) à des intervalles de temps précis. On appelle cette action l'échantillonnage ou la numérisation du son. L'intervalle de temps entre deux échantillons est appelé taux d'échantillonnage ou la fréquence d’échantillonnage. Le système de conversion numérique du son a été mis au point en 1957 dans les laboratoires Bell par Max Mathews.
ST 33 : Technologie et protocoles pour le
multimédia Voici quelques exemples de fréquences d'échantillonnage et de qualités de son associées :
ST 33 : Technologie et protocoles pour le
multimédia La valeur du taux d'échantillonnage, pour un CD audio par exemple, n'est pas arbitraire, elle découle en réalité de la théorie de Shannon. La représentation numérique fidèle d'un son ne pouvait être obtenue qu'en échantillonnant celui-ci au moins au double de sa fréquence (2,2 fois pour être précis). Théoriquement, tout échantillonnage numérique devrait donc s'effectuer à 44.1 kHz (44 000 valeurs par seconde), puisque l'oreille humaine peut percevoir les fréquences acoustiques jusqu'à 20.05 kHz. A chaque échantillon est associée une valeur qui détermine la valeur de la pression de l'air à ce moment, le son n'est donc plus représenté comme une courbe continue présentant des variations mais comme une suite de valeurs pour chaque intervalle de temps.
ST 33 : Technologie et protocoles pour le
multimédia Prenons l’exemple du fichier “music1” Son original : Qualité radio : Qualité téléphone: Codé sur 8 bits :
ST 33 : Technologie et protocoles pour le
multimédia Quantificateur et codage de l’information (résolution) Il faut déterminer le nombre de valeurs que l'échantillon peut prendre. Cela revient à fixer le nombre de bits sur lequel on code les valeurs des échantillons (donc les surpressions et les dépressions d’air). − Avec un codage sur 8 bits, on a 28 possibilités de valeurs, c'est-à-dire 256 valeurs possibles. − Avec un codage sur 16 bits, on a 216 possibilités de valeurs, c'est-à-dire 65536 valeurs possibles. ST 33 : Technologie et protocoles pour le multimédia Avec la seconde représentation, on aura bien évidemment une qualité de son bien meilleure, mais aussi un besoin en mémoire beaucoup plus important. L’inconvénient de ce format (qui est celui utilisé en mémoire) est qu’il n’est pas compact et produit de très gros fichiers.
ST 33 : Technologie et protocoles pour le
multimédia Son multicanal Le terme « son multicanaux » (parfois « multi- voies ») désigne l'utilisation de plusieurs pistes audio en vue de la restitution sur un système comportant plusieurs enceintes. Il existe une terminologie associée, constituée de deux chiffres séparés par un point (2.1, 5.1, 6.1, 7.1, etc.), permettant de classifier le type de configuration spatiale des enceintes en fonction du nombre de pistes audio utilisées.
ST 33 : Technologie et protocoles pour le
multimédia Le premier chiffre indique le nombre de canaux principaux destinés chacun à être restitués sur une enceinte, tandis que le second désigne la présence d'effets basse fréquence (en anglais Low Frequency Effect, notés LFE) destinés à être restitué sur un caisson de basses*. Ainsi, 1.0 correspond à un son audio mono (sous-entendu monocanal) et 2.0 correspond à une source sonore stéréo. *Un caisson de basses, également appelé "subwoofer" ou "caisson de graves" est une enceinte utilisée exclusivement pour émettre les fréquences sonores graves. Le caisson de basses est généralement utilisé pour reproduire les fréquences sonores inférieures à 80Hz.
ST 33 : Technologie et protocoles pour le
multimédia Exemple : Dans le cas d’un son 5.1, nous aurons 5 pistes pour envoyer le son sur : le haut-parleur avant gauche, avant droit, arrière gauche, arrière droit, celui du centre (ou la voie), ce qui fait 5 canaux plus une dernière piste pour le caisson de basse, ce qui nous donne 5 + 1, noté 5.1.
ST 33 : Technologie et protocoles pour le
multimédia Un son est donc représenté (numériquement) par plusieurs paramètres : − la fréquence d'échantillonnage − le nombre de bits d'un échantillon − le nombre de voies (une seule correspond à du mono, deux à de la stéréo, etc.) Il est alors simple de calculer la taille d'une séquence sonore non compressée. En effet, en connaissant le nombre de bits sur lequel est codé un échantillon, on connaît la taille de celui-ci (la taille d'un échantillon est le nombre de bits...).
ST 33 : Technologie et protocoles pour le
multimédia Pour connaître la taille d'une voie, il suffit de connaître le taux d'échantillonnage, qui va nous permettre de savoir le nombre d'échantillons par seconde, donc la taille qu'occupe une seconde de musique. Celle-ci vaut : Taille Voie = Taux d'échantillonnage x Nombre de bits Ainsi, pour savoir l'espace mémoire que consomme un extrait sonore de plusieurs secondes, il suffit de multiplier la valeur précédente par le nombre de secondes : Taille Extrait sonore = Taux d'échantillonnage x Nombre de bits x Nombre de secondes
ST 33 : Technologie et protocoles pour le
multimédia La taille finale de l'extrait est à multiplier par le nombre de voies (elle sera alors deux fois plus importante en stéréo qu'en mono...). La taille en bits d'un extrait sonore est ainsi égale à: Taille fichier = Taux d'échantillonnage x Nombre de bits x Nombre de secondes x Nombre de voies
ST 33 : Technologie et protocoles pour le
multimédia Codage, Décodage, Recodage des données représentant un son Le codage de chaque échantillon de son par « modulation par impulsion et codage » (ou en anglais Pulse Code Modulation) est le format dit PCM ; c’est le format brut des données pour encoder un son. Ce format est utilisé dans la phase de numérisation et est aussi utilisé en mémoire pour la manipulation des données par les logiciels. Le traitement indépendant de chaque échantillon implique qu'il n'y a ni chiffrement, ni compression des données.
ST 33 : Technologie et protocoles pour le
multimédia PCM?
ST 33 : Technologie et protocoles pour le
multimédia Mais enregistrer directement ces données sur un support de sauvegarde (disque dur ou clé USB), nécessite de grandes capacités de stockage. Pour éviter une perte trop importante de place pour le stockage de ces informations au format brut PCM, plusieurs algorithmes ont été créés. Ces algorithmes sont appelés des « codecs » (compression des mots coder et décoder).
ST 33 : Technologie et protocoles pour le
multimédia Les plus connus ont donné lieu à des noms qui sont utilisés pour l’extension du fichier qui contient des données compressées avec ces codecs. Il faut alors distinguer deux types d’algorithmes de traitement de ces données brutes : les algorithmes sans perte et avec perte de données.
ST 33 : Technologie et protocoles pour le
multimédia Codec de compression audio sans perte d’information Il est donc possible de modifier la manière de représenter l’information à l’aide d’un algorithme qui va encoder et décoder l’information à chaque enregistrement ou relecture des données. Ainsi les données écrites sur le support de stockage seront plus compactes et nécessiteront moins de place sur le support de stockage.
ST 33 : Technologie et protocoles pour le
multimédia Les algorithmes dits sans perte d’information, sont des algorithmes qui n’altèrent pas l’information de base. L’algorithme se contente de représenter la même information sous une autre forme (avec un autre encodage), cette nouvelle forme occupant moins de place (utilisant moins d’octets) que la forme initiale. Les codecs répondant à cette définition sont peu nombreux : − FLAC : Free Lossless Audio Codec (réduction de 30 à 70% par rapport à PCM) − ALAC : Apple Lossless Audio Codec (réduction de 40 à 50% par rapport à PCM) − Shorten qui signifie raccourcir en anglais.
ST 33 : Technologie et protocoles pour le
multimédia Codec de compression audio avec perte d’information D’autres algorithmes pour la compression et la décompression (codecs) ont été développés. Pour pouvoir compresser encore plus l’information, ces formats sont basés sur le fait de perdre des données qui sont jugées comme non essentielles et permettent ainsi un gain de place important. Cette perte d’information impact peu la qualité sonore ; on n’entend peu voir pas de différence. Il faut des appareils très performants et une très bonne ouïe pour faire la différence.
ST 33 : Technologie et protocoles pour le
multimédia Ces codecs avec perte de de données sont beaucoup plus nombreux et vous les avez surement déjà utilisés : − MP3 : MPEG-1/2 Audio Layer III (reduction de 80 à 90M pa rapport à PCM) − AC-3: (ou Dolby Digital) : utilisé pour la diffusion TV HD, les supports DVD et Blu-ray − Vorbis : plus performant que mp3, mais moins populaire. Souvent utilisé dans les fichiers .ogg. − WMA : Windows Media Audio (format propriétaire de Microsoft) ST 33 : Technologie et protocoles pour le multimédia Les différents formats de fichier audio Certains formats de fichiers audio, identifiables à leur extension, ne correspondent pas forcément au codec qui est utilisé pour le codage de l’information audio. Si un fichier .mp3 va bien contenir des données correspondant à l’encodage de son avec le codec mp3, ce n’est pas toujours le cas. Certains formats de fichiers peuvent contenir des données encodées avec différents codecs. On appelle ces types de fichiers des conteneurs (des fichiers qui peuvent contenir des informations de plusieurs types). Le début du fichier (l’entête) correspond alors à la description de la manière dont les informations suivantes ont été encodées (avec quel codec lire la suite des données). C’est le cas par exemple des fichiers .wav ou .ogg qui peuvent contenir des informations dans différents formats. ST 33 : Technologie et protocoles pour le multimédia - Wav : Le format wav (waveform audio file format) est un conteneur basé sur le format de fichier RIFF* (ressource interchange file format), il peut contenir des codages audio avec réduction du débit, mono, stéréo ou multi canal, il a été mis au point par Microsoft. *Le Resource Interchange File Format (RIFF) définit un modèle générique de format de fichier à destination des contenus multimédia. Ainsi, il ne s'agit pas d'un format de fichier en soi mais plutôt d'une méthode d'organisation des données sur laquelle reposent plusieurs formats.
ST 33 : Technologie et protocoles pour le
multimédia - MP3 : MP3 est l’abréviation MPEG – AUDIO LAYER 3. Spécifie uniquement les opérations de décodage, afin de permettre la lecture des fichiers sur tous les appareilles .et un format de compression qui permet de réduire la taille des fichiers audionumériques. - FLAC : Le format FLAC (free lossless audio codec) est un format libre de compression audio sans perte .il n’enlève aucune information du flux audio. ST 33 : Technologie et protocoles pour le multimédia - WMA : Le format WMA (Windows media audio), il utilisé par le logiciel Windows media Player, qui permet définit une durée de vie limité pour les fichiers ou l’interdire les possibilités gravure. - VORBIS : Il segmente les sources audio en paquets successives l’algorithme de compression agissant dans un premier temps sur chaque paquet indépendamment des autres. Celui lui permet de conserver la même qualité quel que soit le type de fichier. ST 33 : Technologie et protocoles pour le multimédia Comparaison entre les différents formats
Prenons l’exemple du fichier music 2.wav sous
les différents formats présentés précédemment (On note que la taille du fichier d’origine est de 1.6 Mo que la vitesse est de 1411kbits/s).
multimédia Les formats de fichier Remarques La taille de fichier La vitesse
Mp3 Qualité plus haute, 223ko 189kbits/s
son plus fort Flac Aucune perte de 1.09Mo 956kbits/s qualité sonore Ogg Vorbis Très bonne qualité 201ko 165kbits/s
Wma Meilleur qualité et 163ko 128kbits/s
bonne puissance et ajout d’une seconde Ac3 Son démuni, moins 187ko 107kbits/s bonne qualité
ST 33 : Technologie et protocoles pour le
multimédia Le constat le plus important s’est fait au niveau des codes, en les comparant on observe les avantages des formats ogg vorbis par rapport à mp3 en terme d’économie de taille du fichier et de qualité de son (en plus d’être gratuit et libres) cependant il est nécessaire d’utiliser un lecteur comme VLC pour pouvoir lire ce format sous Windows . Le format le plus commercialisé et le plus répandu actuellement reste néanmoins le format MP3.
ST 33 : Technologie et protocoles pour le
multimédia Lecteurs Audio La plupart des lecteurs logiciels audio (players) lisent la quasi-totalité des formats. Certains, comme Windows Media Player, chargent les codecs2 dynamiquement pour de nouveaux formats. Il n’en va pas de même des lecteurs intégrés à du matériel dit de salon ou vos téléphones mobiles. Les lecteurs typiques et les extensions des fichiers de base associés sont : − RealOne Player: .ra − Windows Media Player: .wma − Winamp : .mp3, .ogg − ou un lecteur générique comme VLC qui permet de lire à la fois l’audio et la vidéo pour de nombreux codecs. ST 33 : Technologie et protocoles pour le multimédia L’image
ST 33 : Technologie et protocoles pour le
multimédia Chaîne de traitements pour image
ST 33 : Technologie et protocoles pour le
multimédia Acquisition Il y a différentes façons de récupérer un objet multimédia image. La première, la plus classique, est d’utiliser une webcam ou un scanner sur votre PC. La seconde est d’utiliser un appareil photo numérique puis de transférer vos images grâce à une liaison USB ou la lecture de la carte mémoire de votre appareil sur votre ordinateur. Enfin, vous pouvez récupérer des fichiers sur le Web, en ayant vérifié qu’ils sont bien libres de droits. Nombreux sont les sites qui vous le permettent. Ceci est très pratique pour ajouter des images à vos objets multimédia composites. ST 33 : Technologie et protocoles pour le multimédia Quand on passe d’une information physique à une information numérique pour les images, on doit spécifier une donnée importante. En effet, quand on utilise un scanner par exemple, il faut spécifier nombre de points que l’on va créer pour une analyse de x centimètres sur le document physique. C’est la résolution qui est exprimée en points par pouces (ppp ou dpi en anglais) et qui représente le nombre de points créés pour une distance de 2,54cm. Attention, cette mesure ce fait à l’aide d’une unité en 1D et non surfacique (2D). Ce même procédé est utilisé quand on passe d’une image numérique à une image physique à l’aide de l’imprimante (résolution courante de 300dpi ou 600dpi) ou même de l’écran (couramment 96dpi) . Attention à ne pas confondre les points qui constituent l’image avec les pixels de l’écran. Il est possible que 1 point = 1 pixel à l’écran, mais c’est un cas particulier.
ST 33 : Technologie et protocoles pour le
multimédia Qu’est-ce qu’une image numérique ? Une image numérique est composée d’unités élémentaires (appelées pixels) qui représentent chacun une portion de l’image. Une image est définie par : • Le nombre de pixels qui la compose en largeur et en hauteur • L’étendue des teintes de gris ou des couleurs que peut prendre chaque pixel (on parle de dynamique de l’image ). ST 33 : Technologie et protocoles pour le multimédia Les images binaires (noir ou blanc) • Images les plus simples • Un pixel peut prendre uniquement les valeurs noir ou blanc. C’est typiquement le type d’image que l’on utilise pour scanner du texte quand celui ci est composé d’une seule couleur.
ST 33 : Technologie et protocoles pour le
multimédia Les images en teintes de gris En général, les images en niveaux de gris renferment 256 teintes de gris. Image à 256 couleurs, simplement chacune de ces 256 couleurs est définie dans la gamme des gris. Par convention la valeur zéro représente le noir (intensité lumineuse nulle) et la valeur 255 le blanc (intensité lumineuse maximale).
ST 33 : Technologie et protocoles pour le
multimédia Les images couleurs S’il existe plusieurs modes de représentation de la couleur, le plus utilisé pour le maniement des images numériques est l’espace couleur Rouge, Vert, Bleu (R,V,B). Cet espace couleur est basé sur la synthèse additive des couleurs, c’est `a dire que le mélange des trois composantes (R, V, B) donne une couleur.
ST 33 : Technologie et protocoles pour le
multimédia Vocabulaire utilisé en traitement d’images
ST 33 : Technologie et protocoles pour le
multimédia Résolution spatiale → Echantillonnage
Résolution tonale → Quantification
ST 33 : Technologie et protocoles pour le
multimédia Echantillonnage et information L'échantillonnage est une étape fondamentale qui doit tenir compte du contenu informationnel pertinent de l'image à analyser. Sur l'exemple ci- contre, en 1d, le signal échantillonné « ressemble » à une sinusoïde de fréquence 8 fois plus faible :
ST 33 : Technologie et protocoles pour le
multimédia Ce phénomène appelé aliasing est encore pire en 2d, car il affecte la fréquence et la direction des structures périodiques. Imaginons par exemple qu'on souhaite échantillonner l'image correspondant aux bandes noires ci-contre :
Avec un échantillonnage adapté, l'image
numérique fait apparaître des structures conformes à l'information présente dans l'image :
Mais en considérant seulement 1
échantillon sur 2, une structure différente apparaît, dont l'analyse (ici des bandes verticales, plus épaisses) ne sera pas conforme à la réalité de l'objet : ST 33 : Technologie et protocoles pour le multimédia Quantification et information La quantification peut également faire apparaitre des distorsions dans les images. Comme pour l’échantillonnage, il existe des règles pour déterminer la bonne quantification (le bon nombre de bits) pour coder les images numériques. L'une dépend du capteur*, et de sa capacité effective à observer des signaux de valeurs différentes : le rapport signal sur bruit. Un capteur photographique est un composant électronique photosensible servant à convertir un rayonnement électromagnétique (UV, visible ou IR) en un signal électrique analogique. Ce signal est ensuite amplifié, puis numérisé par un convertisseur analogique-numérique et enfin traité pour obtenir une image numérique. Le capteur est donc le composant de base des appareils photo et des caméras numériques. ST 33 : Technologie et protocoles pour le multimédia Le rapport signal sur bruit est défini à partir du rapport entre l’amplitude des niveaux de gris mesurables par le capteur Nmax − Nmin et le niveau du bruit, en gros l’écart-type 𝜎 n de la perturbation aléatoire qui affecte les niveaux de gris. En prenant le logarithme, on a le nombre de bits utile au capteur pour coder les images.
ST 33 : Technologie et protocoles pour le
multimédia Codage, Recodage et Compression Le codage de l’information pour les images utilise aussi des valeurs stockées dans des bits regroupées en octets. Ainsi, il faut coder la couleur de l’information pour chaque point de l’image.
ST 33 : Technologie et protocoles pour le
multimédia Plusieurs représentations de l’information sont possibles, suivant le nombre de couleurs que l’on souhaite exprimer. Si on stocke la valeur de chaque point sur 1 bit, on pourra avoir des images avec deux couleurs : noir ou blanc. Attention, ce n’est pas la photo en noir et blanc tel qu’on la connaît. Pour coder numériquement de telles photos, il faut passer à une représentation des données en 8 bits ou 1 octet pour exprimer la couleur d’un point. On peut ainsi spécifier 256 niveaux de gris différents allant du gris très foncé (noir = 00000000) à du gris très clair (blanc = 11111111). ST 33 : Technologie et protocoles pour le multimédia Si l’on souhaite passer au stockage des informations pour une image en couleur et n’utiliser qu’un octet pour chaque point, on utilise une palette de couleurs de 256 couleurs et on stocke pour chaque pixel la valeur correspondant à la nième entrée dans la palette (collection de couleurs différents qui seront les seules utilisables dans l’image). Enfin, si l’on souhaite coder une image en « vraie » couleur, il faudra stocker l’information correspondant à la composante de rouge de vert et de bleu de la couleur pour chacun des points de l’image. On pourra dans certains cas ajouter une quatrième composante permettant d’exprimer la transparence du point. On arrive alors à une représentation nécessitant 4 octets pour chaque point de l’image. ST 33 : Technologie et protocoles pour le multimédia Formats d’images non compressées Nombreux sont les formats d’image non compressés. Ils sont historiquement associés à des constructeurs de matériel et de logiciel. Par exemple le format GIF (Graphics Interchange Format) dont l'extension est .gif est le format que la firme américaine Compuserve, créé pour Apple, il y a une trentaine d’années. La couleur de chaque point est codée sur 8 bits (256 couleurs au maximum dans la palette). Ensuite se sont entre autre enchaînés les formats MacPaint, Pict (fichiers avec l’extension .pct), Bitmap (fichiers avec l’extension .bmp).
ST 33 : Technologie et protocoles pour le
multimédia Formats d’images compressées Les formats compressés ont pour objectif de réduire la taille de l’espace de stockage des images sans trop altérer leur qualité. Par exemple, lorsque la photographie numérique s'est organisée, le format JPEG (Joint Photographic Experts Group) (fichiers .jpg) est apparu. Il s’agit d’une norme de compression d'images numériques qui respecte la qualité de l'image si on ne la compresse pas trop (qualité moyenne ou supérieure) ou la comprime très fortement mais en détruisant une partie des informations contenues sur la photo. Il est codé en 32 bits et permet donc l’affiche de 16 millions de couleurs. L’autre exemple est celui du format TIFF (Tagged Image File Format) dont l'extension est .tif, utilisé par les imprimeurs. Il est utilisé parce qu'il restitue parfaitement les images et les photographies et bien qu'il puisse être compressé (compression LZW), il prend de la place sur le disque dur (on dit qu'il est lourd !). Il est aussi codé en 32 bits et permet l’affichage de 16 millions de couleurs.
ST 33 : Technologie et protocoles pour le
multimédia Plusieurs formats d’images sont disponibles, chacun ayant ses possibilités, ses avantages et ses inconvénients. Vous trouverez dans le tableau ci-dessous un résumé des principales caractéristiques pour les 5 formats les plus utilisés : BMP, JPEG, GIF, TIFF et PNG (Portable Network Graphic).
ST 33 : Technologie et protocoles pour le
multimédia *Lorsqu’un format est dit progressif cela signifie que ce dernier permet d'afficher l'image progressivement au cours du chargement, ce qui donne l'impression d'une navigation plus rapide.
ST 33 : Technologie et protocoles pour le
multimédia Visionneuses d'images et publication sur le Web Logiciels Logiciels propriétaires propriétaires payants gratuits ou gratuiciels • ACDSee • academium • Adobe Bridge • cam2pc Freeware • l'application Aperçu incluse Edition dans système d'exploitation Apple Mac OSX • CocoViewX • « Aperçu des images et des • MobaPhoto télécopies Windows » • Futuris Imager (shimgvw.dll, inclus • Image Browser Arctic dans Windows XP) • IrfanView • cam2pc • KoffeePhoto • celum IMAGINE • Konvertor • ePhoto • Picasa • ExifPro Image Viewer • Firehand Ember • Vallen JPegger • IMatch • XnView • iPhoto • FastStone Image Viewer • KITVIEW • PlainViewer • Orange Logic: Cortex3 • Regards • P3dO Explorer Image Viewer • STDU Viewer • Pixephore • Shell Picture ST 33 : Technologie et protocoles pour le multimédia La vidéo
ST 33 : Technologie et protocoles pour le
multimédia Le signal vidéo Jusqu’à présent, nous avons supposé que l’image ne changeait pas dans le temps. Or les signaux de télévision ( par exemple) changent en fonction du temps, d’où le besoin d’une composante temporelle dans la description d’une image. Il convient donc d’ajouter une autre définition : le temps. On parle alors de signal vidéo plutôt que de signal image.
ST 33 : Technologie et protocoles pour le
multimédia Le procédé mis en œuvre pour reproduire un signal vidéo sur un écran consiste à afficher une nouvelle image à une fréquence élevée, à la manière d’un film. Cette fréquence est supérieure à 25 [Hz] (25 images par secondes) , fréquence en dessous de laquelle on percevrait une discontinuité.
ST 33 : Technologie et protocoles pour le
multimédia Nombre d’images par seconde et résolution Lorsque l’oeil humain perçoit une suite d’images séquentielles, il se produit un phénomène étonnant. Si les images sont affichées suffisamment rapidement, l’oeil ne distingue pas chacune d’entre elles séparément, mais perçoit une légère animation. C’est sur cette base que sont élaborés les films et les vidéos.
ST 33 : Technologie et protocoles pour le
multimédia La cadence de l’animation est désignée sous le terme de nombre d’images par seconde. Pour qu’une légère animation, soit perceptible à l’oeil, une cadence d’environ 10 images par seconde est nécessaire. Les films que vous voyez au cinéma sont tournés et projetés sur une base de 24 images par seconde. A la télévision, les films sont projetés sur une base de 30 images par seconde environ, variable selon les standards vidéos utilisés dans les pays de diffusion.
ST 33 : Technologie et protocoles pour le
multimédia Résolution? la qualité des films ne dépend pas seulement du nombre d’images par seconde. La quantité d’informations contenues dans chaque image est également déterminante. Elle est désignée sous le terme de résolution d’image. La résolution correspond en règle générale au nombre d’éléments individuels constituant l’image (pixels) affichés à l’écran. Elle est exprimée sous la forme du nombre de pixels utilisés sur l’axe horizontal de l’image multiplié par le nombre de pixels utilisés sur l’axe vertical (par exemple, 640 x 480 ou 720 x 480). Toutes choses étant égales par ailleurs, une résolution plus élevée permet d’obtenir une image de meilleure qualité.
ST 33 : Technologie et protocoles pour le
multimédia La résolution horizontale de l’image est directement liée à la largeur de la bande passante utilisée pour transporter ou enregistrer le signal vidéo. Elle est traditionnellement exprimée en « lignes TV » (ou plus simplement en lignes), et fait référence au nombre maximal de lignes verticales blanches et noires pouvant être distinctement perceptibles sur l’écran. Elle se calcule au moyen de l’équation suivante, prenant en compte le ratio 4/3 de l’image :
ST 33 : Technologie et protocoles pour le
multimédia Standards de vidéo pour télévision analogique
ST 33 : Technologie et protocoles pour le
multimédia Signal vidéo Le signal vidéo est nettement plus complexe qu’un son. Il comporte des informations visuelles, exprimées pour une image généralement sous la forme de trois couleurs fondamentales pour tout point de l’espace, et une information temporelle née du mouvement des objets. De plus, le signal de télévision est un mélange du signal vidéo et de la partie audio ; il s’agit d’un signal composite. ST 33 : Technologie et protocoles pour le multimédia Le signal composite occupe une bande de fréquences d’approximativement 5 MHz. En pratique, on considère une bande de 8 MHz par signal vidéo en Europe. Occupation fréquentielle d’une vidéo PAL:
*Luminance : Quotient de l'intensité lumineuse d'une surface par l'aire apparente de
cette surface pour un observateur lointain. * U pour ultraviolet (ultraviolet) et V pour visible, visuel en français (visual)
ST 33 : Technologie et protocoles pour le
multimédia Les fréquences d’échantillonnage du signal vidéo : La luminance Les fréquences d’échantillonnage des composantes du signal vidéo ont été choisies communes aux systèmes à 625 et 525 lignes, de manière à s’affranchir définitivement des problèmes d’incompatibilité entre les différentes zones géographiques du globe. L’information de luminance dispose d’une bande passante de 6 MHz.
ST 33 : Technologie et protocoles pour le
multimédia Celle-ci est nominalement plate jusqu’à 5,5 MHz, avec un affaiblissement d’au moins 12 dB à 6,75 MHz. La fréquence d’échantillonnage du signal vidéo doit donc, pour respecter le critère de Shannon-Nyquist, être au moins égale à 12 MHz. La compatibilité à l’échelle mondiale impose par ailleurs de choisir une valeur qui soit un multiple commun des fréquences lignes des systèmes à 625 et 525 lignes, soit respectivement 15 625 Hz et 15 734,25 Hz. Plusieurs essais ont été effectués avec des fréquences allant de 12 MHz à 14,3 MHz.
ST 33 : Technologie et protocoles pour le
multimédia Les paramètres étudiés ont principalement été la qualité de l’image avant et après traitement, le rapport qualité/coût, la capacité potentielle des magnétoscopes numériques, ainsi que la réduction du débit binaire. C’est ainsi qu’a été adoptée, comme norme mondiale, une fréquence d’échantillonnage du signal de luminance égale à : Fe(Y) = 13,5 MHz
ST 33 : Technologie et protocoles pour le
multimédia Les fréquences d’échantillonnage du signal vidéo : La chrominance Les signaux de différence de couleurs ont une bande passante nominalement plate jusqu’à 2,75 MHz, avec un affaiblissement d’au moins 12 dB à 3,375 MHz. Ils sont échantillonnés à une fréquence deux fois plus faible que le signal de luminance : Fe (Cr) = Fe (Cb) = 6,75 MHz
ST 33 : Technologie et protocoles pour le
multimédia La norme de codage 4:2:2 La norme de codage numérique destinée aux applications de studio a été baptisée « 4:2:2 ». Ces nombres représentent le rapport entre les fréquences d’échantillonnage du signal de luminance (le « 4 ») et des deux signaux de différence de couleur (les « 2 »). Le choix du « 4 » remonte à l’origine des travaux sur la numérisation du signal vidéo, quand la première solution envisagée reposait sur la numérisation du signal composite. La fréquence d’échantillonnage de la luminance avait été choisie égale à 4 fois la fréquence de la sous-porteuse du signal PAL ou NTSC, soit respectivement17,7 MHz ou 14,3 MHz.
ST 33 : Technologie et protocoles pour le
multimédia Lorsque cette solution a été abandonnée en faveur d’un standard en composantes unique à l’échelle mondiale, le chiffre « 4 » a été conservé, bien que n’ayant plus de véritable signification. Selon la convention adoptée, ce chiffre représente la fréquence d’échantillonnage de la luminance, soit 13,5 MHz. Les chiffres suivants indiquent, quant à eux, la fraction de cette fréquence qui est attribuée aux signaux de différence de couleur, soit ici la moitié : 6,75 MHz (on peut dire que le « 1 » présente la fréquence unitaire de 3,75 MHz).
ST 33 : Technologie et protocoles pour le
multimédia Cependant, on s’est assez rapidement rendu compte qu’il était peu probable que l’ensemble des applications actuelles et futures de la télévision s’accomodent d’un seul niveau de codage numérique, à savoir le 4:2:2. C’est pourquoi d’autres paramètres de codage ont été également définis, formant des normes « légères » d’une part, et des normes « haute qualité » d’autre part. Notons que les modifications apportées ne concernent que le traitement de la chrominance, la luminance restant intacte. Les normes légères sont caractérisées par un sous-échantillonnage des composantes de couleurs en horizontal (4:1:1) ou en vertical (4:2:0).
ST 33 : Technologie et protocoles pour le
multimédia ST 33 : Technologie et protocoles pour le multimédia La quantification du signal vidéo À l’origine, la norme 4:2:2 spécifiait une quantification sur 8 bits des composantes du signal vidéo. Une quantification sur 8 bits permet de disposer de 256 niveaux numériques, dont 220 utiles pour représenter les niveaux sur une échelle de gris avec une marge de réserve en dessous du noir et au- dessus du blanc. Or, si ce nombre de niveaux convenait pour la diffusion et le reportage, il s’est vite avéré insuffisant pour les applications de production et de postproduction haut de gamme.
ST 33 : Technologie et protocoles pour le
multimédia En outre, un codage sur 8 bits donne un rapport S/B de 58 dB, alors que les performances des caméras ont été améliorées pour atteindre un rapport S/B supérieur à 60 dB. La norme 4:2:2 a donc logiquement évolué en étendant de 8 à 10 le nombre de bits par échantillon. Une quantification sur 10 bits permet d’accroître dans un facteur 4 la précision de la numérisation, pour une augmentation du volume d’information de seulement 25 %.
ST 33 : Technologie et protocoles pour le
multimédia On dispose alors de 1 024 niveaux, dont 880 utiles pour traduire toutes les valeurs que peut prendre le signal vidéo analogique entre 0 et 0,7 V. La plupart des convertisseurs analogique/ numérique, ainsi que les sources d’images numériques travaillent aujourd’hui sur 10 bits. Le signal de luminance est toujours positif, alors que les signaux de différence de couleurs sont bipolaires. Avec 10 bits, le rapport signal sur bruit passe à 70 dB. ST 33 : Technologie et protocoles pour le multimédia Quantification sur le signal de luminance et sur les signaux de différence de couleurs
ST 33 : Technologie et protocoles pour le
multimédia Formats vidéos Remarque : Certains formats sont des "containers" , c'est à dire qu'ils peuvent contenir un peu n'importe quoi (par ex: divers types de compression, de résolution, etc.)
ST 33 : Technologie et protocoles pour le
multimédia 1. .mov (Apple) container -> tous formats/résolutions et mélanges de ceux-ci 2. .avi (MS) container -> divers formats y compris DivX Voir la note 1 en fin de document. . 3. swf (Adobe Flash) container --> wmv, RealVideo ou h.264 4. .dv idéal pour le montage vidéo avec iMovie ou autre faible compression => fichiers très gros mais sans perte de qualité 5. .mpg .mpeg obsolète, faible compression, mauvaise qualité d'image et de son 6. .wmv (Windows Media Player) divers codecs propriétaires non compatible QuickTime sauf via pluginsFlip4Mac ou Perian 7. .rv .rm .rvbm (RealNetwork) format propriétaire basé sur h.263 (MPEG-2) 8. .flv (Adobe Flash) format propriétaire 9. .mp4 MPEG-4 = forte compression, standardisé, accepté partout 10. .divx .Xdiv diverses déclinaisons pirates dérivées de h.264 (MPEG-4) trop de versions => on n'est jamais sur de pouvoir lire le fichier .vob DVDs commerciaux 11. .m2t, .m2ts, .mts, .mod, .tod Digital Video Camera formats ST 33 : Technologie et protocoles pour le multimédia Le meilleur format? Cela dépend beaucoup du type du document vidéo concerné et de son utilisation future: .dv (ou .mov avec compression DV) idéal pour le montage vidéo mais surtout pas pour la diffusion .mp4 idéal pour le web car format normalisé, fichiers petits et acceptés par tous les browsers, mais refusé par la version Windows de PowerPoint .flv pas mal utilisé sur le web car les vidéos en ligne ne sont pas/pas facilement copiables. A proscrire donc si on veut que le lecteur puisse aisément récupérer la vidéo. Ne pas oublier que c'est un format propriétaire, donc peu d'outils simples et/ou gratuits pour le manipuler. .vob si on veut faire de jolis DVDs lisibles sur n'importe quel lecteur de salon. Dans ce cas il faut passer par un outil de création de DVDs comme iDVD d'Apple.