Vous êtes sur la page 1sur 56

Chapitre I : Analyse multimédia : Normes et Protocoles

Multimédia et hypertexte
1.1.1 Structure du document
Pour bien comprendre les enjeux du monde multimédia, nous représentons ses principaux
acteurs technologiques (ils sont repris à la figure I.1).

FIG. I.1 – Les acteurs technologiques du monde multimédia


Par ailleurs, ce document est articulé autour des acteurs technologiques du multimédia que
voici :
 Signaux multimédia. La technologie s’est développée principalement dans le but de
diversifier la forme de présentation de l’information, d’aller bien au-delà de ce que
pouvait offrir un livre. Ce faisant, elle comprend à la fois de l’information textuelle,
des images, jusqu’à inclure des animations. L’étude des types d’information fait
l’objet du chapitre 2.
 Réseaux de télécommunications. Le réseau téléphonique fut le premier réseau grand
public de communication. Ayant ses propres contraintes, le multimédia s’accommode
plus difficilement de ce réseau ; il lui préfère le réseau de transmission de données
qu’est le réseau Internet. On n’imagine plus aujourd’hui de parler multimédia sans
aborder l’aspect réseau.
 Normalisation. Enfin, un échange d’information n’est possible que s’il existe un
“langage” commun, ce qui dans le monde technique s’appelle des normes ou
standards1. Par ailleurs, la figure I.1 en reprend quelques-unes (SGML, MPEG, …). Le
sujet de la normalisation est traité plus loin.
Définitions
Le terme Multimédia est défini de diverses façons. Pour certains, il est synonyme de jeu
sur ordinateur ; pour d’autres, il s’agit de la réunion de médias tels que le son et l’image, tous
contrôlés par un ordinateur personnel.
Note : Les textes officiels privilégient le mot norme au mot standard. Certains auteurs font la distinction entre
un standard, considéré comme un ensemble de règles imposé par un constructeur, et une norme résultant d’un
accord entre constructeurs. Dans ce document, nous considérons que ces deux mots sont synonymes.

Suivant le sens le plus utilisé, un signal multimédia se caractérise par l’intégration d’au
moins deux signaux parmi le texte, les graphiques, les images, le son et les séquences vidéo.
Ce sens s’étend lentement pour inclure la notion d’interactivité. Ainsi, un signal de télévision
n’est plus considéré comme un signal multimédia pour la simple raison que l’interactivité
offerte est inexistante.
On pourrait donc définir un document multimédia comme suit :
Définition 1 Un document multimédia est un document interactif qui comprend au moins
deux signaux de type différent.
Interactivité
Revenons un instant à la notion d’interactivité car c’est elle qui est véritablement à l’origine
de l’explosion du multimédia. Qu’elle soit locale –c’-à-d. Qu’aucun signal n’est envoyé en
retour sur un réseau– ou de réseau, l’interactivité modifie considérablement l’attitude du
lecteur.
Les documents écrits tels que nous les connaissons se présentent sous une forme linéaire ; le
lecteur les parcourt dans un ordre unique et préétabli. L’hypertexte est par essence non
séquentiel car il offre plusieurs moyens de parcourir l’information. Voici une définition
possible.
Définition 2 Un document hypertexte est un document multimédia structuré de manière non
séquentielle. On parle aussi d’hypermédia.

2
La figure I.2 illustre le principe de l’hypertexte. Supposons que la page A soit la première
page du document. À partir de là, la structure hypertexte est telle que le lecteur peut choisir
entre les pages B ou F. La page B conduit alors à F ou C. Par contre, il n’est plus possible de
consulter B sitôt que F a été lue ; le seul point d’accès à B est la page de départ A.

FIG. I.2 – Exemple de structure hypertexte comprenant 6 noeuds et 10 liens.

L’hypertexte présente donc plusieurs choix au lecteur ; c’est lui qui choisit l’ordre entre
les pages, appelées noeuds, en activant des liens.
On imagine sans peine la complexification subséquente à la création d’un document
hypertexte par rapport à un simple texte. Il faut veiller à assurer une cohérence entre les pages
parcourues sachant qu’il y a plusieurs possibilités de lecture, à permettre un retour en arrière,
à définir des moteurs de recherche, etc.
De nos jours, les pages sont plus qu’un simple flot de texte. Elles comprennent des
graphiques, des images, des animations audiovisuelles voire des questionnaires ; leur structure
et leur contenu sont établis sur base d’un scénario de navigation. Avec le réseau Internet, ces
pages sont même dispersées à travers le monde entier. Il faut donc recourir à des outils
d’indexation et des moteurs de recherche pour retrouver certaines informations précises.
Il va de soi que pour en arriver là il a fallu fixer des formats, établir des règles de
dialogue entre machines et résoudre les questions de communication à travers les réseaux de
télécommunications.
L’établissement de ces règles est le but de la normalisation qui fait l’objet de la
prochaine section.

3
1.2 Normalisation
1.2.1 Définition
La normalisation, ou standardisation, joue un rôle essentiel dans le développement de
produits, car elle s’applique aussi bien au format du papier, qu’au matériel, logiciel, couleur,
interface et même à la qualité de la production. Voici sa définition.
Définition 3 La normalisation est un processus politique, économique et technologique qui
consiste à établir un ensemble de règles.
En pratique, il faut bien constater que le politique se désintéresse progressivement de la
question, laissant le champ libre aux industriels.
Définition 4 Les normes sont des accords documentés contenant des spécifications
techniques ou autres critères précis destinés à être utilisés systématiquement en tant que
règles, lignes directrices ou définitions de caractéristiques pour assurer que des matériaux,
produits, processus et services sont aptes à leur emploi.
On distingue les standards de facto, improprement appelés standards car ils sont
imposés par un constructeur unique, des standards officiels qui eux résultent d’un consensus.
Le tableau I.1 reprend quelques avantages et inconvénients de ces deux types de standard.

TAB. I.1 – Comparaison entre standards de facto et standards officiels.

Organismes de normalisation
Des organismes de normalisation ont été créés avec pour mission de définir des
standards pour permettre l’intégration d’éléments provenant de fournisseurs distincts, mais
aussi d’établir une concurrence plus saine.

4
D’une manière générale, le secteur de télécommunications a une longue habitude en
normalisation.
Parmi les organismes importants, citons l’International Telecommunications Union
(ITU), qui est une agence spéciale des Nations-Unies.
Pour des domaines plus récents et plus complexes comme le multimédia, la situation est
plus confuse dans la mesure où les acteurs sont plus nombreux. Jusqu’il y a peu, les standards
développés dans le monde informatique par les organismes de normalisation décrivaient soit
les éléments internes à un ordinateur, soit les connecteurs. C’est en partie ce type de standard
(Ethernet, …) qu’a développé l’Institute of Electrical and Electronics Engineers (IEEE). Le
groupe le plus connu pour ses activités dans le domaine informatique est cependant
l’International Organisation for Standardisation (ISO). Par exemple, la norme MPEG (Moving
Picture Experts Group) sur laquelle nous reviendrons au point 2.6.5, est le fruit de l’ISO.
Le tableau I.2 reprend quelques groupes de normalisation internationaux.

TAB. 1.2 – Quelques groupes de normalisation internationaux.


Structure d’un groupe de normalisation
Les groupes de normalisation ont tous une structure différente. Cette structure comprend
généralement un secrétariat et une série de domaines techniques dans lesquels oeuvrent une
série de sous-groupes organisés hiérarchiquement. Ainsi, l’ISO est organisé en Technical
Committees, puis en Sub-Committees et finalement en Working Groups. Voici, en guise
d’illustration, la structure organisationnelle de quelques groupes de l’ISO :
 JTC1/SC29 (Picture and audio coding)/WG10 (JPEG), WG11 (MPEG)
 JTC1/SC24 (Computers and Imaginery)/WG6 Computer Graphics Metafile
Norme de compression vidéo : MPEG
Contrairement à la plupart des normes, les normes MPEG sont constituées de plusieurs
volets.
Ainsi, le tableau I.3 reprend quelques normes issues du groupe MPEG de l’ISO; ce
tableau montre plus spécifiquement les volets des normes MPEG-1 et MPEG-2.

5
TAB. I.3 – Normes MPEG.
Il apparaît que la norme MPEG-1 est composée d’une partie système, vidéo, audio,
conformité et simulation par logiciel. La partie 3 de cette norme est utilisée également en
dehors du contexte de la vidéo ; c’est ce volet qui porte le nom plus connu de MP3. Il faut
veiller à ne pas confondre MP3 avec le projet MPEG-3 qui s’adressait à la télévision haute
définition et qui a été fusionné avec MPEG-2 lors du développement de la norme MPEG-2.
Internet
Les structures
Le cas du développement du réseau mondial Internet est assez particulier. À la fois
parce qu’il a été fulgurant et parce qu’il n’y a pas d’autorité unique qui gère la totalité du
réseau.
La complexité des structures était telle que, pour faciliter la coordination des groupes,
on a créé l’Internet Society (ISOC) en 1992. L’ISOC est une association sans but lucratif qui
regroupe les professionnels de tous les horizons d’Internet. La Belgique possède ses sections
locales.
Les structures d’Internet sont de deux types : (1) celles qui ont la charge de la distribution des
adresses et de l’information (figure 1.3, partie gauche), et (2) celles qui définissent la
technologie (figure 1.3, partie droite).

6
Les adresses et les noms.
INTERNIC (Internet Network Information Center) et la société Network Solutions
étaient chargées du contrôle des adresses au niveau mondial, déléguant leur pouvoir à
l’organisme Réseaux IP Européens (RIPE) pour l’Europe. RIPE déléguait ensuite
partiellement son pouvoir à des sociétés commerciales qui exploitent directement le réseau
Internet. Des modifications sont intervenues afin de garantir une plus grande équité dans
l’attribution des adresses et des noms ; on pensait initialement que l’ITU pouvait être investie
de cette mission mais cette idée a été abandonnée au profit de l’ICANN 14 (Internet
Corporation for Assigned Names and Numbers) qui officie comme le régulateur des
organismes autorisés à octroyer des noms de domaine.

FIG. I.3 – Les structures qui gèrent Internet


La vision d’Internet
Développer un standard international pour un produit complexe est un travail lourd et de
longue haleine. Pour éviter l’écueil de la lenteur, les inventeurs d’Internet ont décidé de
découper le travail en douze domaines distincts pour lesquels il était possible de développer
rapidement une solution. On a donc vu apparaître très tôt des produits conformes aux
premières spécifications.
Par la suite, ces spécifications ont été étendues et intégrées.
À la différence des organismes de normalisation, Internet a ainsi préféré encourager la
réalisation de produits, rudimentaires au départ, et canaliser les développements en procédant

7
par étapes successives plutôt que fournir des standards qui, une fois définis, devraient encore
être implémentés. La figure I.4 schématise l’approche traditionnelle et l’approche d’Internet
en matière de normalisation. L’approche traditionnelle est plus lente car elle nécessite un long
temps de gestation avant l’implémentation de la norme. L’approche utilisée dans le cadre
d’Internet est plus rapide mais elle créée une série de normes intermédiaires qui entraîne
parfois une certaine confusion sur les marchés.

FIG. 1.4 – Approche traditionnelle et approche d’Internet en matière de normalisation.

Le protocole IP (Internet Protocol)


Le protocole Internet est un protocole de niveau réseau. Il est responsable de :
• la transmission des données en mode sans connexion ;
• l’adressage et le routage des paquets entre stations par l’intermédiaire de routeurs ;
• la fragmentation des données.
Lors de l’émission, les fonctionnalités assurées sont :
• identification du paquet ;
• détermination de la route à suivre (routage) ;
• vérification du type d’adressage (station ou diffusion) ;
• fragmentation de la trame si nécessaire.
À la réception, les fonctionnalités sont :
• vérification de la longueur du paquet ;
• contrôle des erreurs ;
• réassemblage en cas de fragmentation à l’émission ;

8
• transmission du paquet réassemblé au niveau supérieur.

Format du paquet IP
Le paquet IP, ou datagramme IP, est organisé en champs de 32 bits (figure I.5), c’est le format
des adresses IP. Les fonctionnalités IP se retrouvent dans chaque groupement de bits de l’en-
tête :
• Version : numéro de version du protocole IP (actuellement 4) ;
• Longueur de l’en-tête codée sur 4 bits et représentant le nombre de mots de 32 bits
(généralement 5) ;
• Type de service (TOS) : désigne la qualité de service qui doit être utilisée par le routeur. Par
exemple, pour un transfert de fichier important, il est préférable de privilégier le débit par
rapport au délai de transmission. Pour une session interactive, le délai de propagation sera
primordial ;
• Longueur totale : longueur totale du fragment (en-tête et données) exprimée en nombre
d’octets ;

FIG. I.5 – Format du paquet IP.


• Identificateur : identifie le paquet pour la fragmentation (tous les fragments d’un même
paquet portent le même numéro) ;
• Drapeaux : gère la fragmentation sur 3 bits suivant le format 0 DF MF :
 le bit DF (Don’t Fragment) demande au routeur de ne pas fragmenter le paquet ;
 le bit MF (More Fragment) est positionné à 1 dans tous les fragments, sauf le dernier ;
• Position du fragment (fragment offset) : indique par multiple de 8 octets la position du
fragment dans le paquet courant. Tous les fragments du paquet, sauf le dernier, doivent donc
avoir pour longueur des multiples de 8 octets. Avec un codage sur 13 bits, le maximum pour
un paquet est de 8 192 fragments ;

9
• Durée de vie (TTL, Time To Live) : indique en nombre de sauts la durée de vie d’un
paquet. La valeur initiale à la création du paquet est de 32 ou 64 suivant la taille supposée du
réseau (LAN ou WAN). La valeur est décrémentée à chaque passage dans un routeur. Si le
TTL passe à 0, alors le paquet doit être détruit par le routeur, ce qui évite la circulation infinie
de paquets à la recherche de destinations inexistantes ;
• Protocole : code qui indique le protocole de la couche supérieure ( 1 pour ICMP, 6 pour
TCP, 17 pour UDP) ;
• Options : utilisées pour le contrôle ou la mise au point.
La figure I.6 représente une trame capturée et décomposée couche par couche par un
analyseur de protocole. Elle encapsule un paquet IP dont l’en-tête est analysé en détail. Ce
paquet encapsule lui-même un segment TCP contenant une unité de données FTP. La fenêtre
basse de l’analyseur de protocole présente en hexadécimal le contenu brut de la trame. On
peut ainsi suivre l’analyse : le premier octet de l’entête IP est égal à 45pf. Le 4 représente la
version du protocole, le 5 le nombre de mots de 32 bits, soit 20 octets. Les drapeaux analysés
nous informent de l’absence de fragmentation. Un peu plus loin, les adresses source et
destination correspondent en hexadécimal aux valeurs décimales analysées (CO A8 00 83
pour 192.168.0.131).
L’adressage Internet
a) Le format des adresses
Chaque machine susceptible d’être connectée à l’extérieur de son réseau local possède une
adresse IP en principe unique. Le réseau Internet, qui tient son nom du protocole utilisé,
correspond à l’interconnexion de plusieurs millions d’ordinateurs à l’échelle mondiale et la
gestion des adresses est bien entendu de toute première importance.
Une autorité internationale, l’ICANN {Internet Corporation for Assigned Names and
Numbers) attribue des numéros à chaque réseau. Les adresses codées sur 32 bits comportent
deux parties : le numéro de réseau (Net_id) et le numéro de la machine sur le réseau
{Host_id). L’ICANN n’alloue que les numéros de réseau. L’affectation des Host_id est à la
charge des administrateurs des réseaux locaux. Suivant l’importance du réseau, plusieurs
classes d’adressage sont possibles (figure 6).
Les adresses sur 32 bits sont exprimées par octet (soit quatre nombres compris entre 0 et 255)
notées en décimal et séparés par des points : 137.15.223.2.
Les différentes classes correspondent donc à des adresses appartenant aux plages suivantes :
 Classe A : 1.0.0.0 à 126.0.0.0, soit 126 réseaux (28-1- 2) et 16 777 214 machines par
réseau (232-8 - 2) ;

10
 Classe B : 128.1.0.0 à 191.254.0.0, soit 16 382 réseaux (216-2 - 2) et 65 535 machines
par réseau (232-16- 2) ;
 Classe C : 192.0.1.0 à 223.255.254.0, soit 2 097 150 réseaux (224-3- 2) et 254
machines par réseau (232-24- 2) ;
 Classe D : 224.0.0.1 à 239.255.255.255, soit 268 435 455 adresses de groupe (232-4-1);
 Classe E : 240.0.0.0 à 255.255.255.254.

FIG. I.6 – Format des adresses IP.


La classe A représente donc les réseaux de grande envergure (ministère de la Défense,
réseaux d’IBM, AT&T, DEC...) dont la plupart se trouvent aux États-Unis. La classe B
désigne les réseaux moyens (universités, centres de recherches...). La classe C représente les
petits réseaux régionaux, les PME/PMI et en règle générale les sites comprenant moins de 254
machines.
Les adresses de classe D ne désignent pas une machine particulière sur le réseau, mais un
ensemble de machines voulant partager la même adresse et ainsi participer à un même groupe
: adresses de groupe de diffusion {multicast). Ces adresses sont choisies par les concepteurs
des applications concernées comme la VoD {Video on Demand).
Les autres adresses sont particulières ou réservées :
- 0.0.0.0 est une adresse non encore connue, utilisée par les machines ne connaissant pas leur
adresse IP au démarrage ;
- l’adresse dont la partie basse est constituée de bits à 0 est une adresse réseau ou sous-
réseau, 212.92.27.0 pour une classe C par exemple ;
- l’adresse dont la partie basse est constituée de bits à 1 est une adresse de diffusion
{broadcast), 157.42.255.255 pour une classe B par exemple ;
- 127.0.0.1 est une adresse de bouclage {localhost, loopback) et permet l’utilisation interne
de TCP/IP sans aucune interface matérielle ;

11
- pour chaque classe, certaines plages d’adresses sont réservées à un usage privé :
1. Classe A : 10.0.0.0 ;
2. Classe B : 172.16.0.0 à 172.31.0.0 ;
3. Classe C : 192.168.0.0. à 192.168.255.0.
Le segment TCP
Le protocole TCP recouvre globalement les fonctionnalités des communications de niveau
transport avec connexion. Il est identifié par la valeur 6 dans le champ protocole du paquet IP.
Ses principales caractéristiques sont :
• établissement et fermeture de la connexion virtuelle ;
• segmentation et ré-assemblage des données (S-PDU) ;
• séquencement des segments (re-séquencement des paquets si la couche IP ne les délivre pas
dans Tordre) ;
• gestion de pertes : acquittement des segments reçus et retransmission sur absence
d’acquittement ;
• contrôle de flux.
L’en-tête TCP est constitué par défaut de 20 octets organisés en mot de 32 bits (figure 6.30) :
• les numéros de port permettent de référencer les applications (voir protocole UDP);
• le numéro de séquence indique le numéro du premier octet transmis dans le segment ;
• le numéro d’acquittement contient le numéro de séquence du prochain octet attendu par
l’émetteur ;
• la longueur de T en-tête est codée sur 4 bits et donne le nombre de mots de 32 bits ;
• les bits de contrôle permettent de définir la fonction des messages ainsi que la validité de
certains champs :
O URG = 1 si le champ des priorités est utilisé (pour des demandes d’interruption d’émission
par exemple) ;
O ACK = 1 si la valeur du champ acquittement est significative ;
O EOM (ou PSH) indique une fin de message {End of Message), les données doivent être
transmises (pushed) à la couche supérieure ;
O RST (Reset) : demande de réinitialisation de la connexion ;
O SYN : demande d’ouverture de connexion (les numéros de séquence doivent être
synchronisés) ;
O FIN : fin de connexion ;
• le champ fenêtre (Windows) indique le nombre d’octets que le récepteur peut accepter à
partir du dernier numéro d’acquittement ;

12
• le champ checksum correspond à une somme de contrôle de T en-tête et du message ;
• le champ priorité contient lors d’une interruption d’émission (URG = 1) un pointeur sur les
octets de données à traiter en priorité ;
• le champ options permet de définir, par exemple, la taille maximale d’un segment.

Figure 6.30 - Format des segments TCP.

Les états TCP


a) Ouverture d’une connexion
Après autorisation locale sur chaque station et déclaration d’un identificateur permettant à
l’application de référencer la connexion, la demande d’ouverture de connexion est transmise à
la couche transport qui positionne son bit SYN à 1 (figure 6.31). Le numéro de séquence
initial à l’émission {Initial Send Sequence number, ISS) est délivré, au moment de la
demande, par un compteur incrémenté toutes les 4 ms (la taille du champ séquence étant de 32
bits, la période du compteur est supérieure à 4 heures). Dans l’exemple, la valeur de ISS au
moment de la connexion est à 350 pour la station A.
La station sollicitée répond avec les bits SYN et ACK à 1 et une dernière confirmation est
effectuée par la station initiatrice avec le bit ACK à 1.

13
Figure 6.31 - Exemple de connexion réussie.
b) Transfert de données
Le transfert de données peut alors commencer avec les numéros de séquence en cours. Le
contrôle de flux est réalisé dans les deux sens par les numéros d’acquittement (le bit ACK est
alors positionné à 1). Chaque accusé de réception indique le nombre d’octets correctement
reçus.
Dans l’exemple de la figure 6.32, le numéro d’acquittement 362 renvoyé par la station B
indique à l’émetteur que les 10 octets de 352 à 361 ont été reçus et que les prochains octets, à
partir du numéro 362, peuvent être transmis. Simultanément, la station B qui est aussi
émettrice envoie un numéro de séquence à 236 correspondant au premier des 20 octets
transmis vers la station A. Cette dernière acquittera donc avec un numéro à 256. Notons que
les numéros qui contrôlent le flux dans les deux sens sont indépendants, ils sont générés par
chacun des émetteurs (ISS) au moment de l’ouverture de la connexion TCP. La taille de la
fenêtre de réception sans acquittement (le nombre d’octets qu’il peut encore recevoir) est
transmise par le destinataire lors de chaque acquittement en fonction de la place restante dans
son tampon de réception. Dans l’exemple, la taille de la fenêtre est toujours supérieure au
nombre d’octets émis.

14
Figure 6.32 - Exemple d’échange TCP.

UDP
UDP (User Datagram Protocol) est un protocole sans connexion conçu pour fournir un service
de transfert de données de bout en bout, en mode message, sans garantie d’ordre ni de
fiabilité, dans un environnement réseau de type Internet. En conséquence, le seul véritable
mécanisme d’UDP est d’assurer le multiplexage et le démultiplexage des canaux UDP sur
l’unique canal IP.
RTP (Real-Time Transport Protocol) Le but de RTP et de fournir un moyen uniforme de
transmettre sur IP des données soumises à des contraintes de temps réel (audio, vidéo, etc.).
RTP permet :
• d'identifier le type de l'information transportée,
• d'ajouter des marqueurs temporels permettant d’indiquer l’instant d’émission du paquet.
L’application destinataire peut alors synchroniser les flux et mesurer les délais et la gigue.
• d’inclure des numéros de séquence à l'information transportée afin de détecter l’occurrence
de paquets perdus et de délivrer les paquets en séquence à l’application destinataire.
De plus, RTP peut être véhiculé par des paquets multicast afin d'acheminer des conversations
vers des destinataires multiples.
Mais, RTP n'a pas été conçu pour effectuer des réservations de ressources ou contrôler la
qualité de service et ne garantit pas la livraison du paquet à l’arrivée.
RTSP
Au-dessus de RTP dans la couche application on utilise bien souvent RTSP pour contrôler le
flux multimédia. RTSP a été standardisé en 1998 aujourd’hui il est implémenté dans le plupart
des logiciels de reproduction multimédia.

15
Propriétés
RTSP ne s’occupe pas du transport de données. C’est pourquoi il n’envoie que des messages
et pas des paquets. Ce qu’est HTTP est pour les pages web, c’est RTSP pour les diffusions en
temps réel. Il fonctionne comme « télécommande » du réseau pour régler l’émission. RTSP
fourni des messages pour établir une connexion temps réel, pour lancer, pauser et arrêter le
reproduction du film et pour avancer ou rembobiner le film.

La figure ci-dessus illustre le fonctionnement entier d’une diffusion vidéo sur l’Internet : Via
HTTP le client demande un fichier multimédia du serveur web. Le serveur web donne la
demande au serveur média (les deux peuvent bien sûr être la même machine). Le serveur
média établi une connexion RTP basée sur UDP pour la transmission des données et une
connexion de réglage avec RTSP basée sur TCP ou UDP vers le client. Après le client va à
partir des informations sur le codec – décoder le flux. Client et serveur média communiquent
dès maintenant uniquement par RTSP pour gérer le flux.

16
Chapitre II : Les signaux multimédia

Les signaux analogiques de base


2.2.1 Son
Le son est une onde qui se propage dans l’air et qui est perceptible grâce au détecteur de
pression qu’est le tympan, logé dans l’oreille. Ces vibrations sont ensuite converties en
signaux transmis au cerveau par le nerf auditif.
Pour mieux saisir la notion de son, utilisons l’analogie avec la surface de l’eau. Jeter une
pierre dans l’eau crée des ondulations de surface en forme de cercles concentriques. Ces
ondes se propagent et, se heurtant aux berges, elles repartent en sens inverse. Le mécanisme
de propagation du son est identique à ce phénomène où l’eau est remplacée par l’air et la
pierre par une source sonore. Le son est le résultat d’une onde de pression qui voyage dans
l’air, agite les molécules d’air et se réfléchit sur les obstacles qu’elle rencontre. Le tympan
capte ces ondes qui sont in fine traduites en signaux électriques, comme le fait la membrane
d’un micro.
La figure 2.2 montre le relevé d’un son à l’oscilloscope. L’axe vertical représente l’écart
d’une membrane (ou une mesure physique équivalente comme une tension électrique) par
rapport à une position centrale en fonction du temps (axe horizontal).

FIG. II.2 – Représentation d’un son.


Le son est une notion tellement complexe qu’il faut plusieurs paramètres pour le décrire. Le
phénomène physique du son peut être étudié de manière quantitative et les propriétés de
l’onde acoustique peuvent être exprimées sous la forme de grandeurs objectives. Nous allons
en analyser quatre : hauteur tonale, intensité, timbre et durée. Ces quatre paramètres suffisent
à décrire globalement un son. Pour permettre une description plus fine comme par exemple
l’attaque d’un instrument, la norme audio MIDI définit près d’une quarantaine de paramètres
supplémentaires.
Ton ou hauteur tonale
La notion de ton est intimement liée à celle de fréquence.
Définition 6 Le nombre d’oscillations d’un son dans un temps donné est sa fréquence. C’est
la hauteur tonale ou ton du son perçu.
Le temps au bout duquel une fréquence se répète est une période. Une onde est dite
périodique quand elle est composée de telles répétitions. La valeur de la fréquence est évaluée
en fonction du nombre de ses périodes dans un temps donné.
Définition 7 L’unité de base correspond au nombre de période par seconde ; c’est le Hertz
(Hz).
Une fréquence de 1000 [Hz] est donc une fréquence dont le cycle se reproduit 1000 fois par
seconde.
La période est ainsi inversement proportionnelle à la fréquence (c’est-à-dire égale à 1=f) : si la
fréquence est de 3 [Hz], la période est de 1=3 seconde.
En principe, il n’y a pas de limitation dans la gamme des fréquences des sons possibles.
Cependant notre oreille perçoit théoriquement des vibrations acoustiques allant de 20 [Hz]
(son grave) à 20:000 [Hz] (son aigu). C’est la bande de fréquence qu’il faut restituer
convenablement dans les systèmes haute fidélité, comme la radio FM, le canal son de la
télévision ou le CD-audio.
En radio AM cependant, on ne reproduit les fréquences que jusqu’à 4500 [Hz] et cela procure
une qualité relativement bonne, même pour la musique. En téléphonie, où l’objectif est limité
à l’intelligibilité du message, la bande de fréquence normalisée est 300-3400 [Hz]. Cette
bande de fréquences est garantie de bout en bout du réseau. Un modem devra dont utiliser
cette même gamme de fréquences pour permettre l’information numérique sous peine de perte
d’information.
La limitation de la perception est importante pour tous les traitements liés au son ; on part du
principe qu’il est inutile d’enregistrer ou de stocker un son imperceptible. Nous reviendrons
plus loin sur cette limitation et analyserons l’impact sur la phase de numérisation.

2
Les fréquences ont permis de définir les notes. Ainsi le do moyen qui se trouve au milieu du
clavier d’un piano a une fréquence de 264 [Hz]. Un diapason produit le son la (pur) à 440
[Hz].
Intensité
L’amplitude des variations de pression donne la seconde composante du son : l’intensité avec
laquelle notre oreille percevra une note. L’intensité correspond au volume d’énergie d’une
onde.
L’amplitude du son est la mesure du changement de pression par rapport à une valeur
moyenne.
Cette mesure est l’intensité acoustique I qui est la puissance transportée par unité de surface
du front d’onde et s’exprime, par exemple, en [W=cm2]. De telles grandeurs sont certes fort
utiles, mais lorsqu’il s’agit de déterminer les conditions de bonne transmission de signaux
sonores, il apparaît nécessaire de tenir compte des propriétés perceptives très particulières de
l’ouïe. On fait alors appel à des grandeurs subjectives qui expriment ce que ressent l’être
humain.
Timbre
Un ensemble de fréquences et leurs variations d’intensité permettent d’avoir une sorte de carte
d’identité du son, une forme d’onde générale, le timbre ou spectre. Il montre la proportion
dans laquelle la fréquence fondamentale du son est mélangée à d’autres fréquences multiples
de la fréquence fondamentale et appelées sons harmoniques. Un son qui n’est accompagné
d’aucune harmonique est appelé son pur. Le timbre permet donc d’identifier la source sonore
car chaque instrument produit un spectre de fréquences qui lui est propre.
Durée
Enfin, la répétition d’une onde sonore donne à son tour la durée du son. Elle s’exprime en
secondes et correspond au temps pendant lequel l’énergie du son est perceptible. Sur le
diagramme 2.3, la durée du son est de 2 secondes.
Avec ces quatre paramètres, on dispose d’une description suffisante pour, par exemple,
générer des sons. Produire de la musique de synthèse implique que l’on passe de la simple
notation des sons à leur transcription dans la tonalité d’un instrument. Il faut pour cela prendre
en compte le timbre, toutes les harmoniques qui accompagnent la production d’un son pur.
L’analyse en fréquences et la transformée de FOURIER sont le pivot de ces calculs et de tous
les traitements effectués sur les signaux sonores.

3
Le principe de l’analyse de FOURIER est celui du prisme : un rayon de lumière solaire
pénétrant dans un prisme de cristal en ressort décomposé en plusieurs rayons. De même, le
“prisme mathématique de FOURIER” décompose le son d’un instrument en ses harmoniques.
Prenons le cas d’un son continu produit par un instrument. Il est défini par une forme d’onde
périodique, une fréquence qui se répète identiquement. Or notre oreille perçoit cette onde
comme un assemblage de sons purs et non comme un son unitaire.
L’analyse spectrale classique consiste à déterminer mathématiquement de quelles
harmoniques se compose une onde périodique. Par exemple, la vibration d’une corde de piano
produit un signal complexe dans un diagramme de l’amplitude en fonction du temps.
Analysée par la transformée de FOURIER, elle se décomposera en notes séparées.
Image et vidéo
Le système visuel humain
L’œil est une système complexe (cf. figure 2.5). La lumière incidente est réfractée par la
cornée et dirigée vers la pupille ; la pupille est l’ouverture de l’iris par laquelle la lumière
pénètre dans l’œil. La lumière est ensuite réfractée une seconde fois en direction du fond du
globe oculaire où elle illumine la rétine. Cette dernière est composée d’une série de
récepteurs, appelés photorécepteurs, reliés à des cellules qui transmettent des signaux au nerf
optique.

FIG. 2.4 – Coupe latérale simplifiée de l’oeil.

La lumière
La perception du signal visuel présente des similitudes avec celle du signal audio. De fait, le
fond de l’œil est tapissé de récepteurs qui envoient des influx électriques au cerveau via le
nerf optique. De plus, certaines couleurs ne sont pas perceptibles à cause d’un effet de
limitation de la “bande passante” de l’œil.

4
La lumière couvre une partie du spectre d’énergie électromagnétique. Un rayonnement
électromagnétique est en général constitué d’un certain nombre de longueurs d’onde (ou
fréquences) que les dispositifs dispersifs de séparer en un spectre. Le spectre est soit discret,
soit continu. Il est d’usage de définir les couleurs par leur longueur d’onde ; on passe aisément
de la longueur d’onde à la fréquence par le biais de l’expression :

=

Signal vidéo
Les signaux de télévision changent en fonction du temps, d’où le besoin d’une composante
temporelle dans la description d’une image. Il convient donc d’ajouter une autre définition : le
temps. On parle alors de signal vidéo plutôt que de signal image.
Le procédé mis en œuvre pour reproduire un signal vidéo sur un écran de télévision consiste à
afficher une nouvelle image à une fréquence élevée, à la manière d’un film. Cette fréquence
est supérieure à 25 [Hz], fréquence en dessous de laquelle on percevrait une discontinuité.
Aujourd’hui, la technologie permet d’atteindre une telle vitesse de rafraîchissement d’écran.
On parle de format de télévision progressif. Il n’en était pas ainsi au début de la télévision
analogique.
Pour parvenir à éviter un effet de scintillement alors qu’on ne parvenait pas à atteindre des
vitesses de rafraîchissement, on a inventé l’entrelacement et le format entrelacé. Dans sa
version européenne, le format consiste à constituer deux demi-images en prenant soit toutes
les lignes paires, soit toutes les lignes impaires d’une image, comme indiqué à la figure 2.17.
Au lieu de 25 images par secondes, on obtient ainsi 50 demi-images, soit une vitesse
supérieure au seuil de sensibilité.
Trois standards de vidéo pour télévision analogique sont utilisés à travers le monde :

L’univers de l’image fait intervenir plusieurs facteurs : la mémoire, les exigences de vitesse,
la dépendance par rapport au matériel, l’organisation des données, la compression et la
représentation des données. Il suffit de consulter la figure 2.18 qui énumère des applications
typiques pour s’en convaincre.

5
FIG. 2.18 – Aspects matériel et logiciel des images.

Le signal vidéo est nettement plus complexe qu’un son. Il comporte des informations
visuelles, exprimées pour une image généralement sous la forme de trois couleurs
fondamentales pour tout point de l’espace, et une information temporelle née du mouvement
des objets. De plus, le signal de télévision est un mélange du signal vidéo et de la partie audio
; il s’agit d’un signal composite. Le signal composite occupe une bande de fréquences
d’approximativement 5 [MHz]. En pratique, on considère une bande de 8 [MHz] par signal
vidéo en Europe.
Principe de la compression
Une fois les données numériques obtenues, le travail n’est pas achevé. En effet, les signaux
numérisés représentent des quantités d’information (des débits) considérables contenant une
certaine redondance.
Prenons le cas de la phrase de la figure 2.29 pour expliquer le principe de la suppression de
redondance, qui n’est autre que la raison de la compression. Malgré la suppression des
quelques lettres, la troisième version de la phrase est toujours compréhensible alors que le

6
nombre de lettres a diminué de 20%. La réduction de taille a donc été possible en raison de
l’existence d’une certaine redondance dans le message de départ.
La phrase contient des lettres redondantes. 37 lettres
L phrse contient des letres redodantes. 33 lettres
L phrse cotient des letre redodant. 29 lettres
D’une manière plus formelle, chaque lettre se caractérise par une certaine probabilité
d’occurrence dans un contexte donné. Par exemple, dans la langue française, un “e” est plus
probable qu’un “z”. Nous fournissons ci-dessous une définition expérimentale de la
probabilité d’une lettre.
Définition 17 [Probabilité] La probabilité d’une lettre est le rapport du nombre
d’occurrences de celle-ci par rapport à l’ensemble des occurrences des lettres, pour un grand
nombre de textes.
Cette probabilité est donc un nombre toujours compris entre 0 et 1.
Mesure de l’information
La théorie de l’information cherche à établir l’information inhérente à un processus
probabiliste; elle part d’un principe qu’un événement certain n’apporte aucune information,
au contraire d’un événement rare lorsque celui-ci survient. Considérons un événement
aléatoire E qui se produit avec une probabilité p(E).
Définition 18 L’information propre de l’événement E, notée i(E) est le logarithme en base 2
de l’inverse de sa probabilité
� � =� =−� �
� �

Elle s’exprime en bit.


Si p(E) = 1, c’est-à-dire que l’événement E est certain, i(E) = 0 et l’information associée à E
est donc nulle. Par contre, si p(E) = 0.9, le fait que E se réalise apporte une certaine quantité
d’information. Dès lors, plus un événement est incertain, plus on lui attribue de l’information.
À la limite, un événement de probabilité nulle a une information propre infinie. Cependant, un
événement qui ne se produit jamais n’est pas très intéressant.
Notion d’entropie
La théorie mesure la redondance en comparant la taille initiale à l’entropie du message. Voici
la définition de cette dernière.
Définition 19 [Entropie] Soit un alphabet X de N lettres, l’entropie de cet alphabet, noté
H(X), est l’opposé de la somme du produit des probabilités multipliées par leur logarithme en
base 2.

7
L’entropie est exprimée en bits, ce qui signifie que l’entropie est calculée par le logarithme en
base binaire. Pour un alphabet de deux lettres de même probabilité, le calcul de H(X) fournit
un bit6, parfois appelé Shannon. L’entropie est donc telle qu’il faut un bit pour discerner entre
les eux lettres.
Le tableau suivant compare l’entropie de deux alphabets dont les lettres ont des probabilités
différentes.

L’entropie mesure l’incertitude quant à une valeur. Dans la partie gauche du tableau, les
quatre lettres sont équiprobables ; on ne peut donc prévoir quelle lettre sera
vraisemblablement choisie lors d’un prochain tirage au sort. De la sorte, il n’y a pas moyen de
distinguer entre les quatre lettres et par conséquent l’entropie vaut 2 bits. Dans la partie droite,
le déséquilibre entre les probabilités est net : la lettre A est plus probable que les autres lettres,
ce qui entraîne une diminution de l’entropie.
Compression audio
La représentation numérique de base est le PCM (Pulse Code Modulation). Elle n’est rien de
plus que le signal échantillonné quantifié. Selon le niveau qualitatif souhaité, la fréquence
d’échantillonnage sera choisie entre 7 et 78 [kHz]. La résolution sera comprise entre 8 et 16
bits.
D’autres techniques sont :
DPCM Par cette technique, la compression s’obtient en codant la différence entre deux
valeurs échantillonnées successives plutôt que les valeurs elles-mêmes, ce qui nécessite un
plus petit nombre de bits.
ADPCM Adaptive Differential Pulse Code Modulation. Il s’agit d’une technique de
transformation d’un son analogique en valeurs numériques, avec compactage final de l’ordre
de 2 à 4, selon l’algorithme utilisé. La méthode consiste à coder la différence entre un
échantillon et la valeur prévisible de l’échantillon suivant. Elle est utilisée par plusieurs cartes
son mais aussi dans les standards de l’ITU pour des transmissions téléphoniques numériques.
Il existe trois variantes (A, B et C) de l’algorithme.
MPEG-1 audio. La norme de codage audio comprise dans MPEG-1 part d’un découpage en
une série de 32 canaux fréquentiels de bande étroite, appelés sous-bandes. La figure 2.32
montre le schéma simplifié du codeur MPEG-1.
8
Dans un tel schéma, chaque sous-bande est traitée indépendamment. Les signaux PCM à
l’entrée ont été échantillonnés à 32, 44:1 ou 48 [kHz] sur 16 ou 20 bits. La première étape
consiste à découper le signal en 32 sous-bandes, chacune étant par la suite sous-
échantillonnée par un facteur 32 (notation 32 # sur le dessin). Suit alors une mise à niveau des
32 signaux de sortie, qui sont ensuite quantifiés et codés. Le modèle psycho-acoustique
MUSICAM (cf. supra) est la partie qui utilise les effets de masquage pour augmenter
l’efficacité de codage sans altérer la perception des sons. Il agit sur la quantification et le
codage de chacune des sous-bandes.
La partie audio (partie 3) de la norme MPEG-1 sert au codage de son au format MP3.
Le standard de compression audio de MPEG-2 est une extension de la norme MPEG-1.
On y a ajouté la possibilité de représenter jusqu’à 5 signaux haute fidélité, un support pour
plusieurs langues, des modes de compression à bas débit (pouvant aller jusqu’à 8 [kb=s]) et
des fréquences d’échantillonnages supplémentaires. Ces extensions ne remettent pas en cause
la compatibilité ascendante du standard car un décodeur MPEG-2 est capable, dans ce mode
étendu, de décoder les signaux MPEG-1. Toutefois, un nouveau mode, non compatible, fait
également partie de la norme.
Le format MP3, bien que largement répandu, n’en reste pas moins soumis à des contraintes.
C’est la raison pour laquelle certains ont développé des formats basés sur des technologies
libres de tout droit. Ainsi, la technologie Vorbis sert de base au format OGG VORBIS destiné
à remplacer le format MP3.

FIG. 2.32 – Schéma simplifié d’un encodeur audio MPEG-1.


AC-3. Le système AC-3 développé par DOLBY est du même type que MPEG-1 :
découpage en sous-bandes et modèle psycho-acoustique. Il a été inclus dans les spécifications
DAVIC qui définissent les services de distribution de télévision numérique.
La figure 2.33 montre un logiciel applicatif audio typique. La fenêtre principale de ce
logiciel mentionne le débit et la fréquence d’échantillonnage.
Compression image

9
Différentes méthodes sont utilisées pour la compression d’images fixes, les plus simples se
contentant de réduire le nombre de bits servant à coder les couleurs de base (RGB).
L’ISO et l’ITU ont été à l’origine de plusieurs initiatives pour définir une norme pour la
compression des images. Les images ne contenant que deux couleurs (noir et blanc) sont
traitées par des algorithmes de type RLC (cf. page 56). C’est le cas des algorithmes utilisés
pour la transmission de fax (fax groupe 3 et 4).
La tâche est nettement plus ardue lorsqu’il s’agit de coder des images naturelles en couleur.
Le groupe JPEG de l’ISO a relevé ce défi. Le principe de la norme de codage JPEG est le
suivant (le schéma de la figure 2.35 illustre le mécanisme de compression et de
décompression sous forme graphique) :

FIG. 2.35 – Codec (codeur-décodeur) JPEG.

 L’image est tout d’abord convertie au format Y CbCr pour des raisons d’efficacité de
codage.
 Le signal de luminance (Y) et les signaux de chrominance sont ensuite divisés en
blocs de 8 x 8 pixels.
 On applique une analyse fréquentielle, appelée Transformée en Cosinus Discrète ou
Discrete Cosine Transform (DCT), dont le principe est similaire à celui de l’analyse de
FOURIER, à chaque bloc de 64 pixels. On passe ainsi d’une représentation spatiale de
10
64 pixels à une représentation fréquentielle avec une composante continue donnant le
niveau moyen du bloc.
 Les coefficients de la représentation fréquentielle sont quantifiés avec une précision
plus faible pour les hautes fréquences étant donné que l’œil ne les perçoit pas.
 Un codage entropique de HUFFMAN (codage sans perte) est finalement appliqué aux
coefficients.

Compression vidéo
Vu la quantité d’information que représente une séquence vidéo, la complexité d’un
codeur/décodeur (codec) vidéo est d’un autre ordre de grandeur que celui pour image fixe. Il
existe plusieurs normes de compression vidéo dont les plus connues et les plus utilisées
appartiennent aux familles H.26x et MPEG-x.
Toutes ces techniques exploitent deux types de redondance :
1. la redondance entre les valeurs des pixels de blocs voisins d’une même image et
2. la redondance entre images successives.
Elles donnent respectivement naissance aux techniques de codage intra et inter.
Pour le codage intra, le problème s’apparente à celui de JPEG puisqu’il n’y a qu’une
image à considérer. De fait, on supprime la redondance en exploitant les caractéristiques
d’une transformée en cosinus discrète (DCT), tout comme pour JPEG. La mise au point d’une
méthode capable d’exploitation de la redondance entre images successives fut plus laborieuse.
L’idée imaginée pour la première fois dans le codeur H.261 consiste à prédire les images
suivantes, appelées trames dans le jargon du codage d’image, à partir de l’image traitée. Il y a
donc une distinction entre l’image codée en intra (trame I) et l’image prédite (trame P). Dans
MPEG, on fait mieux encore puisqu’on définit des trames B qui se situent entre des trames I et
P. Les trames B sont prédites à la fois à partir d’une image précédente mais aussi d’une image
suivante.
Le dessin de la figure 2.38 permet de comprendre le mécanisme. Au départ, on code une
image I. Cette image ne fait aucune référence à une autre image. À partir de cette image,
l’algorithme de l’encodeur calcule une prédiction et code la différence entre la prédiction et
l’image ; c’est une image P. Cette image P sert elle même à prédire une autre image P, jusqu’à
ce qu’il soit décidé de coder à nouveau une image I. Entre les images I et P, on utilise la
prédiction bidirectionnelle cette fois sur base des images P ou I les plus proches. C’est ainsi
qu’on parvient à glisser deux images B entre des images I et P sans dégradation perceptible de
la séquence.
11
L’ensemble constitué d’une image I et des images prédites est appelé Group of Pictures
(GOP).
Plutôt que de décrire les normes en détail, ce qui nous mènerait trop loin, nous avons
résumé les principales caractéristiques des normes H.261 et MPEG-1 dans le tableau suivant:

FIG. 2.38 – Schéma de codage temporel dans MPEG.

Multiplexage des données


Il ne suffit de pas créer un flot de bits, appelé flux ou bitstream, comprimé par signal
composant la séquence audio-visuelle pour arriver à un flux complet. Il faut également
entrelacer les données ; ce problème est illustré à la figure 2.39. La manière de constituer le
flux binaire est spécifié par toute norme de compression.

FIG. 2.39 – Multiplexage : création d’un flux composite.

MPEG-2 : les notions de profils et de niveaux


La norme MPEG-2 est le résultat de la seconde phase de travaux menés par le groupe MPEG
de l’ISO. À l’origine, il s’agissait de définir une norme permettant le codage de signaux à
haute définition et de qualité studio, ce qui n’était pas possible avec MPEG-1. Au fil des

12
travaux, il fut décidé de normaliser une série d’outils fonctionnant au choix suivant des profils
(profiles en anglais) et des niveaux (levels en anglais). Un profil spécifie une syntaxe de flux
de bits (bitstream) ainsi qu’un jeu de contraintes propres à une application. Les niveaux
représentent eux la résolution de l’image. Ainsi, le main level est défini pour des images au
format CCIR601 –la norme CCIR601 spécifie le format des images numériques de qualité
studio. Le décodeur le plus usuel est dénommé MP@ML pour main level@main profile.
La norme DVB, qui couvre tous les aspects (transmission, sécurité, compression, etc) de la
diffusion de signaux de télévision numérique terrestre ou par satellite, englobe la majorité des
éléments de la norme MPEG-2.
MPEG-2 : “program stream” et “transport stream”
MPEG-2 a aussi apporté une autre nouveauté à savoir la distinction entre “program stream” et
“transport stream”. Le program stream est un flux tel qu’il se présente habituellement. Le
transport stream est un flux adapté à des conditions de transmission particulièrement sévères ;
par exemple, ce flux est divisé en paquets d’une taille fixe de 288 bytes. Dans des services
distribués par satellite, on doit obligatoirement utiliser un transport stream sous peine d’avoir
un service de qualité inacceptable. Dans le même état d’esprit, l’ITU a produit la norme
H.263 pouvant travailler à des débits inférieurs à 64 [kb=s], objectif que cherche à atteindre
l’ISO, dans un cadre plus générique, à travers la définition de la norme MPEG-4 actuellement
en cours de développement.
MPEG-4 : une norme pour les faibles débits
Pour des applications professionnelles de télévision, MPEG-2 est la solution la plus utilisée.
Il n’est cependant pas possible de produire des signaux à quelques [kb=s] avec cette norme.
Pour les faibles débits, on a développé la norme MPEG-4. L’objectif de cette norme était
ambitieux ;
MPEG-4 couvre toute la plage des débits inférieurs à 1 [Mb=s], pour permettre également le
codage de signaux de synthèse et offrir des fonctionnalités de manipulation du contenu vidéo.
La technologie divX (cf. le site DivX10) définit un format de compression de séquences
audio-visuelles largement inspiré de MPEG-4.

MPEG-7 : une norme pour caractériser le contenu vidéo


Les travaux relatifs à MPEG-4 étaient à peine terminés que démarraient déjà ceux de
MPEG 7. MPEG-7 vise à normaliser des descriptions du contenu audio-visuel. Dans une
chaîne typique de traitement où interviendrait MPEG-7, on aurait alors une extraction des

13
caractéristiques d’une scène, la représentation de ces caractéristiques par MPEG-7 et enfin la
possibilité d’effectuer des recherches avec des outils spécifiques. La norme finale s’avère
intéressante pour des applications interactives de configuration statique. La gestion
dynamique de la configuration est malaisée car il faut redéfinir et valider des schémas de
description de contenu.

14
Chapitre III : Techniques de synchronisation multimédia

La synchronisation de fichiers

La synchronisation de fichiers (ou de répertoires) est le processus permettant de faire


correspondre les contenus de deux (ou plus) emplacements de stockage.

Lorsqu'un utilisateur ajoute, modifie, ou supprime un fichier à l'endroit A, le processus de


synchronisation entre A et B ajoutera, modifiera, ou supprimera le même fichier à l'endroit B
afin que les contenus des deux répertoires restent bien des copies conformes

Distribution de contenu multimédia :


Ensemble de moyens permettant d’acheminer du contenu jusqu’à une personne au moyen
d’un réseau.
Contenu Multimédia :
Contenu numérique audio-visuel comprenant plusieurs types de media et des informations de
synchronisation, de présentation, d’interactivité • Flux élémentaire = succession temporelle de
données média d’un même type.

Producteur
• Rôle : Création, encodage, préparation à la distribution de contenu MM
• Ex : Professionnels, Personnels (« User Generated Content (UGC) »)
Fournisseur
• Rôle : Exploiter un réseau pour distribuer le contenu
• Peut également faire l’encodage et la préparation • Ex : Professionnels (TDF, Orange),
Particulier (Web Vidéo, Peer-to-Peer)
Réseaux
• Rôle : Transporter le contenu avec une qualité de service donnée (débit, délais, taux d’erreur
…)
• Moyen physique de transport - Ex : Satellite, Hertzien, Cellulaire, filaire…
• Protocoles (MPEG-2, IP, DAB …)
Consommateur
• Rôle : Recevoir et visualiser le contenu • Nécessite un récepteur adapté au réseau • Nécessite
un lecteur adapté au contenu.
Distribution centralisée 1 fournisseur / N consommateurs, N>>1
 Distribution à la demande
- Ressources systèmes importantes au niveau du fournisseur
- Stockage, puissance de calcul, bande passante
 Distribution de masse « Broadcast », « Multicast »
- Ressources systèmes mieux gérées
- Infrastructure spécialisée
Distribution décentralisée 1 fournisseur / 1 consommateur
- Répartition des ressources
- Communication bidirectionnelle ou monodirectionnelle
• Exemples: - Réseaux P2P - Vision Conférence Full-duplex
L’indexation est une technique consistant à caractériser le contenu d’un document et
l’information qu’il détient de manière à le retrouver quand on effectue des recherches sur l’un
des sujets dont il traite. La difficulté est donc de savoir caractériser et représenter
l’information documentaire pour qu’il soit aisé de la mettre en rapport avec des sujets
d’investigation. Mise en rapport d’une requête et d’un contenu représenté et synthétisé,
l’indexation permet de s’orienter dans la masse des documents et d’organiser ses
connaissances. L’indexation appartient donc à ce qu’on appelle depuis quelques années les
techniques intellectuelles.
 la dématérialisation des contenus : la notion classique de document s’est élaboré dans
un contexte où le support permettant d’enregistrer et de conserver un contenu est le
même que celui qui permet de le restituer (le papier que je lis est le même que celui
que je range). Dans le contexte numérique de dématérialisation des supports, le
support de conservation (le disque dur) n’est pas celui qui permet de restituer le
contenu (l’écran, ou le papier imprimé).
 L’intégration de différents médias sur un même support : jusqu’au numérique, chaque
média était confiné sur un support dédié sans avoir d’interaction avec les autres
médias. L’audiovisuel, enregistré sur un support magnétique (la cassette vidéo) ou
argentique (le film), n’était associé à aucune autre information : textuelle, graphique,
etc. Réciproquement, un texte pouvait difficilement inclure des photos (par exemple,

2
des pages de qualité différente au milieu d’un livre) et encore moins de l’audiovisuel.
Le numérique permet à chaque média de sortir de son splendide isolement.
L’indexation adopte par conséquent de nouvelles méthodes pour de nouvelles finalités. Les
méthodes, ce sont les moyens d’associer des index à des contenus multimédias et des objets
temporels. Les finalités renvoient à l’organisation du contenu, à l’aide de ces index, pour sa
publication et sa lecture. La recherche d’information ne devient qu’un cas particulier, l’une
des tâches nécessaires pour publier et lire des contenus multimédias.

3
Chapitre IV : Introduction aux techniques d'accès

Caractéristiques des réseaux d’opérateurs


La fonction principale d’un opérateur de télécommunication est le transport des informations
des abonnés, d’un point à un autre de son réseau (figure 7.1). Aujourd’hui, on distingue deux
types d’opérateurs : les opérateurs de câblage (câblo-opérateurs) qui disposent des
infrastructures physiques du réseau et les opérateurs de transport qui disposent des
équipements de communication des données et assurent leur transmission à travers les
infrastructures Jusqu’aux destinataires.
À ces deux types d’opérateur, il faut ajouter aujourd’hui les opérateurs de services de
communication définis par l’ARCEP (Autorité de régulation des communications
électroniques et des postes) qui sont les prestataires fournissant un accès à un réseau public de
communication contre rémunération. C’est donc l’opérateur auprès duquel un abonné
contracte un forfait.

Figure 7.1 - Réseau d’opérateurs.


L’infrastructure d’un opérateur de câblage comporte les équipements actifs (commutateurs,
multiplexeurs...) et passifs (câbles de transmission ou canaux hertziens).
Leurs capacités de transmission sont caractérisées par : les débits ; la nature du support utilisé;
les modes d’exploitation ; des liaisons de type point à point entre les équipements et le réseau;
des liaisons commutées ou spécialisées.
Multiplexage et accès au multiplex
La paire torsadée qui relie un abonné au central téléphonique est habituellement dédiée
à un utilisateur unique. Cet utilisateur peut dès lors, à sa guise et à toute heure, utiliser la
totalité du spectre fréquentiel ; par ailleurs, la technologie ADSL en tire profit. Cette
souplesse a un prix car, la ligne restant inactive pendant une très longue période, l’utilisation
moyenne de quelques dizaines de minutes par jour doit suffire à rentabiliser l’investissement
consenti par l’opérateur.
Multiplexage
Dans l’air ou sur un réseau de télédistribution, le partage du spectre et le partage
temporel des ressources font partie intégrante du dimensionnement du réseau. Ces partages
résultent de procédés de multiplexage qui consistent à combiner plusieurs signaux pour les
transmettre sur un même support.
Historiquement, on en distingue principalement deux :
– le multiplexage en fréquences (Frequency Division Multiplexing - FDM). Cette technique
de multiplexage alloue une bande de fréquences spécifique à chaque signal.
– le multiplexage temporel (Time Division Multiplexing - TDM). Il consiste à réguler les
moments d’occupation du canal pour chaque signal.
La technique plus récente du multiplexage par étalement de spectre a ouvert de
nouvelles voies pour le partage de ressources. Cette technique réalise à la fois un partage
fréquentiel et temporel.
Pour être complet, signalons qu’il existe des techniques de multiplexage propres à
certains supports. Ainsi, dans le domaine de la transmission par fibre optique, on a développé
des techniques de multiplexage par longueurs d’onde (Wave Division Multiplexing - WDM)
avec quelques variantes particulièrement adaptées à la transmission à très haut débit (Dense
Wave Division Multiplexing - DWDM).
Accès multiple
Dès lors qu’il y a multiplexage et donc partage des ressources, il convient de définir
– des moyens techniques pour accéder à ces ressources individuelles. On parle de méthodes
d’accès telles que le FDMA (la lettre A désignant Access), TDMA, CDMA, …).
– des stratégies pour disposer du canal. C’est par le biais de stratégies qu’on espère atteindre
au haut de performance (haut débit, faible délai, faible taux de congestion, …).
Combinaison de techniques de multiplexage
Les techniques de multiplexage ne sont pas nécessairement utilisées isolément. En effet, dans
le cas pratique du GSM, l’opérateur alloue une série de canaux fréquentiels. Ces canaux sont
ensuite partagés entre utilisateurs par multiplexage à répartition temporelle. On parle de

2
technique FD/TDMA. Un tel schéma est illustré à la figure 3.20. De plus, il y a séparation des
bandes de fréquence suivant que le signal va de la station de base vers l’utilisateur ou
l’inverse. Cette technique est parfois appelée FDD/TDD (le second D signifiant Duplex).
Dans le cas du standard américain IS-95, le multiplexage temporel est remplacé par un
multiplexage par spectre étalé ; il s’agit alors de FD/CDMA.

FIG. 3.20 – Partage de ressources par multiplexage en temps et en fréquence, combinaison du


TDMA et du FDMA.

Réseaux téléphoniques et réseaux de télédistribution


Voyons à présent les caractéristiques essentielles des réseaux (c’est-à-dire jusqu’à la troisième
couche du modèle OSI).
Les premiers réseaux étaient de type analogique ; ils ne véhiculaient pas de signaux
numériques.
Le réseau analogique le plus utilisé est le réseau téléphonique. Pour être précis : le réseau
téléphonique fixe ne véhicule des informations analogiques que dans la boucle locale, c’est-à-
dire entre un abonné et le central téléphonique auquel il est raccordé. Le reste du réseau est
entièrement numérique, ce qui signifie que, pour toute communication téléphonique, il y
conversion de l’analogique vers le numérique et conversion inverse.
Le réseau téléphonique
Le réseau téléphonique, aussi appelé Réseau Téléphonique Commuté (RTC) ou Public
Switched Telephone Network (PSTN) a connu un développement extraordinaire à travers le
monde.
Du côté de l’abonné, le réseau se termine par une paire de fils de cuivre reliés à une centrale.
Le téléphone qui s’y raccorde se charge de transformer le signal de parole en signal
électrique. Le signal parvient ensuite à la centrale qui le dirige vers un autre abonné en
passant éventuellement par d’autres centrales. Comme il a pour mission primaire de

3
transporter des signaux vocaux, les caractéristiques du réseau téléphonique leur sont adaptées.
Ainsi, la bande passante du signal transmis est limitée à l’intervalle 300 - 3400 [kHz] car
l’énergie du signal de parole s’y trouve principalement. D’autre part, les délais de
transmission sont très courts pour permettre un dialogue normal. Enfin, la transmission n’est
jamais interrompue pendant la communication.
Le réseau téléphonique historique est constitué d’une série de paires de cuivre reliant chaque
abonné au central. Notons qu’une paire est toujours dédiée à chaque utilisateur. La
transmission s’effectue en général de manière analogique jusqu’au central téléphonique (cf.
figure 3.21).

FIG. 3.21 – Structure d’un réseau à paires de cuivre.


À l’entrée du central, le signal analogique est converti sous forme numérique et acheminé tel
quel jusqu’au dernier central téléphonique. Le signal numérique est ensuite interpolé et
transmis sur la paire de l’abonné destinataire. Ce schéma est illustré à la figure 3.22.

FIG. 3.22 – Ligne analogique

4
Une représentation plus détaillée est fournie à la figure 3.23 : on y voit les composants
physiques.

FIG. 3.23 – Terminaison d’une paire de fils téléphoniques (d’après [5]).


Une seule paire de fils suffit théoriquement pour communiquer dans les deux directions.
Il faut néanmoins mettre en place un mécanisme pour y parvenir. Dans le cas du téléphone
analogique, on recourt à un transformateur hybride tel celui représenté à la figure 3.24. Ce
transformateur effectue l’interfaçage entre un système à 2 fils et un système à 4 fils.
A chaque passage dans un central, le signal numérique est commuté, c’est-à-dire qu’il
passe systématiquement d’une entrée spécifique à une sortie spécifique. La commutation est
rapide car le chemin de passage est établi au début de l’appel, pour toute la durée de l’appel.
On parle de circuit ou de mode connecté. Le circuit est établi grâce à des protocoles de
signalisation.
Entre l’abonné et le central téléphonique, la signalisation s’effectue par l’envoi d’une
combinaison de deux fréquences ; ce mécanisme porte le nom de Dual Tone Multi Frequency,
DTMF. Les fréquences associées aux touches du clavier sont représentées à la figure 3.25.

5
FIG. 3.25 – Clavier générant les sons à double fréquence.

En ce qui concerne la bande passante, l’opérateur garantit la délivrance d’un canal


transparent pour les fréquences comprises dans l’intervalle [300Hz; 3400Hz] ; on parle de la
bande vocale.
C’est donc dans cette bande qu’a lieu le transfert du signal vocal ainsi que les
informations numériques transmises au moyen d’un modem. Parmi les nombreuses normes de
modems, citons la norme V90, qui permet la transmission de données pouvant atteindre 56
[kb/s], et la norme V92, qui ajoute une série de fonctions à la norme V90.

FIG. 3.26 – Transmission par modem dans la bande [300Hz; 3400Hz].

A priori, le réseau téléphonique n’est pas adéquat pour la transmission de signaux


d’ordinateurs car ces signaux sont numériques à l’origine.

6
Le réseau téléphonique commuté
7.2.1 Architecture
Le réseau téléphonique comporte des opérateurs de transport de boucle locale
(majoritairement Orange) et d’interconnexion régionale (Orange, SFR, Completel...).
Les opérateurs de boucle locale offrent une interconnexion aux opérateurs
d’interconnexion qui le demandent par l’intermédiaire de commutateurs d’interconnexion
(figure 7.2).

FIG. 7.2 – Architecture réseau téléphonique commuté

A une échelle plus large, chaque opérateur d’interconnexion est structuré en deux
niveaux : régional et national. Dans cette architecture, le nombre de liens d’interconnexion
nationale est inférieur à celui de l’interconnexion régionale, mais leurs débits sont plus élevés.
Au passage du niveau régional au niveau national, les communications doivent être
multiplexées.

Les liaisons SDH et SONET


La hiérarchie {Synchronous Digital Hierarchy) normalisée par l’UIT-T et son
équivalent américain SONET {Synchronous Optical Network) sont utilisés par les opérateurs
de télécommunication dans les réseaux haut débit comme ATM pour fournir une structure de
trame et transporter des cellules ATM ou des paquets IP sur des transmissions séries point à
point généralement en fibre optique.

7
La technologie SDH conçue au départ pour des communications en mode circuit, telles
les communications téléphonique, architecture conçue à l’origine pour le transport de paquets
IP, majoritaires aujourd’hui sur l’ensemble des services.
Suivant le type de trame utilisée, SDH permet des débits hiérarchisés de quelques centaines de
mégabits par seconde à plusieurs gigabits par seconde (tableau 7.1).
Les données sont transportées dans des trames synchrones {Synchronous Transport
Module) et « empaquetées » dans des conteneurs virtuels {Virtual Container) qui englobent
les données d’un même paquet réparties sur plusieurs trames. Les trames sont émises toutes
les 125 ps.
La trame de base STM-1 comporte 9 x 270 octets (9 rangées de 270 octets).
Chaque rangée contient une partie en-tête et une partie données (figure 7.8) :
 TOH (Transport OverHead) : en-tête de transport sur 9 octets (par rangée), contient des
fanions, des informations d’erreur de trames, et la valeur du décalage du paquet de
données;
 POH (Path OverHead) : en-tête de routage sur 1 octet, contient un identificateur de chemin
(adressage au format E.164) contrôlé par une information d’erreur ;
 Champ des données : plage de 9 x 261 octets dans laquelle sont placés les paquets de
données (Synchronous Payload Envelope). Pour pouvoir adapter en temps et en longueur
le format des paquets de données aux réseaux et aux protocoles de niveaux supérieurs, un
décalage dont la valeur se trouve dans l’en-tête de transport TOH est introduit.

Figure 7.8 - Structure d’une trame STM-1 et ordre de transmission.

8
La boucle locale
Côte utilisateur, dans la mesure où les opérateurs alternatifs spécialisés dans l’accès ADSL
souhaitent bénéficier, pour des raisons essentiellement commerciales, d’un accès au plus près
de l’usager, la boucle locale tend à se rapprocher de l’abonné. Pour ce type d’exploitation, la
boucle locale correspond donc à la partie située entre la prise téléphonique de l’abonné final et
le central local (figure 7.3). Plus précisément, le terminal de l’abonné peut être un poste
téléphonique, un modem ou une installation complexe (PABX) d’une grande entreprise. De
l’autre côté, la boucle locale s’arrête au répartiteur ou sous-répartiteur, armoire qui concentre
l’ensemble des lignes d’usagers en paire de cuivre torsadée avant de les renvoyer vers le
commutateur de rattachement. La boucle locale est une facilité essentielle : un opérateur de
télécommunication doit nécessairement y avoir accès pour pouvoir offrir ses services sur le
marché de détail. C’est pourquoi Orange doit fournir un accès dégroupé à la boucle locale aux
opérateurs alternatifs.
La fibre optique
Une première solution pour mettre en place une boucle locale puissante consiste à ré
câbler complètement le réseau de distribution en fibre optique. Cette technique, dite FITL
(Fiber In-The-Loop), donne naissance à plusieurs techniques en fonction de l’emplacement de
l’extrémité de la fibre optique. La solution la plus attendue est celle qui dessert directement le
domicile de l’utilisateur. Jusqu’en 2007, la fibre optique a été réservée à des zones
industrielles, mais elle touche aujourd’hui le grand public sous la forme de la solution FTTH
(Fiber to the Home), dans laquelle se lancent de nombreux opérateurs pour proposer le très
haut débit à leurs clients : de 10 Mbit/s jusqu’à plusieurs centaines de mégabits par seconde.
La boucle locale optique se présente sous la forme illustrée à la figure 10.1. Sa topologie est
un arbre optique passif, ou PON (Passive Optical Network). La tête de réseau se trouve
derrière l’OLT (Optical Line Termination). L’autre extrémité, l’ONU (Optical Network Unit),
dessert directement le domicile de l’utilisateur ou peut être poursuivi par un réseau métallique
faisant la jonction entre l’extrémité de la fibre optique et l’utilisateur.

FIG. 10.1 – Boucle locale optique


9
Il est à noter que les étoiles optiques diffusent les signaux dans toutes les directions à
l’exception du port d’entrée. Cette propriété est particulièrement intéressante puisque, si un
utilisateur n’utilise pas son accès ou qu’il l’utilise peu, son débit peut-être attribué aux autres
utilisateurs. Si un seul utilisateur est connecté sur l’arrivée de la fibre, il possède donc
l’ensemble du débit. Comme ces réseaux PON utilisent des débits de 1, 2,5 et 10 Gbit/s, on
mesure aisément l’augmentation potentielle des débits sur la boucle locale.
En règle générale, une terminaison OLT dessert 48 clients, ce qui donne une moyenne
approximative de 50 Mbit/s par utilisateur pour un réseau PON à 2,5 Gbit/s, avec des pointes
à la vitesse maximale du support optique. Il convient cependant d’observer que la gestion du
multipoint ne permet pas d’atteindre réellement le débit maximal, mais plutôt un débit estimé
à la moitié de la valeur maximale.
Ces nouvelles capacités permettent d’exploiter de nouveaux services, comme le P2P (peer-to-
peer) avec de nombreuses connexions simultanées, la vidéo de très grande qualité, comme la
télévision haute définition, ou les murs de présence utilisant un son et une image animée de
très haute qualité.
La mise en place d’un câblage optique est acceptable dans les zones urbaines disposant de
conduits mis en place par les précédents câblages. Le coût d’une prise dans les meilleures
conditions est de 1 000 euros pour aller à des valeurs de plus de 10 000 euros si du génie civil
est nécessaire. Il est possible d’en réduire le coût en ne câblant pas la portion allant jusqu’à la
prise terminale de l’utilisateur. Il faut pour cela déterminer le point jusqu’où le câblage doit
être posé. Plusieurs solutions s’offrent pour cela à l’opérateur :
• FTTC (Fiber To The Curb). On câble jusqu’à un point assez proche de l’immeuble ou de la
maison qui doit être desservi, le reste du câblage étant effectué par l’utilisateur final.
• FTTN (Fiber to the Node). On câble jusqu’à un répartiteur dans l’immeuble lui même.
• FTTH (Fiber to the Home). On câble jusqu’à la porte de l’utilisateur.
• FTTT (Fiber to the Terminal). On câble jusqu’à la prise de l’utilisateur, à côté de son
terminal.
Le prix de revient augmentant fortement avec la proximité de l’utilisateur, la tendance a
longtemps été de câbler en fibre optique jusqu’à des points de desserte répartis dans le
quartier et à choisir d’autres solutions moins onéreuses pour aller jusqu’à l’utilisateur. Le
câblage métallique étant capable de prendre en charge des débits de quelques mégabits par
seconde sur les derniers kilomètres avec l’aide de modems xDSL, que nous détaillons
ultérieurement dans ce chapitre, il est possible de câbler en fibre optique jusqu’à un point

10
situé à 5 km au plus de l’utilisateur. En ville, cette distance est facile à respecter, mais hors
des agglomérations, d’autres solutions sont à rechercher.
Les technologies associées aux PON (Passive Optical Network) sont de type ATM, Ethernet
ou Gigabit (UIT-T), ce qui donne naissance aux APON, EPON et GPON. La première permet
de mettre en place des FSAN (Full Service Access Network). Dans la solution Ethernet,
chaque trame émise est envoyée en diffusion comme sur un réseau Ethernet partagé. La
troisième solution met en œuvre les nouvelles technologies de transmission définies par
l’UIT-T au niveau physique.
Les réseaux câblés
Une autre solution pour obtenir un réseau de distribution à haut débit consiste à utiliser le
câblage des câblo-opérateurs, lorsqu’il existe. Ce câblage a pendant longtemps été constitué
de CATV (câble TV), dont la bande passante dépasse facilement les 800 MHz. Aujourd’hui,
cette infrastructure est légèrement modifiée par la mise en place de systèmes HFC (Hybrid
Fiber/Coax), qui associent une partie en fibre optique entre la tête de réseau et le début de la
desserte par le CATV. Cette topologie est illustrée à la figure 10.4.

Figure 10.4 Topologie HFC

11
Réseaux XDSL
Les lignes métalliques ont été utilisées pendant des décennies pour le transport de la parole
téléphonique avec une bande passante de 3 200 Hz. On les utilise aujourd’hui pour
transporter, en même temps que le téléphone, des paquets de données à haut débit.
L’environnement xDSL étant présenté en détail au chapitre suivant, consacré aux connexions
terrestres à haut débit, nous n’en donnons ici qu’une introduction.
Une première caractéristique importante de cet environnement provient du câblage
téléphonique.
Entre un poste téléphonique et le commutateur de l’opérateur, un câble est totalement dédié à
la communication. Cela permet de récupérer sur chaque câble une bande passante importante
parallèlement à la bande passante téléphonique. Il existe ainsi une voie de communication de
type circuit entre l’utilisateur et le commutateur de l’opérateur, contrairement à ce qui se
passe dans les réseaux des câblo-opérateurs, dans lesquels une portion importante du câblage
est commune à l’ensemble des utilisateurs.
Sur ce circuit, les extrémités émettent des trames, qui contiennent des paquets IP.
La trame choisie a été très longtemps de type ATM, mais aujourd’hui l’Ethernet est préféré
pour son coût et sa plus grande adaptabilité.
Le sigle DSL (Data Subscriber Line) indique une ligne d’abonné pour les données. Le x
devant DSL précise le type de modem. Le modem le plus classique est précisé par un A
(Asymmetric) devant le signe ADSL. Il correspond à un débit asymétrique, en général quatre
fois plus important dans le sens descendant que dans le sens montant. Bien d’autres types de
modems ont été définis, que nous examinons au chapitre 11.
Les modems ADSL standards procurent couramment aujourd’hui des débits de 1 Mbit/s à 25
Mbit/s dans un sens et de 128 Kbit/s à 1 Mbit/s dans l’autre sens. Dans la première génération
de modems xDSL, la bande passante dédiée à la partie paquet était différente de celle dévolue
à la téléphonie ou à la télévision, si bien que les trois sortes de communications pouvaient se
faire en parallèle.

12
Chapitre VI : Services réseau et sécurité

Le Web et le protocole HTTP


Le protocole HTTP (HyperText Transfer Protocol) est celui utilisé pour l’échange de
document HTML.
Le WAP et l’i-mode : deux variantes pour l’accès à Internet dans des réseaux mobiles
Tels quels le protocole HTTP et le langage HTML sont inadéquats pour les réseaux de
transmission à faible débit car ils ne permettent pas de tenir compte de la taille de la fenêtre
du récepteur ni la compression des données pour économiser les ressources. Des industriels
regroupés au sein du WAP FORUM9 ont défini une pile de protocoles adaptés à la transmission
par GSM. Cette pile de protocoles forme le WAP (Wireless Application Protocol). Le WAP
définit également un langage de balisage spécifique appelé WML (Wireless Markup Langage).
À côté du WAP, il faut également parler de l’i-mode, système d’accès à Internet mobile,
défini par NTT DoCoMo. L’i-mode fonctionne sous le mode d’une transmission par paquet et
non pas sous la forme d’un circuit. Il s’appuie sur le langage de balisage cHTML, qui est un
sous-ensemble du langage HTML enrichi d’une série de caractères supplémentaires.
Messagerie électronique
Nous n’entrerons pas dans le détail de tous les protocoles, ce qui nous mènerait trop loin.
Tout juste le principe de l’un d’entre eux, le protocole SMTP qui permet d’envoyer du
courrier électronique, est-il illustré à la figure 3.51. Nous y avons reproduit les messages
échangés entre un client SMTP et le serveur. Le premier échange établit la connexion TCP/IP.
L’échange suivant identifie les deux acteurs. Vient ensuite la partie du dialogue propre à
l’envoi du mail.
L’ESMTP (Extended Simple Mail Transfer Protocol) est une version étendue du protocole
SMTP. Quant au téléchargement des mails, il s’effectue au moyen des protocoles POP3(Post
Office Protocol) ou IMAP4 (Internet Message Access Protocol). Ces protocoles permettent
de consulter les courriers, tout en maintenant une copie sur le serveur si souhaité.
Le formatage du contenu des couriers est effectué au moyen des spécifications MIME (Multi
purpose Internet Mail Extensions). Au départ, seuls les messages ou fichiers définis en
ASCII à 7 bits étaient correctement interprétés à la réception, excluant de ce fait
l’interprétation correcte de certains caractères accentués ou de toutes les informations
contenues dans une image. Pour y remédier, on a introduit la spécification MIME qui définit
des types de formatage applicables aux données. Bon nombre de types sont pré-définis
comme les formats d’images GIF ou JPEG, ou de documents tels le PDF. L’utilisation des
types MIME n’est pas limitée au seul courrier électronique puisqu’on y fait appel pour l’envoi
de pages Web suivant le protocole HTTP.

FIG. 3.51 – Messages échangés entre un client et un serveur de mails (suivant le protocole
SMTP).
3.5.3 Transfert de fichiers
Quand au protocole FTP (File Transfer Protocol), il sert à transmettre des fichiers. Dans une
implémentation par défaut et contrairement à HTTP, FTP garantit l’intégrité des fichiers
transmis, ce qui est particulièrement important pour la transmission de programmes
informatiques. En toute rigueur, la version 1:1 du protocole HTTP permet à un serveur de
fournir un résumé MD5 (au moyen de l’en-tête Content-MD5) à des fins de vérification
d’intégrité. Encore faut-il que le serveur HTTP fournisse ce champ dont l’envoi est optionnel.
3.5.4 Téléphonie sur IP
Pour la téléphonie sur IP (VoIP – Voice over IP), il faut distinguer deux types
d’information : les informations de service et les messages vocaux. Les informations de
service sont envoyées par TCP, puisqu’il est important qu’elles arrivent bien à destination.
Pour les messages vocaux, une retransmission est exclue en raison du temps prohibitif d’une

2
retransmission. On utilise plutôt le protocole RTP (Real-Time Transport Protocol) qui repose
sur UDP.
La transmission en temps réel est fortement influencée par les performances que l’on peut
atteindre. Les mesures de performance utilisées sont les suivantes :
– Débit utile : débit associé au message de l’utilisateur. On parle de goodput pour
caractériser le débit net.
– Délai : c’est le temps qu’il faut pour que l’information parvienne au destinataire. Le délai
est la somme de 3 temps :
– délai = temps de préparation du paquet + temps de transmission + temps d’analyse au
récepteur
– Taux d’erreur sur une ligne. Plus ce taux est élevé et plus il y a de paquets incorrects, de
retransmission, etc.
La figure 3.52 fournit les résultats d’une analyse de performance sommaire effectuée au
moyen de l’utilitaire ping. Les temps mentionnés correspondent au RTT (Round-Trip Time) ;
il s’agit du temps nécessaire pour effectuer un aller et retour.
Deux remarques s’imposent :
– le temps de transmission fluctue fortement. C’est un facteur défavorable à la transmission
car la fluctuation entraîne une gestion plus délicate des mémoires-tampons.
– le temps de transmission moyen est largement supérieur à 50 [ms], c’est-à-dire au temps de
transmission maximum autorisé pour la téléphonie analogique classique.

PING www.next.com (17.254.3.217)


64 bytes from 17.254.3.217: ttl=234 time=189.6
ms
64 bytes from 17.254.3.217: ttl=234 time=197.6
ms
64 bytes from 17.254.3.217: ttl=234 time=270.3
ms
--- www.next.com ping statistics ---
3 packets transmitted,
3 packets received,
0% packet loss
round-trip min/avg/max = 189.6/219.1/270.3 ms

FIG. 3.52 – Résultats d’un sondage de performances.


Malgré ces inconvénients, la téléphonie sur Internet reste possible. En fait, on peut l’utiliser
sur un réseau intranet, réseau qui est plus simple, d’où un temps de transmission fortement
réduit, et qui est sous contrôle. Sur Internet, il faudra attendre la généralisation de

3
l’implémentation de qualité de service. On peut s’en convaincre à partir de la figure 3.53 qui
montre la série de routeurs de passage pour une connexion à un serveur situé en Californie.
Vidéo sur IP
La vidéo sur IP permet également le développement d’autres services audiovisuels de plus en
plus présents sur Internet tels que la vidéo à la demande (VoD), la vidéoconférence ou encore
la TV numérique.
Les services de vidéo à la demande utilisent des serveurs de téléchargement de vidéo ou des
serveurs de streaming lorsque le flux vidéo est transmis en continu, sans stockage préalable.
Dans ce dernier cas, le client commence par tester les performances de la ligne. En fonction
du débit mesuré, il précisera dans une première requête la version du fichier vidéo, la qualité
étant inversement proportionnelle à la taille. Toujours en fonction du débit mesuré, un tampon
permettant de stocker temporairement une partie de la vidéo est créé. Ce tampon permettra
d’assurer une lecture continue en cas de baisse ponctuelle du débit sur le réseau (figure 8.19).

Figure 8.19 - Principe du streaming.


La Qualité de Service QoS :
• Les besoins applicatifs :
– les applications interactives ont des exigences strictes ;
– les applications voix nécessitent, quant à elles, des caractéristiques réseaux très précises
(environ 8 Kb/s avec un bon algorithme de compression et un délai de traversée du réseau
inférieur à 250 ms) Une vision résumée des caractéristiques techniques de la QOS consiste à
ne retenir dans un premier temps que les deux paramètres ci-après :
• le besoin en bande passante :
– débit constant (mode stream), majoritairement utilisé par les applications audio/vidéo et par
les applications interactives
– débit immédiat (mode burst), privilégié par les applications de type transfert de fichiers.
• le délai de traversée du réseau :

4
– les besoins seront variables, des applications n’ayant pas de contraintes de délais (transfert
de fichiers, messagerie électronique, etc …) aux applications à forte contrainte temporelle
telles que la voix. Il appartient alors au réseau de rendre prioritaires les flux de certaines
applications sensibles.
Télévision interactive
Historique
La télévision a démarré sous la forme d’un signal monochrome transmis par ondes radio. Ce
signal occupe typiquement une bande passante de 5 à 8 [MHz]. Le mode de diffusion s’est
ensuite diversifié puisque les télé distributeurs ont installé une structure câblée et on a vu
apparaître des satellites de diffusion. La notion d’interactivité est absente de ce mode de
diffusion.Au début des années 1980, la télévision amorce un virage vers le numérique
puisqu’on voit apparaître une première norme de compression vidéo
– la norme H261
– pour la vidéoconférence.
Vient ensuite la norme MPEG-1 qui est destinée à permettre le stockage d’une séquence vidéo
sur un CD-ROM avec une vitesse de transfert limitée à 1; 5 [Mb=s]. Les initiatives suivantes
en termes de compression visent d’une part à offrir des qualité de télévision supérieures et à
permettre le transfert d’images par des réseaux à faible capacité ; elles conduiront aux normes
MPEG-2 et MPEG-4 respectivement. Étant donné l’état de l’art actuel, on peut considérer
aujourd’hui que la compression est un problème réglé.
Typologie de la télévision interactive
Pour différencier les différentes offres de télévision interactive, nous proposons des critères
appartenant aux deux familles suivantes :
– le type de service,
– la mise en œuvre.
Type de service. Le premier critère de différenciation de service est la qualité du signal de
télévision. Le tableau 3.6 reprend les ordres de grandeur typiques pour les débits des signaux
numériques équivalents à des signaux analogiques.

TAB. 3.6 – Qualité des signaux et débit du signal numérique correspondant.

5
D’une manière générale, les faibles débits sont alloués à des communications totalement
bidirectionnelles et qui s’effectuent en temps réel.
Le second critère de différenciation de service est la nature de l’interactivité.
L’interactivité peut être locale ou de réseau. L’interactivité locale est une interactivité qui
reste proche de l’utilisateur. Lorsqu’il y a interactivité de réseau, un signal est renvoyé vers
l’expéditeur par le réseau qui achemine le signal de télévision ou par un autre réseau servant
de canal interactif.
L’interactivité peut aussi s’obtenir en temps réel ou en temps différé. Par exemple, pour
obtenir l’impression de temps réel lors d’une communication vocale, il faut impérativement
que le délai n’excède pas 50 [ms].
La figure 3.54 reprend l’ensemble de la terminologie de diffusion.

FIG. 3.54 – Les différents modes de communication.

6
Sécurité et cryptographie
La mise en réseau d’information offre moins de garantie de confidentialité, tout simplement
parce que plus de personnes y ont accès. La cryptographie, la science qui consiste à assurer la
confidentialité des messages, permet néanmoins de conserver un haut degré de sécurité.
En toute généralité, la mise en œuvre d’un système sécurisé comporte trois aspects :
– le chiffrement,
– des fonctions de sécurité et
– une implémentation des fonctions de sécurité dans un réseau.
Pour chacun de ces aspects, il existe plusieurs solutions. Si bien que lors de la comparaison de
produits, il importe de bien analyser ces trois aspects en détail. Nous allons à présent traiter
ces trois aspects.
3.6.1 Chiffrement
Nous comprenons les messages que nous lisons parce qu’ils nous sont présentés sous une
forme compréhensible. Dans le cas de transactions financières ou d’échanges d’informations
militaires, il importe qu’un message intercepté ne soit pas lisible. Le processus par lequel un
message est rendu incompréhensible est appelé chiffrement. Le processus de reconstruction
du texte original à partir du message chiffré est appelé déchiffrement. On parle aussi
respectivement de cryptage et de décryptage. Les étapes d’un processus de chiffrement sont
illustrées par la figure 3.57.

FIG. 3.57 – Chiffrement et déchiffrement.


Ce schéma met en lumière une déconcertante analogie avec la compression. De fait, le
chiffrement, tout comme la compression, tente de supprimer la redondance présente dans le
message. Il est probable qu’à l’avenir apparaissent des techniques qui mêlent compression et
chiffrement. Les algorithmes d’aujourd’hui n’incluent pas encore la notion de compression
car un texte chiffré est bien de longueur égale à celle du message original.
Algorithmes à clef secrète ou publique
Le texte de départ, noté M ci-après, peut être une suite de bits, un fichier texte, un signal
audio, une image, etc; la fonction de chiffrement � transforme ce message en un message
chiffré C :
= �� �

7
Si la sécurité du processus de chiffrement repose sur la confidentialité de l’algorithme, on
considère que le certain est peu sûr car, tôt ou tard, un utilisateur découvrira le secret et le
système de chiffrement s’effondrera. Pour une vraie sécurité, tous les algorithmes modernes
de chiffrement utilisent une clef, notée k1 ; c’est la raison de la présence de l’indice k1 dans
l’équation 3.7. Cette clef peut prendre une des valeurs parmi un grand nombre de valeurs
possibles.
Pour le déchiffrement D on procède de même, et si la clef de déchiffrement est identique à
celle de chiffrement, on a :
�= �
Et donc, par substitution de C de l’égalité 3.7,

�= � (�� � )
Il existe des cas où la clef de déchiffrement, notée k2, est différente de la clef de chiffrement
(figure 3.58).

FIG.
3.58 – Chiffrement et déchiffrement avec deux clefs distinctes.
Il y a deux types principaux d’algorithmes à base de clefs : à clef secrète ou à clef
publique.
Les algorithmes à clef secrète sont des algorithmes où la clef de chiffrement peut être
calculée à partir de la clef de déchiffrement et vice-versa. Les algorithmes à clef publique sont
différents. Ils sont conçus de sorte que les deux clés soient différentes et qu’il ne soit pas
possible de calculer une clef à partir de l’autre dans un temps raisonnable. Le nom
d’algorithme à clef publique vient de ce que la clef de chiffrement peut être rendue publique.
N’importe qui a le droit de l’utiliser pour chiffrer un message mais seul le détenteur de la clef
de déchiffrement peut reconstituer le message non chiffré. Dans de tels systèmes, les clefs de
chiffrement et déchiffrement sont respectivement appelées clef publique et clef privée.
De l’usage des algorithmes de chiffrement
Les algorithmes de chiffrement tels que décrits ont d’innombrables utilisations autres
que le simple fait de vouloir cacher le contenu d’un message ; ils sont alors intégrés dans des

8
protocoles complexes. Par exemple, une personne qui se connecte à un ordinateur doit fournir
son identité. Mais comment l’ordinateur peut-il être sûr de l’identité de la personne?
Classiquement, ce problème d’authentification se résout par l’octroi d’un mot de passe. Un
algorithme de chiffrement transforme alors ce mot de passe et l’ordinateur compare le
résultat avec une table de mots de passe chiffrés. Comme cette table ne contient jamais que les
mots de passe chiffrés, il n’est pas à craindre qu’un utilisateur indélicat ne prenne
connaissance d’un mot de passe en allant parcourir les fichiers de l’ordinateur.
Marquage et chiffrement
Différentes techniques ont été proposées pour protéger une œuvre. De nombreux
constructeurs misent sur l’ajout de filigranes dans le contenu. Cette opération porte le nom
watermarking (Tatouage). Le principe de la technique est illustré à la figure 2.43. Un filigrane
est inséré dans le contenu audio-visuel à l’émetteur. Ce filigrane, invisible et inaudible,
accompagne le signal utile jusqu’au récepteur.

FIG. 2.43 – Schéma d’un processus de protection par watermarking.


La sécurité dans les réseaux
Modèle de référence
Le modèle de sécurité dans les réseaux le plus complet consiste à sécuriser l’ensemble des
couches. Un sous-ensemble des fonctionnalités à implémenter est repris à la figure 3.60.

FIG. 3.60 – Modèle de sécurité.

9
La réalité s’écarte fortement de ce modèle. Non seulement, la majorité des messages circulent
en clair sur la ligne mais, en plus, il sera toujours difficile de sécuriser une communication
dont les paquets peuvent éventuellement emprunter des chemins différents.
Le protocole SSL (Secure Socket Layer) offre une première solution (la pile de protocoles
associés est illustrée à la figure 3.61). Il permet le chiffrement de l’information issue de la
couche applicative. C’est donc une solution disponible au niveau de l’utilisateur.
Les mécanismes de sécurisation utilisables dans le réseau sont représentés à la figure 3.62.

FIG. 3.61 – La pile de protocoles associés au protocole SSL.

FIG. 3.62 – Techniques de sécurisation d’un réseau.

10
On peut distinguer :
– le proxy. Un serveur proxy intercepte la requête d’un utilisateur et modifie le paquet de
manière à émettre tout message en son nom propre. Ainsi, le monde extérieur ne voit qu’une
machine. Comme le montre la figure 3.63, un proxy est toujours lié à un protocole; il faut
donc autant de proxies que de services. Lorsqu’une série de proxies sont intégrés dans une
passerelle destinée à la sécurisation, on parle d’Application Level Gateway (ALG).

FIG. 3.63 – Chaque protocole applicatif nécessite un proxy spécifique.


– le filtrage de paquets. La majorité des attaques sont effectuées par envoi massif de messages
et saturation des serveurs. Pour contrer les attaques, un routeur peut ne laisser passer que des
messages d’un certain type et détecter les rafales de messages. Ces dernières sont souvent le
signe d’une tentative d’attaque.
– la traduction d’adresses ou Network Address Translation (NAT). Bien qu’au départ le
mécanisme visait à réduire le nombre d’adresses publiques utilisées pour éviter l’épuisement
du jeu d’adresses, il est utilisé aujourd’hui pour permettre d’occulter les adresses utilisées
dans un réseau interne.
– la définition d’un tunnel. Il s’agit d’un chemin reliant deux entités spécifiques, par exemple
deux bâtiments d’une même société. Le tunnel s’appuie sur le mécanisme de l’encapsulation,
c’est-à-dire que tous les paquets IP sont chiffrés et encapsulés à l’entrée du tunnel. À la sortie,
les paquets sont décapsulés et déchiffrés. De la sorte, on garantit la confidentialité de bout en
bout. L’inconvénient majeur est la nécessité d’établir le tunnel, ce qui en fait une solution
généralement peu flexible.
Bien entendu, rien n’empêche de combiner certaines solutions. Ainsi, on peut intégrer un
firewall et un NAT transversal (FNT) ; cette solution permet même la coexistence avec une
passerelle applicative (ALG).

11

Vous aimerez peut-être aussi