Académique Documents
Professionnel Documents
Culture Documents
Multimedia
Systèmes, Réseaux et Services
Ahmed MEHAOUA
Professeur
Université de Paris 5 – René Descartes
Laboratoire CNRS PRISM
45, av. des Etats-Unis - 78035 Versailles
mea@math-info.univ-paris5.fr
Plan
1
Bibliographie
• Internet, Multimédia et Temps réel,
Jean-François Susbielle, Eyrolles, 2001
• Http://www.mpeg.org
Définition : le multimédia
• La “communication multimédia” est une communication faisant
appel simultanément à plusieurs “moyens” ou “média” pour faire
passer un message.
2
Chaîne d’exploitation
1. Capture ou saisie
2. Numérisation
3. Codage (JPEG, MPEG, H.26x, …)
4. Stockage (Serveur, DVD, format fichier, …)
5. Transmission (IP, ATM, LAN, sans-fil, …)
6. Chaîne de restitution
Technologies / Expertises
Multiples
3
Type de Communications
Multimédia sur IP
Distant Local
Conferencing
(1)
serveur
ming ng
trea ami Playback
e S tr e
Liv (2) d S (3) Local
man
-d e
On
Stockage Téléchargement
(4)
Classification des
Services multimédia
4
Type de Communications Multimédia sur IP
Conferencing
Broadcasting
10
5
Type de Communications Multimédia sur IP
Video on Demand
11
.RM
Real
Networks Real Client
Networks
. WMV
Windows
Media
Windows
Media
.MOV
Apple
QuickTime .MP4
QuickTime
12
6
Multimédia Distant
• Problèmes :
– Synchronisation des médias / des systèmes
– Ressources de communication partagées chères
– Congestion : Contrôle des erreurs et des pertes
13
Optimisation des
communications
Multimédia
1. Numériser
2. Compresser
3. Multiplexer
• Coder à débit variable (qualité audio et vidéo)
• Transmettre à débits binaires variables (VBR)
• Utiliser un réseau à commutation de paquets
4. Routage multicast (Comm. de groupe)
14
7
Numérisation
- la clé du multimédia -
15
Numérisation (2)
Voix Internet 3400 Hz 27 Kbps
Voix PCM 8000 Hz 64 Kbps
Audio FM 22.05 KHz -
Audio Nicam 32 KHz -
Audio CD 44.1 KHz 1441 Kbps
Audio DAT Studio 48/96 KHz > 7,6 Mbps
Vidéo TV Numérique 13.5 MHz 240 Mbps
16
8
Traitement de la voix
Silent sup
CODEC
DSP
IP Voix
17
Codage de la voix
.2
Longueur 125 .2
20 ms 2,5 ms 10 ms 30 ms
trame micros
18
9
Vidéo Numérique
• Objectif :
1. préserver la qualité lors de copies multiples
2. facilité le stockage, la manipulation et la transmission
• Echantillonnage de :
– axes h et v : donne la résolution spatiale
– axe t : donne la résolution temporelle
• Ratio d’aspect : 4/3 ou 16/9
• Quantification :
v – 13.5 Mhz et 6.75 Mhz (Vidéo)
– 32 Khz (Audio)
t • Codage de chaque pixel :
– donne la résolution chromatique (15-24 bits)
h
© Ahmed Mehaoua - 19
PARAMETER SQCIF QCIF CIF 4CIF 16CIF SIF NTSC SIF PAL/SECAM
Active Pixels/Ligne (L) 128 176 352 704 1408 352 352
Temporal Resolution 30 30 25
Raw bit rate (Mbit/s) 4.4 9.115 36.45 146.0 583.9 36.45 36.45
© Ahmed Mehaoua - 20
10
Les formats vidéo numériques (2)
HDTV TV numérique SDTV
© Ahmed Mehaoua - 21
Codage Vidéo
Normes de l’OSI MPEG et UIT
22
11
Multiplexage des flux Vidéo
Codage/transmission en mode CBR ou VBR ?
VBR TV numérique
Transmission par Internet
23
Débits Vidéo
24
12
Multicast Vidéo sur IP
25
Multicast IP
• Pour offrir un service de distribution multicast sur IP il faut :
1. Un adressage multipoint
z 224.0.0.0 à 239.255.255.255 (IPV4)
z ffxy::/64 (IPV6)
2. Un protocole d’annonce des sessions multicast
z SAP : Session announcement Protocol
26
13
Système visuel humain
La rétine est une mince couche tapissant le fond de l’œil et
constituée de 2 sortes de cellules disposées côte à côte:
rétine
– cellules à bâtonnet (vision nocturne)
• sensibles à l’intensité lumineuse
• nombreuses : 120 millions Axe optique
– cellules à cône (vision diurne)
• Peu sensibles à la luminosité nerf optique
• sensibles aux couleurs
• peu nombreuses : 6 millions
• se répartissant en trois populations en fonction du pigment qu'elles renferment;
• ont une réaction électrique maximale quand on les éclaire avec des radiations
bleue (435 nm), vert (547 nm) ou rouge (700 nm) ;
• L'existence de ces 3 types de pigments rend compte du caractère trichrome de
la vision humaine et justifie, a posteriori l’utilisation du modèle RVB/RGB.
Violet Bleu Vert Jaune Rouge
© Ahmed Mehaoua - 27
lumière
Violet Bleu Vert Jaune Rouge
© Ahmed Mehaoua - 28
14
Représentation des couleurs
formats RGB vs YUV
R Y
Originale
G U
B V
29
Particularité du SAH
• Le système audio visuel humain (SAH) :
© Ahmed Mehaoua - 30
15
Compression Vidéo
Pourquoi et Comment ?
Taille des fichiers vidéo numérique très important excède les
capacités de stockage et de communication :
Exemple pour 2 heures de TV numérique CCIR 601 :
- 149 Go de stockage requis
- 166 Mbp/s de bande passante
La solution est la compression des images par la :
31
32
16
Technologies Propriétaires
© Ahmed Mehaoua - 33
I B B P B B P B B P B B I
34
17
Structure des flux vidéo numérique
.... ....
1 bande q pixels
= p macroblocs
r pixels
1 Bloc
= q x r pixels
q = r = {4, 8, 16}
1 Image
1 Macrobloc
= m bandes
= 4 blocs
= n blocs de pixels
© Ahmed Mehaoua - 35
1 6
36
18
Propagation des Erreurs
dans une image
37
38
19
Image P : codage temporel
Type MPEG/H.26x
• La redondance temporelle peut être exploitée par inter-codage, en
transmettant uniquement les différences entre images successives.
• La figure suivante montre que des images complètes sont transmises
périodiquement. Elles sont appelées images de références ou « intra-
codées » (images I), et elles sont uniquement obtenues par compression
spatiale.
– S’il se produit une erreur ou si un changement de scène intervient, on
retrouve un décodage correct à l’image I suivante.
39
Image P :
Codage Predictif + codage spatial
Image courante
Predicted
Frame
Image résiduelle
Difference
Image Référence
Key Frame
meilleure
concordance
+
Vecteur de
mouvement
Vecteur de
mouvement
Pour
chaque
Quantification DCT
Bloc
Zig-Zag
Scan
DC
RLE . . . 10110010111
Huffman
AC
Codage 40
Entropique
20
Estimation de Mouvement
nc e nte
é re ura
Ré f Co
ge ge
Im a Ima
Zone de
recherche
MV Meilleure
concordance
MH
Macroblocs
∑ ∑( X )
M N 2
1
M1 (i , j ) = m, n − X mR+ i , n + j avec i ≤ m2 , j ≤ n1
MN m= 1 n =1
41
Erreur de l’estimation de
mouvement
Image résiduelle
42
21
Transformation DCT
132 136 138 140 144 145 147 155 172 -18 15 -8 23 -9 -14 19
136 140 140 147 140 148 155 156 21 -34 24 -8 -10 11 14 7
Basses Fréquences
Moyennes Fréquences
Hautes Fréquences
43
DCT
1 coef. DCT
par bloc
(AC)
3 coef. DCT
par bloc
(AC + 2 DC)
6 coef.
par bloc
(AC + 5 DC)
64 coef. DCT
par bloc
(AC + 63 DC)
44
22
Quantification (suite)
45
46
23
Codage de Huffman
• Codage de Huffman a la propriété d'être optimal car il donne la plus petite
moyenne de longueur de code de toutes les techniques de codage statistique
• Par exemple la séquence d’entiers soumise à un codage de Huffman générera la
suite binaire qui minimise la hauteur moyenne de l'arbre Σi=0n-1 pini.
Code intiale : ‘88888888811115555555555999999997755000’
Résultat dérivé de l’arbre binaire et de la table de VLC ci-dessous : ‘01 01 01 01
01 01 01 01 01 110 110 110 110 110 00 00 00 00 00 00 00 00 00 00 10 10 10 10
10 10 10 10 1110 1110 00 00 1111 1111 1111’
• La taille des données passe ainsi de 152 bits à 90 bits avec un codage effectué
sur 4 bits max, soit un gain de 59 %.
0 1 Valeur entière Code binaire
7 2
0 3
1 5 00
0 1 0
1 4 1 8 01
0 9 10
9 8 5 8 9
8 9 1 0 1 1 110
5 12 0 1111
0 7
7 1110
47
OSI MPEG-2
- Multiplexage Audio/Vidéo -
PES
PROGRAM
ES STREAM
Vidéo Multiplexeur (paquets de
Codeur
vidéo
Paquétiseur Program longueur DVD
Stream variable, base
de temps
commune)
Horloge
TRANSPORT
STREAM
Audio Multiplexeur (paquets de
Codeur
Audio
Paquétiseur Transport
Stream
longueur fixe, DVB
pas de base
ES de temps
commune)
PES
48
24
MPEG-2 DVB
- Digital Video Broadcast -
49
MPEG-4
Introduction
Norme multimédia développée par l’ISO (14496) et
intégrant les technologies de 3 secteurs :
1. La TV numérique (compression audio/vidéo naturelle)
2. Les applications graphiques 2D/3D (synthèse d’images)
3. Le Web (interactivité, accès, transmission)
Objectif et Historique :
– En 1993 : norme de codage audiovidéo à très bas débits
– En 1994 : norme multimédia pour codage audio/vidéo par
objet
– MPEG4 Version 1 - disponible depuis fin 1999
50
25
MPEG-4 partie 2 :
les implémentations
1. Microsoft MPEG-4 Windows Media 8. Envivio (BIFS)
Format 7 9. Packet Video (Mobile solutions)
2. Divx 3.11 10. Sigma Designs et iVast (DSP Cable -
3. OpenDivX STB)
4. DivX 4/5 11. Dicas
5. Xvid (open source) 12. Sorenson (meilleure implémentation
6. 3ivX (mobile solutions) logicielle à ce jour)
7. Apple MPEG-4 - QuickTime 6 13. Philips & TI (Soft & Hard)
14. STMicroelectronics (Chip Nomadik
codec H.263/MPEG4 ASP pour
Telephone portable - Janv. 2003)
51
Qualité Vidéo
Analogique vs Numérique
52
26
Mesure de la Qualité Vidéo :
PSNR
Soit une séquence vidéo de K images et de résolution spatiale MxN
• PSNR : Peak To Signal Noise Ratio
• RMSE : Root Mean Square Error
K N M
∑ ∑ ∑ [x(i, j ,k ) − xˆ (i, j , k )]2
1
RMSE =
N ⋅M ⋅ K k =1i =1 j =1
255
PSNR = 20 ⋅ log10
RMSE
53
PSNRA = 37 dB PSNRB = 37 dB
54
27
Comparaison
MPEG2 / MPEG-4 / H.263 / H.264
Séquence Tempête CIF 30Hz
38
37
36
35
34
33
Qualité 32
Y-PSNR [dB] 31
30
29 JVT/H.264/AVC
28
MPEG-4
27
MPEG-2
26
H.263
25
55
Synchronisation
Multimédia
1. Synchronisation à l’affichage ou “Playout” :
– Jouer le signal généré à l’instant “t”, à l’instant “t+∆t” en tenant
compte de la variation du délai de transmission et des contraintes
temporelles du processus de codage
2. Synchronisation Inter-Média
– Entre l’audio et la vidéo (Lip sync)
3. Synchronisation Intra-Média
– Tous les récepteurs doivent jouer en même temps (simulations, jeux)
56
28
Application
level
Contrôleur
de dé
débits
Transport de flux
codeur codeur Moniteur
vidéo sur IP
Vidéo audio de la QoS
Packet
scheduler
Couche IP
Network IGMP
level multicast
Flux entrants Flux sortants
57
RTP/RTCP : principes
• Qu’est ce que c’est ?
RTP (Real-time Transport Protocol) est un protocole de transport de flux
temps-réel en mode multicast ou unicast :
– Conférence audio, vidéo interactive, diffusion vidéo, audio
Indépendant des couches réseaux mais habituellement implémenté au
dessus de UDP/IP.
Fortement couplé aux applications qu’il transporte : notion de PROFIL
Combiné a un protocole de signalisation de la qualité des transmissions
RTCP (Real-time Transport Control Protocol) pour la mesure des
performances et le contrôle de la session en cours,
58
29
RTP/RTCP : principes
• A quoi sert RTP ?
– Segmentation / Réassemblage des données
– Synchronisation des flux
– Indication du type de données
– Identification de l’emetteur
l’emetteur (communication multipoint)
– Détection des pertes
– Sécurisation des échanges (cryptage)
59
2 – Transport IP
RTP – Encapsulation
20 20 8 12 6
En-tête En-tête En-tête En-tête Données Fin
ETHERNET IP UDP RTP VOIX ou VIDEO ETHERNET
60
30
Paquets RTP
Ptype
0 PCM µ-Law
8 PCM A-law
9 G.722
4 G.723
15 G.728
V : version RTP 18 G.729
P : padding 31 H.261
X : en tête suivi d’une extension 34 H.263
CC : Nbre de source inclus dans le paquet RTP 94 MP4V
M: marqueur (fin d’image par exemple) 96 MP4A
61
RTSP : principes
• RFC 2326
• N° Port 554 (TCP ou UDP)
• RTSP, est un protocole de niveau Session pour visualiser en
continu des flux multimédia à partir d’un serveur distant.
• Il offre un contrôle sur les flux audio et vidéo reçus en simulant les
fonctions d’un magnétoscope tels que : pause, avance rapide, retour
rapide, et accès direct.
• Les séquences peuvent être pré-enregistrées ou « Live ».
• RTSP est conçu pour fonctionner avec des protocoles tel que RTP,
RSVP pour fournir un service « streaming » sur IP.
• Il permet de sélectionner le mode de transport (UDP, multicast UDP
ou TCP) et les fonctions de RTP.
• Il supporte le multicast dense et l’unicast.
62
31
RTSP : Setup
DESCRIBE
SETUP
PLAY
Client Serveur
RTP Audio/Vidéo
RTSP RTSP
RTCP
PAUSE
TEARDOWN
63
Communication Multimédia
sur IP : Conclusion
64
32