Chapitre 4.3 - La Vidéo

Institut supérieur de l’informatique et de gestion
Cours
technologies
multimédia
RIM NEGRA
2023-2024
Chapitre 4.3
LA VIDÉO
Que ce qu’une vidéo ?
Introduction :
− Ensemble des techniques permettant la visualisation ou l’enregistrement d’images
animées accompagnées de son ou non, sur un support électronique
d’enregistrement et sera diffusé sur un écran.
− La vidéo au sens multimédia du terme est généralement accompagnée de son,
c'est-à-dire de données audio.
3
Principe:
− L‘oeil humain a comme caractéristique d'être capable de distinguer environ 20
images par seconde.
− L’affichage de plus de 20 images/seconde, permet de tromper l‘oeil et de lui faire
croire à une image animée.
− La fluidité d'une vidéo est caractérisée par le nombre d'images/secondes (en
anglais frame rate), exprimé en FPS (Frames per second, en français trames
parseconde).
4
 Constituants :
− Une vidéo est une succession d’images fixes à une certaine cadence.
− Flux vidéo: information continu composé d’une succession d’images et de son ( 25/
secondes en Europe et 30/ seconde en USA)
− Mixage: Consiste à équilibrer les fréquences et amplitude relatives d’un certains nombre
de sources audio
− Montage: C’est l’action d’agencer images et sons. Exemple: Assembler de bout à bout
plusieurs plans pour former des séquences…
 Types :
− On distingue généralement plusieurs grandes familles d’images animées:
− Le cinéma: Il consiste à stocker sur une pellicule la succession d'images en négatif. La
restitution se fait en projetant, à partir d'une copie en positif, les images successives sur
un écran.
− La vidéo analogique: Il représente un flux continu de données analogiques.
− La vidéo numérique: Il consiste à coder la vidéo en une succession d'images numériques
5
La vidéo analogique
 Présentation :
− La vidéo analogique, représente l'information comme un flux continu de données
analogiques, destiné à être affichées sur un écran de télévision (basé sur le principe du
balayage.)
− Il existe plusieurs normes pour la vidéo analogique. Les trois principales sont :
▪ Pal
▪ SECAM
▪ NTSC
 Signal Vidéo
− Sur un récepteur de télévision, une image est obtenue par
balayage électronique successif des lignes de luminophores
constituant l’écran.
− Un écran au standard PAL ou SECAM comprend 625 lignes,
alors qu’un écran au standard NTSC n’en possède que 525.
6
 PAL/SECAM:
− PAL/SECAM (Phase Alternating Line / SEquentiel Couleur A Mémoire )
− Format utilisé en Europe pour la télévision hertzienne
− Permet de coder les vidéos sur 625 lignes à raison de 25 images par seconde à un format
4:3 (c'est-à-dire que le rapport largeur sur hauteur vaut 4/3).
− PAL et SECAM réservent 8% des lignes à la synchronisation.
− PAL et SECAM distinguent 625 lignes dont 576
seulement sont destinées au balayage réel
de l’image, le reste étant affecté à divers « services »
de synchronisation et de positionnement des
faisceaux (changement de ligne et de trame)
− PAL et SECAM: la résolution réellement
affichée est de 780 x 580.
− À 25 images par seconde, de nombreuses
personnes perçoivent un battement dans l'image.
7
 Etant donné qu'il n'était pas possible d'envoyer plus d'informations en raison
de la limitation de bande passante, il a été décidé d'entrelacer les images
 Envoyer en premier lieu les lignes paires, puis les lignes impaires.
8
 Entrelacement: Le téléviseur PAL/SECAM affiche 50 trames (demi-image) par seconde (à une fréquence de
50Hz), soit 25 images/seconde.
 Le but est d'économiser la moitié de la bande passante au prix de quelques défauts peu visibles sur un petit
écran.
 Le spot lumineux «affiche» d’abord les lignes de la trame «impaire» ( 1, 3, 5, …) en 1/50 de sec (PAL/SECAM),
ensuite les lignes de la trame paire ( 2, 4, …).
 NTSC:
 NTSC (National Television Standards Committee).
 Format utilisé en Norme utilisée aux Etats-Unis et au Japon
 Utilise un système de 525 lignes entrelacées à 30 images/sec (donc à une fréquence de 60Hz) à un format 4:3
 Comme dans le cas du PAL/SECAM, 8% des lignes servent à synchroniser le récepteur. Ainsi, étant donné que
le NTSC affiche un format d'image 4:3, la résolution réellement affichée est de 640x480.
 Le taux de rafraîchissement d’un téléviseur NTSC est de ~ 30 fps (29.97 fps).
9
La vidéo numérique
 Numérisation
− Suite rapide d'images numérisée à partir d'une source vidéo analogique (caméra,
magnétoscope,...), séquence audio synchronisée avec les images
− La vidéo numérique est constituée d’une suite de trames formées d’une matrice
rectangulaire de pixels.
− Le principe de balayage utilisé est le même que pour la vidéo analogique mais
l’entrelacement n’est pas utilisé puisque les moniteurs rafraîchissent l’écran 75
fois/seconde voir plus.
− Les images qui composent la vidéo sont présentées par des matrices RVB, voir des matrices
de luminances et chrominances séparables YCrCb. La deuxième est la plus utilisée puisqu’il
est la plus économique en mémoire.
− Dans le flux vidéo (formats spécifique) les données sont hiérarchisées comme suit:
▪ Une partie (entête) contenant des informations sur l’animation.
▪ Une partie contenant les données codées selon une norme de compression dédiée au format.
10
Fréquences Vidéo
 TV :
− Européen : 25 images / seconde
− Américain : 30 images / seconde
 Autres fréquences video utilisées (visioconférence….)
− 15 im/s, 10 im/s, 7.5 im/s
11
 Pourquoi la compression ?
 Les images fixes sont coûteuses en stockage.
− Résolution d’image : L (largeur) ×H (hauteur)
− Codage des pixels : Ppixel (ex : RVB = 3 octets / pixels)
− Pimages= (L ×H) ×Ppixels
− Les vidéos le sont encore plus, car il s’agit d’une succession de Nombre d’images fixes.
 De plus, une vidéo est souvent accompagné de son, lui aussi coûteux, mais moins que la
vidéo.
Pfilm= Pvidéo+ Paudio
 Un signal vidéo numérique est défini par :
− Résolution d’image : L (largeur) ×H (hauteur)
− Codage des pixels : Ppixel(ex : RVB = 3 octets / pixels)
− Fréquence d’affichage : FPS (nombre d’images / seconde)
− Durée T
12
 Image fixe niveaux de gris, taille 512x512; chaque pixel codé sur 8 bits
− T = 29*29*23 = 221 bits = 256 ko
 Image fixe en couleur, sans décimation de la chrominance (24 bits/pixel)
− T = 3*221bits = 768 ko
 Débit TV couleur
− taille : 720x576
− chrominance : 4:2:2 -> 2x8 bits par pixel
− fréquence: 25 im/s
− D = 720*576*16*25  166 Mbits/s
− pour 1 image TV : T  6.6 Mbits
 Débit TV brut (video + infos de service, synchro…) : 216 Mbits/s
13
 Pour stocker un film TV d ’1h30 sous format brut, il faudrait disposer de :
− T = 90*60*166  896 Tbits !!!
 Nécessité de compresser les données pour les applications réalistes ….
 En pratique :
− débit MPEG 2 pour TV (satellite...) : 1Mb/s < D < 4Mbs
− Débits MPEG 2 professionnels (chaînes, post-production)  20Mb/s
− Video bas débit (visioconférence) : 64 kb/s, 128 kb/s, 384 kb/s
14
 Poids d’une vidéo :

Pvidéo= Pimages×Ntotale d’images
= ((L ×H) ×Profondeur de couleur) ×(Durée ×nombre de FPS)
 Exemple :
Vidéo de 10 min à 25 fps, 640 x 480 pixels (NTSC), 16 millions de couleurs (RVB) :
 Pvidéo= ((640 ×480) ×3) ×((10 ×60) ×25) / (1024 * 1024* 1024)= 12.87 Go (sans compter les
données audio !)
 Pour exprimer la quantité d’informations transmise lors de la lecture d’une vidéo
 on parle de débits exprimés soit en octets ou en bits par seconde.
 Débit D d’une vidéo (sans son) :
 D = Poids / Durée = ((L ×H) ×Profondeur de couleur) ×nombre de FPS
15
 Exemple :
 Vidéo de 10 min à 25 fps, 640 x 480 pixels, 16 millions de couleurs :
 D = (((640 x 480) x 3) x 25) / (1024 x 1024) = 21.97 Mo/s
 Contraintes matérielles :
− Modem: 5 ko/s
− ADSL: 64 –256 ko/s
− Lecteur CD 50X: 7.3 Mo/s
 Support de stockage :
− CD-ROM: 650 Mo
− DVD: 4.7 Go
− Disque Dur: standard (2010): 120 Go 2 To avec un débit de 0.5 Gb/s !!
16
 Intérêt de la compression:
− La vidéo réclame des tailles et des débits de lecture très importants.
− Il est indispensable de compresser les données sur le support de stockage et de les
décompresser lors de la lecture.
▪ Pour réduire les besoins en stockage
▪ Pour diffusion sur le net («flux» ou «streaming»)
▪ Pour une lecture fluide (Disque dur, CDROM)
17
La compression vidéo
 Introduction:
− Pour réduire la taille des vidéos, il est indispensable de compresser les données sur
le support de stockage et de les décompresser lors de la lecture.
− La décompression doit être suffisamment rapide pour ne pas ralentir le flux (ici, il
faut pouvoir décompresser au moins 24 images par seconde, ainsi que le son).
 Qu’est ce qu’un CoDec ?
− Un codec (COmpression/DECompression) est un programme permettant de :
▪ Compresser des données audio ou vidéo pour créer un fichier.
▪ Décompresser des données audio ou vidéo contenues dans un fichier pour les lire.
− On distingue 2 grandes familles de codec :
▪ Sans perte (lossless) : non destructrices
▪ Avec pertes (lossy) : destructives
18
La compression vidéo
 Compression sans perte:

− Les images d’une vidéo sont compressées à l’aide d’algorithmes sans perte (ex: LZW, RLE, …),
mais à la restitution on retrouve exactement l’original sans aucune altération.
▪ Avantage : Qualité d’image parfaite.
▪ Inconvénient : Compression peu efficace.
 Compression avec perte:

− La vidéo non compressée ou compressée sans perte est trop volumineuse.
Algorithmes de codage avec pertes tirant parti des caractéristiques
psychosensorielles de l’oeil humain pour se débarrasser des informations qui ne sont pas
perçues ou qui sont redondantes.
− Il existe de nombreuses méthodes de compression avec perte : M-jpeg, Mpeg, DV, DivX …
− Ces différentes méthodes se distinguent par :
▪ leur taux de compression
▪ la qualité d’image résultante
▪ la vitesse compression / décompression
19
M-JPEG
 Animation Bitmap: M-JPEG (Motion-JPEG)

− Extension du fichier : .mjpg, Codec vidéo compressant les images en JPEG
− M-JPEG code séparément chaque image de la séquence: accès aléatoire à n'importe quelle partie d'une
vidéo (compression une par une).
− Taux de compression M-JPEG se situe généralement entre :

▪ celui de formats non compressés ex : RVB, de compression 1:1, et YCrCb, de compression 2:3 à 2:5
▪ et celui des formats basés sur le format MPEG de l’ordre de 1:100
− Débit binaire souvent très faible :
▪ Très faible devant les performances du MPEG
▪ 8 à 10 Mbit/s : utilisable dans les studios de montage numérique
▪ Environ 29 Mbit/s : pour les vidéos de bonne qualité, mais poids importants
20
MPEG
 Animation Bitmap: MPEG (Moving Pictures Experts Group)

 Les fichiers vidéo au format MPEG sont reconnaissables à leurs
extensions :
− ".mpg" ".mpeg" et ".mpv" pour des fichier contenant de la vidéo au format
MPEG 1 ou 2 ;
− ".dat" pour des données MPEG 1 contenues dans un VCD ;
− ".vob" pour des données MPEG 2 contenues dans un DVD.
 Deux façons pour faire la compression MPEG avec perte:
− Redondance spatiale: compresser les images indépendamment les unes des
autres.
▪ ex:MJPEG
− Redondance temporelle: analyser les images qui se suivent: elles sont
souvent très identiques !
▪ Lorsque deux images successives varient peu, ou localement, il suffit de ne
décrire seulement le changement d'une image à l'autre. C'est la différence
majeure entre le MPEG et le M-JPEG.
21
MPEG
 MPEG est un groupe de l’ISO, qui développe les standards internationaux de compression,
décompression, traitement et codage d'image animées et de données audio : MPEG 1, MPEG 2,
MPEG 4, MPEG 7, MPEG 21
 MPEG1:
− Première norme audio et vidéo utilisé plus tard pour les Vidéo CDs.
− Débit de 180Ko/s
− Qualité proche du VHS (352x240 à 30 images/s en NTSC et 352x288 à 25 images/s en PAL/SECAM)
− Elle comprend le format audio MPEG-1 partie 3 audio couche 3 (MP3)
 MPEG2
− Débit de 5Mo/s
− Qualité prévue pour la TV Haute Définition, actuellement TV sur ADSL
− Jusqu'à 5 canaux audios
− Format typique des DVD
 MPEG4
− Version vectorisée => interactivité avec les objets composants le flux vidéo
− Application au multimédia et au WEB
22
MPEG
 MPEG7
− Représentation standard des données pour recherche d'information dans des flux
de données (forme, taille, texture, couleur et composition, voiture rouge, ciel)
 MPEG21
− Gérer les droits d'auteur et protéger la propriété intellectuelle lors de l'échange,
la distribution et la vente de données numériques
23
MPEG
 Principe de la compression MPEG:

− La compression de type MPEG opère en 2étapes :
▪ Etude des redondances temporelles
▪ Etude des redondances spatiales
1. Etude des redondances temporelles:

La norme MPEG représente chaque image comme un ensemble de blocs 16 x16.
 Une séquence vidéo MPEG est composée de quatre types d’images:
− Les images Internes (I)
− Les images Prédictives (P)
− Les images Bidirectionnelles (B)
24
MPEG
 1-1 Les images internes (I-frame):

− Ces images, dites intra coded frames, sont codées intégralement, sans aucune
référence aux images voisines de la séquence vidéo.
− Ces images sont codées uniquement en utilisant le codage JPEG.
− Compressées indépendamment de leur contexte
− Accès aléatoire à la séquence vidéo
− Taux de compression modéré.
− Permet d’éviter une dégradation progressive de l’image au cours du temps.
− Permet de se positionner rapidement à n’importe quel endroit du film, sans avoir à
tout recalculer depuis le début.
− Il y en a donc une ou deux par seconde dans une vidéo MPEG.
25
MPEG
 1-2 Les images prédictives (P-frame):

− Codées par rapport à l’images I ou P-frames précédentes
− Les images sont décrites par différence avec les images
précédentes, en définissant des blocs, appelés macroblocs (16 ×16
pixels)qui se superposeront à l'image précédente.
− L'algorithme compare les deux images bloc par bloc et à partir d'un
certain seuil de différence, il considère le bloc de l'image
précédente différent de celui de l'image encours et lui applique une
compression JPEG.
− Vitesse d'encodage déterminée par la recherche des macroblocs
− Compression : 2 images en mémoire
− 30 à 40% de gain sur I-frame
− Propagent les erreurs
26
MPEG
− On joue sur le fait qu’il y a de grandes ressemblances (= redondance d’information) entre

deux images successives.
 1-3 Les images bidirectionnelles (B-frame):

− Image déduite d’une image I ou P-frames précédentes ET suivante en faisant la moyenne
des changements
− Avantage:
 Offre le meilleur taux de compression : 50% de gain sur P-frame 27
MPEG
 Ne propage pas les erreurs

 Inconvénient:
− Compression : 3 images en mémoire
− Parfois induit un retard (puisqu'il faut connaître l'image suivante)
28
MPEG
 Afin d'optimiser le codage MPEG, les séquences d'images dont codées suivant une suite d'images I, B, et P
dont l'ordre a été déterminé expérimentalement.
 On appelle GOP(Group Of Pictures ou en français groupes d'images) une succession d’images I, P et B servant
de motif à la structure du format MPEG.
 Un GOP commence toujours par une image I.
 ex : I B B P B B P B B
 Dans le GOP, on retrouve des images P à intervalle régulier, et des images B entre ces images I et P.
 Certains codecs insèrent une seule ou plusieurs images I dans un même GOP.
 Pour identifier un GOP, on utilise 2 nombres M et N.
− M : distance entre deux images I et P successives.
− N (N>M) : taille du GOP.
29
MPEG
 La séquence type appelée GOP 3-12 est la suivante:

IBBPBBPBBPBB
▪ Les images I insérées au début de chaque GOP(et donc toutes les N images) sont appelées
images clés.
− Propriétés:
▪ Plus il y aura d’images I dans un fichier MPEG, plus facile se fera l’édition, plus la taille
du fichier augmentera.
▪ Chaque image I permet de corriger les erreurs transmises dans un GOP par
l’intermédiaire des images P et B.
▪ Les images P propagent les erreurs jusqu’à la prochaine image I.
▪ Les images B ne peuvent pas propager d’erreurs, car aucune image n’est produite à
partir des images B.
30
MPEG
2. Etude des redondances spatiales:

− L’étude des redondances spatiales sont faites uniquement pour les images Internes (I)
− La réduction de cette redondance spatiale peut être diminuée en codant chaque image I en
JPEG.
− Cependant, la bande passante nécessaire pour transporter une vidéo codée en RVB serait trop
important environ 30 MHz)
− Pour diminuer cette bande passante, il est préférable de passer dans le mode YCrCb.
 On code les composantes couleurs en utilisant les modèles de réduction de la forme :
YCrCb en a:b:c
 «a» correspond au nombre de pixels horizontaux d’un bloc
 «a:b» définit le rapport de réduction horizontale des chrominances. Ainsi, 4:2 signifie
que le nombre de chrominances est divisé par 2
31
Espace de couleurs
 Pixel (R,G,B) représenté par un point dans l ’espace des couleurs (3 dimensions)
 L ’espace RGB ne reflète pas l ’importance visuelle des composantes : décomposition
en luminance et chrominance plus adaptée
− luminance : très importante pour l ’œil (photos noir et blanc)
− chrominance : moins importante
 Nouvel espace couleur, (Y,Cb,Cr) obtenu par transformation linéaire de (R,G,B)

 (Y,Cb,Cr) : utilisé pour la représentation des signaux numériques
 Y   0.299 0.587 0.114   R 

    
Cb    0.1687  0.3313 0.5  G 
    
    
Cr   0.5  0.4187  0.0813  B 
32
33
MPEG
 «c» définit si la réduction verticale des chrominances est effectives :

− Si «b=c», il n’y aucune réduction verticale
− Si «c=0», il y a une réduction verticale par 2
 Exemples : On ne code les composantes de chrominances :
− Qu’un pixel sur 2 (YCrCb 4:2:2)
− Qu’un pixel sur 4 (YCrCb 4:1:1)
− Qu’un pixel sur 2, mais seulement 1 ligne sur 2 (YCrCb 4:2:0)
34
MPEG
 La qualité «broadcast» (diffusion TV) utilise la proportion 4:2:2 ce qui indique que pour 4 pixels
en RVB (12 octets), on ne conserve que 4Y, 2Cr et 2Cb, soit au total 8 valeurs (8 octets) :
taux de compression = 8 / 12 = 2 / 3 < 1
 Conclusion:
− Pour compresser une vidéo au format MPEG, il faut :
 Déterminer les types d’images I, B et P contenues dans une vidéo. Pour les images I, on utilise
une réduction spatiales: par conversion des modèles RVB vers YCrCb et par compression au format
JPEG
− Pour les images B et P, on détermine la liste L des blocs (de taille 16 x 16) qui diffèrent entre celles-ci et
les images de référence.
 Pour chaque bloc de la liste :
1)- On détermine le vecteur V de déplacement entre le bloc de l’image B ou P, et le bloc de l’image de
référence
2)- On calcule la différence entre l’image B ou P, (déplacé de V) , et l’image de référence (voire même
prédite pour certaine extension MPEG).
3)- On applique la compression JPEG sur cette différence.
35
36
37

Chapitre 4.3 - La Vidéo

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 4.3 - La Vidéo

Transféré par

Droits d'auteur :

Formats disponibles

Institut supérieur de l’informatique et de gestion

 Poids d’une vidéo :

 Compression sans perte:

 Compression avec perte:

 Animation Bitmap: M-JPEG (Motion-JPEG)

− Taux de compression M-JPEG se situe généralement entre :

 Animation Bitmap: MPEG (Moving Pictures Experts Group)

 Principe de la compression MPEG:

1. Etude des redondances temporelles:

 1-1 Les images internes (I-frame):

 1-2 Les images prédictives (P-frame):

− On joue sur le fait qu’il y a de grandes ressemblances (= redondance d’information) entre

 1-3 Les images bidirectionnelles (B-frame):

 Ne propage pas les erreurs

 La séquence type appelée GOP 3-12 est la suivante:

2. Etude des redondances spatiales:

 Nouvel espace couleur, (Y,Cb,Cr) obtenu par transformation linéaire de (R,G,B)

 Y   0.299 0.587 0.114   R 

 «c» définit si la réduction verticale des chrominances est effectives :

Vous aimerez peut-être aussi