Vous êtes sur la page 1sur 75

La compression vido

Tlvision analogique
! Red/Green/Blue : RGB ! Luminance :
"

"

rponse de l'oeil l'ensemble des longueurs d'ondes d'une source lumineuse transporte la "luminosit" (N/B) et la "brillance"

! Chrominance : couleur ! transformation en 3 autres signaux ! oeil moins sensible la couleur qu' la luminance
2

Tlvision analogique
! Luminance : Y = .30R + .59G + .14B ! NTSC : nuance (hue), saturation, Y/I/Q
" "

I = 0.74 (R-Y) - 0.27 (B-Y) Q = 0.48 (R-Y) + 0.41 (B-Y) U = 0.493 (B-Y) V = 0.877 (R-Y)
3

! PAL : 2 signaux de chrominance, Y/U/V


" "

Tlvision digitale
! Qualit studio TV :
luminance : 720*(486 ou 576 lignes) chrominance : 360 * (486 ou 576 lignes) Codage : 4:2:2

! Qualit vido-confrence : H.261


"

Common Intermediate Format :


Y = 352*288, U/V = 176*144 Codage : 4:1:1 Quarter CIF, Super CIF
4

! CD-Rom : 640 Mo,


" " "

soit 72 minutes de son non compress mais 30 secondes de TV (90mn = 120Go) do la compression

! Vido : visiophonie
"

1990 : H261
tlphonie visuelle sur le RNIS [ ISDN ] (Rseau Numrique Intgration de Services, 64 k bit/s) formats image CIF ( Common Intermediate Format ) et QCIF ( Quarter CIF ) dbits : px64 k bit/s (p : de 1 30)

"

1996 : H263
dbits infrieurs car pour rseau LAN (28.8 k bit/s) formats image SQCIF, 4CIF, 16CIF

30 images/s
6

! Vido : archivage et diffusion


"

1988 : fondement de MPEG


Moving Picture Coding Experts Group 3 parties : Vido, Audio et Systme (le stream )

"

1993 : MPG1
but : la qualit VHS sur un CD-ROM (=> stockage) dbit bas de 1.5 M bit/s (ima. 352x288 + audio) un accs alatoire au sein de la squence

"

1994 : MPEG2
but : diffusion de la vido (=> application tlvisuelle) adaptation aux formats ( scalabilit )
taille image 4/3 16/9 entrelac ou non, formats 4:2:0, 4:2:2, 4:4:4, compatibilit entre niveaux de qualit (normale<-> HDTV) .

MPEG3, originellement prvu pour la HDTV (TV Haute dfinition) est inclus dans MPEG2
7

MPEG2

"

1998 : MPEG4
dcomposition de la scne en lments VOP
VOP Video Object Plane chaque lment = une composante audio + une comp. Vido lments rels ou de synthse, forme arbitraire, scalabilit une bote outils de compression pour les VOP

dbits : 5 k bit/s 5 M bit/s pour la vido 2 k bit/s 64 k bit/s pour l audio


"

2000 : MPEG7 pour le multimdia ( jusqu la


description smantique de la scne)
8

Les types de signaux vido


"

3 types de signaux vido, les 3 composantes sont :


soit spares => large bande + synchronisation soit mixes (vido composite) => interfrences S-VHS (mixage que des chrominances) => compromis

"

Vido analogique :
NTSC
525 lignes/image dont 20 lignes de contrle (TV ~320 lignes) image entrelace 30 images/s, modle YIQ

PAL
625 lignes/image 25 images/s image entrelace, modle YUV

"

Vido numrique
sous-chantillonnage de la chrominance :
4:4:4 : pas d chant. 4:2:2 : chant. horizontal d un facteur 2 4:1:1 : chant. horizontal d un facteur 4 4:2:0 : chant. horizontal et vertical d un facteur 4 positionnement du pixel de chrominance

Y+Cr+Cb : Cr+Cb Y : :
10

Normes pour la vido numrique par le CCIR ( Consultative Committee for International Radio )

dbit : ~165 M bits/s pour CCIR 601 (NTSC) CIF ~ qualit VHS format 4/3

progressif

11

Normes pour la TV numrique par le ATSC ( Advance Television Systems Comittee ) 1995 : la norme pour la HDTV ( High Definition TV )

12

Standard H. 320 : famille pour RNIS

! Vido : H.261 ! Audio : G.711, G.722, G.728 ! Structure des blocs vido et audio : H.221 ! Multiplexage information de contrle : H.230 ! Units de Contrle Multipoint : H.231 ! Prise de connexions : H.242 ! Encription : H.233
13

Standard H. 261

! Format d'image :
" "

352x288/luminance, 176x144/chrominance CIF mais aussi 1/4 de CIF -> QCIF

! Dbit d'images : max 30 im/s ! Compression :


" "

ressemble MPEG avec plus de pertes


14

Nouveaux standards

! H.321 : rseaux B-ISDN ! H.322 : rseaux locaux avec qualit de service garantie ! H.323 : QoS non garantie ; LAN, Internet ! H.324 : RTC (ShareVision de CreativeLabs)

15

Video: bande passante

16

Video: autres criteres

! Variation du dlai : (suivi des lvres)


"

HTDV : 50 ms, TV : 100 ms, Confrence : 400 ms exemple : taux d'erreur 10-5 Confrence : 1 sec. entre 2 images errones TV : 2 erreurs par image HDTV (compress) : 4 erreurs par image !
17

! Erreurs de transmission
" " " "

Compression de limage anime

! Corrlation spatiale ! Corrlation temporelle ! Rduction spatiale uniquement :


" "

Motion-JPEG (M-JPEG), facile dcompresser famille MPEG-vido


18

! Rduction spatiale et temporelle :


"

Famille MPEG
! MPEG-1 : 352x240(NTSC) ou 352x288(PAL)
" "

Qualit VCR, compression : ~ 25:1 Pour stockage, 0.2 Mbps(audio) + 1.2 Mbps(vido) Qualit "broadcast", voire HDTV Entre 4 et 6 Mbps Vido-confrence, moins de 64 kbps
19

! MPEG-2 :
" "

! MPEG-4
"

MPEG: principe

! Macroblocs de 16x16 pixels/lum., et 8x8/ chrom. ! Images de rfrence : Intracoded (I), JPEG ! Images prdites : Predicted (P) ! Images interpoles : Bidirectionnal (B) ! 2 paramtres : intervalles entre deux P (m) et entre deux I (n)
20

Structure hirarchique du train binaire des standards MPEG1,2


! Le train binaire des standards MPEG1,2 est organis de faon hirarchique en ensemble de niveaux (layers). ! Layer = layer header + layer data. Ensemble des niveaux 1. Squence : Sequence layer 2. GOP : GOP layer (group of pictures) 3. Image : Picture layer 4. Couche : Slice layer 5. Macro- Bloc: MB layer 6. Bloc: Block layer
21

Structure hirarchique dune squence vido


Sequence GOP

Picture

Slice

MB (16x16) Block 8x8


22

Codage des images P mode Inter-frame

Image de rfrence

Image P courante

Vecteurs de dplacement, (distance IP M=3), SFRS, Aquaculture en Mditerrane

23

MPEG: principe

! F1 : Intracod, pas construite partir d'autres ! Certains blocs de F3 sont construit partir de F1 par un vecteur de mouvement
24

F1

F3

MPEG: principe

! Les images F2 entre les deux ont des blocs de F1 et des blocs de F3 ! Elles sont interpoles entre les deux images ! Certains blocs peuvent tre calculs par un terme d'erreur ! Les autres sont cods

25

MPEG: images I

! Elles servent de points de synchronisation ! Elles sont codes en JPEG ! Il ne doit pas y avoir plus de 400 ms entre deux images I

26

MPEG: images B et P
! chaque macrobloc : recherche dans la rfrence du bloc le plus prs ! diffrence calcule : un (P) ou deux (B) vecteurs ! macrobloc terme d'erreur est transform DCT ! applique quantification, zig-zag, RLE, Huffman ! table de quantification diffrente de I ! DPCM, Huffman sur les vecteurs de

27

MPEG: m=3, n=12

I 1

B 2 3

P 4 5 6 7 8 9 10 11 12 13 14

! 1 et 13 (I) sont compltes ! 4 est prdite / 1, 7 / 4 par diffrence ! 2 est interpole partir de 1 et 4 ! envoi : 1 4 2 3 7 5 6 10 8 9 13 11 12 16 14 ... 28

Propagation de lerreur en MPEG1


! Limitations de la propagation spatiale : chaque slice est encod indpendamment des autres ! Limitations de la propagation temporelle si lerreur est observe sur une image B, alors elle est limite cette image si lerreur est observe sur une image I, alors elle peut se propager uniquement dans le GOP courant. IBBPBBPBBPBBI si lerreur est observe sur une image P, elle peut se propager uniquement jusqu la fin du GOP courant.

29

Standard MPEG2
La structure fondamentale et les algorithmes de codage MPEG2 sont les mmes que pour MPEG1 (*) - architecture I,B,P (**) - codage du mouvement par macro-bloc Pourquoi MPEG2 ? pour rpondre aux besoins - de rsolution et de qualit suprieures; - de compatibilit avec le parc dquipement ( TV) et les canaux de transmission htrognes - de protection contre les erreurs de transmission dans des canaux bruits
30

Applications MPEG2
Tlvision numrique SD et HD; DVB ( satellite), DTTB(TNT), Production et archivage de la vido HD VOD Digital Cinma via satellite, Internet large bande Qualit de tldiffusion SD est associ un dbit 6Mbit/s pour un seul programme vido ! Qualit HD >15 (19 et plus) Mbit/sec. ! ! ! ! ! !

31

Spcificits technologiques du MPEG2


! (1) MPEG2 traite les images vido progressives et entrelaces Moyens du standard : - field/frame prediction modes - field/frame DCT ! (2) MPEG2 permet dassurer une meilleure qualit visuelle la rsolution spatiale et temporelle gale Moyens du standard : - matrice de quantification propritaire, un mode de balayage supplmentaire (alternative scan order vs. Zig-zag). ! (3) Compatibilit et adaptation aux moyens matriels de visionnage et de la transmission Moyens du standard - scalabilit - chroma support 4:2:0, 4:2:2, 4:4:4 ! (4) Orientation vers la transmission plutt que vers le stockage Moyens du standard - mcanismes de rcupration de lerreur error concealment , ex. concealment motion 32 vectors .

Modes de prdiction image/trame

Image - frame

Trame suprieure Top field

Trame infrieure
33 Bottom field

Modes de prdiction image/trame

Image de rfrence
Mode Field : Chaque trame peut tre prdite soit par la trame de la mme parit soit par la trame de la parit oppose

Image Prdite

Ainsi dans les images P pour le mode field deux vecteurs du mouvement sont possibles. 34

Field/frame prediction

Image de rfrence

Image Prdite

Mode Frame : un seul vecteur de dplacement par macro-bloc, les deux trames sont considres comme une image
35

Slection des modes de prdiction par le mouvement


Critre de slection : minimisation du critre de la mise en correspondance . Quelques indications : - Si le mouvement est fort, le mode de prdiction field sera la meilleure ; - Si le mouvement est faible alors le codage progressif ( frame ) conviendrait. Un mode supplmentaire : dual prime prdiction - permet de coder les vecteurs de dplacement de faon diffrentiel en conomisant le dbit pour le codage de vecteurs de dplacement des trames;

36

Support du mode entrelac field/frame DCT

Macroblock

Frame DCT

Mode image (frame) pour le codage des blocs (DCT) : Chaque bloc 8x8 contient les pixels de deux trames (suprieure et infrieure) et la transforme DCT est applique un tel bloc;
37

Support du mode entrelacfield/frame DCT

Macroblock

Frame DCT

Mode field DCT : chaque bloc 8x8 contient les pixels dune seule trame et la transforme DCT est applique un tel bloc; Lintrt : quand le mouvement est fort, le dcalage spatial entre les trames est important ; cela peut amener une variation importante de la luminance, donc laugmentation de la haute frquence.
38

Balayage alternatif

Zig-zag: plus convenable pour la vido aux formats progressifs

Balayage alternatif : a t propos pour le mode frame DCT: Statistiquement, lnergie savre plus forte dans les hautes frquences. RLC est donc plus efficace
39

Support du mode entrelacField DCT

Macroblock

Exemple du mouvement fort ncessitant le mode field DCT


40

Scalabilit
! Scalabilit : capacit davoir dans le mme train binaire plusieurs versions de la source. ! Dans le train binaire scalable on peut omettre des parties spcifies et dcoder une image complte avec la qualit correspondante au dbit utilis ! Scalabilit en MPEG2 ! Spatiale : le dcodeur peut dcoder les images de plusieurs rsolutions ! Temporelle : une vido peut tre dcode la cadence temporelle diffrente ! SNR : la qualit diffrente dune mme source vido dtermine par le pas de quantification. ! Les trains binaires scalables contiennent toujours le niveau de base - la version minimale de la source. 41

Profils et niveaux (I)


La diversit des rsolutions et des qualits dencodage est formalise en MPEG2 laide des profils et niveaux. Profil : est dfini comme un sous-ensemble de la syntaxe complte du train binaire Niveau : des niveaux sont dfinis lintrieur de chaque profil. Le niveau (level) est dfini comme lensemble des contraintes imposes sur les paramtres du train binaire (par exemple, la rsolution spatiale des images) Notation : profile@level, Ex. MP@LL signifie main profile@low level

42

Profile

Profils et niveaux (II) Level


main low,main, High-1440, High

Commentaire

Simple Main

SNR Spatial

Low, main High-1440 ( base layer + SNR), High-1440(Base layer + spatial) Main (Base layer + SNR), Main (Base Layer + spatial)

scalable scalable

High Profile

Scalable

43

Profile Simple Main

Level

Rsolution max, Nbr niveaux 352/288/30 720/576/30 1440/1152/60 1920/1152/60 352/288/30, 2 niveaux 720/576/30, 2 niveaux 2 niveaux : base 720/576/30 ou 352/288/30 ou 768/576/30 Etc.. Enh. 1440/1152/30

Profils et niveaux. Exemples (III) 720/576/30 main


low, main, High-1440, High

SNR

low, main

Spatial

High-1440 ( base layer + SNR),

High-1440(Base layer + spatial)

Etc..
44

MPEG 2 System
! Flux de programme (program stream) ! Flux de transport (transport stream). ! Le flux de transport est conu pour communiquer ou enregistrer un ou plusieurs programmes audio, vido ou autre. ! Avant quun flux vido puisse tre dcod, il doit tre extrait du transport stream.
Dcodeur vido Canal Dcodeur du canal Dmultiplexeur du TS Dcodeur audio Horloge

TS contenant 1 ou plusieurs programmes


45

MPEG4
H.263/MPEG4 V1. H.264/MPEG4 AVC Principes cls : Codage intra-image et inter-image par des blocs de taille variable et par combinaison des blocs (H.264) Slection du meilleur mode intra/inter, configuration locale Codage au sens dbit/distorsion.
46

La norme H.264
! Le standard de codage vido qui dpasse les performances de H. 263/MPEG4-V1 ! Lintitul AVC = Advanced Vido Coding ! Fait partie de MPEG4 = V. 10 ! ISO/IEC 14496-10 and IUT Rec H.264 ! Date 2003

47

Reprsentation et compensation du mouvement

H. 264

Partition arborescente rcursive : - dcomposition des macroblocs 16x16: 16x16, 2x 16x8, 2x8x16, 4x8x8 - dcomposition des blocs 8x8 : 8x8, 2x8x4,2x4x8, 4x4x4

48

Estimation du mouvement
Principe: recherche du vecteur optimal au sens dun critre de compensation

Previous Frame

Current Frame

MPEG2 uniquement 1 niveau : estimation du mouvement sur de macroblocs 16x16, H. 263 /MPEG4 V1 uniquement 2 niveaux : 16x16 et 8x8
49

H.264 : Compensation du mouvement arborescente

16 x 8

8 x 16

8x8

8x8 La partition la plus fine : par de blocs de taille 4x4 pixels.

8x4

4x8

4x4

50

Exemple de dcomposition optimale H. 264

From Iain E.G. Richardson : H.264 and MPEG-4, WIley, 2003

51

Codage optimal au sens dbit/distorsion


D(C)

- D(C) : distorsion du codage ;

R(C)

- R(C) : dbit associ au codage. H. 264: Comment choisir la partition optimale tant donn le dbit . maximal respecter. Partition optimale : pour le dbit donne choisir la partition minimisant la fonctionnelle derreur. 52

H. 264 Nouveauts Fondamentales


! Compensation du mouvement avec la structure de larbre; ! Transformation DCT entire; ! Mise en chelle des coefficients de DCT. ! Codage entropique CABAC Content Based Adaptive Binary Arithmetic Coding

53

Structure arborescente des macroblocks

16x16 pels 8x8 pels 4x4 pels


54

Standard MPEG7
- Une grande diversit des contenus multimdia; - Complexit de la composition; - Ncessit d accs, recherche, manipulation...

55

Objectifs et applications
Objectif du MPEG7 est d assurer interoprabilit des systmes et d applications utiliss dans la generation, management, distribution et consommation des descriptions des contenus audio-visuels. Applications : - slection des contenus de tldiffusion, radio, - librairies digitales (ctalogues des images, dictionnaires musicaux) - services de catalogues multimdia ( pages jaunes multimdias) -dition multimdia (par exemple un service personnalis des informations, production mdia).
56

Objectifs et applications

57

Elments du standard
D - descriptors DS - description schemes DDL - description definition language

58

Ds dfinissent la syntaxe et la smantique des traits caractristiques du contenu audio-visuel. Au niveau bas d abstraction
Ds peuvent inclure la forme, la texture, la couleur , le mouvement de la camra, le timbre de la musique. Au niveau d abstraction plus lev les Ds peuvent inclure des venements, les genres de contenu etc...

Elments du standard

DS permettent la construction des descriptions complexes en spcifiant la structure et la smantique des relations entre les Ds ou les DS les constituant. DDL permet une dfinition flexible des DSs bass sur XML Schema.
Production de la description Description standard Consommation de la description
59

Composantes du standard
1) ISO/IEC 15 938-1: MPEG7 - Systems 2) ISO/IEC 15 938-2 : MPEG7 DDL 3) ISO/IEC 15 938-3 : MPEG7 Visual 4) ISO/IEC 15 938-4 : MPEG7 Audio 5) ISO/IEC 15 928-5 : MPEG7 Multimedia DSs 6) ISO/IEC 15 938-6 : MPEG7 Reference Software 7) ISO/IEC 15 938-7 : MPEG-7 Conformance

60

MPEG7 Visual
MPEG-7 Visual dfinie un ensemble standardis des Ds et DSs visuels.
Pour chaque caractristique visuelle (couleur,texture, forme, mouvement, autre (reconnnaissance de visages) on normalise un nombre de descripteurs, notamment : - Ds Couleur : espace couleur, quantification couleur, couleur dominante, couleur scalable, composition couleur,structure couleur, groupe des couleurs image - Ds Texture : Texture homogne, Texture Browsing, lHistogramme des Contours - Ds Forme : Forme de la rgion, Forme de contour, Forme 3D - Ds du mouvement : mouvement de la camra, trajectoir du mouvement, mouvement paramtriqu, Activit en mouvement

61

MPEG7 Visual. Descripteurs de la couleur


Descripteurs couleur

Dominant Color

Scalable Color HSV space

Color Structure HMMD Space

Color Layout -YCrCb space

Group of frames / pictures histogram

Color Spaces YCrCb,Y, RGB, HSV HMMD


62

Descripteurs de la couleur
Nouvel espace couleur : HueMaxMinDiff (HMMD)
Blanc Intensit (sum) Degr de blanc (min)

Chroma (diff)

Couleur Pure

Degr de noir (max) Noir Hue - le mme que dans HSV Max=max(R,G,B), Min=min(R,G,B) Diff=Max-Min, Sum=(Max+Min)/2

63

Descripteurs de la couleur
Color structure descriptor : exprime la structure locale de la couleur dans l image Calcul : soit
M couleurs quantifies. L histogramme de la structure couleur est dnot par h(m), m=0,1,,M-1 o la valeur dans chaque bin reprsente le nombre d lments structurants dans l image contenant cette couleur.

Elment structurant : bloc 8x8 glissant d un pixel.

Quantification de la couleur (HMMD - HS) en 32, 64, 120, 184 couleurs Si la taille de l image > 256x256 - un sous-chantillonage de facteur de 2 est effectu.
64

Descripteurs de la couleur
Dominant color descriptor : l ensemble des couleurs dominantes dans la rgions d intrt ou dans l image entire fournit une description compacte facile indexer. Utilisation : recherche des images par similarit couleur dans des grandes bases de donnes. Ici
ime couleur dominante pourcentage dans l image variance couleur; mesure de cohrence spatiale (nombre moyen normalis des pixels connexes de mme couleur dans un voisinage 3x3).
65

Descripteurs de la couleur : exemples

Calcul des DCD aprs le moyennage 8x8 sur les blocs

Calcul des descripteurs sur le flux compress ( MPEG2 images I- DC)


66

Color Layout Descriptor

Coefficients DCT de luminance Coefficients DCT de chrominance rouge Coefficients DCT de chrominance bleu i = 6, j = 3

Color Layout Descriptor : reprsentation compacte de la distribution spatiale des couleurs dans limage, indpendante de la rsolution.
67

Color layout descriptor


image
Partitionement

64(8x8) blocs
Calcul des couleurs reprsentatives

Coefficients CL D Zigzag Scan

Cr Cb

DC T

68

Deux niveaux de granularit:


s o e en m g t

Descripteurs du mouvement

Vid

t1

t0

Moving region
69

Descripteurs du mouvement
Vido segment Mosaque Mouvement de la camra Activit de mouvement Paramtres de Warping

Rgion en mouvement Mouvement Paramtrique

Trajectoire

70

Descripteurs du mouvement
Activit de mouvement : traduit la notion intuitive de l intensit d action dans un vido segment Attributs : - intensit de d activit (l attribut principal) - direction d activit (la direction dominante parmi 8 possibles) - distribution spatiale de l activit (indication sur la taille et quantit des rgions actives dans une scne vido) - distribution temporelle de l activit
71

Descripteurs du mouvement
Intensit d activit : mesure qualitatives selon l chelle 1..5
1) intensit trs faible 2) intensit faible 3) intensit moyenne 4) intensit forte 5) intensit trs forte

Corrlation avec l amplitude des vecteurs du mouvement dans la squence

72

Descripteurs du mouvement des rgions/objets


Model de trajectoire : approximation du premier ou second ordre par morceaux. Ensemble des points-cls : coordonnes du centre de gravit de l objet (2D ou 3D); Interpolation : 1) 2)
-paramtre d interpolation - la vitesse et l acclration de l objet - positions en temps ta et tb
73

Paramtres de trajectoire
Extraction : - instants cls : chantillonnage temporel rgulier ou non - paramtres d interpolation : les drivs secondes locales des coordonnes. Utilisation lors des requtes :
Mesure de similarit des trajectoires

est la dure de i-me intervalle de temps


74

Schmas de description
Description des aspects structurels du contenu : Segment DS
Segment temporel VideoSegment, AudioSegment t Segment spatial (StillRegion)

75

Vous aimerez peut-être aussi