Académique Documents
Professionnel Documents
Culture Documents
Le Signal Video Numerique PDF
Le Signal Video Numerique PDF
com/danjean/
En Amrique du Nord, le standard pour les signaux vido analogique est appel
NTSC, qui nest pas le mme que pour les ordinateurs (VGA). Le vido tant un
mdium linaire, tout comme laudio, mais au contraire du film ou de la
photographie, il a t cr lorigine pour tre transmis "via les airs". Les images
doivent donc tre spares et transmises ou enregistres en une srie de lignes, une
aprs lautre. Ce qui fait qu nimporte quelle milliseconde, une image vido ne sera
simplement quun point se "promenant" sur un moniteur.
Le systme analogique que nous utilisons prsentement t tabli dans les annes
30, la couleur y a t ajoute au dbut des annes 50. Cest ce moment que le nom
NTSC est apparu, reprsentant le National Television Systems Committee, qui est le
comit qui tabli les standards utiliss en tlvision analogique actuellement. Il est
form de 525 lignes, avec un taux de rafrachissement de 30 frames/secondes
(29,97f/s).
Avec la tlvision numrique, le signal vido est reprsent par des chiffres (0 & 1).
Mais avec le signal analogique tout est reprsent par des voltages, et les voltages
sont affects par les longueurs de cbles, les connecteurs, la chaleur, les rubans, etc
& Idots; Cest pourquoi plusieurs ingnieurs vido affirment, la blague (???), que
NTSC veut plutt dire "Never Twice The Same Color"(jamais deux fois la mme
couleur). Deux autres systmes sont galement utiliss comme standards de
diffusion analogique, PAL (Phase Alteration Line), compos de 625 lignes, mais avec
un taux de rafrachissement de 25 frames/secondes et SECAM (Systme lectronique
pour Couleur Avec Mmoire), qui a la mme composition que PAL, mais dont la
couleur (Chrominance) est module en FM. PAL, comme NTSC, est aussi utilis pour
les enregistrements vido alors que SECAM est essentiellement un standard de
transmission.
Diffrents pays utilisent diffrents standards, cest pourquoi un signal de test a
finalement t dvelopp, quon a appel les "barres de couleur"(Color Bars) et qui
sont utilises comme standard pour assurer la consistance des images prsentes.
Les barres de couleurs "SMPTE" sont celles que nous rencontrons le plus souvent en
Amrique du Nord. SMPTE est labrviation de Society of Motion Picture and
Television Engineers , qui sont responsables dtablir la majorit des standards
utiliss en tlvision et au cinma. Ce signal est gnr par un gnrateur de barres
ou par une camra vido professionnelle. On les insre au dbut dune cassette afin
de permettre l'ajustement des couleurs et du niveau vido du document enregistr
sur la cassette. Pour lajustement, on utilise essentiellement deux outils;
Le Moniteur "Waveform":
Le moniteur waveform est un oscilloscope qui a t configur pour le signal vido. On
lutilise pour mesurer le voltage du signal et pour sassurer que toutes les pulsations
et tous les balayages du signal apparaissent au bon moment. Lutilisation premire
du waveform est de mesurer les diffrents niveaux de limage. Ces niveaux ne
doivent pas dpasser 100%(IRE), ni descendre sous la barre de 7.5%(IRE). Un signal
qui serait trop haut sera surexpos, alors quun signal qui serait trop bas sera trop
noir. En gnral, la couleur de la peau se situe autour de 70%, alors quun blanc avec
peu de dtails sera autour de 90-100% et des ombres seront en bas de 30% sur
lchelle.
Le "Vectorscope" :
Le vectorscope est un autre oscilloscope spcialis. Sa fonction est de mesurer
linformation relative aux couleurs. Dans le signal vido analogique, la couleur est
encode dans le signal principal laide dun "sous-transporteur"(SubCarrier). Cest
linformation des couleurs inscrites sur ce "sous-transporteur" qui est mesure par le
vectorscope. Elle est prsente lintrieur dun cercle. Au lieu de mesurer lintensit
des couleurs, elle mesure la saturation et la teinte (Hue). Le centre du cercle est
neutre, donc plus une couleur est prs du centre, moins elle est sature ou plus prs
du blanc et plus elle est loin du centre, plus elle est sature, ou fonce. Une couleur
peut tre fonce et trs sature ou claire et moins sature. Un noir ou un blanc
seront reprsent par un point au centre du cercle.
Vertical Interval Time Code) est destin tre enregistr dans l'image vido(pendant
l'intervalle vertical, normalement sur les lignes 16 & 18) et peut tre lu des vitesses
trs lentes, mme lors d'un arrt sur image. Le code temporel MIDI (MTC: MIDI Time
Code) est destin tre lu par les appareils rpondant la norme MIDI et la norme
de synchronisme sur le code SMPTE. Il ncessite la prsence d'un convertisseur
SMPTE/MTC. Le code temporel SMPTE est un signal binaire de 80 bits, enregistr
sous forme analogique o les valeurs des 0(zro) correspondent une tension faible
et les valeurs des 1 une tension leve. On dit aussi chronocode.
Le premier codage temporel date de 1967(socit EECO). Deux ans plus tard, un
code temporel normalis est adopt aux tats-Unis par la Society of Motion Picture
and Television Engineers (SMPTE), et en Europe par l'Union europenne de
radiodiffusion(UER, en anglais EBU: European Broadcasting Union).
* Time code Drop Frame: Le signal vido comprend en ralit 29,97
frames/secondes, pour compenser ceci et arriver une dure relle prcise, on laisse
tomber des frames chaque minute, pour un total de 4 secondes/heure.
Le principe de la numrisation d'une image vido est assez simple. La premire tape
consiste sous diviser chaque image vido selon une rsolution donne
(normalement 720 x 576 pixels pour une image vido normale) et associer une
valeur numrique chacun des lments qui forment la couleur de ce pixel (YUV ou
RGB) en utilisant une table de conversion de couleurs (normalement 24 bits par
pixels pour 16 millions de couleurs possibles en chaque point).
Ce procd de conversion doit se faire trs rapidement tant donn qu'une image
vido traditionnelle contient plusieurs milliers de pixels et que la vido analogique
PAL dfile 25 images par seconde. Heureusement, il existe actuellement sur le
march plusieurs puces permettant d'accomplir cette tche en temps rel.
L'image vido non compresse:
Si un signal vido (en NTSC) de 720x486 pixels de rsolution est numris en
utilisant la norme YUV 4:2:2, le fichier rsultant sera de 683.44 Ko par image ou
20.02 Mo/sec. C'est ce qu'on appelle le format non compress de ratio 1:1. Ces
valeurs sont calcules de la faon suivante:
720 pixels X 486 pixels X 16 bits/pixel= 699,840 octets/image.
Conversion octets/image en Koctets/image,
699,840 octets/image x 1 Ko/1024 octets= 683.44 Ko.
Conversion Koctets par image en Koctets par seconde,
683.4 Ko/image X 30 images/sec.= 20502 Ko/sec.
Conversion Koctets par seconde en Moctets par seconde,
20503.2 Ko/sec. X 1 Mo/1024 Ko = 20.02 Mo/sec.
Note: Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront
environ 19.78 Mo/sec. en se basant sur la rsolution 720 x 576 pixels 25
images/sec.
Les limitations techniques:
La capacit de stockage:
Avec un dbit d'environ 20 Mo/sec, la vido numrique non-compresse exigerait
donc plus de 1.2 Go d'espace disque pour capter 1 seule minute de vido.
La rapidit de transmission:
L'autre problme auquel on doit actuellement faire face avec la vido numrique est
le transfert de ces donnes en format numrique. Certaines technologies permettent
actuellement le transfert des donnes vido numriques non-compresses sauf
qu'elles ne sont pas toujours facilement accessibles. Pour les technologies plus
accessibles il faut donc penser a rduire le dbit des donnes.
Les solutions pour rduire le dbit:
Le problme est donc de diminuer au maximum le nombre de bits ou d'octets utiliss
pour reprsenter une image et, par l, de rduire le dbit binaire ncessaire pour la
transmettre. La premire solution est de diminuer le nombre d'images par secondes,
sauf qu'en dessous de 15 18 images par secondes notre oeil commencera capter
une saccade plutt dsagrable.
La deuxime possibilit est de rduire le nombre de points de l'image par 2 ou par 4
sauf que la qualit visuelle de l'image rsultante sera passablement rduite, voire
mme inacceptable. La troisime possibilit est de coder moins d'informations de
couleur, sur 2 octets (16 bits) par pixel en 64 000 couleurs, par exemple, ou encore
sur un seul octet par pixel en palette de 256 couleurs. Pour les applications
multimdia, cette solution est acceptable et d'ailleurs trs recommande pour les
prsentations multimdia, mais pas pour le montage vido, mme amateur.
Toutes ces mthodes auront bel et bien pour effet de rduire le dbit des donnes,
mais la dgradation de l'image sera si importante que mme un amateur la
rejetterait. La seule vraie solution au problme de dbit est apporte par la
compression, aussi appele Bit Rate Reduction (Rduction du dbit binaire). Plusieurs
mthodes ont t mises au point avec plus ou moins de succs.
La compression des donnes:
Tout d'abord, il est important de savoir que les techniques de compression du flux de
donnes numriques sont principalement bases sur une constatation : une image
contient normment d'informations redondantes, redondance dont on peut
distinguer deux types:
La redondance spatiale:
Lorsque des informations sont similaires ou se rptent dans des zones de l'image
proches l'une de l'autre (dans une image, deux points voisins sont souvent
similaires).
La redondance temporelle:
Lorsque des informations se ressemblent ou se rptent dans le temps, mme si leur
position dans l'image a chang (deux images successives sont souvent relativement
similaires).
La compression va donc consister dterminer ces redondances et les liminer. La
contrainte lie la qualit de l'image nous oblige tre capables de reproduire
l'image originale intacte ou, tout au moins, une image trs proche de celle-ci. Cette
dfinition nous amne envisager deux types de techniques pour la compression.
La compression avec perte d'information:
Il existe diffrentes techniques permettant d'obtenir des facteurs de compression
nettement plus levs qu'avec les techniques rversibles. Mais, avec de telles
mthodes, l'image reconstruite aprs dcompression, bien qu'elle reste proche de
l'image originale, n'est plus identique. On parlera alors de mthodes de compression
irrversibles.
Cependant, mme si elles induisent des pertes d'informations dans les images, en
choisissant judicieusement le type d'informations qui seront perdues ou dgrades, il
est nanmoins possible de reconstruire des images d'une qualit telle que l'oeil
humain ne pourra les distinguer des images originales. En effet, l'oeil est plus
sensible certaines notions qu' d'autres. Ainsi, une dgradation des couleurs dans
une scne remplie d'objets en mouvement rapide passera inaperue alors qu'une
faible perte de qualit dans une image fixe comportant un dgrad de couleurs sera
immdiatement perue. Ces particularits de l'oeil humain sont exploites depuis le
dbut de la vido.
Le Motion JPEG:
Il s'agit d'une extension du JPEG qui permet de traiter des squences d'images. En
ralit, il se contente de considrer une squence vido comme une succession
d'images fixes, chacune d'elles compresse sparment en utilisant le standard JPEG.
Puisque chaque image est compresse indpendamment des autres, le Motion JPEG
permet le montage l'image prs. Tant que l'on se contente de facteurs de
compression relativement faibles (de 2:1 4:1) il peut s'appliquer du travail de
production ou de postproduction de qualit et, optimis, il est quasi transparent.
Toutefois, lorsque le facteur de compression devient plus important (au del de
10:1), la dgradation des images devient telle qu'elle est aisment perceptible par
l'oeil humain. En outre, ces dgradations s'additionnent d'une gnration l'autre,
jusqu' devenir rapidement inacceptables.
Le MPEG(Moving Pictures Experts Group):
Comme nous venons de le voir, tant que l'on se contente de compresser des
squences vido en considrant chaque image sparment, le facteur de compression
peut difficilement dpasser 4:1 si l'on souhaite conserver un niveau de qualit
compatible avec un usage professionnel. Pour atteindre des facteurs de compression
suprieurs, il faut se baser sur les similitudes existant entre plusieurs images
successives. Cette constatation a donn naissance au standard MPEG. l'origine, le
standard MPEG prvoyait 4 niveaux (d'autres s'y sont ajouts depuis):
MPEG-1: destin aux applications multimdia.
MPEG-2: extension de MPEG-1 permettant d'obtenir une qualit d'image suprieure.
MPEG-3: destin la tlvision haute dfinition. Cependant, MPEG-2 s'est rvl
tellement performant qu'il a rendu inutile le dveloppement de MPEG-3.
MPEG-4: Originalement destin aux communications mobiles, sa forme originale n'a
rien voir avec le monde de la vido broadcast. D'autres dveloppements futurs
seront surveiller.
Le but du MPEG-1 tait de produire des images de qualit quivalente au VHS tout en
parvenant descendre un dbit binaire de l'ordre de 1.2 Mbits/seconde(1.5
Mbits/seconde en incluant le son).
Le MPEG-2 fut conu pour traiter des squences d'images entrelaces. Le but tait de
produire des images de la qualit d'un systme vido composite avec un dbit binaire
de l'ordre de 4 8 Mbits/seconde ou des images de haute qualit avec un dbit de 10
15 Mbits/seconde. Les domaines d'application principaux de MPEG-2 sont lis la
distribution de programmes vido: diffusion par satellite, tldistribution, Digital
Video Disc.
Comme on peut le voir, le MPEG offre un vaste ventail de possibilits, semble
flexible et permet d'atteindre une bonne qualit d'image. Ds lors, pourquoi ne pas
l'utiliser tout au long d'une chane de production vido professionnelle? Les raisons
sont multiples: MPEG conduit des systmes fortement asymtriques; le processus
de compression est beaucoup plus complexe que le processus de dcompression. Il
faut donc une puissance de calcul de loin suprieure pour la compression que pour la
dcompression. Ceci ne pose pas de problme lorsqu'il s'agit de distribuer des images
car, par dfinition, on compresse un seul endroit, lors de l'mission, puis l'on
diffuse les images qui sont dcompresses sur de multiples rcepteurs. Dans le cas
d'une chane de postproduction, il en va tout autrement; il faut pouvoir compresser et
dcompresser chaque maillon de la chane. De plus, le systme MPEG n'a pas t
conu pour faire du montage l'image prs, ce qui est un des pr-requis majeurs
pour faire de la postproduction. Des gnrations successives, entrecoupes de
traitements (effets), peuvent induire une perte de qualit qui s'avrera rapidement
inacceptable. MPEG n'a pas t conu pour permettre des oprations telles que le
"chroma key".
Paralllement aux travaux de MPEG, le secteur informatique a dvelopp ses propres
solutions pour amener la vido sur les crans des micro-ordinateurs. Les possibilits
d'affichage et de traitement permettaient, ds la fin des annes quatre-vingt,
lgrement plus grosse qu'une cassette 8mm peut contenir jusqu' 270 minutes
d'enregistrement numrique!
La technologie FireWire:
La norme FireWire, aussi connue sous le nom de IEEE-1394, a t introduite comme
une interface universelle pour la transmission des donnes sries haute vitesse
entre diffrentes composantes lectroniques telles que les disque rigides, les lecteurs
CD-ROM, les scanners et les cartes de capture vido. La technologie FireWire
supporte trois vitesses de transfert; 100, 200 et 400Mbits/sec. 16 priphriques
peuvent s'interconnecter avec une distance pouvant aller jusqu' 4 mtres entre
chaque priphrique. Le branchement se fait grce un fil 6 conducteurs regroups
en paires. Deux paires transmettent les donnes et les caractres de contrle tandis
que l'autre paire se charge de transporter l'alimentation (max. 60 W). Il existe aussi
des connecteurs quatre conducteurs dpourvus d'alimentation.
Il est important de faire la distinction entre la technologie FireWire et le DV. Les
termes sont souvent interchangeables, mais ont une fonction bien diffrente. En gros
on peut dire que la technologie Firewire est une affaire de plomberie. C'est un
standard de transmission. C'est une nouvelle manire de transmettre des
informations numriques travers un cble et une prise spciaux entre des
priphriques et un ordinateur. Le DV, quant lui, est un nouveau standard
d'enregistrement. C'est une nouvelle manire d'crire un signal vido compress sur
la bande magntique.
La tlvision numrique:
La tlvision numrique n'est plus dans le domaine du futur, elle est maintenant une
ralit dans le monde. Aux tats-Unis d'abord, o des satellites offrent depuis
quelques annes plusieurs dizaines de chanes de tlvision en numrique; en Europe
ensuite, o on assiste une vritable mobilisation depuis les premires semaines de
l'anne 1996. Ce qui a permis la rvolution numrique, ce sont les progrs raliss
dans la compression des donnes et plus particulirement les travaux du groupe de
normalisation MPEG (Moving Pictures Experts Group) dont furent issues entre autres
les normes MPEG-1 et MPEG-2.
Les avantages du numrique en matire de tlvision par satellite:
Grce la technologie du numrique, il est aujourd'hui possible de faire transiter
simultanment plusieurs programmes dans un mme canal satellite, l o on ne
pouvait en loger, en analogique, qu'un seul et unique. Cette possibilit d'acheminer
plusieurs chanes de tlvision numriques sur un mme rptiteur de satellite
permet de diffuser non plus quelques dizaines, mais quelques centaines de
programmes sur chaque satellite. Parmi les autres avantages du numrique, on peut
galement noter:
- La qualit constante des images et des sons en terme de transmission: Le
numrique est moins sujet aux perturbations extrieures que l'analogique et offre
une meilleure rsistance au bruit, au brouillage ou aux phnomnes d'cho.
- La facilitation de la compatibilit entre tous les pays: Plus de standards disparates
(NTSC, PAL, SECAM...) et une compatibilit accrue avec les quipements de
production qui sont dj numriques depuis longtemps.
- La rduction des cots: Cette multiplicit des canaux va de pair avec une rduction
du cot de la retransmission des programmes puisque, en toute thorie, on devrait
pouvoir diviser le prix actuel de la location de chacun des transpondeurs des satellites
par le nombre de programmes qui pourront y transiter.
L'Audio Engineering Society (AES) et l'European Broadcasting Union (EBU) ont tabli
conjointement une norme audio numrique connue sous le terme d'interface
AES/EBU. Cette norme propose des formats pour l'change d'informations audionumriques entre appareils audio professionnels, tout en garantissant la souplesse
ncessaire aux applications spciales. L'International Electrotechnical Commission
(IEC) a galement adopt un format bas sur la norme AES/EBU pour les appareils
audio grand public.
En bref, la norme de format AES/EBU dfinit comment deux canaux d'informations
audio sont priodiquement chantillonns et transmis sur une paire de fils torsads.
Les canaux audio Gauche et Droit sont multiplexs et sont auto-cadencs et autosynchroniss. Le format de mesure est indpendant de la frquence d'chantillonnage
recommande par l'AES et supporte, sur 24 bits, 32 kHz, 44,1 kHz et 48 kHz.
"Ne jamais transmettre ce que l'on ne peut pas entendre."
Cette compression audio, qui est entirement base sur les caractristiques de
l'audition humaine, s'accompagne de pertes et ne peut tre aborde sans une tude
pralable de ce sens. Il est surprenant de constater que l'audition humaine, et
particulirement en stro, a un pouvoir discriminatoire bien suprieur celui de la
vision et c'est pourquoi la compression audio doit tre envisage avec encore plus de
prcautions. Comme la compression vido, la compression audio ncessite plusieurs
niveaux de complexit en fonction du facteur de compression souhait.
Une autre considration importante dans l'enregistrement et la diffusion numriques
d'aujourd'hui est le monitoring du "point de crash" ou point d'atteinte du "niveau
d'entre maximum" admissible par un systme ou un quipement. Le format
d'enregistrement numrique est quelque peu plus tolrant, dans le sens o quelques
pointes "hors tolrance" tombent simplement hors de la gamme de l'appareil
numrique et ne sont pas chantillonnes. Une srie de "pops" ou de "sifflements"
qui pourraient srieusement compromettre un enregistrement analogique peuvent
tre automatiquement "attnus". Ce phnomne a entran quelques personnes
vers la fausse notion que les niveaux audio numriques pouvaient tre apprhends
de manire plus simpliste. Les appareils de mesure rudimentaires intgrs dans la
plupart des appareils numriques refltent cette attitude. Il est aussi ncessaire de
produire un volume plus consistant dans les enregistrements numriques que dans
les enregistrements analogiques. Avoir quelques prises "plus fortes" que d'autres est
plus acceptable dans le nouveau monde numrique que cela n'tait dans
l'environnement analogique. Il y a galement la mme ncessit de protger les
CRTES. L'ide qu'un "certain nombre" de crashs soit tolrable est simplement
fausse. Obtenir le volume au dtriment des crtes rsulte en une perte de dimension
et de clart.
Le mcanisme de l'audition:
L'audition se compose d'un processus physique l'intrieur de l'oreille et d'un
processus nerveux et mental qui se combinent pour donner une impression sonore.
L'impression que nous recevons n'est pas exactement similaire la forme d'onde
acoustique prsente dans le conduit auditif parce qu'une certaine entropie est
perdue. Les systmes de compression audio qui donneront de bons rsultats seront
donc ceux qui ne perdront que la partie de l'entropie qui est perdue dans le
mcanisme de l'audition.
Le mcanisme physique de l'audition se rpartit en trois parties: l'oreille externe,
l'oreille moyenne et l'oreille interne. En plus du pavillon, l'oreille externe comprend le
conduit auditif et le tympan. Le tympan transforme les sons incidents en une
vibration comme le fait un diaphragme de microphone. L'oreille interne opre en
utilisant ces vibrations transmises travers un fluide. L'impdance du fluide est bien
suprieure celle de l'air et l'oreille moyenne agit comme un transformateur
d'impdance qui effectue le transfert d'nergie.
On voit ci-dessus que les vibrations sont transfres l'oreille interne par l'trier, qui
agit sur la fentre ovale. Les vibrations du fluide de l'oreille interne parviennent au
limaon, une cavit du crne en forme de spirale (prsente droule sur la figure,
pour plus de clart). La membrane basilaire est tire sur toute la longueur du
limaon. Le poids et la consistance de cette membrane varient d'un bout l'autre.
Prs de la fentre ovale, la membrane est rigide et lgre et sa frquence de
rsonance est leve. l'autre extrmit, la membrane est lourde et souple, ce qui
fait qu'elle rsonne aux frquences basses.
La gamme de frquences disponibles dtermine la plage de l'audition humaine qui,
pour la plupart des gens, s'tend de 60 Hz 15 Khz. Les diffrentes frquences du
son incident provoquent la vibration de diffrentes parties de la membrane. Toutes
les zones de la membrane sont relies diffrentes terminaisons nerveuses qui
permettent une discrimination trs fine. La membrane basilaire est galement munie
de fins muscles commands par les nerfs et qui agissent ensemble dans une sorte de
contre-raction positive qui aurait tendance augmenter le facteur de rsonance Q.
Le comportement rsonnant de la membrane basilaire constitue une rplique exacte
d'un analyseur de transformes.
En raison de la thorie de l'incertitude, plus le domaine de frquences d'un signal est
connu, moins son domaine temporel est connu. En consquence, plus un systme est
apte dterminer la diffrence entre deux frquences, moins il est capable de
sparer le temps qui les spare. L'audition humaine a dvelopp un certain
compromis entre la discrimination incertitude temporelle et la discrimination de
frquence; ce compromis impliquant qu'aucune perfection n'est atteinte. La
discrimination imparfaite de frquences rsulte du fait de l'incapacit de sparer deux
frquences proches. Cette incapacit est connue comme un effet de masquage auditif
qui rduit la sensibilit d'un son en prsence d'un autre. La figure 3.2a montre que le
seuil d'audition est fonction de la frquence. La plus grande sensibilit se situe
naturellement dans la gamme de frquences de la parole.
En prsence d'une note pure, le seuil est modifi, tel quindiqu sur la figure 3.2b. Le
seuil est relev non seulement pour des frquences hautes, mais aussi pour quelques
frquences basses. En prsence d'une source sonore au spectre plus complexe,
comme de la musique, le seuil est relev presque toutes les frquences. Une
consquence de ce comportement est que le sifflement d'une cassette audio n'est
audible que pendant les passages trs doux de la musique.
La compression utilise ce principe en amplifiant les frquences basses avant
l'enregistrement ou la transmission et en les ramenant ultrieurement leur niveau
convenable. La discrimination imparfaite de temps montre par l'oreille est due sa
rponse rsonante. Le facteur de rsonance Q est tel qu'il faut qu'un son donn soit
prsent au moins 1 milliseconde avant qu'il ne devienne audible. cause de cette
rponse lente, le masquage peut se produire mme si les deux signaux concerns ne
sont pas simultans. Les masquages avant et arrire peuvent se produire quand le
son de masquage continue agir des niveaux plus faibles avant et aprs la dure
courante du son de masquage. La figure 3.3 dmontre ce concept. Le masquage
relve le seuil d'audition et les systmes de compression tirent parti de cet effet en
rehaussant le niveau "plancher" de bruit, permettant ainsi au signal audio d'tre
exprim avec moins de bits. Le plancher de bruit ne peut tre relev que pour les
frquences auxquelles le masquage agit. Pour maximaliser le masquage actif, il faut
dcouper le spectre audio en diffrentes bandes de frquence pour permettre
l'introduction des diffrentes quantits de compression et de bruit dans chacune
d'elles.
Codage en sous-bandes:
La figure suivante montre un compresseur bandes spares. Le filtre sparateur de
bandes est un jeu de filtres phase linaire, ayant tous la mme largeur de bande et
qui se recouvrent. La sortie de chaque bande consiste en des chantillons
reprsentatifs de la forme d'onde. Dans chaque bande de frquence, l'entre audio
est amplifie au maximum avant la transmission. Chaque niveau est ensuite ramen
sa valeur initiale. Le bruit introduit par la transmission est ainsi rduit dans chaque
bande. Si l'on compare la rduction de bruit au seuil d'audition, on s'aperoit qu'un
bruit plus important peut tre tolr dans certaines bandes du fait de l'action du
masquage. Par consquent, il est possible, dans chaque bande, de rduire la
longueur des mots d'chantillons aprs la compression. Cette technique ralise une
compression parce que le bruit introduit par la perte de rsolution est masqu. La
figure ci-dessous prsente un codeur simple bandes spares, comme ceux utiliss
dans la Couche 1 du MPEG. L'entre audio-numrique alimente un filtre de sparation
de bandes qui divise le spectre du signal en un certain nombre de bandes.
En MPEG, ce nombre est de 32. L'axe des temps est divis en blocs d'gale longueur.
Dans la couche 1 de MPEG, il y a donc 384 chantillons du signal d'entre, ce qui se
traduira, en sortie du filtre, par 12 chantillons dans chacune des 32 bandes. A
l'intrieur de chaque bande, le niveau est amplifi par multiplication jusqu' sa valeur
maximale. Le gain ncessaire est constant pour la dure du bloc et un seul facteur
d'chelle est transmis avec chaque bloc, pour chaque bande, de faon pouvoir
renverser le processus au dcodage.
Le mot de synchronisation est dtect par le gnrateur de temps qui d-srialise les
bits d'affectation et les donnes de facteur d'chelle. L'affectation de bits permet
ensuite la d-srialisation des chantillons longueurs variables. La re-quantification
inverse et la multiplication par l'inverse du facteur de compression sont appliques de
faon ramener le niveau de chaque bande sa bonne valeur. Les 32 bandes sont
ensuite rassembles dans un filtre de recombinaison pour rtablir la sortie audio.
Couche 2 du MPEG:
Cette figure montre que, lorsque le filtre de sparation de bandes est utilis pour
crer le modle de masquage, l'analyse de spectre n'est pas trs prcise dans la
mesure o il n'y a que 32 sous-bandes et que l'nergie est rpartie dans la totalit de
la bande. On ne peut pas trop augmenter le plancher de bruit car, dans le pire des
cas, le masquage n'agirait pas. Une analyse spectrale plus prcise autoriserait un
facteur de compression plus lev. Dans la couche 2 du MPEG, l'analyse spectrale est
effectue l'aide d'un processus spar.
Une FFT 512 points est effectue directement partir du signal d'entre pour le
modle de masquage. Pour amliorer la prcision de la rsolution de frquence, il
faut augmenter l'excursion temporelle de la transforme, ce qui est effectu en
portant la taille du bloc 1152 chantillons. Bien que le synoptique de la compression
de bloc soit identique celui de la couche 1 du MPEG, tous les facteurs d'chelle ne
sont pas transmis dans la mesure o, dans les images de programme, ils prsentent
un degr de redondance non ngligeable.
Le facteur d'chelle de blocs successifs excde 2dB dans moins de 10 % des cas et
on a avantage tirer parti de cette caractristique en analysant les groupes de 3
facteurs d'chelle successifs. Sur les programmes fixes, seul un facteur d'chelle sur
trois est transmis. mesure de l'augmentation de la variation dans une bande
donne, deux ou trois facteurs d'chelle sont transmis. Un code de slection est
galement transmis pour permettre au dcodeur de dterminer ce qui a t mis
dans chaque bande. Cette technique permet de diviser par deux le dbit du facteur
d'chelle.
Codage de transforme:
Les couches 1 et 2 du MPEG sont bases sur les filtres sparateurs de bandes dans
lesquels le signal est toujours reprsent comme une forme d'onde. La couche 3
utilise de son ct un codage de transforme comme celui utilis en vido. Comme
indiqu plus haut, l'oreille effectue une espce de transforme sur le son incident et,
du fait du facteur de rsonance Q de la membrane basilaire, la rponse ne peut
augmenter ou diminuer rapidement. Par consquent, si un signal audio est
transform dans le domaine frquentiel, il n'est plus ncessaire de transmettre les
coefficients trop souvent. Ce principe constitue la base du codage de transforme.
Pour des facteurs de compression plus levs, les coefficients peuvent tre requantifis, ce qui les rend moins prcis. Ce processus gnre du bruit qui pourra tre
plac des frquences o le masquage est le plus fort. Une caractristique
secondaire d'un codeur de transforme est donc que le spectre d'entre est connu
trs prcisment, ce qui permet de crer un modle de masquage trs fidle.
Couche 3 du MPEG:
Ce niveau complexe de codage n'est en ralit utilis que lorsque les facteurs de
compression les plus levs sont ncessaires. Il comporte quelques points communs
avec la couche 2. Une transforme cosinus discrte 384 coefficients de sortie par
bloc est utilise. On peut obtenir ce rsultat par un traitement direct des chantillons
d'entre mais, dans un codeur multi-niveaux, il est possible d'utiliser une transforme
hybride incorporant le filtrage 32 bandes des couches 1 et 2. Dans ce cas, les 32
sous-bandes du filtre QMF (Quadrature Mirror Filter) sont ensuite traites par une
Transforme Cosinus Discrte Modifie(Modified Discrete Cosine Transform) 32
bandes pour obtenir les 384 coefficients. Deux tailles de fentres sont utilises pour
viter les pr-oscillations la transmission. La commutation de fentres est
commande par le modle psycho-acoustique. On a trouv que le pr-cho
n'apparaissait dans l'entropie que lorsquelle tait suprieure au niveau moyen. Pour
obtenir le facteur de compression le plus lev, une quantification non-uniforme des
coefficients est effectue selon le codage de Huffman. Cette technique attribue les
mots les plus courts aux valeurs de code les plus frquentes.
Le codage AC-3:
La technique de codage audio AC-3 est utilise avec le systme ATSC la place d'un
des systmes de codage audio MPEG. DVB a aussi d l'adopter sous la pression des
industriels. Le systme AC-3 est bas sur une transforme et obtient le gain de
codage en re-quantifiant les coefficients de frquence. L'entre PCM d'un codeur AC-3
est divise en blocs par des fentres qui se chevauchent comme indiqu ci dessous.
Ces blocs contiennent chacun 512 chantillons mais, du fait du chevauchement total,
il existe une redondance de 100%. Aprs la transforme, il existe donc 512
coefficients qui peuvent, du fait de la redondance, tre ramens 256 l'aide d'une
technique appele Suppression par aliasing dans le domaine temporel (TDAC, Time
Domain Aliasing Cancelation).
La forme du signal d'entre est analyse et, s'il existe une volution significative dans
la seconde moiti du bloc, le signal sera spar en deux pour viter les pr-chos.
Dans ce cas, le nombre de coefficients reste le mme mais la rsolution de frquence
sera divise par deux et la rsolution temporelle double. Un indicateur (flag) est
plac dans le flux de bits pour signaler que cette opration a t effectue. Les
coefficients sont mis sous un format virgule flottante avec une mantisse et un
exposant. La reprsentation est l'quivalent binaire de la notation scientifique.
Les exposants constituent en fait les facteurs d'chelle. Le jeu d'exposants d'un bloc
produit l'analyse spectrale d'un signal d'entre avec une prcision finie sur une
chelle logarithmique appele enveloppe spectrale. Cette analyse spectrale est le
signal d'entre du modle de masquage dfinissant, pour chaque frquence, le
niveau jusqu'o le bruit peut tre augment. Le modle de masquage pilote le
processus de re-quantification qui diminue la prcision de chaque coefficient en
arrondissant la mantisse. Cette mantisse constitue une partie significative de la
donne transmise. Les exposants sont galement transmis mais pas intgralement
dans la mesure o la redondance qu'ils comportent peut tre ultrieurement
exploite.
A l'intrieur d'un bloc, seul le premier exposant (celui de la frquence la plus base)
est transmis dans sa forme absolue. Les autres sont transmis de faon diffrentielle
et le dcodeur ajoute la diffrence avec l'exposant prcdent. Quand le signal audio
prsente un spectre assez aplati, les exposants peuvent tre identiques pour
plusieurs bandes de frquences. Les exposants peuvent alors tre assembls en
groupes de deux quatre avec un indicateur dcrivant leur mode de groupement.
Des jeux de six blocs sont assembls dans une trame de synchro AC-3. Le premier
bloc de la trame comporte la donne complte pour l'exposant mais, dans le cas de
signaux constants, les blocs suivants de la trame peuvent utiliser le mme exposant.
Voici un schma du fonctionnement de l'encodeur AC-3:
Le schma suivant montre comment le signal AC-3 est transmis et reu en DVB:
Un niveau de bruit suprieur est acceptable pour des frquences spatiales leves. Il
sensuit que le bruit vido est effectivement masqu par un fin dtail dimage alors
quil sera plus apparent pour les vastes zones unicolores. Sachant que les mesures de
bruit sont toujours pondres, on comprendra que cette mthode de mesure se
rapporte ce rsultat subjectif.
Codage spatial ou temporel:
Comme nous lavons dit, la compression vido utilise les avantages des deux
redondances (spatiale et temporelle). En MPEG-2, la redondance temporelle est
dabord rduite en utilisant les similitudes entre deux images successives. La plus
grande partie possible de limage courante est cre (ou prdite) en utilisant
linformation de limage dj mise. Quand on utilise cette technique, il suffit de
transmettre une image de diffrence qui limine les diffrences entre limage actuelle
et limage de prdiction. Limage de diffrence est ensuite soumise une
compression spatiale. Pour des raisons pratiques, il est plus facile dexpliquer la
compression spatiale avant daborder la compression temporelle.
La compression spatiale utilise la similarit entre des pixels adjacents sur une surface
unie et tient compte des frquences spatiales dominantes existant dans les zones en
amont. Le JPEG utilise uniquement la compression spatiale dans la mesure o ce
systme est conu pour la transmission des images fixes. Le JPEG peut cependant
tre employ pour la transmission de squences dimages fixes. Dans cette
application, appele Motion JPEG, le facteur de compression nest pas aussi bon que
si lon utilisait le codage temporel, mais il sera cependant possible deffectuer un
montage du flux de bits pour effectuer un montage image par image.
Codage spatial:
En codage spatial, la premire tape consiste effectuer une analyse de frquence
spatiale laide dune transforme. Une transforme est un outil mathmatique
permettant de traduire une forme donde en diffrents domaines et, dans notre cas,
dans le domaine frquentiel. Le rsultat dune transforme est une suite de
coefficients dcrivant lamplitude de chaque composante frquentielle prsente dans
le signal. Une transforme inverse reproduit le signal initial. Si les coefficients sont
grs avec une prcision suffisante, la sortie de la transforme inverse doit tre
identique la forme donde originale. La transforme la plus rpandue est la
transforme de Fourrier. Cette transforme cherche chaque frquence comprise dans
le signal dentre. Elle caractrise chaque frquence en multipliant le signal dentre
par un exemple de la frquence cible appele fonction de base et en intgrant le
produit obtenu. La figure ci-dessous montre que, lorsque la forme de signal dentre
ne contient pas de composante la frquence cible, lintgrale sera nulle, mais sil en
comporte une, lintgrale constituera un coefficient caractrisant lamplitude de cette
composante.
L'illustration ci-dessus montre que cette opration de miroir limine toutes les
composantes sinus et double les composantes cosinus. La fonction de base sinus ne
se rvle donc plus utile et un seul coefficient reste alors ncessaire pour chaque
frquence.
"Intra-Frame DCT coding":
La Transforme Cosinus Discrte (DCT, Discrete Cosine Transform) est la version
chantillonne de la transforme cosinus, elle est utilise sous forme
bidimensionnelle en MPEG-2. Le bloc de 8x8 pixels est chang en bloc de 8x8
coefficients. Comme la transformation rside en une multiplication par une fraction, il
se produit un allongement du mot provenant du fait que les coefficients ont une
longueur suprieure celle des valeurs de pixels. Un bloc de pixels 8 bits devient
alors un bloc de coefficients 11 bits. Une DCT ne constitue pas alors une
compression, mais elle obtient, en fait, le rsultat inverse. Cependant, la DCT
convertit la source de pixels en une forme facilitant la compression.
La figure suivante montre le rsultat dune transforme inverse des coefficients
individuels dune DCT pour un bloc 8x8. Dans les images relles, diverses frquences
spatiales verticales et horizontales peuvent se produire simultanment et un
coefficient en un certain point en reprsente toutes les combinaisons possibles.
La figure montre galement les coefficients sous une forme donde horizontale
unidimensionnelle. La combinaison de ces formes donde avec diverses amplitudes et
une polarit quelconque doit permettre de reproduire toutes combinaisons des 8
pixels. La combinaison des 64 coefficients de la DCT-2D permettra de reconstituer le
bloc initial de 8x8 pixels.
En ce qui concerne les images couleurs, il est clair que les signaux de diffrence de
couleur devront galement tre traits. Les signaux Y, Cr et Cb seront donc
assembls en rseaux spars de 8x8 pixels et traits sparment. Dans la plupart
des signaux correspondant aux images de programme, la majorit des coefficients a
une valeur nulle ou proche de zro. Il ne sera donc pas ncessaire de les
transmettre. Il en rsulte une compression non ngligeable sans perte vritablement
consquente.
Motion-compensated inter-frame prediction:
Cette technique exploite la redondance temporelle en essayant de prdire le "frame"
tre cod partir d'un "frame" de rfrence. La prdiction ne peut tre base sur
une image "source" car la prdiction doit pouvoir tre rpte dans le dcodeur, l o
les images "sources" n'existent pas( L'image dcode n'est pas identique l'image
source car le procd de rduction du "bit rate" introduit des petites distorsions dans
l'image dcode). En consquence, l'encodeur contient lui-mme un dcodeur qui
reconstruit l'image exactement comme elle sera dans le dcodeur, ce qui permet de
faire des prdictions.
La prdiction la plus simple du bloc encoder est celle qui utilise le bloc le plus prs
de l'image de rfrence. Ceci permet de raliser une bonne prdiction pour les
rgions stationnaires de l'image, mais russissent moins bien dans les rgions o il y
a mouvement. Quand un objet se dplace sur lcran TV, il apparat un endroit
diffrent, mais il ne change pas beaucoup daspect. On introduit donc une mthode
plus sophistique, appele motion-compensated inter-frame prediction, qui consiste
copier(offset) tout mouvement translationnel qui existe entre le bloc qui est encod
et le "frame" de rfrence et utiliser le bloc ainsi cr comme prdiction. La
diffrence dimage peut tre rduite en mesurant le dplacement au codeur. Ce
dplacement est transmis au dcodeur sous la forme dun vecteur. Le dcodeur
utilise ce vecteur pour dcaler une partie de limage prcdente vers lemplacement
appropri dans la nouvelle image. Un vecteur concerne le dplacement dune zone
entire de limage appele macrobloc. La taille dun macrobloc est dtermine par
le codage DCT et la structure de sous-chantillonnage couleur.
Les blocs de prdiction sont crs de plusieurs manires diffrentes. Par exemple, un
bloc pourra tre prdit partir d'une image prcdente (forward predicted), d'une
image suivante (backward predicted) ou bi-directionnellement(bidirectionnally
predicted) en faisant une moyenne des prdictions prcdentes et suivantes. La
mthode utilise peut changer d'un bloc l'autre. Le codage bidirectionnel rduit
considrablement la quantit de donnes de diffrence ncessaire lamlioration du
degr possible de prdiction. Pour chaque bloc coder, l'encodeur choisit la meilleure
mthode pour maximiser la qualit de l'image selon les contraintes du "bit rate". La
mthode choisie est ensuite transmise au dcodeur pour reconstituer l'image
correctement.
Dans les images caractristiques de programme, les coefficients les plus significatifs
de la DCT se trouvent gnralement dans le coin suprieur gauche de la matrice.
Aprs pondration, les coefficients de faible valeur seront tronqus zro. On
obtiendra une transmission plus efficace si on met dabord tous les coefficients nonnuls et quun code indique ensuite que tous les autres sont zro. La scrutation
constitue une technique qui augmente la probabilit dobtenir ce rsultat car elle
met les coefficients dans lordre probable damplitude dcroissante.
La figure ci-dessus montre que, dans un systme non entrelac, la probabilit davoir
un coefficient de forte valeur est trs leve dans le coin suprieur gauche et trs
faible dans le coin infrieur droit. Une scrutation 45 degrs constitue, dans ce cas,
la meilleure solution. Dans la figure de droite, on peut voir la scrutation adapte
une source entrelace. Dans une image entrelace, un bloc de 8x8 pixels dune trame
couvre deux fois sa surface sur lcran, ce qui fait que, pour une dfinition donne de
limage, les frquences verticales paratront le double de leurs homologues
horizontales. Cest pourquoi le balayage idal, pour une source entrelace, sera
effectu en diagonale pente double. La figure de droite montre quune frquence
spatiale verticale est balaye avant la frquence spatiale horizontale identique.
Codage de lentropie:
Dans une image vido anime, toutes les frquences spatiales ne sont pas prsentes
simultanment, la matrice de coefficients de la DCT comportera donc des termes
nuls. Malgr la scrutation, des termes nuls apparatront encore au milieu des
coefficients non-nuls. Le codage RLC (Run Length Coding) permet de grer plus
efficacement ces coefficients. Quand une suite de valeurs identiques, comme des
zros, existe, le codage RLC met simplement le nombre de zros plutt que toute la
suite de bits nuls. On peut tudier la probabilit de rptition de certaines valeurs
particulires de coefficients dans la vido relle. En pratique, certaines valeurs se
rencontrent frquemment et dautres moins souvent. Cette information statistique
peut tre utilise pour effectuer ultrieurement une compression longueur variable
(VLC). Les valeurs les plus frquentes sont codes en mots de code courts et les
autres en mots plus longs. Pour faciliter la d-srialisation on peut utiliser un mot de
code comme prfixe pour les autres.
Un codeur spatial:
La figure suivante regroupe lensemble des concepts de codage prcdemment
voqus.
La figure ci-dessus montre galement que les donnes de limage P sont mises
avant celles de limage B. Notez galement que les dernires images B du GOP ne
peuvent tre transmises quaprs la premire image I du GOP suivant, dans la
mesure o elles ont besoin de son contenu pour tre dcodes bi-directionnellement.
Afin de replacer convenablement les images dans leur ordre, une rfrence
temporelle est incluse dans chaque image. Comme des en-ttes sont rgulirement
insrs dans le flux de donnes, un fichier MPEG-2 peut tre affich dans lordre
chronologique sur un ordinateur, par exemple. Lextraction des donnes dimages
dune squence, non seulement ncessite un supplment de mmoire dans le codeur
et le dcodeur mais aussi gnre du retard. Le nombre dimages bidirectionnelles
insres entre des images dautres types doit tre rduit pour diminuer le cot des
quipements et limiter le retard si celui-ci doit rpondre des contingences. Un
compromis doit tre fait entre le facteur de compression et le retard de codage.
Aprs le processus de DCT, le bruit induit la prsence de plus de coefficients nonnuls, coefficients que le codeur ne peut pas distinguer des vritables donnes de
limage.
Une quantification plus svre sera alors ncessaire pour coder tous les coefficients,
rduisant alors la qualit de limage. Le bruit rduit galement la similitude entre des
images successives, accroissant par ce phnomne les donnes de diffrence
ncessaires. Tout artefact composite de dcodage, visible lentre dun codeur
MPEG-2, se retrouve naturellement reproduit par le dcodeur. Toute pratique
gnratrice de mouvement indsirable doit tre vite. Linstabilit dun support de
camra pourra crer, en plus de tremblements de limage, une augmentation des
diffrences dimages et des ncessits de transmission de vecteurs. Ceci se produit
galement sur des signaux provenant dun tlcinma dont les images tremblent si,
par exemple, les perforations du film sont endommages.
En gnral, il est important que la vido qui est susceptible dtre compresse soit de
la meilleure qualit possible. Si cette qualit ne peut pas tre atteinte, il est
souhaitable dutiliser une rduction de bruit ou tout autre procd de stabilisation. Si
un facteur de compression lev est ncessaire, le niveau dartefacts peut
augmenter, particulirement si la qualit du signal est faible. Dans ce cas, il est
souhaitable de rduire lentropie en effectuant un pr-filtrage avant lentre dans le
codeur. Le signal est donc soumis un filtrage passe-bas (low pass filter)
bidimensionnel qui rduit le nombre de coefficients et diminue le niveau des
artefacts. Limage sera moins fine mais une perte de finesse est prfrable un
niveau lev dartefacts.
Dans la plupart des applications en MPEG-2, on utilise lchantillonnage 4:2:0 qui
ncessite un sous-chantillonnage du chroma si le signal dorigine est en 4:2:2. En
MPEG-1, un sous-chantillonnage supplmentaire est appliqu afin de produire un
signal dentre ou SIF (Source Input Format) comprenant seulement 532 pixels.
Cette technique divise encore lentropie par un facteur supplmentaire. Pour des
facteurs de compression plus levs, on utilise un signal 176 pixels appel QSIF
(Quarter Source Input Format). Le sous-chantillonnage est un processus combinant
un filtre spatial passe-bas et un interpolateur.
En vido 50 Hz, deux trames successives reprsentent la mme image de film et il
nexiste pas de mouvement entre elles. Le mouvement alterne donc entre zro(entre
deux trames) et sa valeur de mouvement(entre deux images). Comme le mouvement
est transmis diffrentiellement, ceci se traduit par une srieuse augmentation des
donnes de vecteurs. En vido 60 Hz, un dfilement intermittent 3:2 est utilis pour
obtenir du 60 Hz partir de film 24 images par seconde: une image est constitue
de 2 trames, la suivante de 3, et ainsi de suite. Par consquent, une trame sur 5 est
compltement redondante. Le MPEG gre mieux les images de tlcinma en
supprimant la troisime du systme 3:2. Un code spcifique au 24 Hz alerte le
dcodeur qui recre la squence 3:2 en relisant une mmoire de trame.
Profils et niveaux:
laide des outils de codage dfinis dans MPEG-2, il existe des milliers de
combinaisons possibles. Dans un but de simplification, le MPEG-2 est divis en Profils,
chaque profil tant lui-mme subdivis en Niveaux.Un profil constitue la base la
palette des caractristiques dun codage dune certaine complexit. Un niveau est en
fait un paramtre dfinissant par exemple la taille de limage ou le dbit du flux de
bits. Il existe en principe 24 combinaisons possibles mais toutes nont pas t
dfinies.
Un dcodeur MPEG possdant un profil et un niveau donns doit pouvoir dcoder les
signaux manant dun profil et dun niveau infrieurs. Le Profil Simple(Simple Profile)
ne comporte pas de codage bidirectionnel, cest pourquoi seules les images de type I
et P pourront tre gnres par le codeur. Les dlais de codage et de dcodage sont
ici rduits et le matriel correspondant est plus simple. Le profil simple na t
seulement dfini quau niveau Principal (Simple Profile at Main Level, SP@ML). Le
Profil Principal (Main Profile) est conu pour une vaste gamme dutilisations. Le
niveau Bas utilise un signal dentre faible rsolution ne possdant que 352 pixels
par ligne. La plupart des applications de diffusion ncessite le Profil principal au
Niveau Principal (Main Profile at Main Level, MP@ML), appellation du MPEG utilis en
tlvision standard.
Le niveau Haut-1440 est un systme haute dfinition qui double la dfinition par
rapport au niveau principal. Le niveau Haut double non seulement la dfinition
horizontale, mais maintient cette rsolution pour le format 16:9 en portant 1920 le
nombre dchantillons horizontaux. Dans les systmes de compression utilisant les
transformes spatiales et la re-quantification, il est possible de produire des signaux
adaptables. Un processus dadaptabilit est celui o le signal dentre rsulte dun
signal principal et dun signal complmentaire. Le signal principal peut tre dcod
seul pour donner une image dune certaine qualit mais, si linformation du signal
complmentaire est ajoute, un certain aspect de la qualit peut tre amlior. Un
codeur MPEG conventionnel peut, en re-quantifiant fortement les coefficients par
exemple, coder une image avec un rapport signal/bruit modr. Si cette image est
localement dcode et soustraite pixel par pixel de limage originale, le rsultat
constituera limage de bruit de quantification. Cette image peut tre compresse et
transmise en tant que signal complmentaire.
Un dcodeur simple utilisera seulement le flux principal avec son niveau de bruit mais
un dcodeur plus labor peut dcoder les deux flux de bits et produire une image
moins bruite. Ceci constitue le principe de ladaptabilit SNR. Dautre part, le codage
des frquences spatiales les plus basses dune image HDTV(High Definition
Television) peut produire un flux principal quun rcepteur ordinaire SDTV(Standard
Definition television) peut dcoder. Si limage faible dfinition est dcode
localement et soustraite de limage originale, une image damlioration de la
dfinition est obtenue. Cette image peut tre code comme signal complmentaire.
Un dcodeur adquat sera capable de restituer limage haute dfinition. Ceci
constitue le principe de ladaptabilit Spatiale. Le profil Haut est compatible avec les
adaptabilits SNR et Spatiale et accepte lchantillonnage 4:2:2.
Le profil 4:2:2 a t dvelopp dans le sens dune plus grande compatibilit avec le
matriel de production numrique. Ce profil permet lexploitation en 4:2:2 sans
exiger la complexit supplmentaire du profil Haut. Un dcodeur HP@ML peut
accepter une adaptabilit SNR qui ne constitue pas en soi un impratif de production.
Le niveau 4:2:2 a la mme libert de structure de GOP que les autres profils mais, en
pratique, il est plus souvent utilis avec des GOPs courts pour faciliter les oprations
de montage. Le 4.2.2 ncessite un flux de bits suprieur au 4.2.0 et l'utilisation de
GOP impose quand mme un dbit suprieur pour une qualit donne.
Les applications:
Le standard MPEG-4 fourni un ensemble de technologies satisfaisant le besoin des
auteurs, des fournisseurs et, finalement, des utilisateurs.
Pour les auteurs, MPEG-4 permettra la production de squences rutilisables. Il leur
permettra une grande flexibilit, autorisant l'amalgame de la tlvision numrique,
des animations graphiques et des pages web. En outre, ils auront la possibilit de
protger leurs uvres.
Pour les fournisseurs d'accs Internet, MPEG-4 offrira des informations transparentes,
qu'ils pourront aisment adapter la demande de l'utilisateur (par exemple:
l'adaptation en fonction de la langue de l'utilisateur), ainsi que le contrle des
transferts(gestion des pertes de donnes).
Pour les utilisateurs, MPEG-4 aura de nombreuses possibilits qui pourront tre
accessibles partir d'un simple terminal. Voici un large ventail de toutes les
applications concernes par les apports dune telle standardisation:
1.
La communication temps rel (vidophone, ...)
2.
La surveillance.
3.
Le multimdia mobile (mini portable faisant office de tlphone, fax, agenda,
... par liaison GSM ou satellite).
4.
Le stockage et la recherche dinformations bass sur le contenu.
5.
La lecture de vido sur Internet/Intranet sans avoir tlcharger toute la
source.
6.
La visualisation de scnes simultanment plusieurs endroits (tlconfrence
...).
7.
La transmission (tout types de donnes : vido, audio, ...).
8.
La postproduction (cinma et tl).
9.
Le DVD.
10.
Les applications de lanimation de visages: runions virtuelles, ...
11.
La hirarchisation et la gestion des objets audio dans une scne.
Buts de la standardisation:
Pour toutes ces applications, les buts de la standardisation MPEG-4 sont:
Empcher la non-portabilit par l'harmonisation des moyens de codage et de
dcodage.
Reprsenter des "objets mdias"(units sonore, visuelle et audiovisuelle), ces
units peuvent tre enregistres par un appareil photo, un microphone ou
gnres par un ordinateur.
Dcrire la composition des objets formant une scne audiovisuelle.
Synchroniser les diffrents objets mdia pour qu'ils puissent tre
transportables.
Permettre l'interaction entre l'utilisateur et le diffuseur.
Description Technique (essentiellement, l'aspect visuel de la norme.):
Structure gnrale, description:
La norme MPEG-4 propose une solution radicalement diffrente pour le codage des
vidos afin de satisfaire tous ses besoins dans les diffrentes applications quelle
propose. Les scnes audiovisuelles sont ainsi composes de plusieurs objets mdias
hirarchiss. Ainsi, dans l'arborescence de cette hirarchie, on trouve:
Des images fixes (background).
Des objets vido (objets en mouvement sans background).
Des objets audio (la voix associe l'objet en mouvement).
MPEG-4 dfinit donc prcisment la manire de dcrire une scne. La description
d'une scne code par MPEG-4 peut tre compare au langage VRML dans sa
structure et ses fonctionnalits.
manipulation de toutes les donnes de manire simple et efficace. Ces outils doivent
permettre galement de dcoder et reprsenter les images ou les vidos contenues
dans des VO (Vido Objects) et de les associer d'autres AVO (Audio-Video Objects)
pour crer une scne. Pour atteindre ce but et viter d'avoir une multitude
d'applications non conventionnes qui effectueraient quelques-unes de ces fonctions,
MPEG-4 propose des solutions et des algorithmes, regroupant la plupart des
fonctionnalits demandes par MPEG-4 comme pour:
La compression des images et des vidos.
La compression des textures mapping pour les maillages 2D et 3D.
La compression des maillages 2D implicites.
La compression des champs d'animation gomtrique des maillages.
L'accs alatoire de tous types de VO.
L'extension des fonctionnalits de manipulation des images et des squences
vido.
Le codage des vidos et des images bas sur le contenu.
Le re-dimensionnement des objets bas sur le contenu.
Le re-dimensionnement spatial, temporel et qualitatif.
La robustesse et la rsistance aux erreurs quel que soit l'environnement.
Toutes ces solutions seront fournies dans la partie visuelle de la norme MPEG-4.
Structure des outils de reprsentation des vidos "naturelles":
Les algorithmes de codage des images et des vidos MPEG-4 donneront une
reprsentation rationnelle des objets vido, avec pour but de respecter les
fonctionnalits bases sur le contenu. Mais MPEG-4 devra galement supporter les
fonctionnalits dj fournies par MPEG-1 et MPEG-2, soit la compression efficace des
images traditionnelles rectangulaires de diffrents formats, la frquence des images,
la profondeur des pixels, le taux de transfert, et les possibilits de redimensionnements spatial, temporel et qualitatif. MPEG-4 veut supporter les
algorithmes permettant un transfert efficace trs faible taux de transmission (VLBV:
Very Low Bit-rate Video, entre 5 et 64kBit/s) avec un taux de compression
satisfaisant, une grande rsistance aux erreurs et une faible complexit pour les
applications multimdia temps rel.
Toutes ces applications, prvues pour de faible dbit, devront tre aussi efficaces
haut dbit de transfert (jusqu' 4MBit/s). L'ide d'un codage bas sur le contenu
implique que MPEG-4 puisse coder et dcoder sparment les diffrents "objets
vido"(VO) d'une scne, afin de permettre une gestion simplifie de l'interactivit, la
manipulation et la reprsentation des objets vido, ainsi que le mlange entre objets
naturels et objets synthtiques (comme par exemple une scne avec un fond virtuel
et des personnages rels). Mais les algorithmes supplmentaires ncessaires la
gestion du codage bas sur le contenu ne devront tre qu'un ensemble additionnel
d'outils aux VLBV et HBV dj utiliss dans MPEG-1 et MPEG-2.
Codage des textures et des images fixes:
MPEG-4 utilise les algorithmes bass sur la mthode des ondelettes (wavelet) pour
compresser ce type d'images. En effet, cette compression est trs efficace quel que
soit le taux de transfert, tout en conservant ses capacits d'adaptabilit spatiale et
qualitative, ce qui est non ngligeable pour rsoudre les problmes d'interactivits
(notamment pour les changement de vue) et de texture des objets 2D et 3D dans les
images virtuelles.
Objets synthtiques:
Les objets synthtiques englobent une importante partie de l'imagerie par ordinateur.
Ces objets sont dcrits de faon paramtrique, suivant un modle que l'on peut
diviser en 4 parties:
La description synthtique du visage et du corps humain.
L'animation des champs du visage et du corps.
Le codage dynamique et statique du maillage avec les textures.
de hockey automatiquement, il peut accder aux mmes donnes que le client, mais
peut se rserver le droit dempcher certaines interactions.
Les droits de proprits intellectuelles:
MPEG-4 traite le problme des droits de proprits intellectuelles par insertion dans
les objets d'un code d'identification(IPI) donnant des informations sur le contenu, le
type du contenu et les droits attenant l'objet en question. Les donnes contenues
dans l'IPI et associes chaque objet peuvent diffrer, mme pour des objets
appartenant une mme image (par ex: droits libres sur le fond, mais restreints sur
le personnage). L'insertion de l'IPI au moment du codage implique galement
l'insertion des mcanismes de protection quivalent aux droits sur l'image (protection
contre les copies, facturation). Pour raliser une protection efficace, les mcanismes
utiliss sont trs complexes et sont dvelopps sous le titre de "IPMP" ...
Informations contenues dans les objets:
MPEG-4 permettra aussi d'attacher aux objets des informations complmentaires sur
eux et leur contenu. Ces informations (OCI) pourront tre envoyes textuellement en
mme temps que les objets, et pourront tre classifies suivant des tables
prdfinies mme en dehors de la norme.
Les formats supports:
Taux de transfert: entre 5 kbits/s et 4 Mbits/s
Formats: vido progressive et entrelace
Rsolutions: du format sub-QCIF au format TV
Efficacit de la compression:
Compression efficace de la vido quel que soit le taux de transfert.
Compression efficace des textures pour le plaquage de textures sur les
maillages 2D et 3D.
Les outils de MPEG-4 version 1:
MPEG-4 fournit un large et riche ventail d'outils pour le codage des objets
audiovisuels. Dans le but de permettre une implantation effective du standard, des
sous-ensembles des outils Systme, Vido et Audio de MPEG-4 ont t identifis afin
de n'tre utiliss que pour des applications spcifiques. Ces sous-ensembles, appels
"profils", limitent l'ensemble d'outils qu'un codeur aura implanter. Pour chacun de
ces profils, un ou deux "niveaux" ont t mis en place pour restreindre la complexit
de calcul.
L'approche est similaire celle de MPEG-2, alors que la plus connue des
combinaisons Profil/Niveaux est: "Profil principal @ Niveau principal". Une
combinaison "Profil@Niveau" permet un programmeur de codeur de n'implanter
que les sous-ensembles du standard dont il a besoin, tant qu'il maintient la
compatibilit avec d'autres outils MPEG-4 construit sur la mme combinaison. De
tester si ce module MPEG-4 respecte le standard (test de la conformit). Les profils
existent pour diffrents types de mdias (audio, vido et graphiques) et pour la
description de scnes. MPEG ne conseille pas de procder des combinaisons de ces
profils mais toutes les prcautions ont t prises pour que les diffrents types de
mdias se compltent aisment.
Profils visuels:
La partie visuelle du standard fournit des profils pour le codage des contenus visuels
naturels, synthtiques et hybrides naturel/synthtique. Il y a en tout cinq profils pour
le visuel naturel:
Le profil visuel simple fournit un codeur, efficace et rsistant aux erreurs,
d'objets vido
rectangulaires, adapt pour les applications de rseaux mobiles, tels que PCS
et IMT2000.
Le profil graphique complet fournit des lments graphiques avancs tels que
les extrusions et permet de crer une scne avec des lumires sophistiques.
Le profil graphique complet permet des applications telles que des mondes
virtuels complexes d'un trs haut ralisme.
Les profils de description de scne:
Les profils de description de scne, dfinis dans la partie systme du standard,
permettent de crer des scnes audiovisuelles avec seulement de l'audio, du 2D, du
3D ou du 2D/3D mixs:
Le profil 3D est appel VRML car il optimise l'interaction avec le langage VRML.
Le profil de scne audio prvoit un ensemble d'outils du BIFS (Binary Format
for Scene Description) pour l'audio seulement. Ce profil supporte des
applications de type radio diffusion.
Le profil de scne 2D simple fournit seulement les outils du BIFS pour placer
un ou plusieurs lments audiovisuels dans une scne. Ce profil permet de
crer des prsentations audiovisuelles mais sans possibilit d'interactions. Il
peut tre utilis pour des applications type tldiffusion.
Le profil de scne 2D complet fournit tous les outils du BIFS ncessaires la
ralisation d'une scne 2D. Ce profil est utilis pour des applications 2D qui
ncessitent une interactivit grande et spcifique.
Le profil de scne complet fournit le jeu complet d'outils du BIFS. Ce profil sert
raliser des applications telles que des mondes 3D virtuels dynamiques et
des jeux.
Les profils de description d'objets:
Ils comprennent les outils suivants:
Outil descripteur d'objet (OD).
Outil de synchronisation (SL).
Outil d'information sur les objets (OCI).
Outil de proprit intellectuelle et de protection (IPMP).
Actuellement, seul un profil est dfini et inclut tous ces outils. La raison principale de
la cration de ce profil n'est pas de crer des sous-ensembles d'outils mais plutt de
leur dfinir des niveaux. Ceci s'applique spcialement l'outil de synchronisation des
couches, MPEG-4 utilisant diffrentes bases de temps. En introduisant des niveaux, il
est alors possible, par exemple, de n'autoriser qu'une seule base de temps.
Problmes ouverts:
MPEG-4 est une rvolution, tant du point de vue de sa structure physique, que de
l'idologie qui en dcoule. C'est la base de tout ce qui touchera la communication et
le multimdia dans les annes venir, et quand on voit l'explosion de toutes ces
technologies, on imagine l'importance d'une telle norme. MPEG-4 n'en est qu' ses
dbuts, mais ses applications sont vastes et beaucoup de choses ont dj t
ralises. Malgr tout, le travail effectuer est encore long avant dobtenir des
rsultats convainquant pour tous les compartiments de la norme. En particulier, il
reste deux problmes majeurs rsoudre pour le codage des vidos naturelles,
savoir, l'estimation de mouvement et la segmentation de la vido en objets.
est de rendre les informations multimdias aussi faciles trouver sur le Web que le
texte l'est aujourd'hui." Par exemple, on pourrait imaginer un moteur qui parcourt le
Web la recherche d'une phrase musicale prcise: tapez quelques notes de musique
au clavier, et vous obtiendrez tous les morceaux comportant les mmes notes. Mme
chose avec les images, il sera possible d'identifier les fichiers comprenant un objet
d'une couleur donne, mme s'il ne s'agit que d'une partie de l'image. Du reste,
l'intrt n'est pas ngligeable en matire d'intgrit des donnes, et donc de respect
des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulve
quelques interrogations.
D'abord, le poids final des fichiers encods avec ce format, dont on peut supposer
qu'il sera, par essence, plus important que celui de la description des donnes en
elle-mme. Ensuite la base existante, si l'on considre les milliards d'informations
numriques (fichiers image, audio et vido) dj encodes d'autres formats, on
peut s'inquiter de la vitesse laquelle se rpandrait un nouveau standard, encore en
cours de conception aujourd'hui.
Enfin, et surtout, on peut se poser la question de l'utilit relle d'une telle solution. La
recherche d'une succession de notes dans l'ocan de la musique mondiale peut
s'avrer intressante, mais srement pas pour le commun des mortels, qui se
satisfait trs bien d'une recherche plus classique par auteur ou par titre. En plus, il
existe d'autres solutions pour indexer, au besoin, des donnes multimdias. Qui ne
se souvient pas de l'affaire Clinton/Lewinsky. Peu aprs l'audition du Prsident, les
enregistrements vido des tmoignages taient disponibles sur AltaVista. Trononns
en courtes squences, ils taient indexs la fois automatiquement ( l'aide d'un
outil spcifique) et manuellement. Le rsultat tait probant; la saisie d'un texte
permettait d'identifier rapidement tous les extraits vido dans lesquels la phrase
correspondante avait t prononce (souvent, curieusement, le dispositif tait utilis
pour trouver le mot "cigare").
Il n'est donc pas certain qu'il soit lgitime de chercher imposer(et gnraliser) un
standard surpuissant, l o d'autres solutions "sur mesure" peuvent suffire. Dcrire
les donnes tout en les compressant est pourtant une tentative logique d'organisation
et de structuration du contenu numrique. Mais il est bien dommage que l'on s'en
proccupe si tard. Car finalement, le vrai problme de MPEG-7, c'est sans doute le
"7".
Prsentation du standard MPEG-7
Les donnes multimdia sont disperses dans de nombreuses bases de donnes.
Dans ce contexte, MPEG-7 se propose de standardiser la reprsentation de leur
contenu pour la recherche et le filtrage d'information. Beaucoup d'applications
peuvent bnficier de MPEG-7, telles que la recherche dans les bases de donnes
audiovisuelles (pour le mdical, l'ducatif, les loisirs, la surveillance, &Idots;), ou la
slection de programmes diffuss.
Qu'est ce que la norme MPEG-7?
- Un standard de description:
Le format MPEG-7 est compltement indpendant de la technique de codage ou de
stockage du contenu du document multimdia. On peut tablir une description MPEG7 d'un fichier MPEG-2 ou MPEG-4 bien sr, mais on peut faire de mme avec un film
analogique ou un journal papier. Il s'agit uniquement d'un standard de reprsentation
du contenu des documents. L'utilisation principale de MPEG-7 concernera
videmment les documents multimdia (contenant la fois vido et audio). Les
informations qui apparatront dans un document MPEG-7 seront de 5 natures
diffrentes, rsumes dans le tableau suivant:
Ensemble des
Fonctionnalit
lments
Cration et
production
Utilisation
Mdia
Aspects
structurels
Aspect
Conceptuels
- Les Limites:
Le standard MPEG-7 ne concerne absolument pas les aspects production et utilisation
des descriptions. C'est d'ailleurs dans cette optique que l'exemple suivant t cr,
il s'agit de produire et utiliser une description MPEG-7 sommaire( partir d'un ou
deux descripteurs).
Instance d'un descripteur pour un ensemble de donnes Rq, les valeurs sont
combines avec les schmas de descriptions pour former une description.
Description:
Consiste en un SD et en un ensemble de valeurs de descripteurs dcrivant la donne.
- Hirarchie:
Les objets imbriqus formant une description MPEG-7 peuvent aussi bien tre des
descripteurs que des schmas descripteur(eux-mmes l'origine d'autres
descripteurs). Le diagramme suivant traduit cette hirarchie tout en nous rappelant
que le langage de dfinition des description permet une totale extensibilit du
standard.
De MPEG-1 MPEG-21
Cration d'une infrastructure Multimdia Inter-oprable
Le dbat au sujet du MPEG-4 se continue, ses spcifications sont disponibles depuis
quelques temps dj et le Internet Streaming Media Alliance (ISMA) publi ses
spcification sur le "streaming" Internet en se basant sur le MPEG-4. MPEG-4 est le
premier standard de contenu multimdia ouvert et comprhensible qui supporte
plusieurs industries du multimdia, comme MPEG-2 supporte l'industrie du DVD et de
la tlvision. Le standard bas objet qu'est MPEG-4 est la fois fine pointe de la
technologie et prt pour le futur; il pourras aisment incorporer les amliorations
technologiques si et quand elles se matrialises. En fait, une quipe conjointe du
MPEG/ ITU-T est incorporer un nouveau codec vido d'ici peu, demeurant ainsi la
fine pointe de la technologie du codec vido. Cette partie sera galement un standard
du International Telecommunication Union (ITU-T).
Le but demeure l'interoprabilit:
Pendant ce temps, le Moving Picture Experts Group n'est pas rest assis sur ses
lauriers. Il a rcemment finalis la premire version du standard international MPEG7 pour la description du contenu, qui sera publi par ISO sous peu. MPEG-7
complmentera MPEG-4 et ne tentera pas de le supplanter. MPEG-4 dfini comment
reprsenter un contenu; MPEG-7 spcifie comment le dcrire. Et l'horizon pointe un
autre standard ISO/MPEG, MPEG-21, qui visera apporter un cadre multimdia
rellement inter-oprable. L'essentiel de tous les efforts du MPEG est
l'interoprabilit, inter-oprabilit pour le consommateur. De faon s'assurer que
celui-ci sera capable d'utiliser le contenu et ne pas avoir s'en faire avec la
compatibilit des formats, codecs, metadata, etc...
Premire couche syntaxique du MPEG, l'ES (Elementary Stream) est le signal brut en
sortie de compression. Dans la ralit, on ne travaille jamais directement avec ce
type de signal. Il reste cach au coeur des codeurs.
Un flux lmentaire ne contient rien de plus que ce qui est ncessaire au dcodeur
pour s'approcher au mieux de l'image. En MPEG, la syntaxe du signal compress est
strictement dfinie de faon s'assurer que les dcodeurs puissent l'interprter. Le
codeur n'a pas d'autre dfinition que l'obligation d'mettre selon la syntaxe
convenable. L'avantage de ce concept est qu'il s'approche du monde rel dans lequel
il y a vraisemblablement plus de dcodeurs que de codeurs. En standardisant le
dcodeur, on peut diminuer sensiblement le cot de sa fabrication. Inversement, le
codeur peut tre bien plus compliqu et plus onreux et il peut procurer une forte
amlioration de l'image sans tre pnalis par un cot excessif. Quand le codeur et le
Dans les images B, les vecteurs peuvent tre vers l'avant ou l'arrire. La
compensation de mouvement peut tre base sur l'image ou la trame et cela est
indiqu, ainsi que l'chelle utilise pour la re-quantification des coefficients. Le
dcodeur se sert des vecteurs pour prendre les informations des images prcdente
et suivante pour btir une image prdite. Les blocs subissent la transforme inverse
pour produire l'image de correction qui est ajoute l'image prdite afin d'obtenir le
signal de sortie du dcodeur.
En codage 4:2:0, chaque macrobloc comporte quatre blocs Y et deux blocs de
diffrence de couleurs. Pour rendre possible l'identification de leur contenu(Y, Cr ou
Cb), les blocs sont mis dans un ordre particulier. Les macroblocs sont assembls en
tranches reprsentant toujours des bandes horizontales balayant l'image de la
gauche vers la droite. En MPEG, les tranches peuvent commencer n'importe o et
tre d'une taille quelconque. En ATSC, elles doivent commencer du ct gauche de
l'image.
Plusieurs tranches peuvent se placer sur la largeur de l'cran. La tranche est l'unit
fondamentale de synchronisation pour les longueurs variables et le codage
diffrentiel. Les premiers vecteurs d'une tranche sont mis intgralement tandis que
les autres sont transmis en mode diffrentiel. Dans les images I, les premiers
coefficients de composante continue de la tranche sont transmis intgralement et les
coefficients de composante continue suivants le sont diffrentiellement. Dans les
images de diffrence, cette technique ne se justifie pas. Si une erreur de bits se
produit dans un flux lmentaire, cela crera soit une rupture dans la d-srialisation
des symboles longueur variable, soit une erreur des coefficients ou des vecteurs
mis ultrieurement en mode diffrentiel. La structure en tranches permet de
retrouver rapidement le bon dcodage en fournissant un point de re-synchronisation
dans le flux de bits. Plusieurs tranches sont groupes pour constituer une image qui
est la part active d'une trame.
Le marqueur temporel de dcodage (DTS, Decode Time Stamp) indique quand une
image doit tre dcode, tandis que le marqueur temporel de prsentation (PTS,
Presentation Time Stamp) indique quand l'image doit tre prsente la sortie du
dcodeur. Les images B sont dcodes et prsentes simultanment, c'est pourquoi
ils ne comportent qu'un PTS. Quand une squence IPBB est reue, les images I et P
doivent tre dcodes avant la premire image B. Pendant que l'image P est en cours
de dcodage, l'image I est prsente en sortie de faon pouvoir tre suivie des
images B.
La figure prcdente dmontre que, quand une unit d'accs contenant une image I
est reue, les deux marqueurs DTS et PTS doivent exister dans l'en-tte et qu'ils
doivent tre spars d'au moins une priode d'images. Si le codage bidirectionnel est
utilis, une image P doit venir ensuite et cette image est galement dote d'un PTS et
d'un DTS, mais la sparation entre les deux marqueurs doit tre de trois priodes
d'images pour permettre l'intervention des images B. Ainsi, si une squence IPBB est
reue, l'image I est retarde d'une image, l'image P de trois images et les deux
images B n'ont aucun retard. La prsentation devient alors IBBP.
En clair, si la structure de GOP est change de faon ce qu'il y ait plus d'images B
insres entre les images I et P, la diffrence entre le DTS et le PTS des images P
sera augmente. Les indicateurs PTS/DTS de l'en-tte du paquet sont placs de faon
indiquer la prsence d'un PTS seul ou des deux marqueurs PTS et DTS. Les paquets
audio peuvent contenir plusieurs units d'accs et l'en-tte de paquet contient un
PTS. Comme les paquets audio ne sont pas transmis autrement qu'en squence
naturelle, il n'y a pas de DTS dans un paquet audio.
Le Flux de Programme et le Flux de Transport:
Les flux de programme et de transport constituent deux faons d'assembler plusieurs
flux de paquets PES.
Enregistrement contre transmission:
Pour une qualit d'image donne, le dbit de donnes variera selon le contenu de
l'image. Un canal dbit variable donnera donc un meilleur rsultat. Dans le domaine
des transmissions, la plupart des canaux sont fixes et le dbit global de bits est
maintenu constant par l'addition d'un bourrage (donnes sans signification).
Dans le cas du DVD, l'utilisation de ce bourrage constitue un gaspillage d'espace de
stockage. Cependant, on peut acclrer ou ralentir la vitesse d'un moyen de stockage
soit physiquement soit, dans le cas d'une unit de disque, en changeant les
demandes de transfert de donnes. Cette approche permet d'avoir un canal dbit
variable sans perte de capacit. Quand un support est relu, on peut ajuster la vitesse
de faon conserver le tampon moiti plein quel que soit le dbit dynamique qui
peut tre dynamiquement ajust.
Si le dcodeur lit dans le tampon une vitesse croissante, cela a tendance le vider
et le systme de l'unit de disque augmentera simplement le dbit d'accs pour
rtablir l'quilibre. Cette technique ne peut s'utiliser que si l'audio et la vido ont t
cods partir de la mme horloge, sinon elles se dcaleront dans le temps au cours
de l'enregistrement. Pour rpondre ces impratifs conflictuels, les Flux de Transport
et les Flux de Programme ont t imagins comme deux possibilits.
Un flux de programme est bien adapt un unique programme dbit variable dans
un contexte d'enregistrement (DVD); un flux de transport conviendra mieux la
transmission de programmes multiples dbit constant (Bouquet satellite et cble).
Dans le cas de la transmission, le dcodeur doit recrer la base de temps sous peine
de devoir supporter un dfaut ou un excs de charge. C'est pourquoi un flux de
transport utilise comme rfrence une Horloge de Programme (PCR, Program Clock
Reference) tandis que flux de programme n'a pas besoin d'horloge de programme.
Introduction aux flux de programme:
Un flux de programme est un multiplex de paquets PES qui vhicule plusieurs flux
lmentaires pralablement cods partir de la mme horloge-mre ou de la mme
rfrence. Le flux peut tre constitu d'un flux vido et de ses flux audio associs ou
seulement un canal de multi-programmes audio.
Le flux lmentaire vido est divis en units d'accs contenant chacune des donnes
compresses dcrivant une image. Ces images sont du type I, P ou B et chacune
comporte un numro d'unit d'accs qui indique la squence d'affichage convenable.
Une unit d'accs vido devient un paquet de flux de programme. En vido, la taille
de ces paquets varie. Un paquet d'images I sera, par exemple, plus grand que celui
d'une image B. Les units d'accs de l'audionumrique sont gnralement de la
mme taille et plusieurs d'entre elles constituent un paquet de flux de programme.
Ces paquets ne doivent pas tre confondus avec les paquets de flux de transport qui
sont de taille infrieure et fixes. Les limites des units d'accs vido et audio
concident rarement sur l'axe des temps mais cette absence de concidence n'est pas
un problme car chaque limite possde sa propre structure de marqueur temporel.
Flux de transport:
Un flux de transport est bien plus qu'un simple multiplexage de plusieurs paquets
PES. Dans les flux de programme, les marqueurs temporels sont suffisants pour
recrer l'axe des temps parce que l'audio et la vido sont verrouills sur une
rfrence commune. Pour tlcharger des donnes dans un rseau loign, un
impratif supplmentaire est ncessaire dans le dcodeur pour recrer l'horloge de
chaque programme. Cela impose un lment supplmentaire dans la syntaxe afin de
fournir la rfrence d'horloge de programme (PCR, Program Clock Reference).
Le flux de transport vhicule plusieurs programmes diffrents utilisant chacun un
dbit et un facteur de compression susceptibles de varier dynamiquement, mme si
le dbit global reste constant. Cette proprit est appele multiplexage statistique et
permet un programme supportant des images difficiles de prendre de la bande un
programme supportant des images plus statiques.
A chaque PES vido peut tre associ un certain nombre de PES audio et de PES de
donnes. En dpit de cette souplesse, un dcodeur doit tre capable de passer d'un
programme l'autre et slectionner convenablement les canaux de l'audio et des
donnes. Certains programmes sont protgs et ne doivent tre accessibles qu'aux
personnes ayant souscrit un abonnement ou acquitt une redevance. Le flux de
transport doit donc comporter l'information d'accs conditionnel (Conditional access
table) pour grer cette protection. Le flux de transport contient des informations
spcifiques de programme (PSI, Program Specific Information) pour s'acquitter de
ces tches.
La couche de transport convertit les PES de donnes en petits paquets autonomes de
longueur constante de 188 octets. Quand ces paquets parviennent au dcodeur, il se
peut qu'ils soient affects d'une certaine jigue. Le multiplexage temporel est aussi
une cause de retard mais son amplitude n'est pas fixe car l'allocation de bits n'est
pas fixe pour chaque programme. Les marqueurs temporels constituent une partie de
la solution mais la seule condition qu'une horloge disponible soit stable. Le flux de
transport doit donc comporter d'autres donnes permettant la reconstitution d'une
horloge stable.
L'exploitation d'un quipement vido numrique dpend grandement de la
distribution d'un systme d'horloge stable pour la synchronisation. En production
vido, le genlock est utilis mais, sur des grandes distances, la distribution d'une
horloge spare n'est pas commode. Dans un flux de transport, les programmes
peuvent provenir de diffrentes origines qui ne sont pas ncessairement synchrones.
Par consquent, le flux de transport doit tre capable de fournir des moyens de
synchro pour chacun des programmes. Cette synchro supplmentaire est appele
Rfrence d'Horloge de Programme(PCR, Program Clock Reference) et permet de
reconstituer une rfrence d'horloge stable partir de laquelle, par division, on
recre une frquence ligne dans le dcodeur de faon pouvoir utiliser
convenablement les marqueurs temporels dans chaque flux lmentaire.
On dfinit par consquent un programme comme un jeu de flux lmentaires
partageant la mme rfrence temporelle. Dans un flux de transport de programme
simple (SPTS, Single Program Transport Stream), il y aura un canal PCR qui recre
une horloge de programme pour l'audio et la vido.
Les Paquets:
La figure suivante montre la structure d'un paquet de flux de transport. La longueur
constante est de 188 octets rpartis entre un en-tte et une charge utile. La figure A
montre l'en-tte minimal de 4 octets. Les informations les plus importantes de cet
en-tte sont:
L'octet de synchro:
Cet octet est reconnu par le dcodeur de faon pouvoir d-srialiser l'en-tte et la
charge utile.
L'indicateur d'erreur de transport:
Cet indicateur est valid si le systme de correction d'erreur grant la fonction de
transport dtecte un taux d'erreurs de bits trop lev pour tre corrig. Il indique que
le paquet est susceptible de contenir des erreurs.
L'identification de paquet (PID):
Ce code de 13 bits sert faire la distinction entre les diffrents types de paquet. Il
sera dtaill ultrieurement.
Le compteur de continuit:
Sa valeur sur 4 bits est incrmente par le codeur chaque fois qu'un nouveau paquet
ayant le mme PID est mis. Il sert dterminer si un paquet particulier est perdu,
rpt ou hors squence. L'en-tte a parfois besoin de plus d'informations et, si c'est
le cas, les bits de contrle du champ d'adaptation sont placs pour indiquer que la
taille de l'en-tte est suprieure la normale. La longueur supplmentaire de l'entte est alors dfinie par la longueur du champ d'adaptation. Quand l'en-tte est
allong, la charge utile est diminue pour conserver une longueur constante au
paquet.
Rfrence d'horloge de programme:
Le codeur utilis pour un programme particulier sera pilot par une horloge de
programme 27 Mhz. Si l'entre provient d'une interface numrique srie (SDI,
Serial Digital Interface), la frquence d'horloge est divise par 10 pour gnrer
l'horloge de programme. Quand plusieurs programmes parviennent la mme unit
de production, il est possible qu'ils aient tous la mme rfrence. Si l'entre vido est
analogique, la frquence ligne sera multiplie par une constante dans une boucle de
phase verrouille (PLL, Phase Locked Loop) pour obtenir du 27 MHz.
Dans l'en-tte du paquet, le champ d'adaptation sert priodiquement introduire le
code PCR qui permet la gnration d'une horloge verrouille dans le dcodeur. Si le
codeur ou un multiplexeur change de source, il peut se produire une discontinuit
dans la rfrence PCR. Le compteur de continuit peut galement tre perturb.
Cette situation est gre par l'indicateur de discontinuit qui avertit le dcodeur de la
possibilit d'une perturbation. Sinon, la discontinuit crera une condition d'erreur.
La figure suivante montre comment le dcodeur utilise la PCR pour recrer une
version dporte de l'horloge 27 MHz pour chaque programme.
L'horloge du codeur pilote un compteur binaire permanent dont les valeurs sont
priodiquement lues et places dans le champ d'adaptation de l'en-tte en tant que
PCR. Comme le marqueur de temps de prsentation (PTS, Presentation Time Stamp),
le PCR comporte 33 bits et reprsente une valeur du compteur pilot par une horloge
90 Khz.
Chaque codeur gnre des paquets ayant une identification de paquet (PID)
diffrente. Le dcodeur reconnat les paquets associs l'identification correspondant
au programme slectionn et ignore les autres. Dans le dcodeur, un oscillateur local
(VCO) gnre une horloge nominale 27 Mhz qui pilote le compteur PCR. La valeur
du PCR local est compare au PCR de l'en-tte du paquet et la diffrence constitue
l'erreur de phase PCR. Cette erreur est filtre pour piloter le VCO afin que le PCR local
se verrouille sur le PCR de l'en-tte.
Un puissant filtrage du VCO vite au VCO d'tre modul par une jigue ventuelle
dans la transmission du PCR. L'indicateur de discontinuit rinitialise le compteur
local et peut tre ventuellement utilis pour attnuer le filtrage afin d'acclrer le
verrouillage du compteur local sur la nouvelle valeur temporelle.
Le MPEG implique que le PCR soit mis au moins 10 fois par seconde tandis que la
Diffusion Vido Numrique (DVB, Digital Video Broadcasting) spcifie une cadence
minimale de 25 PCR par seconde.
Identification de paquet (PID):
Dans l'en-tte du paquet de transport, un champ de 13 bits contient le code
d'identification de paquet (PID). Le PID est utilis par le dcodeur pour faire la
distinction entre les paquets contenant divers types d'information. Le dbit de bits du
flux de transport doit tre constant, bien que la somme des dbits de tous les
diffrents flux puisse varier. Cet impratif est ralis par l'adjonction de bits nuls
(contenant des " 0 ") dans la partie utile. Si le dbit utile diminue, plus de paquets
nuls sont ajouts. Les paquets nuls ont toujours la mme identification qui est 8191,
soit 13 " 1 ".
Dans un flux de transport donn, tous les paquets appartenant un flux lmentaire
donn comportent la mme identification. Les paquets appartenant un autre flux
lmentaire auront une identification diffrente. Le d-multiplexeur peut aisment
slectionner toutes les donnes d'un flux lmentaire donn en acceptant seulement
les paquets porteurs de l'identification convenable. On peut slectionner les donnes
d'un programme complet grce aux PIDs de l'audio, la vido et les donnes de
tltexte. Le d-multiplexeur ne peut convenablement slectionner les paquets que
s'il peut les associer au flux de transport auquel ils appartiennent. Il ne peut excuter
cette tche que s'il connat les PIDs. C'est le rle de l'information spcifique de
programme (PSI, Program Specific Information).
La Transmission en DVB
Une des principales caractristiques des canaux de diffusion numrique tient au fait
qu'ils peuvent subir des grandes dgradations sans que cela ne soit visible. Mais
lorsque l'on dpasse un certain seuil, la rupture de service est brutale et totale. C'est
tout ou rien.
Le BER (Bite Error Rate): Trois voies de transmission sont possibles; le satellite, le
cble et le rseau de diffusion hertzien. Il faut aussi garder l'esprit deux impratifs;
premirement, on doit employer les canaux dj existant (la largeur du canal est
impose) et deuximement, la tlvision numrique demande une transmission
qualifie de QEF(Quasi Error Free, quasiment sans erreur). Pour raliser cette
deuxime contrainte, il convient d'introduire une nouvelle notion; le BER(Bite Error
Rate ou TEB Taux Erreur Binaire). C'est tout simple. On va compter, la rception, le
nombre de bit erron reus sur le nombre total de bit reus. Si sur 1000 bits reus, il
y en a un de faux, on a un BER de 1/1000.
C'est une combinaison de ces diffrentes techniques qui formera notre canal de
transmission. Voyons les tapes prliminaires indispensables qui vont permettre de
scuriser notre train TS et cela quelque soit notre canal de transmission.
Le brassage: Ici on veut rpartir l'nergie sur l'ensemble du canal de transmission.
En clair, viter les longues suites de 1 ou de 0 qui creraient une raie forte nergie
dans le spectre.Un signal connu qui possde cette caractristique est le bruit qui par
nature est alatoire et donc une nergie uniformment rpartie. Nous allons rendre
notre signal TS semblable du bruit en le multipliant par la sortie d'un gnrateur
Pseudo alatoire. C'est un dispositif simple form de 15 registres dcalage et d'un
OU exclusif.
Pour pouvoir faire le traitement inverse en rception, nous allons employer deux
mcanismes de synchronisation. Au premier paquet TS qui se prsente, on charge le
gnrateur avec un mot connu (le mot d'initialisation) et l'octet de synchro du paquet
(0x47) est complt pour devenir 0xB8. Huit paquets d'affils sont ainsi brasss. Au
neuvime paquet, le mot d'initialisation est de nouveau charg et l'octet de synchro
complt. La porte AND est active chaque octet de synchro pour ne pas les
brasser et ainsi conserver ces points de repre. L'nergie de notre signal est
maintenant rpartie sur tout le spectre et ceci mme si il n'y a pas de signal en
entre. En rception c'est le mme circuit qui est employ, on attend un octet ayant
le mot de synchro 0xB8 pour charger le mot d'initialisation et d-brasser les huit
paquets.
Codage Reed Solomon: Ce code est not RS(188,204,t=8), ce qui veut dire 188
octets en entre, 204 en sortie du codeur et 8 octets sur 188 peuvent tre corrigs.
C'est un code en bloc qui va ajouter 16 octets de redondance derrire chaque paquet
TS. Si plus de 8 octets sont dtects comme errons, le paquet est marqu comme
dfectueux. Pour comprendre l'esprit de ce code, on va l'illustrer avec un exemple
trs simple. Imaginons que nos paquets TS fassent 3 octets de long et que l'on
transmette le paquet suivant: 03 10 15 on va rajout deux octets de redondance. Le
premier est la somme de nos trois donnes soit 28, le deuxime est la somme
pondre des 3 octets. Chaque octet est multipli par son rang : 3*1 + 10*2 + 15*3
soit 68. Notre paquet la sortie du codeur devient donc : 03 10 15 28 68 Aprs
transmission et perturbation, le rcepteur reoit le paquet : 03 12 15 28 68 On refait
la somme simple 03+12+15=30 et la somme pondre 8*1 + 12*2 + 15*3=72.La
diffrence des sommes simples(28-30) nous donne la valeur de l'erreur et la
diffrence des sommes pondres divis par l'erreur est gale au rang de
l'erreur(7268)/2=2). On peut corriger notre paquet.
L'entrelacement: Une des choses les plus difficiles corriger est une longue suite
de bit ou d'octet conscutifs errons. On va donc rpartir, l'mission, les octets d'un
paquet dans d'autres paquets. Imaginons la suite de paquet de 5 octets suivante:
niche
chien
poule
tasse
fours
balles
video
audio
petit
porte
Chaque paquet est mis en mmoire horizontalement et relu verticalement. Ainsi si on
relit les paquets depuis le e de niche, cela donne les paquets suivants:
eeuaf nlsob esuav erlia sldup eedep soito
A la suite de la transmission, on reoit la squence suivante affecte d'erreur:
eeuaf nlsob esuav **lia s***p eedep soito
Aprs dsentrelacement, on retrouve les mots suivants :
e ---- tass* fou*s bal*es vi*eo ---On voit nettement que l'entrelacement a permis de rpartir les erreurs sur plusieurs
paquets. Seul un octet par paquet est affect et le code Reed Solomon, vu avant,
peut facilement corriger ces erreurs. Sans entrelacement, ce sont les mots complets
qui auraient t affects sans espoir de pouvoir les rcuprer. Dans la pratique on
utilise un jeu de registre dcalage et de commutateur pour placer chacun des
octets d'un paquet dans des 12 paquets diffrents.
A: avant entrelacement,
B: aprs entrelacement,
C: aprs dsentrelacement.
Code convolutif: Lorsque l'on affronte des milieux trs bruits comme dans le cas
Voici le codeur utilis par DVB. On voit que chaque bit incident va gnrer deux bits
sortants et qu'il sera li aux 6 bit prcdents. Le bit 1 de sortie est un "OU exclusif"
entre les bits 1,2,3,4 et 7 tandis que le bit 2 de sortie est un "OU exclusif" des bits
1,3,4,6 et 7.
Avantage: Ce code dit "en treillis" va permettre de retrouver la valeur la plus
probable d'un bit en observant les bits prcdemment reus. C'est pas trs vident
expliquer mais c'est trs efficace dans la ralit.
Inconvnient: On vient de doubler le dbit du train TS. Quand on connat le prix du
bit transmis, on se doute que l'on va trouver une astuce pour amliorer le
rendement. L'opration de dcodage est ralis en rception par le dcodeur de
Viterbi.
Le poinonnage: Le rendement du codeur vu ci-dessus est de 1/2, 1 bit d'entre, 2
bits de sortie. Le poinonnage consiste amliorer ce rendement en ne transmettant
pas certains bits sortant du codeur convolutif. Si trois bits se prsente en entre de
codeur, on va en retrouver 6 en sortie mais on en transmettra que 4. Le rendement
sera alors de 3/4. On parle aussi de FEC 3/4 (FEC = Forward Error Correction).
Bien sur, ce poinonnage cre des erreurs puisque l'on ne transmet pas tous les bits.
En rception, dans le dcodeur de Viterbi, on remplace ces bits par des zros. De part
la robustesse et la nature du code convolutif choisi, on retrouve leurs valeurs la plus
probable. On est maintenant presque prt attaquer un modulateur numrique. Un
problme subsiste cependant. Le signal numrique est de forme rectangulaire et si on
le module ainsi, on obtient un spectre en frquence infini (un sin x/x). On va
rsoudre le problme en filtrant le signal de faon rduire la bande occupe. Le
filtre choisit est le filtre de Nyquist. Attention, dans le cas de la transmission par
cble, qui est considr comme un milieu protg, il n'y a pas d'application du code
convolutif et donc du poinonnage.
Filtre de Nyquist: Une explication plus complte viendra en son temps. Pour le
moment, on dira juste que ce filtrage va diminuer le dbit utile de notre signal en
fonction d'un coefficient appel Roll Off. La largeur de bande occupe sera gale :
W= Dbit utile x(1+Roll Off)
Les exemples de calcul de dbit, vu plus loin, illustrerons son emploi.
Le QPSK: La transmission satellite demande des codes de corrections puissants et
une modulation la moins sensible possible aux distorsions de phase et d'amplitude.
En effet la transmission est normment bruite, et les tubes des transpondeurs
travaillant en saturation, il est hors de question de travailler avec une information
module en amplitude.
Principe: Le choix s'est donc port sur une modulation QPSK(Quaternary Phase Shift
Keying ou modulation dplacement de phase 4 tats). C'est en fait une
combinaison de deux modulations d'amplitude porteuse supprime. Les deux
porteuses, appel I et Q, sont, bien sr, dphases de 90.
Calcul du dbit utile: Pour revenir des considrations pratiques, nous allons
calculer le dbit utile en sortie de multiplexeur, en fonction de la largeur du canal
satellite. La largeur d'un canal satellite -3 dB est de 36 MHz. On a vu que, de part
le filtrage de Niquyst, le dbit du signal binaire que l'on va pouvoir transporter est
gale :
En satellite, le Roll Off a t choisi gale 0.35 (valeur qui est compromis entre une
bonne efficacit du filtre et un bon rendement). Donc pour une largeur de canal de
36MHz, on obtient un dbit utile de 26,6 Mbit/s. En pratique, on prend une largeur de
canal un peu plus importante, ce qui permet d'obtenir un dbit binaire de 27.5
Mbit/s. Cette valeur tant le dbit en sortie du modulateur, elle est gale au Dbit
Symbole (Symbol Rate) du transpondeur. Pour un transpondeur de 36 MHz de
largeur de bande, le Symbol Rate est de 27,5 MSymbol/s. On a employ une
modulation de type QPSK, un symbole transporte deux bits donc le dbit binaire brut
est de 55 Mbit/s. Dans cette valeur sont compris les bits de redondance apports par
le codage Reed Solomon et le code convolutif. Le dbit utile, en sortie de
multiplexeur, est gale : Dbit utile= dbit brute x rendement du code Reed
Solomon x rendement du code convolutif. Le rendement du code Reed Solomon est
gale 188/204 Le rendement du code convolutif est gale au FEC. D'o le tableau
suivant;
Pour un Dbit Symbole de 27.5 MSymbol/s sur un transpondeur de 36MHz de largeur
de bande
On pourrait aller loin comme a, mais l'on voit que plus on code de bit par symbole,
plus les symboles sont rapprochs et donc plus on est sensible au bruit. Un symbole
trs bruit et donc loign de son emplacement d'origine, peut tre confondu avec le
symbole adjacent (d'ou l'utilit des oprations d'entrelacement et de correction
d'erreurs). En pratique, la plupart des rseaux cbls travaillent en QAM 64.
Calcul du dbit utile: Ici la largeur du canal de transmission est de 8MHz (largeur
des anciens canaux analogique). On a vu que, de part le filtrage de Nyquist, le dbit
du signal binaire que l'on va pouvoir transporter est gale :
Le Roll Off choisi est de 0.15 (milieu protg et bande faible). Donc pour une largeur
de 8 MHz, le dbit binaire est au maximum de 6,96. Ce dbit est gale au Dbit
Symbole en sortie du modulateur QAM. Si nous travaillons en QAM 64, un symbole
reprsente 6 bits et donc le dbit brut, en sortie du multiplexeur est gal 6 x 6.96
soit 41.76 Mbit/s, codage Reed Solomon compris. Ici, je vous le rappelle, il n'y a pas
de codage convolutif. Le dbit utile est donc: dbit binaire utile = dbit binaire brute
x rendement du code Reed Solomon, soit dans notre exemple 41.76 x (188/204) ou
38.48Mbit/s. Sur un rseau cbl, le dbit binaire utile sera au maximum de 38.5
Mbit/s.
Transmodulation: Pour un oprateur cble, il est trs intressant de diffuser ses
abonns des transpondeurs complets provenant d'oprateur satellite. Il dmodule le
signal QPSK et re-module le train MPEG en QAM 64 en effectuant un transnitage
(changement dans les tables SI). Seule contrainte, le dbit utile du transpondeur doit
tre infrieur 38.5 Mbit/s. Ce qui revient dire que pour les transpondeurs
courants, le FEC doit tre infrieur ou gal 3/4(Voir Modulation QPSK).
Prenons le cas d'un transpondeur classique de FEC 2/3. Son dbit utile est de 33.79
Mbit/s. On passe la moulinette de Reed Solomon. Le dbit devient 33.79 x
(204/188)= 36.66 Mbit/s. La modulation QAM 64 transporte 6 bits par symbole donc
le Symbol Rate est de 36.66/6 = 6.11 MSymbol/s. La bande passante occupe sur le
cble sera gale 6.11 x (1+Roll Off), c'est dire 6.11 x 1.15=7.03 MHz. On est
bien dans le gabarit des 8MHz.
Transnitage: C'est l'opration qui consiste remplacer la NIT d'un flux DVB par une
autre pour changer le rseau d'appartenance d'un flux. En clair le cblo remplace la
NIT incidente de l'oprateur satellitaire par la sienne.
Le COFDM: Transmettre un train numrique par voie hertzienne n'est pas une mince
affaire et c'est pourquoi c'est la technologie qui a demande le plus de temps pour
merger. C'est celle du DAB (Digital Audio Broadcasting) qui a t adapte la
tlvision numrique. Voici quelques lments et avantages utiliss par le DVBT.
Aperu du COFDM (Coded Orthogonal Frequency Division Multiplex):
Le challenge relev est qu' la rception on puisse retrouver les symboles transmis
indpendamment des chemins multiples(rflexions, chos , antenne recevant deux
metteurs diffrents, effet doppler dans le cas de la rception mobile) emprunts
depuis le ou les metteurs. Par dfinition, les caractristiques d'un canal de
transmission ne sont pas constantes dans le temps. Mais durant un court laps de
temps, les caractristiques d'un canal hertzien sont stables. Le COFDM dcoupe le
canal en cellule selon les axes du temps et des frquences.
Le canal est alors constitu d'une suite de sous bandes de frquence et d'une suite de
segments temporels.
chaque cellule frquence/temps est attribue une porteuse ddie qui reprsente
un symbole COFDM. On va donc rpartir l'information transporter sur un ensemble
de ces porteuses, module chacune faible dbit par une modulation du type QPSK
ou QAM. Deux choix existent, le mode dit 8K(6817 porteuses dans le canal) ou le
mode dit 2k(1705 porteuses dans le canal). Chacune des porteuses est orthogonale
la prcdente.
Une mme suite de symbole arrivant un rcepteur par deux chemins diffrents se
prsente comme la mme information arrivant deux instants diffrents et qui
s'additionnent. Ces chos provoquent deux types de dfauts:
L'interfrence intra symbole: Addition d'un symbole avec lui-mme lgrement
dphas.
L'interfrence inter symbole: Addition d'un symbole avec le suivant plus le
prcdent lgrement dphas. Entre chaque symbole transmis, on insre une zone
"morte" appele intervalle de garde. De plus la dure utile d'un symbole sera choisie
suffisamment grande par rapport l'talement des chos. Ces deux prcautions vont
limiter l'interfrence inter symbole (celle ci se produisant au dbut des symboles,
c'est l'intervalle de garde qui est affect).
Avantages:
Le DVBT est compatible avec les installations de rception analogique dj en place
(antenne, distribution collectives) Le systme est insensible aux chos, il n'y a plus
de canaux interdits. Avec 25 Mbit/s utiles dans un canal, on diffuse 5 6
programmes o passe aujourd'hui un seul programme analogique. Possibilit de
grer des dcrochages locaux pour des chanes ou des programmes locaux.
Possibilit de rception hertzienne mobile de qualit. Introduction de rseaux dit SFN
(Single Frequency Network).Un programme est disponible sur une seule et mme
frquence sur tout le territoire. Possibilit d'une rception mobile parfaite.
Inconvnients:
Moins de canaux disponibles que sur le satellite. Cot de l'infrastructure des
metteurs terrestres. Complexit des dmodulateurs.
Les rseaux mono-frquence:
Les avantages de la modulation COFDM sont nombreux, mais un de ses intrts
principaux est sa capacit faire face aux chos, produits par des rflexions dues
l'environnement ou plusieurs metteurs fonctionnant sur le mme canal RF. En fait,
le COFDM peut employer des chos constructifs (c.--d.: ceux qui augmentent la
puissance reue) et ngliger les effets ngatifs des autres.
La modulation de COFDM offre aux radio-diffuseurs une nouvelle manire d'utiliser
leurs rseaux terrestres, soit la multiplication d'metteur sur le mme canal pour
augmenter la zone de couverture et transmettre plus de canaux. Pour raliser un
rseau mono frquence, il faut que les metteurs qui oprent sur la mme frquence,
en mme temps, transportent les mmes bits d'informations. Tous les metteurs du
rseau doivent tre synchroniss dans le domaine frquentiel aussi bien que dans le
domaine temporel. C'est par l'emploi du systme GPS que l'on rsout le problme.
Synchronisation temporelle:
La valeur d'intervalle de garde choisie pour le rseau a une grande importante sur la
topologie du rseau mme, sa dure rgit le temps maximum d'chos admissible par
le systme et, donc, dtermine la distance maximum entre les metteurs de cocanal. La fentre de temps, pendant laquelle les rcepteurs chantillonnent le signal
utile exclue la priode d'intervalle de garde, o le signal est fait d'un mlange de
deux symboles conscutifs de COFDM.
L'intervalle de garde doit tre considr globalement comme "budget de temps". Ce
sera sur cet intervalle non utilis que l'on pourra compenser une mauvaise
synchronisation temporelle d'un metteur du rseau. En pratique, l'oprateur de
rseau utilise 1 impulsion par seconde(1PPS, Pulse Per Second) issue d'un rcepteur
GPS. Cette rfrence de temps autorise insrer un marqueur de temps dans le
multiplex l'entre du rseau de distribution primaire pour permettre, dans chaque
metteur, au processeur de COFDM de retarder le multiplex entrant jusqu' ce qu'un
instant commun de temps de diffusion se produise.
Synchronisation frquentielle:
A: Dispersion d'nergie
B: Code Reed Solomon
C: Entrelacement
D: Code convolutif et
poinonnage
E: Filtrage de Nyquist
F: Modulation QPSK ou QAM
Les Tables SI/PSI(Service
Information/Program Specific
Information):
En analogique, un canal de
transmission transporte un programme de tlvision. Votre rcepteur, c'est--dire
votre tlviseur, se cale sur la frquence (qu'il a en mmoire) de la chane et dcode
le service qui est toujours de mme type, soit un service de tlvision.
Le cas du numrique est trs diffrent. Un canal de transmission transporte plusieurs
services de natures diffrentes. Dcoder un service de tlvision ne fait pas appel aux
mmes ressources du terminal que dcoder un service interactif. On transportera
donc dans le signal des informations qui permettront au terminal de connatre la
nature et la composition des services prsents dans un TS(transport stream). Par
extension, on inclura aussi des informations sur les autres TS de l'offre. Et, comme
on l'aura devin, ces informations seront transportes dans les tables.
Les tables sont diffuses rgulirement, chacune avec une rcurrence juge
suffisante par l'oprateur pour rafrachir les informations au niveau du terminal en
fonction du type de table, cela va de 100ms 30s.
Structure des tables
La structure est simple et gnrique, DVB a rserv une plage de PID pour les
transporter: 0 20. Une table est compose de sous-tables, qui peuvent ellesmmes tre composes de section.
Chaque section est compose d'un en-tte puis de boucles contenant des
descripteurs, ou Tag. Ces tags sont l'lment unitaire d'information. Comme son
habitude, DVB dfinit des tables et tags publics et laisse la possibilit de transporter
des tables et tags privs dfinis pour les besoins particuliers de l'oprateur. Enfin la
taille d'une section est limite 1024 octets pour la plupart des tables et 4096 pour
les autres. Voyons tout de suite la composition d'un en-tte de section.
En principe, une table est lue une fois puis le terminal se contente de surveiller son
numro de section. Si celui-ci change, il lit de nouveau la table. La description des
boucles sera aborde lors de la description de chaque table.
Tables optionnelles
BAT (Bouquet Association Table):
A pour PID 17 et table id 74. Cette table permet de grouper les services autrement
que par la notion de rseau (NIT). Un service peut appartenir plusieurs bouquets.
On peut faire, par exemple, des bouquets pour regrouper les chanes par thmes ou
encore faire des bouquets par zone gographique de rceptions.
ST (Stuffing Table):
A pour PID 19 et table id 114. Cette table dite de bourrage permet de venir
remplacer n'importe quelle section d'autres tables pour l'invalider.
HDTV est un signal vido numrique (DTV, Digital Television) haute rsolution,
combin avec un son numrique ambiophonique (Dolby Digital Surround Sound, AC3). Il reprsente le standard de rsolution vido numrique le plus lev
prsentement sur le march. Cette combinaison cre une exprience audio-visuelle
extrmement enrichissante. Cependant, le HDTV require de la part des stations de
tlvision qu'ils s'quipent de tout nouveaux quipements de production et de
diffusion, et les consommateurs devront faire de mme pour recevoir le signal. Il
s'agit d'ailleurs l d'une des principale raisons pour laquelle l'implantation de ce
standard est plus lente que prvue initialement.
HDTV offre une rsolution d'image beaucoup plus leve que ce qui se fait pour le
moment, c'est d'ailleurs son principal avantage par rapport aux signaux numriques
standard. On parle ici de 720 ou 1080 lignes de rsolution, compar aux 525 lignes
auxquels les gens sont habitus en format NTSC, la diffrence est norme.
Des 18 formats DTV, 6 sont des formats HDTV et 5 de ceux-ci sont bass sur une
"analyse"(scanning) progressive et 1 autre sur une analyse "entrelace"(Interlaced).
Les 12 formats restants comprennent 1 format SDTV (Standard Digital Television) et
les 11 autres sont des formats EDTV (Enhance Digital Television(4 avec un ration de
16:9 et 7 formats conventionnels avec un ratio de 4:3). Les rseaux et stations de
tlvision ont le choix d'utiliser l'un ou l'autre de ces formats. Les principaux formats
susceptibles d'tres utiliss en HDTV sont:
720p 1280 X 720 pixels progressifs
1080i 1920 X 1080 pixels entrelacs(Interlaced)
1080p 1920 X 1080 pixels progressifs
Voici un tableau comparatif des diffrents standards existants:
Tous les formats DTV utilisent prsentement MPEG2 comme leur standard de
compression vido, tout comme les DVD-Vido. MPEG2 est un algorithme de
compression flexible qui s'adapte aisment aux hautes rsolutions du DTV.
En format de tlvision NTSC analogique (Amrique du Nord), l'image vido a 525
lignes, mais 480 seulement sont effectivement visibles. Un tlviseur normal aura
donc une rsolution effective d'environ 210,000 pixels. La rsolution maximum des
formats numriques (HDTV) permet une rsolution d'environ 2 000 000 de pixels, ce
qui reprsente environ
10 fois plus de dtails pour une image en Haute dfinition. On peut utiliser des ratios
de 4:3 ou 16:9, tel que montr dans la figure suivante:
Pour oprer avec les nouveaux standards HDTV, les diffuseurs devront se r-quiper
de a z, car les formats digitaux HDTV ont:
- Une image plus large.
- Une image beaucoup plus dtaille.
- Une qualit audio suprieure (5.1 canaux Dolby Digital, AC-3).
- La possibilit d'envoyer de l'information directement votre moniteur ou PC (la
transmission HDTV est base sur un flux de donnes digitale de 19.3 Mbps*).
En HDTV, le ratio utilis est de 16:9(1.78:1), ce qui est plus prs de celui utilis dans
les salles de cinma (1.85:1 ou 2.35:1). Prsentement les diffuseurs doivent utiliser
une mthode appele "pan and scan"(dcouper l'image complte un ratio de 4:3,
*- La largeur de bande passante utilise pour diffuser les signaux numriques n'est
pas fixe. Elle voluera en fonction de diffrents facteurs, dont les plus importants
sont le prix de la bande passante versus la qualit d'image et l'volution des
algorithmes d'encodage qui permettrons de rduire la taille du signal sans affecter la
qualit. Prsentement on prvoit utiliser entre 12 et 19 Mbps, mais ce chiffre pourrait
encore baisser.
4:3 : Format de tlvision cran large dont le rapport d'cran largeur sur hauteur
d'image est 4 / 3 soit 1.33 fois plus large que haut.
5.1 : Configuration de haut-parleurs la plus classique du "Cinma maison" sur 4
enceintes plus 1 caisson spcial pour les effets de type explosion et effets spciaux
(sub-woofer).
16:9 : Format de tlvision cran large dont le rapport d'cran largeur sur hauteur
d'image est 16/9 soit 1.78 fois plus large que haut.
525/60 : Systme de diffusion TV de 525 lignes par image et 60 trames entrelaces
(30 images) par seconde. Correspond au standard de tlvision NTSC.
625/50 : Systme de diffusion TV de 625 lignes par image et 50 trames entrelaces
(25 images) par seconde. Correspond aux standards de tlvision PAL et SECAM.
1/2 D1 : Une des rsolutions d'image MPEG-2 de 352 x 576 (PAL/SECAM) ou 352 x
480(NTSC) utilise dans le format DVD-Video.
2/3 D1 : Rsolution d'image MPEG-2 de 480 x 576 (PAL/SECAM) ou 480 x
480(NTSC) exploite dans le format SVCD.
2-2 pulldown : Le processus de transfert d'un film cinma 24 images par seconde
en vido PAL/SECAM 25 images par seconde. Le film est enregistr avec une
augmentation de sa vitesse de lecture de 4 %.
2-3 pulldown : Le processus de transfert d'un film cinma 24 images par seconde
en vido NTSC 30 images par seconde en diffusant une des images en deux trames
puis la suivante en trois trames.
3-2 pulldown : Variation du 2-3 pulldown. La premire image est diffuse sur 3
trames au lieu de deux.
8/16 modulation : Une des tapes de la transformation de donnes brutes en
donnes stockes sur un DVD, aussi appele EFM+.
8-VSB : Acronyme pour la mthode de transmission utilise pour la tldiffusion
numrique terrestre au Canada et aux tats-Unis. Huit niveaux d'amplitude spars.
La technologie de diffusion "vestigial side-band" ou par bande latrale rsiduelle est
une technique de modulation analogique utilise pour rduire la largeur de spectre
requise pour la diffusion d'informations par cble ou terrestre.
AAU(Audio Access Unit/Unit d'Accs Audio) : Voir Access Unit.
A/B Roll Editing(Montage A/B RoLL) : Montage effectu en utilisant deux sources
vido, A & B, et un "mixeur" qui permet une varit de transitions entre elles.
A/B Switch : quipement qui accepte les signaux (Optiques ou lectriques) de deux
sources (A & B) et qui permet d'aiguiller de un l'autre, automatiquement ou
manuellement.
AC-3 : Standard audio pour 5.1 canaux approuv pour la tlvision numrique au
Canada. AC-3 offre une qualit audio numrique similaire au CD et fournit cinq
canaux de pleine largeur de bande: Gauche, Droite, Centre, Arrire (ou ct) gauche,
Arrire (ou ct) droit, plus un caisson d'extrmes graves, LFE, (effets de basse
frquence), pour un total de 5.1 canaux. AC-3 est un membre de la famille de
systmes de son dvelopps par Dolby Labs.
ACATS : Advisory Committee on Advanced Television Service.
Access Unit: Dans le cas de l'audio, un "access unit" est la reprsentation code
d'un "frame" audio. Dans le cas du vido, un "access unit" inclut toute l'information
code pour une image et tous les "bits" de remplissage qui suivent, jusqu'au prochain
"access unit"(non inclus).
ACL (cran d'affichage cristaux liquides) : Cette technologie offre un format
d'cran plat et utilise une couche de cristaux liquides trs mince. Elle offre une
brillance d'image trs leve et une bonne reproduction des couleurs. La taille des
crans HD ACL peut atteindre jusqu' 96 cm (38 po). La technologie ACL est
galement utilise dans plusieurs tl-projecteurs.
A/D : Convertisseur Analogue numrique (Analogue/Digital).
ADPCM (Adaptive differential pulse code modulation) : Technique de
compression d'un fichier audio qui encode la diffrence entre un chantillon sonore et
le suivant par prdiction, de manire non destructive ou destructive selon ses
dclinaisons.
AES/EBU (Audio Engineering Society /European Broadcasting union) :
Standard professionnel rgissant la vitesse de transfert d'information
audionumrique, et ce, travers deux canaux.
Afterburner : Dispositif permettant d'extraire l'information incorpore dans le signal
vido et de le transformer en format texte. Ce "texte" est alors "brl" sur l'cran
vido l'intrieur d'une fentre. Surtout utilis pour brler le "time code", mais aussi
pour d'autres informations pouvant servir la post-production, par exemple.
AIF (Audio Interchange File) : Un format de fichier audio dvelopp par Apple.
Les fichiers .AIF sont populaires pour transfrer entre les ordinateurs Macintosh et les
PC.
Aliasing : Dfauts ou distorsion de l'image tl ou de l'audio. Les dfauts
apparaissent souvent comme des lignes diagonales en escalier et des sautillements
ou points brillants. En vido numrique, l'aliasing est caus par un chantillonnage
insuffisant ou un mauvais filtrage du signal numrique.
Alpha channel : Information attache chaque pixel qui reprsente comment ce
pixel doit tre "mix" avec le background et/ou vido (transparence).
Analogique (signal)[Analogue Signal] : Mthode de transmission d'un signal
vido par la variation continue d'un signal lectrique.
Anamorphique (Anamorphic) : La compression horizontale d'une image 16:9 dans
un plein cran 4:3 qui entraine la distorsion verticale de l'image.
Anchor Frame : Un frame vido utilis pour les prdictions. Les "I-Frames" et les "PFrames" sont gnralement utiliss comme "anchor frames", mais jamais les "BFrames".
Ancillary Time Code (ATC) : Cette information de contrle de temps et d'adressage
(SMPTE RP188) est encode dans l'espace rserv au mtadata d'un signal vido
numrique. Elle contient le mme type d'information que le LTC et remplace le VITC
dans les systme de tlvision haute dfinition.
ANSI : American National Standards Institute.
API (Application Program Interface) : Une interface entre le systme d'opration
et les applications incluant la manire utilise par les applications pour communiquer
avec le systme d'opration et les services que celui-ci met la disposition des
applications. Par exemple un API pourrais rendre possible a un programme qui
l'utilise d'ouvrir des fentres sous Windows.
Artefact : Terme gnrique pour dfinir les lments indsirables et/ou dfectueux
dans une image vido (effets de blocs, bruits vido, etc.) et indpendant des rglages
du tlviseur. Les plus communs en vido analogue ont trait la couleur et/ou la
luminance. En numrique, ils consistent en macroblocks, qui ressemblent de la
pixellisation de l'image vido.
ASCII (American Standard Code for Information Interchange) : Un code
standard pour la transmission d'information consistant en 128 lettres, nombres,
symboles et codes spciaux qui sont chacun reprsents par un nombre binaire
unique.
Aspect Ratio (Format de l'image) : Rapport entre la largeur et la hauteur d'un
cran de tlvision ou de visualisation.
Asynchrone (Asynchronous) : Qui manque de synchronisation. En vido, un signal
est dit asynchrone lorsqu'il n'est pas en synchronisation avec le signal de rfrence
du systme.
Bit rate : La vitesse laquelle le flux d'information compress est envoy dans le
canal de transmission.
Blanking level : Dans un signal vido composite, indique le niveau sparant l'image
proprement dite de l'information de synchronisation.
Block : Un block est un ensemble de 8X8 pixels ou un coefficient DCT reprsentant la
luminance et la chrominance.
Coaxial : Cble compos d'un fil central isol transportant l'information entour
d'une tresse mtallique servant de fil de masse, immunisant par l le signal vhicul
contre les parasites.
FEC (Forward Error Correction) : Systme dans lequel une redondance est
ajoute au message, l'mission, de faon ce que les erreurs soient corriges
dynamiquement la rception dans le dcodeur.
MPEG (Motion Pictures Expert Group) : Groupe ayant dfini les standards de
compression d'images animes.
MPEG-1 : Rfre au standard ISO/IEC 11172-1 (Systmes), 11172-2 (Vido),
11172-3 (Audio), 11172-4 (Compliance Testing) et 11172-5 (Technical Report).
MPEG-2 : Rfre au standard ISO/IEC 13818-1 (Systmes), 13818-2 (Vido),
13818-3 (Audio), 13818-4 (Compliance).
Multidiffusion : Terme dsignant la diffusion sur un canal numrique de 2, 3 ou 4
programmes et/ou services de donnes l'intrieur de la bande de 6 mgaHertz de
base alloue.
Multiplexage statistique (Statistical multiplexing ou StatMux) : Multiplexage
de dbits de plusieurs programmes soumis au codage statistique prcdent, visant
exploiter les variations en sens oppos des dbits des programmes pour
optimiser(minimiser) le dbit global.
Multiplex de programmes (Multiplexing ou Mux) : Technique permettant de
transporter plusieurs programmes dans un seul canal de tlvision au lieu d'un seul
programme diffus, dans le cas de la tlvision analogique.
Pas de Pixel : Le pas de pixel est le nombre de pixels ou points de l'image dans un
tube cran. Plus il y a de pixels, plus l'image est nette. Les crans de tlvision HD
tube prsentent un pas de pixel variant gnralement entre 0.25 et 0.3 mm.
PAT (Program Association Table) : Table d'Association de Programme. Table qui
indique quels sont les PID de PMT des programmes du TS.
Payload : Rfre aux bytes qui suivent immdiatement le bit d'en-tte dans un
packet (paquet).
PCM (Pulse Code Modulation) : Systme de numrisation d'une source analogique
audio ou vido. PCM est un signal numrique non compress.
PCR (Program Clock Reference) : Valeur instantane de l'horloge du codeur qui
est place dans l'en-tte des paquets TS afin de synchroniser l'horloge du dcodeur.
PDF (Portable Document Format) : Format de fichiers utilis par Adobe Acrobat.
Les fichiers PDF contiennent une reprsentation trs compacte de texte et de
graphiques, et permettent aux documents avec du texte et des graphiques
complexes d'tre lus et imprims sur les systmes d'opration DOS, MacIntosh,
Windows et UNIX(SGI, Sun Solaris et Linux).
Pedestal (dcollement du niveau du noir) : Diffrence entre le niveau du noir et
le niveau de suppression, que l'on observe dans un signal vido composite transmis
un rcepteur de tlvision.
PES (Packetized Elementary Stream) : Flux lmentaire MPEG sous forme de
paquets.
Picture (Image): Image source, code ou reconstruite, consiste en trois matrices
rectangulaires qui reprsentent la luminance et deux signaux de chrominance.
PID (Program/packet Identifier) : Identification de programme. Cod sur 13 bits
et plac dans l'en-tte du paquet de transport pour pouvoir l'identifier.
PING (Packet InterNet Gopher) : Protocole, faisant parti du standard TCP/IP,
permettant de vrifier votre connectivit avec un autre quipement, ou de vrifier si
votre connexion TCP/IP fonctionne correctement. Trs utile pour "troubleshooter" des
problmes l'intrieur d'un rseau. Normalement, on "tape" quelque chose comme;
"ping 203.110.225.01", et on obtiens une rponse de cette adresse IP ... ou non.
Pixel (PEL, Picture Element) : Un pixel est un chantillonnage numrique d'une
image un point fixe.
Pixels : Points de lumire individuels rouges, verts et bleus qui constituent une
image.
PMT(Program Map Table) : Table de rpartition de programmes. Table qui indique
quels PID transportent les composantes d'un service (un PID par composante, bien
sr).
Point-to-point transmission : Transmission entre deux stations dsignes.
S-Video : Type de signal qui transmet la luminance (Y) et la chrominance (C) par
des fils spars vitant par l le codage NTSC, PAL ou SECAM et l'invitable perte de
qualit en rsultant.
Symbol Rate (Dbit Symbole) : Dbit du signal en sortie de modulateur.
Sync (Synchronization Signals) : Le taux a lequel l'image est trace sur le
moniteur doit tre synchronise avec la source vido. Il y a 3 types de signal de
synchronisation en vido composite; salve de couleur (color burst), synchronisation
horizontale et verticale.
Synchronous (Synchrone) : Procd de transmission selon lequel les bits et le flux
de caractres sont rgls sur des horloges parfaitement synchronises, tant au point
de dpart qu' l'arrive.