Chap2 TV Num 1

Centre Universitaire Salhi Ahmed de Naama
Département: Sciences & Technologies

Section: Télécommunication
Niveau: 2e Année Master
Option : Systèmes des Télécommunications
Télévision Numérique
MC. SEKKAL
Émail: mohammedc.sekkal@gmail.com
Année Universitaire: 2023-2024

Chapitre 2. Numérisation des signaux vidéo et audio
II.1. Introduction
La Numérisation consiste à transformer un signal analogique qui est un signal continu
et qui contient une quantité infinie d'amplitudes en un signal numérique contenant, lui,
une quantité finie de valeurs. Autrement dit numériser un signal c’est partir d’un signal
analogique pour aller vers un signal numérique.
Le passage de l'analogique au numérique repose sur trois étapes successives:

L'échantillonnage, la quantification, et le codage.
Télévision Numérique 2
II.1. Introduction
La définition de tout traitement effectué sur un signal doit passer par la prise en compte
des caractéristiques et des performances de l'organe de destination. En Télévision (et
autres systèmes audiovisuels): L'influence de la numérisation sur le signal est jugée par
un observateur, lequel possède des caractéristiques de perception subjectives ; dans ce
cas, la numérisation ne doit pas générer, dans la mesure du possible, de défaut
perceptible par l'observateur. Il faut garder à l'esprit que la perception humaine des
phénomènes physiques reste analogique et donc que le résultat de tous les traitements
appliqués au signal n'ont de sens que si l'on sait revenir dans l'espace d'origine, celui qui
nous est perceptible.
II.2. Rappels sur l’échantillonnage et la quantification des signaux

Afin de bien appréhender les 2 opérations élémentaires de la numérisation du signal
analogique que sont l'échantillonnage et la quantification, nous les étudierons séparément
pour bien mettre en évidence l'incidence de leur utilisation sur le signal.
II.2.1. Échantillonnage
Il consiste à prélever pendant un temps très court la portion correspondante du signal

analogique à numériser. L'opération est réalisée suivant une échelle régulière suivant
l'axe de temps, avec une période de répétition de Te.
Soit les notations suivantes :
s(t) : signal analogique
s*(t) : signal échantillonné

4

L'opération d'échantillonnage ainsi réalisée correspond à la convolution de s(t) avec

e(t) (fonction d'échantillonnage), ce qui est exprimé par la formule suivante :
Il en découle la relation suivante entre les transformées de Fourier de chacun des

signaux élémentaires, donnant le spectre du signal échantillonné :

L'allure du spectre est donnée par la figure 1.3. Cela correspond à la duplication du
spectre du signal d'origine sur tous les harmoniques de la fréquence d'échantillonnage.
On retrouve donc le spectre dit de base (celui du signal d'origine) entouré de spectres
"images" que l'on appellera "spectres parasites" pour éviter toute confusion avec
l'image (celle que l'on observe sur un écran !).
L'analyse de l'échantillonnage qui vient d'être faite est purement théorique car il n'est
pas physiquement possible de réaliser la fonction dirac.


Une des spécifications de l'échantillonnage est de permettre, après traitement, de

restituer le signal d'origine sans altérations.
Si le spectre de base du signal d'origine présente des composantes spectrales au-delà

de fe/2, l'échantillonnage, par le jeu des spectres parasites, va les ramener vers les
basses fréquences symétriquement à fe/2 ; on aura alors distorsion par repliement de
spectre, altération impossible à corriger par traitement ; dans ce cas, le théorème
d'échantillonnage (ou théorème de Shannon) n'est pas respecté.
Si le signal est correctement échantillonné. Pour le restituer, il faut éliminer par

filtrage passe-bas les spectres parasites. Le filtre idéal est celui dont la réponse
spectrale vaut 1 de -fe/2 à + fe/2, ce qui correspond à la transmittance : 8

La reconstruction du signal peut alors s'écrire :

II.2.2. Quantification
La quantification consiste à représenter la valeur instantanée d'un signal par un

nombre sur une échelle possédant un nombre fini de valeurs.
C'est une approximation d'une valeur (ou d'un nombre) appartenant à un ensemble
continu (ou non) borné, c'est à dire pouvant prendre une infinité (ou un grand nombre)
de valeurs comprises entre un minimum et un maximum, par un nombre appartenant
à un ensemble discret borné ne pouvant prendre qu'un nombre fini de valeurs.
La quantification d'un signal consiste à appliquer aux échantillons de s(t) un traitement

non-linéaire qui leur fait correspondre une valeur discrète sq(t).

Le signal quantifié sq(t) représente alors le signal s(t) à l'erreur de quantification e(t)
près : st  sq t  et.
Le signal e(t) est assimilable à du bruit rajouté au signal par l'opération de

quantification, on parlera alors de bruit de quantification.
Le quantum entre 2 valeurs discrètes est appelé échelon de quantification (noté q). Il
est appelé parfois, par abus de langage Résolution.
Si celui-ci est constant (c'est très souvent le cas sauf en audio), le quantificateur est dit
uniforme. Dans le cas d'une quantification uniforme binaire sur N bits (codé sur

N bits), d'un signal évoluant dans la plage Amin ; Amax :  11

AMax  AMin
Le quantum q prend la valeur suivante : q 
2N
En supposant le quantum relativement faible par rapport à la dynamique (plage de
valeurs) du signal, on peut approximer la puissance du bruit de quantification (Pe) par la
formule suivante :
La répartition spectrale de ce bruit est uniforme dans la bande spectrale
Cette puissance doit être comparée à celle maximale (exploitation de toute la

dynamique) du signal (Pmax) pour exprimer le rapport signal à bruit (S/B) engendré par
la quantification :

Soit, exprimé en décibels :

II.2.3. Codage
II.3. Dynamique et numérisation des composantes Y, Cr et Cb
II.3.1. Numérisation du signal vidéo
(Échantillonnage et Quantification des images)

Le principe de la numérisation d'une image vidéo est assez simple. La première étape
consiste à sous diviser chaque image vidéo selon une résolution donnée(720 x 486
pixels pour une image vidéo normale) et a associer une valeur numérique à chacun des
éléments qui forment la couleur de ce pixel (YUV ou RGB) en utilisant une table de
conversion de couleurs (normalement 24 bits par pixels pour 16 millions de couleurs
possibles en chaque point).
Ce procédé de conversion doit se faire très rapidement étant donné qu'une image vidéo
contient plusieurs milliers de pixels et que la vidéo analogique NTSC défile à près de 30
images par seconde (25 images de 720 x 576 pixels par seconde en PAL). 17

On parlera donc d’images numériques (ou numérisées) seulement dans le cas où cette
double discrétisation aura été effectuée : en espace et en amplitude.
La représentation de base (appelée aussi canonique) d’une image correspondra donc à

un tableau 2-D, dont chaque élément correspond à un pixel.
Dans le cas d’une image monochrome, chaque pixel sera codé par exemple sur 8 bits et
pourra donc ainsi prendre 256 valeurs différentes (effet de la quantification). Dans le cas
d’une image couleur, le pixel aura trois composantes qui représenteront suivant le
modèle choisi : les composantes (R, V, B) ou les composantes (Y, Cr, Cb), selon les cas.

Remarque: si R, V, B prennent chacun leur valeur sur [0, 255], et Y aussi, les deux
composantes de chrominance Cr et Cb prennent leurs valeurs au départ sur [-128,
+127]. En pratique, on les code en ajoutant un offset de 128, d’où une dynamique
également de [0, 255].
Chapitre 2. Numérisation des signaux vidéo
II.3. Numérisation des composantes Y, Cr et Cb
Décomposition RVB (à gauche) et YUV (à droite)

d’images
II.3.2. Image vidéo non compressé

Si un signal vidéo de 720x486 pixels de résolution est numérisé en utilisant la norme
YUV 4:2:2, le fichier résultant sera de 1025,16 Ko par image ou 30,03 Mo/sec.
C'est ce qu'on appelle le format non compressé de ratio 1:1.
Ces valeurs sont calculées de la façon suivante:
720 pixels X 486 pixels X 24 bits/pixel= 1,049,760 octets/image.
1 koctets = 1024 octets => 1,049,760 octets/image X 1 Ko/1024 octets= 1025,16 Ko.
Conversion Koctets par image en Koctets par seconde:
1025,16 Ko/image X 30 images/sec.= 30754,69 Ko/sec.

1 Moctets = 1024 koctets => 30754,69 Ko/sec. X 1 Mo/1024 Ko = 30,03 Mo/sec.
Note : Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront
environ 25,03 Mo/sec. En se basant sur la résolution 720 x 576 pixels à 25 images/sec.
Limitations techniques
La capacité de stockage:
Avec un débit d'environ 30 Mo/sec, la vidéo numérique non-compressée exigerait donc

plus de 1.8 Go d'espace disque pour capter 1 seule minute de vidéo.

Limitations techniques
La rapidité de transmission:
L'autre problème auquel on doit actuellement faire face avec la vidéo numérique est le
transfert de ces données en format numérique. Certaines technologies permettent
actuellement le transfert des données vidéo numériques non-compressées sauf qu'elles
ne sont pas toujours facilement accessibles. Pour les technologies plus accessibles il faut
donc penser à réduire le débit des données.
II.3.3. Les solutions pour réduire le débit

Le problème est donc de diminuer au maximum le nombre de bits ou d'octets utilisés
pour représenter une image et, par là, de réduire le débit binaire nécessaire pour la
transmettre.
La première solution est de diminuer le nombre d'images par secondes, sauf

qu‘en dessous de 15 à 18 images par secondes notre œil commencera à capter une
saccade plutôt désagréable.
La deuxième possibilité est de réduire le nombre de points de l'image par 2

ou par 4 sauf que la qualité visuelle de l'image résultante sera passablement
réduite, voire même inacceptable.
II.3.3. Les solutions pour réduire le débit

La troisième possibilité est de coder moins d'informations de couleur, sur 2
octets (16 bits) par pixel en 64 000 couleurs, par exemple, ou encore sur un seul octet
par pixel en palette de 256 couleurs. Pour les applications multimédia, cette solution est
acceptable et d'ailleurs très recommandée pour les présentations multimédia, mais pas
pour le montage vidéo, même amateur.
Toutes ces méthodes auront bel et bien pour effet de réduire le débit des données, mais
la dégradation de l'image sera si importante que même un amateur la rejetterait.
La seule vraie solution au problème de débit est apportée par la compression, aussi
appelée Bit Rate Réduction (Réduction du débit binaire). Plusieurs méthodes ont été
mises au point avec plus ou moins de succès. Ce qui est le sujet du chapitre suivant. 25
II.4. Les différents formats des vidéos numériques

Il existe plusieurs formats de la vidéo numérique dans le but de réduire le débit et aussi
le stockage, cela consiste à jouer sur les informations contenues dans la luminance et la
chrominance.
Le sous-échantillonnage de la chrominance est une méthode de réduction de volume

des images numériques. Il consiste à diminuer le nombre d'échantillons à traiter :
on parle de décimation. Il peut être suivi d'une étape de compression d'image ou de
vidéo. Ces étapes sont souvent nécessaires afin d'adapter un signal vidéo à son mode
d'enregistrement ou de transmission.
La vision humaine présentant une sensibilité moindre à la couleur qu'à la luminosité,

on conserve généralement moins d'informations de chrominance que de luminance
sans pour autant dégrader la qualité perçue de l'image.
26
Il est cependant possible de sous-échantillonner la luminance.
II.4.2.1 Structures des sous-échantillonnages

Chaque pixel de l'image peut être reconstitué à partir de ces trois composantes : la
luminance Y', la chrominance bleu ou différence bleu (Cb) et la chrominance rouge (Cr).
Cependant, on diminue souvent le nombre d'échantillons pour réduire le nombre

d'informations à transmettre : un échantillon pourra être utilisé pour plusieurs pixels.
Pour quantifier le sous-échantillonnage, on se représente une région de quatre pixels de

largeur sur 2 pixels de hauteur et on indique une série de 3 nombres J:a:b (par
exemple 4:2:2).
Il est cependant possible de sous-échantillonner la luminance.
II.4.2.1 Structures des sous-échantillonnage s

J est le nombre d'échantillons de luminance (Y') par ligne (toujours identique sur les
deux lignes de J pixels). Habituellement, 4.
a est le nombre d'échantillons de chrominance (Cb, Cr) sur la première ligne de pixels.
b : le nombre d'échantillons de chrominance (Cb, Cr) sur la deuxième ligne de pixels.
II. 4.2.1. Structures de sous-échantillonnage

Pour calculer le rapport de débit requis par rapport à 4:4:4 (ou 4:4:4:4), il faut
additionner tous les facteurs et diviser le résultat par 12 (ou 16, si alpha est présent)
II.4.2.2 Autres structures de sous-échantillonnage

Un quatrième nombre est parfois ajouté, J:a:b:α (par exemple, 4:2:2:4), pour permettre
la transmission ou l'enregistrement d'un canal alpha.
II.4.2.2 Autres structures de sous-échantillonnage

Il existe des structures qui ne concernent que des formats d'enregistrement tel que
(3:1,5:1,5). Le chiffre 3 signifie que trois échantillons de luminance, obtenus par
interpolation, sont enregistrés à partir de 4 qui ont été captés et qui devront être
restitués. Pour des définitions 1920×1080, 1440×1080 échantillons de luminance et
720×1080 échantillons de chaque chrominance sont enregistrés.
(3: 1,5 : 1,5)
II.5. Ligne & Trame vidéo numérique (Résolution)
II.5.1 A

Ainsi, la qualité d’une vidéo dépend du nombre de pixels contenus dans chaque
image (résolution ou taille). Plus il y en a, plus elle a de chances d’être nette. Pour les
smartphone par exemple, il existe actuellement 4 formats principaux :
HD 720p (1280 x 720) – Full HD 1080p (1920 x 1080) – UHD 4K (3840 x 2160) –
UHD 8K (7680 x 4320)
On vois bien donc que la taille des images est leur principale caractéristique lorsqu'on
s'intéresse à leur qualité.
En vidéo numérique, quelques tailles standards, issues du monde de la télévision, sont

bien normalisées. Mais le passage à de nouvelles formes de vidéo s'éloignant de la
télévision rend nécessaire une petit mise au point.
II.6. Standards et définitions de vidéo numérique en p et/ou i

720p, 1080p, voire 1080i… les lettres i et p après la résolution indiquent le mode de
transmission des images.
p : le balayage est progressif. Les images sont affichées dans leur totalité les unes après
les autres. Ce dispositif est censé diffuser une image de meilleure qualité que le i.
i : le balayage est entrelacé. Dans ce cas, les lignes paires et impaires de l’image sont
diffusées alternativement.
II.6.1 Définition standard (SD)

C'est la définition des images numériques issues de la télévision à tube. En télévision,
le PAL/SECAM est prévu pour véhiculer 625 lignes. Certaines de ces lignes n'étant
pas utilisées pour l'image, cela a donné 576 pixels de haut pour le DV-PAL.
II.6.1 Définition standard (SD)

En NTSC, les 525 lignes se sont transformées en 480 pixels de haut.
Dans tous les cas, la largeur est de 720 pixels et la proportion de l'image est de 4/3,
comme celle de la télé à tube.
La différence de hauteur entre les deux standards vient du fait que le NTSC doit
véhiculer 30 images par seconde (à cause du réseau électrique 60 Hz) dans le même
débit que les 25 images par seconde du PAL (du au courant 50 Hz).
II.6.2 Hautes définitions (HD)

HD1 : le 1080i : C'est le standard de la HDTV (TV haute définition). Les images sont
composées de 1920 x 1080 pixels carrés en deux trames entrelacées (d'ou le i, comme
interlaced).
HD2 : le 720p : Format inventé aux Etats-Unis pour introduire le mode progressif en
vidéo. Comme il faut passer 60 images par seconde, la définition a été réduite à 1280 x
720 pixels carrés en une seule trame (d'ou le p, comme progressive).
HDV : Destiné à succéder au DV en haute définition, il est plutôt orienté grand public.
Sa définition est de 1440 x 1080 pixels rectangulaires pour la version 1080i et de
1280 x 720 pixels carrés pour sa version 720p.

AVCHD : Le nouveau format grand public en haute définition, il remplace le
MPEG-2 en définition standard. Sa définition est de 1440 x 1080 pixels rectangulaires
ou de 1920 x 1080 pixels carrés pour la version 1080i et de 1280 x 720 pixels carrés
pour sa version 720p.
DVCPRO HD : A l'origine en 960 x 720 pixels rectangulaires pour la version 60p, il a

maintenant une déclinaison en 1280 x 1080 (60i) ou 1440 x 1080 (50i) pour s'approcher
de la haute définition HDTV.
Dans tous les cas, la proportion (rapport largeur sur hauteur) est de 16/9 (1,77)
II.6.3. Full HD (FHD), Ultra HD (UHD): 2k, 4k, 8k, …
II.6.3. Full HD (FHD), Ultra HD (UHD): 2k, 4k, 8k, …

4K et 8K font référence à un degré de définition de l'image ultra-élevé (Ultra HD),
soit une résolution horizontale d'environ 4000 et 8000 pixels, respectivement.
K signifie environ 1000. Plus le nombre de pixels est élevé, plus l'image est nette.
La résolution TV est parfois exprimée sous la forme 4K2K, qui fait référence à la
résolution horizontale (environ 4K) et à la résolution verticale (environ 2K).
2K ou 2K1K : 1920 pixels horizontaux × 1080 pixels verticaux = 2073600 pixels;
4K ou 4K2K : 3840 pixels horizontaux × 2160 pixels verticaux = 8294400 pixels;
8K ou 8K4K : 7680 pixels horizontaux × 4320 pixels verticaux = 33177600 pixels.
II.7 : Numérisation du signal audio
Les ordinateurs (Systèmes Numériques) savent numériser un son, puis le traiter, par
exemple le compresser, le filtrer, lui ajouter des effets sonores, et enfin le jouer sur
les haut-parleurs.
Pour ce faire, le son est d’abord transformé par le micro en signal audio électrique
qui est présenté à la carte son qui va le numériser avant le traitement par l’ordinateur.
Le signal traité peut être transformé en son par les haut-parleurs.

II.7.1 Définitions
Le son est une vibration de l’air qui se propage avec des caractéristiques variables
d’intensité, de fréquence, de portée, d’écho, ...
L’oreille humaine est sensible aux sons dans certaines limites d’intensité et de
fréquence, c’est le processus de l’audition.
Quand les cordes vocales créent des sons, c’est la voix et le processus de la phonation.
Le microphone (abréviation micro) est le capteur utilisé par l’ordinateur pour
transformer le son en signal électrique, que l’on appelle signal audio. Le micro est ainsi
un transducteur électro-acoustique.

II.7.1 Définitions
La carte son réalise l’interface entre l’unité centrale de l’ordinateur, le micro et les
haut-parleurs. On y trouve des bornes électriques pour échanger les signaux :
1. la borne micro reliée à l’entrée du CAN, acronyme pour Convertisseur Analogique
Numérique afin de numériser le signal électrique issu du micro.
2. la borne haut-parleur est reliée à la sortie du CNA ou Convertisseur Numérique
Analogique qui synthétise des sons audibles par blocage d’ordre zéro.
3. la borne line, qui permet d’échanger des signaux audio avec d’autres appareils.
Parfois, on y trouve aussi un processeur DSP pour traiter le signal audio directement
dans la carte son. Télévision Numérique 44

II.7.1 Définitions
Le convertisseur analogique numérique ou CAN est un circuit intégré électronique
capable de numériser le signal électrique présenté à la borne micro de la carte son.
Le CNA (pour convertisseur numérique analogique) est un circuit intégré qui

reconstitue à partir d’un signal numérique un signal électrique utilisable sur la borne
haut-parleur de la carte son en utilisant la technique du bloqueur d’ordre zéro.
Les haut-parleurs sont des transducteurs électroacoustiques capables de traduire un

signal électrique en vibration sonore de l’air, d’où un son. C’est l’inverse du micro.
Un DSP (pour Digital Signal Processor qui signifie Processeur de Signal Numérique)
est un microprocesseur spécialisé capable de traiter les signaux associés aux sons plus
rapidement et plus efficacement que les microprocesseurs à usage général. 45

II.7.2 Le signal audio
Un signal est un support d’information. Habituellement, C’est une fonction du temps
créée par un capteur pour mesurer une grandeur physique. Le signal audio est un cas
particulier de signal qui traduit la mesure d’un son.
Présenté à l’entrée du CAN, ce signal issu du micro est en réalité une tension
électrique qui reproduit les vibrations de l’air. Cette tension est proportionnelle à
tout instant à la pression de l’air mesure donc l’intensité instantanée du son. On la
représente aisément dans un chronogramme.
L’intervalle des valeurs permises au signal audio s(t) reste limité à IVP = [−1,1],
c'est-à-dire que s(t) [−1,1], t , ou encore que −1 ≤ s(t) ≤ 1, t.


Quand on représente au cours du temps un signal audio, avec le temps en abscisse et
l’intensité en ordonnée, on obtient un chronogramme.

 On appelle note pure un signal audio sinusoïdal, c’est la note de musique la plus
simple. Ainsi, la tonalité téléphonique est une note pure LA3 de fréquence 440 Hz
que tout un chacun peut entendre avant de composer un numéro de téléphone.
 On rappelle qu’un signal audio est analogique quand l’intensité peut prendre toute
valeur dans l’intervalle IVP des valeurs permises soit [−1,1] , c’est le cas du signal
issu du micro.
 Un signal est continu (abréviation de « à temps continu») quand on peut mesurer

son intensité à tout instant de l’enregistrement, c’est le cas du signal issu du micro.

 Un signal discret (à temps discret) est une suite de valeurs mesurées
périodiquement sur un signal continu, son intensité n’est connue qu’aux instants de
mesure.
 Un signal numérique possède une intensité quantifiée qui ne peut prendre qu’un
nombre fini de valeurs différentes dans l’intervalle des valeurs permises IVP = [−1,1].
 Un bloqueur d’ordre zéro reconstitue un signal continu c'est-à-dire qui dure dans
le temps en partant d’une suite de valeurs instantanées arrivant à intervalles de temps
réguliers.

 Le principe est de maintenir la dernière valeur arrivée jusqu’à l’arrivée de la valeur
suivante, il en résulte un signal constant par morceaux que l’on appelle signal
bloqué. Blocage d’Ordre Zéro (ou BOZ) se dit Zero Order Hold (ZOH) en anglais.

II.7.3 Numérisation du signal audio
 Le principe est de maintenir la dernière valeur arrivée jusqu’à l’arrivée de la valeur
suivante, il en résulte un signal constant par morceaux que l’on appelle signal
bloqué. Blocage d’Ordre Zéro (ou BOZ) se dit Zero Order Hold (ZOH) en anglais.
 Comme tous signal, la numérisation d’un signal audio consiste en pratique à le

découper doublement :
1/ d’abord selon l’axe des temps, et on nomme échantillonnage ce découpage et
période d’échantillonnage l’épaisseur des tranches de temps
2/ ensuite, selon l’axe des intensités, et on nomme quantification ce découpage
dont la finesse des tranches est le pas de quantification.

 On rencontre couramment les valeurs suivantes pour la fréquence d’échantillonnage :
fe = 8000 Hz (pour le téléphone) et fe = 44100 Hz (pour les CD audio).
B
 Si B est la longueur binaire des échantillons, on dispose seulement de 2 codes
binaires différents pour coder l’intensité des échantillons, laquelle peut pourtant
prendre toutes les valeurs de l’intervalle IVP = [−1,1 ].
 Le pas de quantification est l’écart inévitable entre deux valeurs successives

possibles pour les échantillons après codage en binaire sur B bit.

 La loi de quantification indique l’intensité associée à chacun des codes binaires
possibles. Avec B bit, l’intervalle des intensités permises IVP = [−1,1] est partitionné
en 2 B sous-intervalles, et une valeur d’intensité est associée à chaque sous-intervalle.
B
Une loi de quantification est dite uniforme quand les 2 pas de quantification sont de
2
taille identique. Pour un signal audio quantifié avec B bit, cette taille vaut alors P 
2B
Si on note c1 , c2 ,..., c2P 1 les centres des sous intervalles de IVP = [−1,1], la règle
d’association est la suivante :
si s(nTe) est inclus dans le pas de quantification Pi on lui associe le code i en
binaire sur B bit et la valeur d’intensité quantifiée sn  ci. Cela produit une erreur de
quantification en  s ( nTe)  sn centrée, c'est-à-dire nulle en moyenne. 53

 La caractéristique de quantification représente graphiquement la loi de
quantification, et reporte l’échantillon s(nTe) s en abscisse et la valeur quantifiée Sn
en ordonnée. Exemple :
caractéristique de quantification de type
CAN dans le cas d’une longueur binaire
valant B = 4bit)
54

II.7.4 Choix de la fréquence d’ échantillonnage du signal audio
 Pour bien échantillonner, il faut absolument respecter la contrainte de Shannon
f e  2  f m . Les échantillons contiennent alors toutes les informations nécessaires pour
reconstituer le signal avant original.
 L’audition humaine s’étend de 20Hz à 20kHz (la zone la plus confortable va de

500Hz à 10000Hz ). La phonation s’étend à peu près de 50Hz à 7kHz. La bande
téléphonique grand public couvre les fréquences de 300Hz à 3300Hz.
 On tire la fréquence fm de l’observation du spectre du signal à échantillonner. S’il

existe une fréquence au-delà de laquelle le spectre est identiquement nul, c’est fm .

II.7.4 Choix de la fréquence d’ échantillonnage du signal audio
 En pratique, on ajoute une marge de sécurité sur la contrainte de Shannon. On fixe
une fréquence d’échantillonnage pouvant aller de fe = 2,2 * fm jusqu’à 4 * fm. Au-
delà, on augmenterait inutilement le nombre de mesures par unité de temps.
II.7.5 Choix de la longueur binaire pour la numérisation du signal audio

Quand la longueur binaire de chaque échantillon augmente, la taille du signal
numérique croît proportionnellement, et le pas de quantification décroît de même que
l’erreur de quantification. La qualité de la numérisation qui croît avec la longueur
binaire des échantillons, est mesurée par le rapport signal sur bruit (ou SNR)

II.7.5 Choix de la longueur binaire pour la numérisation du signal audio
 Si on associe à un code binaire la valeur centrale du pas de quantification, l’erreur de
quantification est comprise entre . Par contre si le code correspond à
la borne inférieur du sous intervalle, l’erreur de quantification est positive et reste
limitée par le pas de quantification, soit .
II.7.6 Le rapport signal sur bruit du signal audio

 En pratique, il est impossible de traiter l’erreur de manière déterministe, car on ne
sait pas prédire en  s ( nTe)  sn .On préfère analyser l’incertitude de quantification,
évaluer plutôt les limites et les propriétés statistiques de l’erreur.

L’hypothèse la plus simple est que les valeurs possibles de l’erreur de quantification
sont équiprobables, réparties uniformément entre les bornes de l’erreur. La
moyenne de l’erreur est la demi somme des bornes, et on sait calculer aussi
simplement l’écart type de l’erreur.
 Une erreur de quantification est d’autant plus pénalisante que l’intensité du signal
audio est faible. Le rapport donne la précision et la qualité de la
quantification. C’est un indicateur de la qualité de la quantification. Cet indicateur
conduit à la notion de rapport signal sur bruit (ou SNR pour Signal to Noise Ratio)
défini comme suit et exprimé en général en décibel (dB) :

Un SNR de 72dB est donné comme un excellent rapport signal sur bruit sur une ligne
téléphonique grand public, le bruit de quantification y est quasiment inaudible.
II.7.7 Calcul du débit et de la taille d’un son numérique
Le débit et la taille d’un son numérisé croissent proportionnellement à la fréquence
d’échantillonnage fe et à la longueur binaire des échantillons B et décroissent par contre
proportionnellement au taux de compression.
Le débit associé à un son numérisé est le nombre de bits créés chaque seconde par
l’opération de numérisation, c’est aussi le nombre de bits à télécharger par seconde pour
jouer le son sans ralentir. Le débit s’exprime en bit par seconde (bps).

 Un son numérisé en monophonie avec fe échantillons de B bit chaque seconde
provoque un débit de numérisation de fe × B bps. En cas de stéréophonie, on utilise
deux haut-parleurs pour recréer l’information de position des sources sonores, il faut
doubler le débit par rapport à la monophonie.
 Si on numérise T seconde de signal audio, la taille mémoire nécessaire (en bit) pour
stocker le son numérique, est le produit du débit (en bps) par la durée en seconde, soit
fe× B×T bits en monophonie, il faut doubler ce résultat en stéréophonie.
 Pour télécharger aisément un fichier son numérique, on le compresse en utilisant un

CODEC. 60
Télévision Numérique

 Le taux de compression peut être calculé indifféremment en faisant le rapport des
tailles ou le rapport des débits du son avant compression et du son compressé.
Ainsi, si on applique un taux de compression C à un son numérique, sa taille et son
débit sont divisée par C et deviennent :
 Un CODEC (pour COder DECoder) est un traitement logiciel utilisé pour

appliquer un taux de compression à un fichier audio (on dit aussi coder), et ensuite
pour décompresser (ou décoder) le fichier compressé.

 On parle par exemple et pour les sons numériques de CODEC mp3, ou de CODEC
µ−law ou A-law, ou encore de CODEC ogg, ou de mpc, selon le principe de
compression appliqué à un son.
 Il existe aussi des CODEC adaptés aux images, tels jpeg, et aux vidéos, tels mpg.
 Les formats des fichiers audio sont multiples, ceux qui sont évoqués le plus souvent :
- Le format PCM (Pulse Coded Modulation) est non compressé, on y trouve
un entête indiquant les paramètres de numérisation et tous les échantillons.
- Le format MP3 (MPEG audio layer 3) est compressé avec des taux variables
de l’ordre de C = 10 , mais la compression introduit une modification du signal.
62

 Les formats des fichiers audio sont multiples, ceux qui sont évoqués le plus souvent :
- Le format AU est compressé avec la loi mu avec un taux plus faible d’au plus
C = 2 mais sans modification du signal
- L’extension .wav sur un fichier audio numérique peut recouvrir plusieurs
formats, dont PCM.

II.7.8 Qualité téléphonique et qualité CD
Parler de qualité de numérisation équivaut à donner les paramètres de numérisation,
que sont fréquence d’échantillonnage, longueur binaire, débit, mono/stéréophonie :
- Qualité téléphonique signifie : monophonie (un seul canal sonore),
fe = 8000 Hz , B = 8bit , donc aussi un débit de 64 kbps
- Qualité CD signifie : stéréophonie (deux canaux sonores), B = 16bit par canal,
et fe = 44100 Hz
Chapitre 2: Numérisation des signaux vidéo et audio
Sources
- Jacques Weiss, Télévision : Signal vidéo, Supélec, Campus de Rennes,

Octobre 98.
- MM. Raymond Forni & Michel PELCHAT, Rapport sur la télévision à haute
définition numérique, office parlementaire d’évaluation des choix
scientifiques et technologiques, Janvier 1993.
- Mohamed LASHAB, Cours Télévision Numérique, Université du 20 Aout

55 Skikda, 2011/2012.
- Marc Van Droogenbroeck, La télévision numérique, Février 2001.
- Jean-Paul Stromboni, Cours: Numérisation du signal audio, ESSI,

02/03/2005
Chapitre 2: Numérisation des signaux vidéo et audio
Sources
- Mac Forum Vidéo, Définitions des vidéos numériques - De la taille des

images , https://forum.mac-video.fr/articles/Definition/Definition.html , En
ligne en Novembre 2023.
- Que choisir, Smartphones - Décrypter les résolutions vidéo HD, Full HD

ou 4K , https://www.quechoisir.org/decryptage-hd-full-hd-uhd-4k-decrypter-
les-formats-video-n6465/ , En ligne en Novembre 2023.
- Thomson, QUELLE EST LA DIFFÉRENCE ENTRE 4K, ULTRA HD, FULL

HD ET HD ?, https://www.mythomson.com/fr_fr/quelle-est-la-difference-
entre-4k-ultra-hd-full-hd-et-hd , En ligne en Novembre 2023.
- SONY, Que signifient 4K et 8K ? ,

https://www.sony.fr/electronics/support/articles/00176888

Chap2 TV Num 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap2 TV Num 1

Transféré par

Droits d'auteur :

Formats disponibles

Centre Universitaire Salhi Ahmed de Naama

Département: Sciences & Technologies

Année Universitaire: 2023-2024

Le passage de l'analogique au numérique repose sur trois étapes successives:

II.2. Rappels sur l’échantillonnage et la quantification des signaux

Il consiste à prélever pendant un temps très court la portion correspondante du signal

Soit les notations suivantes :

s(t) : signal analogique

s*(t) : signal échantillonné

II.2. Rappels sur l’échantillonnage et la quantification des signaux

L'opération d'échantillonnage ainsi réalisée correspond à la convolution de s(t) avec

Il en découle la relation suivante entre les transformées de Fourier de chacun des

II.2. Rappels sur l’échantillonnage et la quantification des signaux

II.2. Rappels sur l’échantillonnage et la quantification des signaux

II.2. Rappels sur l’échantillonnage et la quantification des signaux

Une des spécifications de l'échantillonnage est de permettre, après traitement, de

Si le spectre de base du signal d'origine présente des composantes spectrales au-delà

Si le signal est correctement échantillonné. Pour le restituer, il faut éliminer par

II.2. Rappels sur l’échantillonnage et la quantification des signaux

La reconstruction du signal peut alors s'écrire :

II.2. Rappels sur l’échantillonnage et la quantification des signaux

La quantification consiste à représenter la valeur instantanée d'un signal par un

La quantification d'un signal consiste à appliquer aux échantillons de s(t) un traitement

II.2. Rappels sur l’échantillonnage et la quantification des signaux

près : st  sq t  et.

Le signal e(t) est assimilable à du bruit rajouté au signal par l'opération de

II.2. Rappels sur l’échantillonnage et la quantification des signaux

La répartition spectrale de ce bruit est uniforme dans la bande spectrale

Cette puissance doit être comparée à celle maximale (exploitation de toute la

II.2. Rappels sur l’échantillonnage et la quantification des signaux

Soit, exprimé en décibels :

II.2. Rappels sur l’échantillonnage et la quantification des signaux

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.1. Numérisation du signal vidéo

(Échantillonnage et Quantification des images)

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.1. Numérisation du signal vidéo

(Échantillonnage et Quantification des images)

La représentation de base (appelée aussi canonique) d’une image correspondra donc à

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.1. Numérisation du signal vidéo

(Échantillonnage et Quantification des images)

II.3. Numérisation des composantes Y, Cr et Cb

Décomposition RVB (à gauche) et YUV (à droite)

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.2. Image vidéo non compressé

C'est ce qu'on appelle le format non compressé de ratio 1:1.

Ces valeurs sont calculées de la façon suivante:

720 pixels X 486 pixels X 24 bits/pixel= 1,049,760 octets/image.

Conversion Koctets par image en Koctets par seconde:

1025,16 Ko/image X 30 images/sec.= 30754,69 Ko/sec.

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.2. Image vidéo non compressé

Avec un débit d'environ 30 Mo/sec, la vidéo numérique non-compressée exigerait donc

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.2. Image vidéo non compressé

II.3. Dynamique et numérisation des composantes Y, Cr et Cb

II.3.3. Les solutions pour réduire le débit

La première solution est de diminuer le nombre d'images par secondes, sauf

La deuxième possibilité est de réduire le nombre de points de l'image par 2

II.3. Dynamique et numérisation des composantes Y, Cr et Cb