Vous êtes sur la page 1sur 11

EXERCICES DE REVISION

AVEC SOLUTIONS

1. Supposons que nous disposions de 24 bits par pixel pour une image couleur. Cependant,
nous remarquons que les humains sont plus sensible à R et V qu'à B - en fait, 1,5 fois plus
sensible à R ou V qu'à B. Comment pourrions-nous utiliser au mieux les bits disponibles?
Réponse:
Requantifier les trois couleurs en utilisant pour R et B un bit de plus et diminuer la sensibilité
du vert de 2 bits, on obtient alors les bits 9: 9: 6 pour R: V: B.

2. Considérez l'ensemble suivant de termes liés aux couleurs :


a) longueur d'onde
(b) niveau de couleur
(c) luminosité
(d) blancheur
Comment associeriez-vous chacune des caractéristiques suivantes (plus vagues) à chacune
des caractéristiques ci-dessus
termes?
(a) luminance ⇒ luminosité
(b) teinte ⇒ longueur d'onde
(c) saturation ⇒ blancheur
(d) chrominance ⇒ niveau de couleur

3. Quel est le scintillement le moins détectable, PAL ou NTSC ? Justifier


Réponse:
PAL pourrait être meilleur car plus de lignes, mais en réalité il est moins bon dans ce cas il a
moins d'images / s (NTSC = 30Images/s et PAL=25Images/s).

4. La vidéo numérique utilise un sous-échantillonnage de chrominance. Quel en est le


but? Pourquoi est-ce faisable?
Réponse:
La vision humaine a moins d'acuité dans la vision des couleurs qu'en niveaux de gris -
on peut distinguer les lignes noires proches plus facilement que les lignes colorées, qui
sont rapidement perçues comme une masse sans texture lorsque les lignes se
rapprochent. Par conséquent, il est acceptable perceptuellement de supprimer une
grande partie des informations de couleur. En analogique, cela est accompli dans la
télévision diffusée en attribuant simplement une bande passante de fréquence plus
petite à la couleur qu'aux informations en noir et blanc. En numérique, nous
«décimons» le signal de couleur par sous-échantillonnage (généralement, en faisant la
moyenne des pixels voisins). Le but est d'avoir moins d'informations à transmettre ou
à stocker.
5. Quelles sont les différences les plus marquantes entre un téléviseur ordinaire et un
téléviseur HDTV / UHDTV?
Réponse:
Plus de pixels et un rapport d’écran d’affichage de 16/9 au lieu de 4/3.

6. Quel est l'avantage de la vidéo entrelacée? Quels sont ses limites?


Réponse:
Avantage : Réduit le scintillement.
Limites f: présente des bords dentelés aux objets en mouvement et scintille le long des bords
horizontaux.

7. En supposant une résolution de 12 bits, 120 images/s et un sous-échantillonnage de


chrominance 4: 2: 2, quels sont les débits Vidéos 4K UHDTV et 8K UHDTV si elles ne sont pas
compressées?

Réponse:

Rappels :
- la résolution 480p, correspondant à la résolution d'un film en DVD sur un téléviseur
cathodique (720 x 480 pixels, format 16/9).
- la résolution 720p, correspondant à la norme d'affichage HD Ready (1280 x 720 pixels,
format 16/9).
- la résolution 1080p, correspondant à la norme d'affichage Full HD (1920 x 1080 pixels,
format 16/9).
- la résolution 2160p, correspondant à la norme d'affichage UHDTV1 (3840 x 2160 pixels,
format 16/9), couramment appelée UHD-4K ou simplement 4K.
- la résolution 4320p, correspondant à la norme d'affichage UHDTV2 (7680 x 4320 pixels,
format 16/9), couramment appelée UHD-8K ou simplement 8K.

Rappel sur les définitions d'image :


PAL (DVD) : 720 x 576 pixels (4/3)
480p : 720 x 480 (16/9)
720p : 1280 x 720 (16/9)
1080i : 1920 x 1080 (16/9), en 2 passes (entrelacé)
1080p : 1920 x 1080 (16/9), en 1 passe (progressif)
UHD-4K : 3840 x 2160 (16/9), en 1 passe (progressif)
UHD-8K : 7680 x 4320 (16/9), en 1 passe (progressif)

Donc

4K UHDTV: 3840 × 2160 × 120 × 24 ≈ 23,89 Gbps.


UHDTV 8K: 7680 × 4320 × 120 × 24 ≈ 95,55 Gbps.
8. Lorsque la taille de bloc est 8, connaissant la formule de la DCT.

(a) Si une image en niveaux de gris 8 × 8 est comprise entre 0 et 255, quelle est la valeur la
plus élevée qu'un coefficient DCT pourrait être, et pour quelle image d'entrée? (Indiquez
également toutes les valeurs de coefficient DCT pour cette image.)
(b) Si nous soustrayons d'abord la valeur 128 de l'image entière puis effectuons le DCT, quel
est l'effet exact sur la valeur DCT F [2, 3]?
(c) Pourquoi ferions-nous cette soustraction? La soustraction affecte-t-elle le nombre de bits
dont nous avons besoin pour coder l'image?
(d) Serait-il possible d'inverser cette soustraction dans l'IDCT? Si c'est le cas, comment?
Réponse:
(a) Lorsque l'image est entièrement BLANCHE, c'est-à-dire que tous les pixels ont I = 255. Le
plus grand coefficient est la valeur DC qui est 8 × 255 = 2, 040. Tous les autres (valeurs AC)
sont nuls.
(b) Il n'y a aucun effet sur F [2, 3]. En fait, aucun effet sur les valeurs AC.
(c) L'idée ici est de la transformer en une image moyenne nulle, afin de ne pas gaspiller de
bits en codant la valeur moyenne. (Pensez à un bloc 8 × 8 avec des valeurs d'intensité allant
de 120 à 135.)
(d) Après le décodage, ajoutez simplement 128 à toutes les valeurs de pixels.

9. (a) JPEG utilise la transformation discrète en cosinus (DCT) pour la compression d'image.
je. Quelle est la valeur de F (0, 0) si l'image f (i, j) est comme ci-dessous?
ii. Quel coefficient AC | F (u, v) | est le plus grand pour ce f (i, j)? Pourquoi? Est-ce que F (u, v)
est positif ou négatif? Pourquoi?

(b) Montrez en détail comment un JPEG hiérarchique à trois niveaux codera l'image ci-dessus, en
supposant que
i. L'encodeur et le décodeur aux trois niveaux utilisent le JPEG sans perte.
ii. La réduction fait simplement la moyenne de chaque bloc 2 × 2 en une seule valeur de pixel.
iii. L'extension duplique la valeur d'un seul pixel quatre fois.

Réponse:
a) i. 8 fois l'intensité moyenne = 8 × 110 = 880.
ii. | F (1, 0) | est le plus grand, car le changement de valeur d'intensité est similaire à un demi-cosinus
cycle vertical dans le bloc 8 × 8. F (1, 0) est négatif, car la phase de la
le changement est désactivé de 180 degrés. (Ou tout simplement, c'est l'opposé.)
(b) Résultats pas à pas:

En supposant que le mode P1 du JPEG sans perte (c'est-à-dire, prenez le pixel précédent immédiat
comme valeur prédite), les mots de code générés sont:
X4: 50 0120 0
D2: -30 0 0 0 60 0 0 0 -60 0 0 0 60 0 0 0
D1: 0 0 0. . . 0 0
10. Déterminez en détail le problème suivant de la recherche logarithmique 2D de vecteurs de
mouvement (voir Fig. 10.14).
La trame cible (actuelle) est une trame P. La taille des macroblocs est de 4 × 4. Le vecteur
mouvement est MV (x, y), dans lequel x ∈ [−p, p], y ∈ [−p, p]. Dans cette question,
supposons p ≡ 5.
Le macrobloc en question (assombri) dans le cadre a son coin supérieur gauche à (xt, yt). Il
contient 9 pixels sombres, chacun avec une valeur d'intensité 10; les 7 autres pixels font
partie de l'arrière-plan, qui a une valeur d'intensité uniforme de 100. Le cadre de référence
(précédent) a 8 pixels sombres.
(a) Quelle est la meilleure erreur absolue x, y et moyenne (MAE) pour ce macrobloc?

(b) Montrer étape par étape comment la recherche logarithmique 2D est effectuée, inclure les
emplacements et les passes de la recherche et tous les x, y et MAEs intermédiaires.
11. Une séquence vidéo est donnée pour être codée en utilisant H.263 en mode PB, ayant une
taille d'image de 4CIF, une fréquence d'images de 30 ips et une durée vidéo de 90 minutes.
Les paramètres de compression sont connus comme suit: en moyenne, deux images I sont
codées par seconde. La vidéo à la qualité requise a un taux de compression moyen de I-frame
de 10: 1, un taux de compression moyen de P-frame deux fois meilleur que I-frame et un
taux de compression moyen de B-frame deux fois plus bon que P-frame. En supposant que
les paramètres de compression incluent tous les en-têtes nécessaires, calculez la taille de la
vidéo encodée.
Réponse:

Rappels

Définitions des formats dérivés


Abréviation Définition (en pixels) Utilisé pour
SQCIF (Sous-Quart de CIF) 128 × 96
QCIF (Quart de CIF) 176 × 144 H.261
CIF 352 × 288 H.261
4CIF (4 × CIF) 704 × 576
9CIF (9 × CIF) 1056 × 864
16CIF (16 × CIF) 1408 × 1152

En raison du mode PB, nous pouvons supposer que les trames P et B viennent toujours par
paire. Ainsi, sur 30 images par seconde, nous avons 2 images I, 14 images P et 14 images B.
4CIF a une résolution de 704 × 576 pour la luminance et 352 × 288 pour les images de
chrominance. En supposant des images 8 bits, chaque trame non compressée a 704 × 576 + 2
(352 × 288) = 608, 256 octets ≈ 600 Ko.
Tenez compte des taux de compression moyens: image I 1/10, image P 1/20, image B 1/40.
Pour chaque seconde, la vidéo compressée a
2 × 1/10 × 600 + 14 × 1/20 × 600 + 14 × 1/40 × 600 ≈ 750 Ko.
La taille de la vidéo est donc
750 Ko × 60 × 90 ≈ 4,05 Go.
12. Les transformations entières sont utilisées en H.264 et H.265.
a) Quelle est la relation entre le DCT et Integer Transform?
(b) Quels sont les principaux avantages de l'utilisation d'Integer Transform au lieu de DCT?
Réponse:
(a) Chaque ligne de la matrice de transformation entière est une version approximative et
réduite de la matrice DCT.
(b) Aucune erreur due à la précision à virgule flottante finie, donc pas de dérive; aussi plus
rapide.
13. H.264 et H.265 prennent en charge le filtrage de déblocage en boucle.
(a) Pourquoi le déblocage est-il une bonne idée? Quels sont ses inconvénients?
(b) Quelles sont les principales différences dans ses implémentations H.264 et H.265?
(c) Outre le filtrage de déblocage, que fait H.265 pour améliorer la qualité visuelle?
Réponse:
(a) Suppression de l'artefact en bloc. Sur-lissage, arêtes vives et couleurs originales perdues.
(b) Taille des blocs: 8 × 8 en H.265, 4 × 4 en H.264.
(c) SAO (exemple de décalage adaptatif)
14. Le codage de trame P dans H.264 utilise la transformation entière. Pour cet exercice, supposez:

(a) Quels sont les deux avantages de l'utilisation d'Integer Transform?


(b) Supposons que la trame cible ci-dessous est une trame P. Pour simplifier, supposons que
la taille du macrobloc est 4 × 4. Pour le macrobloc affiché dans le cadre cible:
(i) Quel devrait être le vecteur de mouvement?
(ii) Quelles sont les valeurs de f (i, j) dans ce cas? (iii) Afficher toutes les valeurs de F (u, v).
Réponse:
a) Aucune dérive; aussi plus rapide.
(b) (i) MV = (3, 3).

15. Pourquoi MPEG-1 et MPEG-2 utilisent-ils la structure GOP avec des trames I périodiques? Pour
les applications de visioconférence ou de visiophone, l'encodeur peut-il insérer
périodiquement des images I? Quel peut être le problème?

Réponse : La structure GOP permet un accès aléatoire, ce qui est important pour les applications de
diffusion vidéo, de streaming vidéo et de lecture de DVD, qui sont les applications ciblées de MPEG1 /
2. L'insertion périodique de trames I provoque généralement des pointes dans le flux binaire au niveau
des trames I. Lorsque le flux binaire est envoyé via un canal à débit constant, les données de trame I
prendront plus de temps à envoyer, ce qui entraînera un retard variable au niveau du récepteur. Afin
d'afficher la vidéo à une fréquence d'images constante, un grand tampon de lissage est nécessaire au
niveau du récepteur. Cela augmentera considérablement le délai entre l'envoi d'une trame à
l'expéditeur et son décodage et son affichage. Le délai peut dépasser plusieurs secondes. Pour les
applications de distribution vidéo ciblées par MPEG1 / 2, ce délai est généralement acceptable.
Cependant, pour les applications de visioconférence / téléphonie, le délai acceptable est compris entre
150 ms et 400 ms. Par conséquent, l'insertion périodique d'images I n'est pas recommandée pour les
applications de visioconférence / téléphonie.

16. Décrire les principaux composants du système américain ATSC et la méthode utilisée pour
chaque composant.

Réponse : Le système américain ATSC comprend le codage audio, le codage vidéo, le


multiplexage de données, le codage de canal et la modulation. Le codage audio utilise la
norme Dolby AC3. Le codage vidéo suit le standard vidéo MPEG2, en utilisant soit mp @ hl
soit mp @ ml. Le multiplexage se fait selon la norme du système MPEG2. Le codage de
canal est réalisé en concaténant un code Reed-Solomn externe avec un code en treillis,
avec un entrelaceur de données entre les deux. La modulation est réalisée à l'aide de 8-
VSB, qui utilise 8-ASK pour le mappage de formes d'onde numériques à analogiques et
utilise VSB pour réduire la bande passante à 6 MHz au total.
17. Répétez la même chose pour le système DVB Europe. (5 pt)
Le système DVB Europe comprend également 5 composants. Le codage vidéo et le
multiplexage suivent les normes des systèmes MPEG2 vidéo et MPEG2, comme avec la norme
américaine ATSC. Pour l'audio, le son stéréo est le format standard, codé au format audio
MPEG2 (mais ne nécessite que le mode MPEG2 BC, qui équivaut à la couche 2 MPEG1). Le
codage des canaux est assez similaire, mais le code interne est un code de convolution perforé.
DVB utilise une technique de modulation très différente. Il combine QAM avec OFDM.

18. Envisagez la transmission de signaux numériques sur un canal avec une bande passante de 5
MHz.
a) Si nous utilisons 8 ASK pour moduler les bits numériques en une forme d'onde analogique,
quel est le débit binaire maximal que le canal peut prendre en charge?

Réponse : Un canal de 5 MHz peut prendre en charge au plus 10 M symboles / s. Avec 8 ASK,
chaque symbole porte 3 bits, donc le débit binaire maximum est de 30 Mbits / s.

b) Supposons maintenant que nous utilisions un code de canal au taux 2/3 pour protéger les
informations de charge utile, quel est le débit binaire maximal auquel les informations peuvent
être envoyées?
Le débit binaire maximal des informations est de 30 * 2/3 = 20 Mbits / s.

19. Envisager la mise en œuvre d'un système de télévision numérique avec les résolutions
spatiales et temporelles UIT-R 601 (échantillons 720x576 et 360x576 pour la
luminance et les chrominances, respectivement, à 25 Hz).
a) En supposant que le canal de transmission a une capacité de 100 Mbit / s et
qu'aucun algorithme de compression n'est utilisé, quel est le nombre maximal de bits
par échantillon qui peut être utilisé pour échantillonner le signal de luminance en
considérant que l'échantillon de luminance et de chrominance utilise le même nombre de bits
par échantillon.
b) En supposant maintenant qu'un algorithme de compression est utilisé, fournissant des
facteurs de compression de 20 et 25 pour la luminance et les chrominances, respectivement,
indiquent quelle est la capacité du canal de transmission mentionné ci-dessus qui restera libre
si le nombre de bits par échantillon est de 6.

20. a) Expliquez ce qui mesure le soi-disant taux de codage dans des systèmes comme DVB-T.
b) Indiquez quelle est l'idée principale utilisée dans la modulation OFDM adoptée en DVB-T
pour réduire le nombre de symboles modulés interférant mutuellement.
c) À quoi sert l'intervalle de garde utilisé dans le système de modulation DVB-T? Quelle est la
valeur minimale conceptuelle de cet intervalle?
d) Indiquer, en justifiant, laquelle des variantes COFDM DVB-T est la plus indiquée pour
couvrir de petites zones.
21. Considérez les normes DVB.
a) Expliquer comment la modulation hiérarchique 64-QAM est utilisée avec avantage par
rapport à une version non hiérarchique et pour quelles conditions il y a des avantages
particuliers à l'adoption de ce type de modulation.
b) Identifier deux façons pertinentes de combiner la modulation hiérarchique 64-QAM avec
les méthodes de codage évolutives disponibles dans la vidéo MPEG-2.

22. Considérez un système de télévision numérique DVB.


a) Sachant qu'une solution DVB peut «insérer» 10 Mbit / s de débit binaire total dans un canal
à bande passante de 8 MHz, déterminez quel serait le débit binaire source qui pourrait être
«inséré» si tous les paramètres du système restent les mêmes à l'exception de le rapport de
codage de canal qui passe de ½ à 1/3 et la modulation qui passe de 8-PSK à 64-QAM.
b) Pourquoi est-il essentiel dans un réseau mono-fréquence que les émetteurs envoient les
mêmes données et le fassent bien synchronisé pour transmettre le même symbole précisément
au même moment? Comment les émetteurs obtiennent-ils la référence de temps nécessaire?
c) Quels sont les deux principaux composants de la solution de codage de canaux en DVB-x2?
d) Quel paramètre peut être utilisé pour régler la capacité de correction de la solution de
codage de canal et qu'exprime ce paramètre?
e) Quelle est la principale raison justifiant la disponibilité de longueurs de bloc de codage à
deux canaux en DVB-x2?

Vous aimerez peut-être aussi