AVEC SOLUTIONS
1. Supposons que nous disposions de 24 bits par pixel pour une image couleur. Cependant,
nous remarquons que les humains sont plus sensible à R et V qu'à B - en fait, 1,5 fois plus
sensible à R ou V qu'à B. Comment pourrions-nous utiliser au mieux les bits disponibles?
Réponse:
Requantifier les trois couleurs en utilisant pour R et B un bit de plus et diminuer la sensibilité
du vert de 2 bits, on obtient alors les bits 9: 9: 6 pour R: V: B.
Réponse:
Rappels :
- la résolution 480p, correspondant à la résolution d'un film en DVD sur un téléviseur
cathodique (720 x 480 pixels, format 16/9).
- la résolution 720p, correspondant à la norme d'affichage HD Ready (1280 x 720 pixels,
format 16/9).
- la résolution 1080p, correspondant à la norme d'affichage Full HD (1920 x 1080 pixels,
format 16/9).
- la résolution 2160p, correspondant à la norme d'affichage UHDTV1 (3840 x 2160 pixels,
format 16/9), couramment appelée UHD-4K ou simplement 4K.
- la résolution 4320p, correspondant à la norme d'affichage UHDTV2 (7680 x 4320 pixels,
format 16/9), couramment appelée UHD-8K ou simplement 8K.
Donc
(a) Si une image en niveaux de gris 8 × 8 est comprise entre 0 et 255, quelle est la valeur la
plus élevée qu'un coefficient DCT pourrait être, et pour quelle image d'entrée? (Indiquez
également toutes les valeurs de coefficient DCT pour cette image.)
(b) Si nous soustrayons d'abord la valeur 128 de l'image entière puis effectuons le DCT, quel
est l'effet exact sur la valeur DCT F [2, 3]?
(c) Pourquoi ferions-nous cette soustraction? La soustraction affecte-t-elle le nombre de bits
dont nous avons besoin pour coder l'image?
(d) Serait-il possible d'inverser cette soustraction dans l'IDCT? Si c'est le cas, comment?
Réponse:
(a) Lorsque l'image est entièrement BLANCHE, c'est-à-dire que tous les pixels ont I = 255. Le
plus grand coefficient est la valeur DC qui est 8 × 255 = 2, 040. Tous les autres (valeurs AC)
sont nuls.
(b) Il n'y a aucun effet sur F [2, 3]. En fait, aucun effet sur les valeurs AC.
(c) L'idée ici est de la transformer en une image moyenne nulle, afin de ne pas gaspiller de
bits en codant la valeur moyenne. (Pensez à un bloc 8 × 8 avec des valeurs d'intensité allant
de 120 à 135.)
(d) Après le décodage, ajoutez simplement 128 à toutes les valeurs de pixels.
9. (a) JPEG utilise la transformation discrète en cosinus (DCT) pour la compression d'image.
je. Quelle est la valeur de F (0, 0) si l'image f (i, j) est comme ci-dessous?
ii. Quel coefficient AC | F (u, v) | est le plus grand pour ce f (i, j)? Pourquoi? Est-ce que F (u, v)
est positif ou négatif? Pourquoi?
(b) Montrez en détail comment un JPEG hiérarchique à trois niveaux codera l'image ci-dessus, en
supposant que
i. L'encodeur et le décodeur aux trois niveaux utilisent le JPEG sans perte.
ii. La réduction fait simplement la moyenne de chaque bloc 2 × 2 en une seule valeur de pixel.
iii. L'extension duplique la valeur d'un seul pixel quatre fois.
Réponse:
a) i. 8 fois l'intensité moyenne = 8 × 110 = 880.
ii. | F (1, 0) | est le plus grand, car le changement de valeur d'intensité est similaire à un demi-cosinus
cycle vertical dans le bloc 8 × 8. F (1, 0) est négatif, car la phase de la
le changement est désactivé de 180 degrés. (Ou tout simplement, c'est l'opposé.)
(b) Résultats pas à pas:
En supposant que le mode P1 du JPEG sans perte (c'est-à-dire, prenez le pixel précédent immédiat
comme valeur prédite), les mots de code générés sont:
X4: 50 0120 0
D2: -30 0 0 0 60 0 0 0 -60 0 0 0 60 0 0 0
D1: 0 0 0. . . 0 0
10. Déterminez en détail le problème suivant de la recherche logarithmique 2D de vecteurs de
mouvement (voir Fig. 10.14).
La trame cible (actuelle) est une trame P. La taille des macroblocs est de 4 × 4. Le vecteur
mouvement est MV (x, y), dans lequel x ∈ [−p, p], y ∈ [−p, p]. Dans cette question,
supposons p ≡ 5.
Le macrobloc en question (assombri) dans le cadre a son coin supérieur gauche à (xt, yt). Il
contient 9 pixels sombres, chacun avec une valeur d'intensité 10; les 7 autres pixels font
partie de l'arrière-plan, qui a une valeur d'intensité uniforme de 100. Le cadre de référence
(précédent) a 8 pixels sombres.
(a) Quelle est la meilleure erreur absolue x, y et moyenne (MAE) pour ce macrobloc?
(b) Montrer étape par étape comment la recherche logarithmique 2D est effectuée, inclure les
emplacements et les passes de la recherche et tous les x, y et MAEs intermédiaires.
11. Une séquence vidéo est donnée pour être codée en utilisant H.263 en mode PB, ayant une
taille d'image de 4CIF, une fréquence d'images de 30 ips et une durée vidéo de 90 minutes.
Les paramètres de compression sont connus comme suit: en moyenne, deux images I sont
codées par seconde. La vidéo à la qualité requise a un taux de compression moyen de I-frame
de 10: 1, un taux de compression moyen de P-frame deux fois meilleur que I-frame et un
taux de compression moyen de B-frame deux fois plus bon que P-frame. En supposant que
les paramètres de compression incluent tous les en-têtes nécessaires, calculez la taille de la
vidéo encodée.
Réponse:
Rappels
En raison du mode PB, nous pouvons supposer que les trames P et B viennent toujours par
paire. Ainsi, sur 30 images par seconde, nous avons 2 images I, 14 images P et 14 images B.
4CIF a une résolution de 704 × 576 pour la luminance et 352 × 288 pour les images de
chrominance. En supposant des images 8 bits, chaque trame non compressée a 704 × 576 + 2
(352 × 288) = 608, 256 octets ≈ 600 Ko.
Tenez compte des taux de compression moyens: image I 1/10, image P 1/20, image B 1/40.
Pour chaque seconde, la vidéo compressée a
2 × 1/10 × 600 + 14 × 1/20 × 600 + 14 × 1/40 × 600 ≈ 750 Ko.
La taille de la vidéo est donc
750 Ko × 60 × 90 ≈ 4,05 Go.
12. Les transformations entières sont utilisées en H.264 et H.265.
a) Quelle est la relation entre le DCT et Integer Transform?
(b) Quels sont les principaux avantages de l'utilisation d'Integer Transform au lieu de DCT?
Réponse:
(a) Chaque ligne de la matrice de transformation entière est une version approximative et
réduite de la matrice DCT.
(b) Aucune erreur due à la précision à virgule flottante finie, donc pas de dérive; aussi plus
rapide.
13. H.264 et H.265 prennent en charge le filtrage de déblocage en boucle.
(a) Pourquoi le déblocage est-il une bonne idée? Quels sont ses inconvénients?
(b) Quelles sont les principales différences dans ses implémentations H.264 et H.265?
(c) Outre le filtrage de déblocage, que fait H.265 pour améliorer la qualité visuelle?
Réponse:
(a) Suppression de l'artefact en bloc. Sur-lissage, arêtes vives et couleurs originales perdues.
(b) Taille des blocs: 8 × 8 en H.265, 4 × 4 en H.264.
(c) SAO (exemple de décalage adaptatif)
14. Le codage de trame P dans H.264 utilise la transformation entière. Pour cet exercice, supposez:
15. Pourquoi MPEG-1 et MPEG-2 utilisent-ils la structure GOP avec des trames I périodiques? Pour
les applications de visioconférence ou de visiophone, l'encodeur peut-il insérer
périodiquement des images I? Quel peut être le problème?
Réponse : La structure GOP permet un accès aléatoire, ce qui est important pour les applications de
diffusion vidéo, de streaming vidéo et de lecture de DVD, qui sont les applications ciblées de MPEG1 /
2. L'insertion périodique de trames I provoque généralement des pointes dans le flux binaire au niveau
des trames I. Lorsque le flux binaire est envoyé via un canal à débit constant, les données de trame I
prendront plus de temps à envoyer, ce qui entraînera un retard variable au niveau du récepteur. Afin
d'afficher la vidéo à une fréquence d'images constante, un grand tampon de lissage est nécessaire au
niveau du récepteur. Cela augmentera considérablement le délai entre l'envoi d'une trame à
l'expéditeur et son décodage et son affichage. Le délai peut dépasser plusieurs secondes. Pour les
applications de distribution vidéo ciblées par MPEG1 / 2, ce délai est généralement acceptable.
Cependant, pour les applications de visioconférence / téléphonie, le délai acceptable est compris entre
150 ms et 400 ms. Par conséquent, l'insertion périodique d'images I n'est pas recommandée pour les
applications de visioconférence / téléphonie.
16. Décrire les principaux composants du système américain ATSC et la méthode utilisée pour
chaque composant.
18. Envisagez la transmission de signaux numériques sur un canal avec une bande passante de 5
MHz.
a) Si nous utilisons 8 ASK pour moduler les bits numériques en une forme d'onde analogique,
quel est le débit binaire maximal que le canal peut prendre en charge?
Réponse : Un canal de 5 MHz peut prendre en charge au plus 10 M symboles / s. Avec 8 ASK,
chaque symbole porte 3 bits, donc le débit binaire maximum est de 30 Mbits / s.
b) Supposons maintenant que nous utilisions un code de canal au taux 2/3 pour protéger les
informations de charge utile, quel est le débit binaire maximal auquel les informations peuvent
être envoyées?
Le débit binaire maximal des informations est de 30 * 2/3 = 20 Mbits / s.
19. Envisager la mise en œuvre d'un système de télévision numérique avec les résolutions
spatiales et temporelles UIT-R 601 (échantillons 720x576 et 360x576 pour la
luminance et les chrominances, respectivement, à 25 Hz).
a) En supposant que le canal de transmission a une capacité de 100 Mbit / s et
qu'aucun algorithme de compression n'est utilisé, quel est le nombre maximal de bits
par échantillon qui peut être utilisé pour échantillonner le signal de luminance en
considérant que l'échantillon de luminance et de chrominance utilise le même nombre de bits
par échantillon.
b) En supposant maintenant qu'un algorithme de compression est utilisé, fournissant des
facteurs de compression de 20 et 25 pour la luminance et les chrominances, respectivement,
indiquent quelle est la capacité du canal de transmission mentionné ci-dessus qui restera libre
si le nombre de bits par échantillon est de 6.
20. a) Expliquez ce qui mesure le soi-disant taux de codage dans des systèmes comme DVB-T.
b) Indiquez quelle est l'idée principale utilisée dans la modulation OFDM adoptée en DVB-T
pour réduire le nombre de symboles modulés interférant mutuellement.
c) À quoi sert l'intervalle de garde utilisé dans le système de modulation DVB-T? Quelle est la
valeur minimale conceptuelle de cet intervalle?
d) Indiquer, en justifiant, laquelle des variantes COFDM DVB-T est la plus indiquée pour
couvrir de petites zones.
21. Considérez les normes DVB.
a) Expliquer comment la modulation hiérarchique 64-QAM est utilisée avec avantage par
rapport à une version non hiérarchique et pour quelles conditions il y a des avantages
particuliers à l'adoption de ce type de modulation.
b) Identifier deux façons pertinentes de combiner la modulation hiérarchique 64-QAM avec
les méthodes de codage évolutives disponibles dans la vidéo MPEG-2.