Académique Documents
Professionnel Documents
Culture Documents
Image Son TVHD Master Ist
Image Son TVHD Master Ist
D’image
& de son
+tele
vision
Par
Ibrahim J. KONFE
DISPOSITIFS D’IMAGE
ET DE SON, PLUS
TELEVISION HAUTE
DEFINITION
Objectif principal
Comprendre les concepts de la capture et la numérisation des images, de la vidéo numérique allié au
son.
3
INTRODUCTION
Le traitement du signal dédie une branche à l’image et à la vidéo. Le traitement d’images est l’ensemble
des opérations effectuées sur l’image, afin d’en améliorer la lisibilité et d’en faciliter l’interprétation. C’est,
par exemple, le cas des opérations de rehaussement de contraste, élimination du bruit et correction
d’un flou. C’est en somme l’ensemble d’opérations effectuées pour extraire des «informations» de
l’image comme la segmentation et l’extraction de contours.
Une vidéo est une succession d’images à une certaine cadence. L’oeil humain est capable de distinguer
environ 20 images par seconde. On caractérise la fluidité (vitesse) d’une vidéo par le nombre d’images
par secondes (en anglais frame rate), exprimé en FPS (Frame per second).
I. IMAGE NUMERIQUE
1. Définition
Une image une représentation planaire d’un objet quelconque. Mathématiquement c’est une fonction
bidimensionnelle de la forme ƒ(x, y), où ƒ(x0, y0) est la valeur de ƒ aux coordonnées (x0, y0). Donc, c’est
un processus continu 2D résultat d’une mesure physique L’amplitude de ƒ est appelée intensité (ou
niveau de gris) de l’image au point de coordonnées (x, y).
Si une image est générée par un processus physique, ƒ(x, y) correspond à l’énergie irradiée par ce
processus. Exemples de processus physiques: Emission et réflexion d’ondes lumineuses, Rayonnement
infrarouge, rayon X, Echo ultrason.
2. Représentation de l’image
Une image est une fonction d’un moins d’eux variables réelles :
• Image : ƒ(x, y) qui représente les images 2D
• Volume : ƒ(x, y, z) qui représente les images 3D
• Séquence d’image : ƒ(x, y, t) qui représente les images 2D en mouvement
• Séquence de volumes : ƒ(x, y, z, t) qui représente les images 3D en mouvement
4
3. Types d’images
S
Les images matricielles : dans la description que nous avons faite jusqu’à présent des images, nous
avons utilisé une matrice. On dit alors que l’image matricielle ou bipmap (en anglais). Ce type d’image
est adapté à l’affichage sur écran mais peut-être adapté à l’impression.
Les images vectorielles : le principe des vectoriels est de représenter les données de l’image à l’aide de
formule mathématiques. Cela permet alors d’agrandir l’image indéfiniment sans perte de qualité et
d’obtenir un faible encombrement.
4. Traitement d’images
Il s’agit de l’ensemble des traitements qui peuvent être appliqués à une image.
Le traitement donnant en sortie de l’image :
• Acquisition : c’est la première étape dans le traitement de l’image. Elle est essentielle; on ne peut
décrire, extraire ou améliorer quelque chose qui n’existe pas.
• Amélioration : parmi les traitements les plus simples et plus rapides; mettre en relief les détails ou
faire ressortir certaines caractéristiques.
• Restauration : amélioration des images ayant subies des dégradations.
• Couleurs : domaine qui prend de l’importance en raison du développement d’internet.
• Multi résolutions : fondements pour la représentation à différents degrés de résolution :
représentation extraction d’attributs, compression...
• Compression : réduction de la quantité d’information véhiculées à travers une image : stockage,
transmission de données...
• Traitement morphologique : ensemble d’outils pour extraire des composantes de l’image :
représentation et description des formes.
• Segmentation : procédure de partitionnement de l’image en ses composantes ou objets :
reconnaissance des formes.
• Représentation et description : intervient généralement après une segmentation. Elle peut être vue
comme une sélection de caractéristique.
5
II. LA PHYSIQUE DU SON
1. Définition
On définira par son tout signal pouvant être reçu par nos oreilles. Ce signal vient
d’une modification mécanique de notre environnement le plus proche : l’aire.
L’étude de cette modification mécanique de son origine (émission) a sa réception de notre oreille est
l’acoustique.
Trois éléments sont nécessaires à l’existence d’un son :
1. une source qui produit le son
2. un milieu qui transmet la vibration
3. un récepteur : l’oreille et l’ouïe.
Le son est produit par la vibration d’un corps solide, liquide ou gazeux. C’est ce qu’on va appeler ‘‘la
source sonore». la source sonore peut être de diverses natures : les chocs, les frottements, les variations
de pression, la stimulation électrique, etc.
Les vibrations produites par une source sonore sont transmises à l’aire et l’impose une variation de
pression. Cette variation de pression va se propager dans l’aire et dans tout milieu élastique, sans qu’il
y ait déplacement de matière mais seulement transmission d’énergie de proche en proche. La vibration
provoque le déplacement de particules autour de l’objet qui s’entrechoquent avec les particules voisines
pour revenir à leur point de départ. Ces variations de pression sont aussi appelés ondes sonores. Elles
sont semblables aux variations de la source sonore qui leur a donné naissance. Ce mouvement de
particule se propage en s’atténuant progressivement, car une perte d’énergie se produit au fur et à
mesure que le chant sonore s’étend.
Pour devenir des sons, ces vibrations doivent agir sur un de nos sens, l’ouïe en occurrence. Notre oreille
est sensible aux vibrations entre 20hz et 20000hz (le hertz est l’unité de mesure de la fréquence. 1hz
= 1 oscillation par second). En dessous de 20hz se sont des infra sons que nous ne pouvons percevoir
que par les parois abdominales. Au-dessus de 20000hz il s’agit d’ultra son que seul certains animaux
perçoivent (le chat, le chien, le dauphin par exemple).
Le son renferme trois (3) caractéristiques majeures : son intensité, sa hauteur tonale et son timbre.
Son intensité : ou son volume dépend de la pression acoustique de la source sonore créée
(nombre de particules déplacés). Plus la pression est importante, plus le volume est élevé.
Sa hauteur : ou fréquence est définie par les vibrations de l’objet créant le son. Plus l’objet vibre
rapidement plus le son sera aigu. Le nombre de vibrations par second s’exprime en Hertz.
Ainsi la note LA située au milieu du piano qui est de 440hz signifie que sa sonore vibre 440 fois par
seconde.
Son timbre : est donnée par le nombre et l’intensité des harmoniques qui le compose; c’est ce qui
permet de reconnaitre la personne qui parle et de reconnaitre la personne ou l’instrument qui est
jouée.
L’ouïe est le sens qui nous permet d’entendre mais aussi de communiquer et de maintenir notre équilibre.
L’oreille est l’organe qui perçoit les vibrations de l’air. Notre récepteur auditif est délicat et compliqué. Il
n’est pas linéaire en fréquence ni en sensibilité. La sensibilité maximal de l’oreille est située aux environ
6
de 1000hz et demande une pression acoustique de 2,10pa soit 0db. En revanche à 16hz ou à 20khz,
votre pression doit être 100000 fois plus grande pour entendre ces fréquences.
Nos oreilles sont placées des 2 côtés de la tête. Elles sont écartées d’à peu près 17cm (entre 15cm et
20cm). Du fait de la vitesse du son qui est de 340m/s on remarque qu’il y’a un décalage du temps d’arrivé
du son entre l’oreille droite et l’oreille gauche. Ce décalage temporel est interprété par le cerveau pour
localiser l’origine d’un son sur le plan horizontal; c’est la base de la stéréophonie. Ainsi le placement
des sons dans l’espace stéréophonique que l’homme a l’habitude de pratiquer avec le panoramique en
jouant sur la différence de volume entre les 2 enceintes permet un positionnement imparfait puisque
l’homme a toujours deux sources sonores au lieu d’une seule.
Dans le système international en vigueur, l’unité de mesure est le Newton par mètre carré nommée en
France par Pascal 1N/m² = 1pa
Le décibel mesure des grandeurs : pression ou puissance acoustique, puissance électrique. Le décibel
est noté db suivit des lettres SL (Sound Level) ou SPL (Sound Pressur Level). Pour la mesure des
niveaux de pression acoustique, on adopte comme niveau de référence 0db.
La science dite acoustique comme étude de la propagation, des réflexions, des réfractions, des
diffractions du son (au sens de verbération) selon les milieux ne nous concerne pas ici en détail, et
nous pouvons renvoyer aux nombreux textes techniques sur ce sujet, publiés dans des encyclopédies
ou dans des ouvrages spécialisés. Il suffira de donner quelques repères. Le son se propage autour de sa
source d’une manière circulaire ou sphérique, comme une onde sur une surface d’eau dans laquelle vient
de tomber un caillou. Cette propagation se fait donc dans toutes les directions (phases successives de
compression et de dilatation), et elle s’affaiblit proportionnellement au carré de la distance parcourue.
Il y a réflexion quand la verbération rencontre une surface qui ne l’absorbe pas complètement et qui en
renvoie une partie, à la manière d’une balle. Lorsque nous entendons à la fois – ce qui est très fréquent
– un son en propagation directe de la source à notre oreille et en son réfléchi (rebondissant sur des
parois), le retard entre son « direct » et son réfléchi, explicable par la lenteur du son et par l’importance
variable de ces réflexions suivant le milieu, concourt à créer des réverbérations, qui, soit prolongent
le son et le portent, soit, si elles sont plus importantes, le rendent plus difficile à percevoir (s’agissant
notamment d’une parole), brouillant légèrement ou fortement ses contours.
Quand l’onde sonore rencontre un obstacle, une partie le contourne, et l’on parle alors de diffraction.
C’est ce qui rend encore plus difficile l’isolation acoustique. D’une manière générale, les fréquences
aiguës sont plus directionnelles que les fréquences graves, ce qui entraîne des conséquences diverses
: tant au niveau de la conformation du pavillon auditif chez diverses espèces, que de ce qu’on appelle
l’effet « stétérophonique ». Cela explique notamment qu’on puisse proposer des systèmes dits de «
haute-fidélité » dans lesquels les aigus et les mediums sont répartis sur deux haut-parleurs, alors que
les basses du signal sont émises par un seul et même « caisson de graves ».
1. Définition
Le mot vidéo vient du latin vidéo qui signifie « je vois ». C’est un terme qui regroupe l’ensemble des
techniques permettant la visualisation ou l’enregistrement d’images animées accompagnées de son, sur
un support électronique et, non de type pellicule argentique. Une vidéo est une succession d’images à
une certaine cadence. L’œil humain est capable de distinguer environ 20 images par seconde.
La télévision à ultra-haute définition a suscité beaucoup d’intérêt ces derniers temps, sous l’impulsion
des vendeurs de téléviseurs et de certains fournisseurs de contenu, notamment Netflix. Toutefois, jusqu’à
présent, l’accent a été mis uniquement sur l’augmentation de la résolution. Cependant, l’ultra haute
définition ne se limite pas à l’augmentation du nombre de pixels, elle permet également d’augmenter
la plage dynamique, d’élargir la gamme de couleurs et d’augmenter la fréquence d’images. Lorsque l’on
regarde la télévision sur un écran de taille courante dans un environnement domestique typique, ce
sont ces améliorations supplémentaires qui peuvent finalement apporter le plus de bénéfices pour le
téléspectateur. La qualité de la télévision est donc appelée à s’améliorer dans de multiples dimensions
au cours des prochaines années.
Les normes qui seront utilisées font encore l’objet de vifs débats, mais il est clair que la gestion de
l’héritage et la prise en compte des multiples dimensions de l’amélioration de la télévision constitueront
un défi pour le secteur de la radiodiffusion.
2. L’évolution de la résolution
La technologie d’affichage et de capture progresse. Aujourd’hui, il existe à la fois des caméras vidéo et des
écrans capables d’atteindre des résolutions supérieures à la haute définition complète. Ces résolutions sont
souvent appelées 4K ou TV Ultra Haute Définition (UHDTV) et ont une résolution de 3840x2160, soit
quatre fois la résolution de la TV Haute Définition. La figure ci-dessous montre la résolution de l’UHD par
rapport aux formats antérieurs de définition standard (SD), HD-ready (HD 720p) et haute définition (HD).
SD - 720 x 576
4K - 3840 x 2160
8
3. La gamme de couleur
Le système visuel humain est sensible au rayonnement électromagnétique dans la gamme approximative
de longueurs d’onde allant de 400 nm (bleu-violet) à 700 nm (rouge), grâce à trois types de cellules
coniques qui ont une réponse spectrale différente.
Dans les années 1920, W. David Wright et John Guild ont mené indépendamment une série d’expériences
sur la vision humaine des couleurs. Les expériences utilisaient un écran circulaire, montrant d’un côté
une couleur test à longueur d’onde unique et de l’autre côté, un mélange des trois couleurs primaires,
rouge, vert et bleu, réglable par l’observateur. On demandait aux observateurs d’ajuster le mélange de
couleurs primaires jusqu’à ce qu’ils considèrent qu’une correspondance avec la couleur test à longueur
d’onde unique a été obtenue. Cela n’était pas possible pour toutes les couleurs de test, et une quantité
variable d’une des couleurs primaires était ajoutée à la couleur de test, et une correspondance avec les
deux primaires restantes a été effectuée.
Les valeurs tristimulus RVB, (R, G, B) pour une couleur avec une distribution de puissance spectrale,
I(λ), peuvent être calculées comme étant l’intégrale du produit de la fonction de correspondance des
couleurs (R(λ ), G(λ ), B(λ)) et de la distribution de puissance spectrale, I(λ ), comme indiqué ci-
dessous. Notez que de nombreuses distributions de puissance spectrale différentes correspondent aux
mêmes valeurs tristimulus RVB, et apparaissent également au système visuel humain comme étant de
la même couleur.
Principe de fonctionnement d’une caméra vidéo : la lumière issue de l’objectif est décomposée en
ses trois composantes primaires rouge, verte et bleu. Chaque composante est ensuite envoyé sur un
capteur qui réagit à l’énergie reçue en émettant des électrons.
Les premières caméras vidéo utilisaient des tubes cathodiques à balayage pour convertir l’énergie
lumineuse en énergie électrique.
9
Standard analogique Format
NTSC (National Television Systems Commitee - - Vidéo analogique en couleur.
USA) - 30 images par seconde.
- vidéo 525 lignes.
- Il peut être exploité pour les DVD-vidéo avec une
résolution de 720 × 480 lignes.
- Les deux signaux de chrominance (U et V) sont
transmis simultanément.
- Bande passante à 60 Hz.
SECAM (System Electronique Color Avec Memoir - - Vidéo analogique en couleur.
France) - 25 images par seconde.
- 625 lignes par image.
- Les informations U et V sont transmises
alternativement une ligne sur deux.
- Bande passante à 50 Hz.
PAL (Phase Alternation Line - Allemagne) - Vidéo analogique en couleur.
- 25 images par seconde.
- 625 lignes par image (576 seulement sont affi-
chées).
- Bande passante à 60 Hz.
10
5. Comprendre la vidéo numérique
MPEG4 : Multiplexage A\V (.mpg) - 2 nouveaux codecs pour l’image: MPEG-4 ASP (standard)
et le MPEG-4
AVC/H264.
- Des profils permettant l’usage du standard de Haute défini-
tion.
- Des nouveaux codecs audio
7. Interface numérique
Une fois les flux vidéos et audio compressés et stockés sur un média quel qu’il soit, il faut pouvoir
échanger ces informations à l’extérieur, vers un dispositif d’affichage (téléviseur, magnétoscope, …etc.)
deux modes de transport s’offre à nous :
le mode de transport natif : utiliser une interface de transport native c’est à dire qui ne transforme pas
le format d’origine et véhicule l’information telle qu’elle est enregistrée sur le support originale.
le mode de transport non natif : utiliser une interface de transport non native qui transforme le
format d’origine en un format temporaire de transport pour une compatibilité avec l’environnement de
production.
- Interface analogique : vidéo composite SD sur 1 fil.
- Interface analogique : vidéo composite SDYIV sur 3 fils.
- DVI : connexion numérique dédiée informatique .
- HDMI : connexion numérique dédiée grand public
Caractéristiques du DVI :
- La liaison DVI a l’avantage d’utiliser uniquement un seul câble pour la transmission d’une vidéo numérique
RGB.
- La liaison DVI améliore sensiblement la qualité de l’affichage par rapport à la connexion VGA (séparation des
nuances de couleur pour chaque pixel + transmission numérique sans perte des nuances de couleur).
- La vitesse du transfert des interfaces DVI est nettement supérieure aux anciens interfaces analogique.
- Le DVI permet à l’écran de détecter plus vite la définition actuellement affichée ce qui facilite le réglage
automatique des écrans.
13