Vous êtes sur la page 1sur 13

DISPOSITIfS

D’image
& de son
+tele
vision
Par
Ibrahim J. KONFE
DISPOSITIFS D’IMAGE
ET DE SON, PLUS
TELEVISION HAUTE
DEFINITION

® Edition Septembre 2021


2
Préface
Ce document est le cours sur les «dispositifs d’image et de son plus télévision HD» pour les étudiants
en masters option «......» du département de .... à l’Institut Supérieur de Technologie Ouaga 2000.

Objectif principal
Comprendre les concepts de la capture et la numérisation des images, de la vidéo numérique allié au
son.

Connaissances préalables recommandés:


• traitement du signal
• notion en images numériques

3
INTRODUCTION

Le traitement du signal dédie une branche à l’image et à la vidéo. Le traitement d’images est l’ensemble
des opérations effectuées sur l’image, afin d’en améliorer la lisibilité et d’en faciliter l’interprétation. C’est,
par exemple, le cas des opérations de rehaussement de contraste, élimination du bruit et correction
d’un flou. C’est en somme l’ensemble d’opérations effectuées pour extraire des «informations» de
l’image comme la segmentation et l’extraction de contours.
Une vidéo est une succession d’images à une certaine cadence. L’oeil humain est capable de distinguer
environ 20 images par seconde. On caractérise la fluidité (vitesse) d’une vidéo par le nombre d’images
par secondes (en anglais frame rate), exprimé en FPS (Frame per second).

I. IMAGE NUMERIQUE

1. Définition

Une image une représentation planaire d’un objet quelconque. Mathématiquement c’est une fonction
bidimensionnelle de la forme ƒ(x, y), où ƒ(x0, y0) est la valeur de ƒ aux coordonnées (x0, y0). Donc, c’est
un processus continu 2D résultat d’une mesure physique L’amplitude de ƒ est appelée intensité (ou
niveau de gris) de l’image au point de coordonnées (x, y).
Si une image est générée par un processus physique, ƒ(x, y) correspond à l’énergie irradiée par ce
processus. Exemples de processus physiques: Emission et réflexion d’ondes lumineuses, Rayonnement
infrarouge, rayon X, Echo ultrason.

Photographie d’une image médicale image aérienne image de synthèse


scène
Différentes catégories d’image :
• Images morphologiques : formes des objets et leurs dispositions en 2D.
• Images volumiques : rendu volumique d’un objet ou d’une scène.
• Images dynamiques : séquence d’images en fonction du temps (vidéo).
• Images fonctionnelles ou paramétriques : comportement d’un phénomène physique.
• Images multi spectrales : obtenues dans différentes bandes de fréquences du rayonnement de la
source.

2. Représentation de l’image

Une image est une fonction d’un moins d’eux variables réelles :
• Image : ƒ(x, y) qui représente les images 2D
• Volume : ƒ(x, y, z) qui représente les images 3D
• Séquence d’image : ƒ(x, y, t) qui représente les images 2D en mouvement
• Séquence de volumes : ƒ(x, y, z, t) qui représente les images 3D en mouvement
4
3. Types d’images

S
Les images matricielles : dans la description que nous avons faite jusqu’à présent des images, nous
avons utilisé une matrice. On dit alors que l’image matricielle ou bipmap (en anglais). Ce type d’image
est adapté à l’affichage sur écran mais peut-être adapté à l’impression.

Les images vectorielles : le principe des vectoriels est de représenter les données de l’image à l’aide de
formule mathématiques. Cela permet alors d’agrandir l’image indéfiniment sans perte de qualité et
d’obtenir un faible encombrement.

Imagine matricielle Imagine vectorielle

4. Traitement d’images

Il s’agit de l’ensemble des traitements qui peuvent être appliqués à une image.
Le traitement donnant en sortie de l’image :
• Acquisition : c’est la première étape dans le traitement de l’image. Elle est essentielle; on ne peut
décrire, extraire ou améliorer quelque chose qui n’existe pas.
• Amélioration : parmi les traitements les plus simples et plus rapides; mettre en relief les détails ou
faire ressortir certaines caractéristiques.
• Restauration : amélioration des images ayant subies des dégradations.
• Couleurs : domaine qui prend de l’importance en raison du développement d’internet.
• Multi résolutions : fondements pour la représentation à différents degrés de résolution :
représentation extraction d’attributs, compression...
• Compression : réduction de la quantité d’information véhiculées à travers une image : stockage,
transmission de données...
• Traitement morphologique : ensemble d’outils pour extraire des composantes de l’image :
représentation et description des formes.
• Segmentation : procédure de partitionnement de l’image en ses composantes ou objets :
reconnaissance des formes.
• Représentation et description : intervient généralement après une segmentation. Elle peut être vue
comme une sélection de caractéristique.
5
II. LA PHYSIQUE DU SON

1. Définition

On définira par son tout signal pouvant être reçu par nos oreilles. Ce signal vient
d’une modification mécanique de notre environnement le plus proche : l’aire.
L’étude de cette modification mécanique de son origine (émission) a sa réception de notre oreille est
l’acoustique.
Trois éléments sont nécessaires à l’existence d’un son :
1. une source qui produit le son
2. un milieu qui transmet la vibration
3. un récepteur : l’oreille et l’ouïe.

2. Production et propagation des sons

Le son est produit par la vibration d’un corps solide, liquide ou gazeux. C’est ce qu’on va appeler ‘‘la
source sonore». la source sonore peut être de diverses natures : les chocs, les frottements, les variations
de pression, la stimulation électrique, etc.
Les vibrations produites par une source sonore sont transmises à l’aire et l’impose une variation de
pression. Cette variation de pression va se propager dans l’aire et dans tout milieu élastique, sans qu’il
y ait déplacement de matière mais seulement transmission d’énergie de proche en proche. La vibration
provoque le déplacement de particules autour de l’objet qui s’entrechoquent avec les particules voisines
pour revenir à leur point de départ. Ces variations de pression sont aussi appelés ondes sonores. Elles
sont semblables aux variations de la source sonore qui leur a donné naissance. Ce mouvement de
particule se propage en s’atténuant progressivement, car une perte d’énergie se produit au fur et à
mesure que le chant sonore s’étend.

3. La réception, l’oreille et l’ouïe

Pour devenir des sons, ces vibrations doivent agir sur un de nos sens, l’ouïe en occurrence. Notre oreille
est sensible aux vibrations entre 20hz et 20000hz (le hertz est l’unité de mesure de la fréquence. 1hz
= 1 oscillation par second). En dessous de 20hz se sont des infra sons que nous ne pouvons percevoir
que par les parois abdominales. Au-dessus de 20000hz il s’agit d’ultra son que seul certains animaux
perçoivent (le chat, le chien, le dauphin par exemple).
Le son renferme trois (3) caractéristiques majeures : son intensité, sa hauteur tonale et son timbre.

Son intensité : ou son volume dépend de la pression acoustique de la source sonore créée
(nombre de particules déplacés). Plus la pression est importante, plus le volume est élevé.
Sa hauteur : ou fréquence est définie par les vibrations de l’objet créant le son. Plus l’objet vibre
rapidement plus le son sera aigu. Le nombre de vibrations par second s’exprime en Hertz.
Ainsi la note LA située au milieu du piano qui est de 440hz signifie que sa sonore vibre 440 fois par
seconde.
Son timbre : est donnée par le nombre et l’intensité des harmoniques qui le compose; c’est ce qui
permet de reconnaitre la personne qui parle et de reconnaitre la personne ou l’instrument qui est
jouée.

L’ouïe est le sens qui nous permet d’entendre mais aussi de communiquer et de maintenir notre équilibre.
L’oreille est l’organe qui perçoit les vibrations de l’air. Notre récepteur auditif est délicat et compliqué. Il
n’est pas linéaire en fréquence ni en sensibilité. La sensibilité maximal de l’oreille est située aux environ
6
de 1000hz et demande une pression acoustique de 2,10pa soit 0db. En revanche à 16hz ou à 20khz,
votre pression doit être 100000 fois plus grande pour entendre ces fréquences.

Nos oreilles sont placées des 2 côtés de la tête. Elles sont écartées d’à peu près 17cm (entre 15cm et
20cm). Du fait de la vitesse du son qui est de 340m/s on remarque qu’il y’a un décalage du temps d’arrivé
du son entre l’oreille droite et l’oreille gauche. Ce décalage temporel est interprété par le cerveau pour
localiser l’origine d’un son sur le plan horizontal; c’est la base de la stéréophonie. Ainsi le placement
des sons dans l’espace stéréophonique que l’homme a l’habitude de pratiquer avec le panoramique en
jouant sur la différence de volume entre les 2 enceintes permet un positionnement imparfait puisque
l’homme a toujours deux sources sonores au lieu d’une seule.

Dans le système international en vigueur, l’unité de mesure est le Newton par mètre carré nommée en
France par Pascal 1N/m² = 1pa
Le décibel mesure des grandeurs : pression ou puissance acoustique, puissance électrique. Le décibel
est noté db suivit des lettres SL (Sound Level) ou SPL (Sound Pressur Level). Pour la mesure des
niveaux de pression acoustique, on adopte comme niveau de référence 0db.

4. Propagation, réflexions, réfraction

La science dite acoustique comme étude de la propagation, des réflexions, des réfractions, des
diffractions du son (au sens de verbération) selon les milieux ne nous concerne pas ici en détail, et
nous pouvons renvoyer aux nombreux textes techniques sur ce sujet, publiés dans des encyclopédies
ou dans des ouvrages spécialisés. Il suffira de donner quelques repères. Le son se propage autour de sa
source d’une manière circulaire ou sphérique, comme une onde sur une surface d’eau dans laquelle vient
de tomber un caillou. Cette propagation se fait donc dans toutes les directions (phases successives de
compression et de dilatation), et elle s’affaiblit proportionnellement au carré de la distance parcourue.
Il y a réflexion quand la verbération rencontre une surface qui ne l’absorbe pas complètement et qui en
renvoie une partie, à la manière d’une balle. Lorsque nous entendons à la fois – ce qui est très fréquent
– un son en propagation directe de la source à notre oreille et en son réfléchi (rebondissant sur des
parois), le retard entre son « direct » et son réfléchi, explicable par la lenteur du son et par l’importance
variable de ces réflexions suivant le milieu, concourt à créer des réverbérations, qui, soit prolongent
le son et le portent, soit, si elles sont plus importantes, le rendent plus difficile à percevoir (s’agissant
notamment d’une parole), brouillant légèrement ou fortement ses contours.
Quand l’onde sonore rencontre un obstacle, une partie le contourne, et l’on parle alors de diffraction.
C’est ce qui rend encore plus difficile l’isolation acoustique. D’une manière générale, les fréquences
aiguës sont plus directionnelles que les fréquences graves, ce qui entraîne des conséquences diverses
: tant au niveau de la conformation du pavillon auditif chez diverses espèces, que de ce qu’on appelle
l’effet « stétérophonique ». Cela explique notamment qu’on puisse proposer des systèmes dits de «
haute-fidélité » dans lesquels les aigus et les mediums sont répartis sur deux haut-parleurs, alors que
les basses du signal sont émises par un seul et même « caisson de graves ».

Écouter aide-t-il à mieux entendre ?


Le monde sonore – c’est une de ses différences avec le monde visuel – est marqué par une idée de compétition
et de gêne réciproque possible entre les différents sons cohabitant dans l’espace. Notamment, avec l’effet
de « masque » entre sons pourtant séparés, effet que la vue ne connaît pas, ou dans des cas très délimités
(éblouissement par un objet lumineux). Cette dissymétrie découle logiquement de la nature physique
des signaux sonores (se dispersant dans l’espace), nature qui ne permet pas de se focaliser sur un son en
oubliant les sons simultanés et contigus. La spatialité ordonnée des phénomènes visuels, qui fait qu’un
objet visible sur ma gauche ne gêne pas la perception d’un objet apparaissant sur ma droite, n’a pas son
7
équivalent dans le domaine acoustique.
III. ULTRA HAUTE DEFINITION VIDEO

1. Définition

Le mot vidéo vient du latin vidéo qui signifie « je vois ». C’est un terme qui regroupe l’ensemble des
techniques permettant la visualisation ou l’enregistrement d’images animées accompagnées de son, sur
un support électronique et, non de type pellicule argentique. Une vidéo est une succession d’images à
une certaine cadence. L’œil humain est capable de distinguer environ 20 images par seconde.
La télévision à ultra-haute définition a suscité beaucoup d’intérêt ces derniers temps, sous l’impulsion
des vendeurs de téléviseurs et de certains fournisseurs de contenu, notamment Netflix. Toutefois, jusqu’à
présent, l’accent a été mis uniquement sur l’augmentation de la résolution. Cependant, l’ultra haute
définition ne se limite pas à l’augmentation du nombre de pixels, elle permet également d’augmenter
la plage dynamique, d’élargir la gamme de couleurs et d’augmenter la fréquence d’images. Lorsque l’on
regarde la télévision sur un écran de taille courante dans un environnement domestique typique, ce
sont ces améliorations supplémentaires qui peuvent finalement apporter le plus de bénéfices pour le
téléspectateur. La qualité de la télévision est donc appelée à s’améliorer dans de multiples dimensions
au cours des prochaines années.
Les normes qui seront utilisées font encore l’objet de vifs débats, mais il est clair que la gestion de
l’héritage et la prise en compte des multiples dimensions de l’amélioration de la télévision constitueront
un défi pour le secteur de la radiodiffusion.

2. L’évolution de la résolution

La technologie d’affichage et de capture progresse. Aujourd’hui, il existe à la fois des caméras vidéo et des
écrans capables d’atteindre des résolutions supérieures à la haute définition complète. Ces résolutions sont
souvent appelées 4K ou TV Ultra Haute Définition (UHDTV) et ont une résolution de 3840x2160, soit
quatre fois la résolution de la TV Haute Définition. La figure ci-dessous montre la résolution de l’UHD par
rapport aux formats antérieurs de définition standard (SD), HD-ready (HD 720p) et haute définition (HD).

SD - 720 x 576

HD (720) - 1280 x 720

HD (1080) - 1920 x 1080

4K - 3840 x 2160
8
3. La gamme de couleur

Le système visuel humain est sensible au rayonnement électromagnétique dans la gamme approximative
de longueurs d’onde allant de 400 nm (bleu-violet) à 700 nm (rouge), grâce à trois types de cellules
coniques qui ont une réponse spectrale différente.
Dans les années 1920, W. David Wright et John Guild ont mené indépendamment une série d’expériences
sur la vision humaine des couleurs. Les expériences utilisaient un écran circulaire, montrant d’un côté
une couleur test à longueur d’onde unique et de l’autre côté, un mélange des trois couleurs primaires,
rouge, vert et bleu, réglable par l’observateur. On demandait aux observateurs d’ajuster le mélange de
couleurs primaires jusqu’à ce qu’ils considèrent qu’une correspondance avec la couleur test à longueur
d’onde unique a été obtenue. Cela n’était pas possible pour toutes les couleurs de test, et une quantité
variable d’une des couleurs primaires était ajoutée à la couleur de test, et une correspondance avec les
deux primaires restantes a été effectuée.
Les valeurs tristimulus RVB, (R, G, B) pour une couleur avec une distribution de puissance spectrale,
I(λ), peuvent être calculées comme étant l’intégrale du produit de la fonction de correspondance des
couleurs (R(λ ), G(λ ), B(λ)) et de la distribution de puissance spectrale, I(λ ), comme indiqué ci-
dessous. Notez que de nombreuses distributions de puissance spectrale différentes correspondent aux
mêmes valeurs tristimulus RVB, et apparaissent également au système visuel humain comme étant de
la même couleur.

4. Comprendre la vidéo analogique

Principe de fonctionnement d’une caméra vidéo : la lumière issue de l’objectif est décomposée en
ses trois composantes primaires rouge, verte et bleu. Chaque composante est ensuite envoyé sur un
capteur qui réagit à l’énergie reçue en émettant des électrons.
Les premières caméras vidéo utilisaient des tubes cathodiques à balayage pour convertir l’énergie
lumineuse en énergie électrique.

9
Standard analogique Format
NTSC (National Television Systems Commitee - - Vidéo analogique en couleur.
USA) - 30 images par seconde.
- vidéo 525 lignes.
- Il peut être exploité pour les DVD-vidéo avec une
résolution de 720 × 480 lignes.
- Les deux signaux de chrominance (U et V) sont
transmis simultanément.
- Bande passante à 60 Hz.
SECAM (System Electronique Color Avec Memoir - - Vidéo analogique en couleur.
France) - 25 images par seconde.
- 625 lignes par image.
- Les informations U et V sont transmises
alternativement une ligne sur deux.
- Bande passante à 50 Hz.
PAL (Phase Alternation Line - Allemagne) - Vidéo analogique en couleur.
- 25 images par seconde.
- 625 lignes par image (576 seulement sont affi-
chées).
- Bande passante à 60 Hz.

10
5. Comprendre la vidéo numérique

Le passage au numérique a pour fonction principal de tout ramener à l’outil Informatique. La


simplification de la chaine de production (workflow) d’une vidéo (utilisation uniquement
d’ordinateurs et de logiciels particulier), la simplicité de conversion de format vidéo, la simplicité de
requête de recherche de vidéo sur les différentes bases de données, la simplicité de manipulation et
de traitement d’image plus facile et plus intuitive. Plusieurs applications possibles : télévisons, vidéo-
conférence, cinéma, ….

Chaîne de génération d’une vidéo numérique

6. Les containers pour vidéo numérique


Container Format
AVI : Multiplexage A\V (.avi) - Codec Divx pour l’image.
- Codec Mp3 pour le son.
Quicktime : Multiplexage A\V (.mov) - Codec Sorenson pour l’image.
- Codec ADPCM pour le son.
MPEG1 : Multiplexage A\V (.mpg) - Codec MPEG-1 pour l’image (adapté à la demi résolution
vidéo
entrelacée).
- 3 Codecs pour le son : Layer I, Layer II, et Layer III.
MPEG2 : Multiplexage A\V (.mpg) - Codec MPEG-2 pour l’image (adapté à la pleine résolution
vidéo
entrelacée).
- Un nouveau Codec pour le son : AAC.
- Possibilité d’utiliser des codecs audio comme le Dolby ou
DTS.

MPEG4 : Multiplexage A\V (.mpg) - 2 nouveaux codecs pour l’image: MPEG-4 ASP (standard)
et le MPEG-4
AVC/H264.
- Des profils permettant l’usage du standard de Haute défini-
tion.
- Des nouveaux codecs audio

En quoi consiste le stockage d’une vidéo numérique ?


Une séquence vidéo brute est une suite d’images fixes, qui peut être caractérisés par trois principaux
11
paramètre :
résolution en luminance détermine le nombre de nuance ou de couleurs possibles pour un pixel.
Celle-ci est généralement de 8 bits pour les niveaux de gris et de 24 bits pour les séquences en
couleurs.
La résolution spatiale définit le nombre de lignes et de colonnes de la matrice de pixels.
La résolution temporelle est le nombre d’images par seconde.
La valeur de ces trois paramètres détermine l’espace mémoire nécessaire pour stocker la séquence
vidéo: à tout cela s’ajoutera le son audio.

7. Interface numérique
Une fois les flux vidéos et audio compressés et stockés sur un média quel qu’il soit, il faut pouvoir
échanger ces informations à l’extérieur, vers un dispositif d’affichage (téléviseur, magnétoscope, …etc.)
deux modes de transport s’offre à nous :
le mode de transport natif : utiliser une interface de transport native c’est à dire qui ne transforme pas
le format d’origine et véhicule l’information telle qu’elle est enregistrée sur le support originale.
le mode de transport non natif : utiliser une interface de transport non native qui transforme le
format d’origine en un format temporaire de transport pour une compatibilité avec l’environnement de
production.
- Interface analogique : vidéo composite SD sur 1 fil.
- Interface analogique : vidéo composite SDYIV sur 3 fils.
- DVI : connexion numérique dédiée informatique .
- HDMI : connexion numérique dédiée grand public

Caractéristiques du DVI :
- La liaison DVI a l’avantage d’utiliser uniquement un seul câble pour la transmission d’une vidéo numérique
RGB.
- La liaison DVI améliore sensiblement la qualité de l’affichage par rapport à la connexion VGA (séparation des
nuances de couleur pour chaque pixel + transmission numérique sans perte des nuances de couleur).
- La vitesse du transfert des interfaces DVI est nettement supérieure aux anciens interfaces analogique.
- Le DVI permet à l’écran de détecter plus vite la définition actuellement affichée ce qui facilite le réglage
automatique des écrans.

High Definition Multimedia Interface (HDMI):


Le HDMI est une norme et interface audio/vidéo totalement numérique pour transmettre principalement des
vidéos non compressés. Cette interface , qui est destinée au marché grand public, est le successeur du DVI. La
technologie HDMI permet de relier une source audio/vidéo DRM (ex un lecteur Blu-ray, un ordinateur ou une
console de jeu…) à
un dispositif compatible tel qu’un téléviseur HD ou un vidéoprojecteur.
Caractéristiques du HDMI :
- La liaison HDMI utilise un seul câble pour le transfert de flux audio et vidéo numérique.
- Le standard HDMI est compatible avec les trois niveaux de définition numérique (SD à TVHD), DVI et
permet une évolutivité du système pour les futures normes.
- Verrouillage anti-copie des vidéos numérique grâce à l’intégration de la technologie propriétaire HDCP
(Highbandwidth Digital Content Protection)
- Connecteur plus petit que les connecteurs habituels tels que le VGA ou le DVI.
- Qualité d’image et de don meilleure
Types de connecteurs HDMI
- Type A : c’est le plus courant ; il se compose de 19 broches ;
- Type B : c’est l’équivalent du Dual-link DVI. Il double la bande passante sur un câble de type A. Il est quasiment
absent du marché mais permettrait en théorie d’atteindre des transferts jusqu’à 20,4 Gb/s ;
- Type C (ou mini-HDMI) : est une version compacte du type A (avec donc 19 broches) spécialement dédié aux
12
caméscopes, appareils photos numériques, tablettes tactiles ;
- Type D (ou micro-HDMI) : une version encore plus compact (2,8 mm × 6,4 mm) qui se trouve sur certaines
tablettes, portables type ultrabook et smartphones

8. Quelques moyens de transmission pour vidéo numérique (en image)

13

Vous aimerez peut-être aussi