Académique Documents
Professionnel Documents
Culture Documents
1.Codage d’images :
Quand on zoome sur l’image, on voit apparaître sa nature. En fait, l’image est un tableau
rectangulaire organisé de pixels (pour picture elements ou éléments d’image). Quand on a
suffisamment zoomé, on voit des carrés dans lesquels la teinte est uniforme. Ce sont les
pixels.
En fait, une image n’est pas un tableau de pixels : elle est en réalité faite de trois plans dits
"colorimétriques" ou "chromatiques".
On montre qu’une couleur peut être décomposée en trois couleurs dites primaires.
Le modèle RVB pour Rouge Vert Bleu (ou RGB, en anglais, pour Red, Green, Blue) est
appelé modèle naturel, parce qu’il est conforme au fonctionnement de l’œil humain.
En revanche, le standard de l’impression sur papier offset couleur utilise un autre système
chromatique, le modèle CMJN qui est composé des couleurs complémentaires au modèle
RVB. Il en existe encore d’autres qu’il est inutile de citer. Par contre, il faut bien comprendre
qu’on peut passer aisément d’un modèle à l’autre de façon réversible, par des équations
linéaires de transformation.
Le système CMJN, qui décompose chaque teinte en ses composantes cyan, magenta et
jaune
Ici, le pixel analysé figure dans le nuage de gaz, désigné par la flèche. La teinte est
marron et la fenêtre « sélecteur de couleurs » indique les composantes RVB. On lit
: R=171 ; V=91 ; B=66.
Dans le système RVB classique, chaque composante chromatique est codée sur 8
bits. Le codage sur 8 bits permet 256 valeurs comprises entre 0 et 255. On constate
que la nuance marron a une composante rouge assez importante (171), mais (et ce
n’est pas intuitif) a également une composante bleue, toutefois assez faible, soit 66.
On constate aussi que la même fenêtre donne les composantes dans trois autres
modèles chromatiques, les modèles TSL L*a*b et CMJN.
On peut juste relever une curiosité, une subtilité entre le modèle CMY (Cyan, Magenta,
Yellow) et le modèle CMJN qui est en fait quadrichromique, puisque la dernière
composante est le taux de noir.
Dans l'image ci-dessus, il s’agit tout simplement d’analyser un autre pixel, toujours
repéré par la flèche. On y lit : R=61, V=118 et B=145. On confirme aisément que le
pixel est de dominante bleue, ou cyan, si on prend la peine de regarder les
pourcentages CMJN.
Une image à forte résolution occupe rapidement un espace mémoire important, d’autant
plus que la résolution est élevée. C’est pour cette raison qu’on utilise massivement
des algorithmes de compression.
La compression est basée sur la redondance spatiale qu’il y a dans toute image.
Dans une image naturelle (comme l’image présentée au-dessus) y a des zones où
les pixels adjacents sont de teintes très proches. Dans un ciel bleu, il peut y avoir de
grandes zones où les variations de teinte sont tellement faibles qu’elles sont
invisibles à l’œil humain. Tous les algorithmes procèdent par réduction de cette
redondance spatiale. C’est le cas notamment de JPEG, qui est sans doute le plus
usité.
Si on revient à l’image d’origine, elle est composée de 750 000 pixels fois 3 octets (à
cause des 3 composantes chromatiques) et pèserait en format RAW (sans
compression), environ 2,3 Mo ; et pourtant, elle n’occupe que 169 Ko. Le facteur de
compression (le rapport entre taille avant compression et taille après compression)
est supérieur à 10, ce qui est très performant.
Ce facteur de compression 10 est assez courant. On admet que le gain de taille est
important pour une perte d’information qui est parfaitement tolérable et, de fait, un
œil ordinaire ne voit généralement pas la différence entre image RAW avant
compression et image JPEG compressée avec un facteur 10.
2.Codage de vidéos :
Sur le plan du principe, une vidéo n’est jamais qu’une séquence d’images fixes qui se
suivent au rythme de, par exemple, 25 images par seconde pour assurer la fluidité du
mouvement.
Les principaux critères de qualité sont évidemment la résolution de l’image et la
fréquence ou cadence de rafraîchissement (mesurée en FPS, pour Frames Per
Second ou images par seconde).
Il est difficile d’y voir clair, tant cet univers évolue vite. Les cadences 25 FPS ou 30
FPS sont classiques. Quand on veut réaliser des super ralentis, paradoxalement, il
faut capter la vidéo à FPS élevée, puis ensuite diffuser à FPS standard (25 ou 30
FPS). Les caméras de gamme moyenne ou les smartphones filment maintenant à
240 FPS voire plus (il existe aussi des caméras rapides qui filment à 1 000 FPS).
La vidéo, plus encore que les images fixes, doit être compressée parce qu’elle génère un
nombre astronomique d’images.
Il faut donc, en vidéo encore plus que pour une image fixe, compresser.
Le capteur sur la figure ci-dessus est un capteur Canon qui annonce 250 millions de pixels.
Chaque pixel, appelé aussi photosite, contient des microlentilles qui focalisent l’image sur
des photorécepteurs. Des filtres de couleur séparent les trois composantes chromatiques R,
V et B. Puis, la quantité de lumière qui tombe sur le photorécepteur est convertie en
grandeur électrique. La figure ci-après en illustre le principe.
Ce type de capteur est dit numérique natif parce que les données qu’il élabore sont
intrinsèquement numériques, dès leur apparition.
3.Numérisez des signaux analogiques :
Les signaux les plus « plastiques » — en ce sens qu'ils donnent lieu à une multiplicité de
traitements relativement aisés — sont les signaux électriques. Peu de signaux sont
électriques natifs. Il convient donc de les convertir en signal électrique, tension ou courant.
C'est le rôle du capteur appelé aussi transducteur, plus rarement senseur (de
l'anglais sensor).
5. Échantillonnage :
Vin=N.q+ϵ
q est appelé pas de quantification donné par q=(Vref+-Vref)/2𝑛
où Vref+ et Vref− sont deux tensions connectées sur les deux broches du même
nom du composant CAN.
ϵ est une erreur systémique appelée erreur de quantification, qui n’est pas liée
aux imperfections de la technologie mais au principe même de la conversion, qui fait
correspondre un nombre entier entre 0 et 2𝑛−1à une infinité de valeurs possibles en
entrée, puisque Vin varie continûment au sens des nombres réels sur la
plage Vref− à Vref+
Pour compléter le panorama sur les principales caractéristiques des CAN, il faut
encore citer sa rapidité donnée par le temps de conversion. Ce temps de conversion
doit être compatible avec la fréquence d’échantillonnage visée. En audio, on
échantillonne couramment à 48 kilo-échantillons par seconde. Si nous arrondissons
à 50 kilo-échantillons par seconde pour l’ordre de grandeur, ça signifie qu’il faut faire
50 000 conversions par seconde ; autrement dit, il faut que le temps de conversion
soit inférieur à 20 microsecondes.