Vous êtes sur la page 1sur 16

“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 374 — #1

Traitement des images


Christine Fernandez-Maloigne, Noël Richard

Mots-clés : traitement et analyse d’images couleurs, filtrage, segmentation, classification, indexa-


tion.

Résumé : ce chapitre donne les bases des principaux algorithmes de traitement et d’analyse d’images
numériques niveaux de gris et couleur, tout au long d’une chaîne traditionnelle de traitements de
telles données. On trouvera sur le site de Pandore1 une bibliothèque d’algorithmes pour tester ces
traitements.

Le xxie siècle est celui de l’image numérique, vecteur intégrant de la connaissance a priori sur les contenus
d’information pour la presse, les artistes, le monde et surtout sur la finalité de l’exploitation des données.
médical mais aussi celui de l’industrie. Le traitement Le traitement d’images est donc une science en pleine
d’images est une science récente qui a pour but d’of- évolution qu’il n’est pas possible de décrire pleinement
frir aux spécialistes de différents domaines, comme au dans ces quelques pages. Nous allons tenter de donner
grand public, des outils de manipulation de ces don- les bases de cette science qui a pour objectifs princi-
nées digitales issues du monde réel. L’histoire com- paux (cf. figure 1) :
mence dans les années cinquante avec les rayons X. – de saisir une scène réelle pour constituer un fi-
Puis vint l’étude de méthodes d’extraction automa- chier informatique, c’est l’étape d’acquisition ;
tique d’informations avec de nombreuses applications – de mettre en évidence les informations intéres-
en reconnaissance de caractères et en contrôle qua- santes : c’est l’étape de traitement dans laquelle
lité. Dans les années quatre-vingt, les efforts se pour- on distinguera tout particulièrement les étapes de
suivirent avec l’introduction des systèmes experts qui débruitage puis la segmentation ;
devaient remplacer l’homme dans ses différents diag- – d’interpréter ces informations pour décider d’un
nostics ! Enfin dans le courant des années quatre-vingt diagnostic ou d’une action à engager : c’est l’étape
et quatre-vingt-dix, le traitement d’images passe du 2D d’analyse ;
au nD grâce aux nouvelles possibilités technologiques.
Les supports de stockage, les processeurs permettent
désormais de traiter des informations multidimension-
nelles de couleur et de mouvement.

Puis dans les années deux mille, l’intérêt se porte


de plus en plus sur les modèles perceptifs afin d’op-
timiser les modèles usuels. Par ailleurs, plutôt que de
développer des algorithmes utilisables dans toutes les Figure 1 Chaîne de traitement et d’analyse d’images
situations, des méthodes dédiées sont développées, en

1 http ://uranus.greyc.ismra.fr/∼regis/pandore. 374


“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 375 — #2

Traitement des images 375

– sans oublier les étapes de stockage des informa- grille de L lignes et C colonnes puis une quantification
tions, à différentes étapes de la chaîne, et de vi- qui permet d’associer un codage numérique à la quan-
sualisation et/ou d’impression des résultats. tité d’énergie captée par chaque élément de cette grille.
Dans la suite de ce chapitre, nous allons expliciter Le nombre b de bits de codage définit la dimension de
ces différents stades de manière succincte. Le lecteur l’espace de représentation et le nombre N de valeurs
pourra se référer à (Cocquerez et Philipp, 1995; Bon- possibles (N = 2b ).
ton et al., 2004) pour aller plus loin. Soit I une image numérique :

1 Acquisition I = {(i, j) ∈ 0, . . . , m − 1} × {0, . . . , n − 1}
(1.1)
1.1 Généralités
La première étape d’une chaîne de traitement et d’ana- Chaque élément I(i, j) de la matrice est appelé pixel
lyse des images numériques est celle de l’acquisition (contraction de picture element). Lorsque le nombre de
d’une scène. Les objets de cette scène peuvent émettre bits b de codage vaut 1, l’image est dite binaire. Les
de l’énergie, on parle alors d’imagerie en émission, images en niveaux de gris sont généralement codées
comme l’imagerie infrarouge. Mais le plus souvent ils sur 8 bits, la valeur 0 codant le noir et la valeur maxi-
reçoivent une énergie lumineuse qu’ils vont en partie mum 255 (28 − 1) codant le blanc. Dans le cas des
absorber et en partie réfléchir. L’analyse de l’énergie images couleurs, à chaque pixel est associé un vecteur
absorbée est le fait de l’imagerie en absorption, comme à trois composantes codées classiquement chacune sur
dans le cas de l’imagerie ultrasonore (échographie par 8 bits. L’espace de représentation choisi définit la si-
exemple). L’analyse de l’énergie réfléchie concerne la gnification des composantes (RGB, HLS, . . . ).
majorité des applications de traitement d’images, où
un capteur se substitue à l’œil d’un observateur. Un 1.2 Les représentations numériques
objet n’est alors visible que s’il est éclairé. Plus un ob- de la couleur
jet réfléchit l’énergie lumineuse qu’il reçoit, plus il sera
Un espace couleur, ou système de représentation, se
clair. Ce sont par ailleurs les différences d’absorption
définit par le choix des primaires utilisées et du blanc
et donc de réflexion, des différentes longueur d’ondes
de référence qui fixe leurs valeurs unitaires. Il peut être
d’un spectre lumineux qui vont donner la couleur d’un
défini quatre familles de systèmes de représentation :
objet.
les systèmes de primaires, les systèmes luminance-
chrominance, les systèmes liées à la perception hu-
maine et les systèmes d’axes indépendants. Des ver-
sions normalisées de ces systèmes sont proposées par
la CIE (Commission international de l’éclairage).
Les systèmes de primaires
Figure 2 Le spectre visible Le principe de la trivariance visuelle est un principe
selon lequel toute couleur peut être reproduite visuel-
Les longueurs d’onde perceptibles par le système de lement à l’identique1 par le mélange algébrique, en
vision humaine sont comprises environ entre 380 nm proportions définies de manière unique, de trois cou-
pour le violet et 780 nm pour le rouge (figure 2). Le leurs, appelées primaires, choisies sous réserve qu’au-
spectre visible correspond à cette plage de longueurs cune d’entre elles ne puisse être reproduite par un mé-
d’onde. Dans l’étape d’acquisition d’une image numé- lange des deux autres. L’ensemble des couleurs repro-
rique, un capteur électronique va remplacer le capteur ductibles est appelé espace des couleurs : espace RVB par
biologique. Si l’on reste dans le domaine du visible, il exemple. Il existe autant d’espaces RVB qu’il y a de
existe aujourd’hui deux principales technologies basées primaires R, V et B et de blancs de référence. L’es-
respectivement sur les CCD (Charge Coupled Devices) et pace des couleurs forme un cube selon les primaires
la technologie CMOS (Berry, 2005). Pour passer en- conservées (figure 3). L’espace RVB présente quelques
suite de ce phénomène continu à une image numé- inconvénients, d’où la proposition de la CIE qui a dé-
rique, la première étape est celle de la discrétisation. fini un espace de représentation basé sur trois primaires
Elle s’opère en deux temps : une discrétisation spatiale virtuelles X , Y et Z (figure 4).
qui organise l’image continue généralement selon une

1 La reproduction impose des conditions d’observation déterminées.


“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 376 — #3

376 I/4 Systèmes multimédias

se transformer en des composantes teinte et saturation


très différentes.

Les systèmes décorrélés


Suivant la distribution des couleurs considérées, une
corrélation entre les composantes du système de re-
présentation choisi peut être observée. Il existe plu-
sieurs méthodes pour décorréler les composantes d’un
Figure 3 Discrétisation uniforme de l’espace couleur RVB
espace. L’une des plus utilisées est la transformée de
(RGB) en volumes cubiques Karhunen-Loeve. Ohta a également proposé un espace
décorrélé pertinent (Bonton et al., 2004).

2 Traitement

Le premier objectif du traitement est l’élimination des


informations non pertinentes pour faciliter l’extrac-
tion des informations utiles à l’analyse. Toute acqui-
sition est bruitée, le bruit dépendant de la technolo-
gie (capteur, échantillonnage) ; mais aussi de la scène,
du contexte (plein soleil, ombres), ou de la nature des
objets eux-mêmes (spécularités, transparence). Selon sa
Figure 4 Discrétisation uniforme de l’espace couleur nature, le bruit induit un effet qui peut être localisé sur
CIEXYZ en volumes cubiques un pixel ou sur un voisinage de pixels spatial ou tem-
porel, par exemple le bruit dit «poivre-et-sel» très lo-
Le complémentaire de l’espace RVB est l’espace calisé, le bruit de speckle, provoquant un chatoiement,
CMJ, qui est dédié à l’impression des couleurs. Il ré- bruit granulaire de type multiplicatif ou encore le bruit
sulte d’une synthèse soustractive et est représenté par additif gaussien, introduisant un flou (figure 5).
un cube comme l’espace RGB.
Les systèmes luminance chrominance
L’intérêt des espaces de type luminance-chrominance
est qu’ils dissocient la composante de luminance des
composantes de chrominance, suffisantes pour quanti-
fier le caractère chromatique d’un stimulus. On peut
distinguer les systèmes perceptuellement uniformes
(Lab, Luv), les systèmes de télévision (YCrCb, YIQ, Figure 5 Différents types de bruit

YUV) ou les systèmes antagonistes (AC1 C2 , OCS).


Les systèmes liés à la perception humaine Les traitements préliminaires visent à améliorer la
L’homme ne perçoit pas la couleur comme une combi- qualité d’une image ; cependant cette notion est très
naison de chromaticités mais selon des entités subjec- subjective et souvent assujettie à un objectif. Or cet ob-
tives liées à la clarté, la teinte et la saturation. La teinte jectif peut différer entre un système automatisé et un
indique le type de couleur (rouge, jaune, bleu, etc.). humain. Dans tous le cas, pour les images couleur deux
La saturation indique si la couleur est pâle (ton pas- approches sont possibles : soit un traitement marginal1
tel) ou vive. La clarté indique si la couleur est claire ou de chacune des trois composantes ; soit directement un
sombre. Il existe plusieurs systèmes de ce type. Leurs traitement vectoriel sur les pixels auxquels sont asso-
principales différences proviennent des unités et de la ciés non plus un scalaire mais un vecteur de dimension
dynamique de chacun des trois axes couleur : teinte, in- trois. Une quantification sur une palette de couleurs
tensité, saturation. La non-linéarité des expressions pour réduite peut permettre d’appliquer des traitements de
l’estimation de la saturation et de la teinte entraîne type niveaux de gris. Des changements d’espace de re-
des discontinuités, qui sont caractérisées par le fait présentation sont toujours bien sûr envisageables avant
que deux couleurs perceptuellement proches peuvent d’opérer les traitements.

1 Traitement marginal : traitement séparé et indépendant sur chacun des axes de représentation.
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 377 — #4

Traitement des images 377

2.1 Restauration Modification de l’échelle des niveaux de gris ou des couleurs


L’objet de la restauration est la réduction, voire l’éli- Chaque niveau de gris est modifié dans le but d’ac-
mination des distorsions introduites (bruits) par le sys- croître le contraste. Ce type de correction est adapté
tème ayant servi à acquérir l’image. Le principe est de aux images dont la majeure partie des niveaux de gris
modéliser le bruit pour retrouver l’image idéale, non (ou de couleurs) présents dans l’image est concentrée
bruitée, à partir de l’image dégradée. Pour les bruits in- dans un faible intervalle sur l’échelle des intensités lu-
troduits par le capteur (bougé, défocalisation), la trans- mineuses ou chromatiques. Soit g l’image de départ et
formée de Fourier est utilisée. Dans ce cas, les dégra- g l’image après une telle transformation notée t :
dations sont supposées invariantes spatialement ce qui
permet d’écrire le modèle suivant : soit f l’image à res- g(x, y) = t (g(x, y)) (1.4)
taurer, g l’image idéale, h la réponse impulsionnelle du
système linéaire modèle de la source de dégradation et
b un bruit additif, La figure 7 illustre quelques transformations pos-
sibles. En plus de celles-ci, il est possible de distinguer
f (x, y) = |h ∗ g|(x, y) + b(x, y) (1.2) une transformation particulière qui consiste à sélec-
Si h et b sont connus et si h correspond à une dégra- tionner une valeur, dite seuil, en dessous de laquelle les
dation linéaire et invariante par translation : valeurs des pixels sont mises à 0 et au-delà de laquelle
elles sont placées à 255. On parle alors de binarisation.
F (u, v) = H(u, v).G(u, v) + B(u, v) (1.3)

0 si g(x, y) ≤ T
La restauration est effectuée par inversion du phé- g = (1.5)
nomène de dégradation grâce à la transformée de Fou- 1 si g(x, y) > T
rier et à sa propriété de transformation du produit de
convolution en produit fréquentiel.

2.2 L’amélioration
Le problème de l’amélioration est quant à lui lié à la
perception humaine. C’est donc un problème subjec-
tif. Le système visuel humain étant particulièrement
Figure 7 Modifications de l’échelle des niveaux de gris ou
sensible aux forts contrastes, les techniques d’amélio- de couleur
ration tentent d’augmenter ceux-ci pour accroître la sé-
parabilité des régions composant une scène (figure 6).
Il existe deux grandes familles de méthodes : les mé- Modification de l’histogramme
thodes dites globales ou ponctuelles et les méthodes
locales ou dites de voisinage. L’histogramme de l’image I est une fonction H définie
sur l’ensemble des entiers naturels par :

H(x) = card {P : I(P ) = x} (1.6)

Figure 6 Rehaussement de contraste

Débruitage par méthodes globales


Les méthodes globales modifient chaque point de
l’image en fonction d’une information globale sur les
niveaux de gris ou les couleurs présentes dans l’image.
Les méthodes les plus utilisées sont la modification de
l’échelle des niveaux (contrastage, négatif, extraction
de bits, découpage de l’intensité, troncature, seuillage)
et la modification de l’histogramme (égalisation, spéci- Figure 8 Différentes formes d’histogrammes
fication).
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 378 — #5

378 I/4 Systèmes multimédias

H(x) correspond au nombre d’occurrences de la Dans le cadre des images couleur, la taille de l’histo-
couleur (ou du niveau de gris) x dans l’image I 1 . L’his- gramme pose de nombreux problèmes (aspect vectoriel
togramme résume une image à l’ensemble des couleurs induisant une dimension trois), souvent résolus au tra-
présentes et offre un moyen simple d’appréhender le vers d’une réduction du nombre de couleurs (quantifi-
contenu numérique. Il ne contient néanmoins aucune cation), ou d’un traitement marginal après changement
information quant à la répartition spatiale des niveaux d’espace.
de gris ou de couleur. Pour améliorer ou normaliser
Débruitage par méthodes locales
une image, il est utilisé une linéarisation, afin de répar-
tir uniformément les valeurs des pixels sur l’ensemble Plutôt que de travailler sur des informations glo-
de l’histogramme. Soit g l’image de départ, g l’image bales, certaines méthodes travaillent localement sur
après linéarisation et T la transformation appliquée des pixels ou sur un voisinage de pixels. Les techniques
(équation 1.7). Dans ce contexte, T est une fonction employées sont de type filtrage avec des approches
de distribution cumulative représentée par la figure 9. de type fréquentielles et son corollaire dans l’espace
pixel : le filtrage linéaire. Le traitement d’images a éga-
g = (gmax − gmin ) T (g(x, y)) + gmin (1.7) lement développé des méthodes spécifiques de filtrage
non linéaire dont le filtre médian est un cas particulier.
Le filtrage fréquentiel
Il consiste à calculer la transformée de Fourier d’une
image numérique, puis à multiplier cette transformée
par une fonction de fenêtrage, dans laquelle l’infor-
mation pertinente est supposée contenue. Le retour
à l’espace pixel s’effectue par transformation inverse.
Figure 9 Transformation d’histogramme : (1) FDC2 de La transformée de Fourier F (u, v) d’une image I(l, c)
l’histogramme initial,(2) FDC du nouvel histogramme
est donnée par la formule 1.10, le retour dans l’espace
Un exemple de ces méthodes, dite d’égalisation pixel exploite l’équation 1.11.
d’histogramme, est donné par les formules3 1.8 et 1.9.
La figure 10 illustre les résultats obtenus sur une image 1  2jπ(lu+cv)
niveaux de gris. F (u, v) = I(l, c)e− N
N2 l c

u (1.10)
v = H(i) (1.8)  2jπ(lu+cv)
i=0 I(l, c) = F (u, v)e N
 
v − vmin u v

v = Ent (N − 1) + 0.5 (1.9) (1.11)
1 − vmin

Le filtrage linéaire
Comme multiplier dans le domaine fréquentiel revient
à convoluer dans le domaine temporel, la fenêtre fré-
quentielle se transforme en un masque dans l’espace
pixel. Il est alors appliqué à une image selon la formule
de convolution discrète suivante :

 
l−1 c−1
g  (p, q) = g(p − i, q − j) · h(i, h) (1.12)
i c

avec g image de départ, h le filtre de taille l, et g 


Figure 10 Exemple d’égalisation d’histogramme
l’image traitée.

1 H(x) est souvent normalisée par le nombre de pixels de l’image.


2 FDC : fonction de cumul.
3 La fonction Ent correspond à la partie entière du résultat.
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 379 — #6

Traitement des images 379

Dans les deux cas, le principal problème est le choix – Filtre max : cj = 0 si j = N et N = 1
de l’opérateur de lissage qui doit être lié à la nature – Filtre min : cj = 0 si j = 1 et c1 = 1
du bruit. Attention au fait que, sur une image cou- – Filtre médian : cj = 0 si j = n + 1 et cn+1 = 1
leur, le flou d’un filtrage linéaire en niveaux de gris – Filtre de rang k : cj = 0 si j = k et ck = 1
se traduit, en application marginale, par l’apparition – Filtre milieu : cj = 0 si j = 1 et j = N et
de fausses couleurs. Généralement, le bruit se situe c1 = cN = 0.5
dans les hautes fréquences et un simple filtre passe- C’est le filtre médian qui est utilisé généralement à
bas peut l’atténuer. Dans ce cas, l’opérateur W pourra la place du moyenneur pour éliminer les problèmes de
être un filtre moyenneur simple sur un voisinage 3 × flou, au prix d’une complexité et d’un temps de calcul
3 (tableau 1). Ainsi, chaque pixel est remplacé par la un peu plus élevé. Les voisinages de travail choisis sont
moyenne pondérée de ses voisins. On remarquera que là encore le plus souvent des voisinages symétriques de
la convolution ne peut être effectuée sur les bords de taille impaire (3 × 3, 5 × 5, etc.). Un résultat compa-
l’image. Ainsi, si l’image originale est de taille N × M ratif de ces différents filtres est donné par la figure 11.
et que le filtre est un masque de taille l × c, l’image
filtrée sera de taille (N − (l − 1)) × (M − (c − 1)).

1/9 1/9 1/9


1/9 1/9 1/9
1/9 1/9 1/9
Tableau 1 Filtre moyenneur 3 x 3

Dans le cas des filtres moyenneurs, augmenter la


taille du masque revient à augmenter la largeur du
masque fréquentiel donc l’importance du filtrage. Pour Figure 11 De haut en bas et de gauche à droite : image
limiter l’effet de flou introduit et donc préserver les d’origine bruitée par un bruit «salt and pepper», images
débruitées par un moyenneur 3x3, un filtre adaptatif 3x3 et
directions des contours principaux, un lissage adapta- un median 3x3
tif peut être utilisé, bien que plus coûteux en temps
(équations 1.13 et 1.14). On remarque bien l’efficacité du médian sur ces
bruits ponctuels tout en respectant les contours. Le
1 d(m, n, i, j) moyenneur introduit nettement du flou sans élimi-
g  (m, n, i, j) = k  ner totalement le bruit. Le filtre adaptatif respecte les
2 i=−k lj=−l d(m, n, i, j)
contours mais aussi les bruits ! Cependant de nom-
(1.13)
breux problèmes se posent lorsque l’on passe à la cou-
avec leur : en effet il n’existe pas d’ordre naturel entre vec-
teurs. Il faut donc choisir des ordres partiels ou des
1 1 modes de codage adaptés (Bonton et al., 2004).
d(m, n, i, j) = , g(m, n, 0, 0) =
g(mi , n − j) − g(m, n) 2
(1.14) 3 Segmentation

Le filtrage non linéaire Le cœur d’un système d’analyse automatique d’images


est l’étape de la segmentation ou d’extraction des ca-
Pour éviter le flou introduit par les filtres passe-bas clas-
ractéristiques. La segmentation des images consiste à
siques, une autre famille de méthode existe : les filtres
regrouper les pixels de ces images qui partagent une
non linéaires ou filtres d’ordre. Ces filtres opèrent
même propriété pour former des régions connexes. Il
d’abord le tri des pixels du voisinage de référence par
existe deux familles d’approches que l’on peut faire
ordre croissant des niveaux de gris ou de couleur (équa-
coopérer : les approches « contours » et les approches
tion 1.15). Soit N la taille du voisinage et X(j) le voisin
« régions ». Dans le premier cas, les régions sont déli-
trié au rang j , on note Y la valeur du pixel central du
mitées par les contours des objets qu’elles représentent
voisinage après filtrage :
(séparation). Dans le second cas, les régions sont dé-
terminées en fonction de leurs propriétés intrinsèques

N
Y = cj X(j) (1.15) (agrégation de pixels fonction d’un critère d’homogé-
j=1 néité). Les deux approches sont duales. Une image est
donc une mosaïque de régions homogènes séparées par
Selon les valeurs des coefficients cj , on obtiendra : des zones de transitions.
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 380 — #7

380 I/4 Systèmes multimédias

3.1 Segmentation en contours permet d’améliorer la qualité d’estimation de la déri-


Le principe d’une chaîne d’extraction automatique des vée (débruitage) mais a pour conséquence d’augmenter
contours est le suivant : le temps de calcul et de réduire la précision de locali-
sation du contour. Les deux masques sont convolués
1. Extraction des points de contour de manière indépendante avec l’image. Ensuite, pour
2. Binarisation des contours chaque pixel un module et une direction du gradient
3. Réduction de l’épaisseur des contours à un peuvent être établis selon les formules (1.16), (1.17),
pixel (1.18).
4. Fermeture et suivi de contours
5. Codage et description des contours.

∂f

La dernière étape a pour objectif d’organiser les Gx
∇f = = ∂x
∂f (1.16)
contours en structures simples telles que suites numé- Gy ∂y
riques, segments de droite, arcs de cercle, etc. Pour 
extraire les points de contours, on cherche les varia- M odule = |∇f | = G2x + G2y (1.17)
tions de niveaux de gris ou de couleurs (figure 12). Une


Gy
variation existe si la dérivée première est localement Direction = arg (∇f ) = tan−1 (1.18)
Gx
maximum et si la dérivée seconde présente un passage
par zéro (figure 13). Les deux familles d’algorithmes les
plus connues pour la détection de contours exploitent -1 -1 -1 -1 0 1
soit une approximation de la dérivée première, ou gra- 0 0 0 -1 0 1
dient, soit une approximation de la dérivée seconde, 1 1 1 -1 0 1
ou laplacien.
-1 -2 -1 -1 0 1
0 0 0 -2 0 2
1 2 1 -1 0 1

Figure 12 Variation de niveau de gris ou de couleur Tableau 2 Dérivées selon y (colonne de gauche) et selon x
provoquant l’apparition d’un contour (colonne de droite), filtres Prewit (en haut) et Sobel (en bas)

Notons que la direction du gradient en un point est


perpendiculaire à la direction du contour en ce point
Figure 13 Une image avec son profil associé (en haut) et (équation 1.18). À partir des valeurs du module, une
ses dérivées première (au milieu) et seconde (en bas) extraction des valeurs importantes permet de ne rete-
nir que les variations de niveaux de gris ou de cou-
L’approche gradient leur significatives (supérieures à un seuil), donc à un
L’estimation de la dérivée première en un point de co- contour. Une variante pour ce calcul du gradient en
ordonnée (p, q) selon les lignes x et les colonnes y peut x et en y est le gradient directionnel, appelé aussi gra-
être obtenue grâce aux formules suivantes : dient boussole, qui consiste à convoluer l’image avec
huit masques obtenus par rotations successives de π/4
du masque de base, indiquant ainsi les huit directions
∂f 1
≈ [f (p + 1, q) − f (p − 1, q)]
∂x p,q
possibles pour un contour (tableaux 3).
2λx

∂f 1
≈ [f (p, q + 1) − f (p, q − 1)]
∂y p,q 2λy 5 5 5 5 5 -3 5 -3 -3
-3 0 -3 5 0 -3 5 0 -3
Transformées en opérations matricielles, ces for- -3 -3 -3 -3 -3 -3 5 -3 -3
mules permettent d’aboutir aux masques (taille 3 × 3)
décrits dans les tableaux 2. Selon la décomposition des
Tableau 3 Les trois premiers masques de Kirsh
équations (1.16) et (1.16), il est possible d’obtenir des
tailles de masque plus élevées. L’accroissement de taille
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 381 — #8

Traitement des images 381

L’approche laplacien les ombres (figure 15). L’ensemble des méthodes est
L’approximation des dérivées secondes peut être effec- détaillé dans (Bonton et al., 2004). Il peut être néces-
tuée de la même manière par un développement limité saire d’opérer un suivi de contours afin d’obtenir des
(équations 1.19, 1.20), à partir duquel il est possible de régions fermées interprétables comme projections des
proposer les masques des filtres (tableaux 4). objets de la scène, ce qui peut nécessiter des techniques
d’exploration des graphes (IA, programmation dyna-
mique) ou des méthodes neuromimétiques (réseaux de
∂ 2 f 1 neurones). Ces techniques se retrouvent dans (Coc-
≈ [f (p + 1, q) − 2f (p, q) + f (p − 1, q)]
∂x2 p,q 4λ2x querez et Philipp, 1995). La description du contour
(1.19) passe par une modélisation de celui-ci ou un codage tel
que celui de Freeman (figure 16) qui caractérise le pas-
∂ 2 f 1
≈ [f (p, q + 1) − 2f (p, q) + f (p, q − 1)]
∂y 2 p,q
sage d’un pixel à son voisin. La suite des codes locaux
4λ2y
donne le codage du contour (exemple : 00564412).
(1.20)

0 -1 0 -1 -1 -1
-1 4 -1 -1 8 -1
0 -1 0 -1 -1 -1
Tableau 4 Filtres laplaciens Figure 15 Image originale, filtrée par un Sobel sur la
luminance et un Sobel «teinte»
Conformément aux propos précédents (figure 13),
l’extraction des contours grâce aux dérivées secondes
se fait à partir d’une seule convolution et n’exploite
pas les maxima mais les passages par zéro de la fonc-
tion bidimensionnelle. À la différence du gradient, la
détection du contour produit une ligne double (fi-
Figure 16 Codage de l’orientation du contour (codage de
gure 14). Néanmoins ces lignes de contours sont fer-
Freeman)
mées et d’épaisseur 1 pixel, alors qu’avec un gradient
le seuillage introduit des coupures dues aux effets du
3.2 Segmentation en région
seuillage. Cependant l’opérateur laplacien est sensible
au bruit et ne donne aucune indication quant à la di- La segmentation en régions homogènes vise à parti-
rection des contours. tionner l’image en se basant sur des propriétés intrin-
sèques des régions. Un critère simple est celui du ni-
veau de gris ou de la couleur identique à  près pour
tous les pixels d’une même région. Mais les critères
peuvent s’appuyer sur des statistiques beaucoup plus
complexes de l’image, comme ceux décrivant la tex-
ture (voir section 4). Il est courant de visualiser le par-
titionnement d’une image en régions en leur associant
à chacune une couleur différente.
Figure 14 Extraction de contours par le laplacien
(zero-crossing)

Le passage à la couleur est plus délicat à cause de


l’expression vectorielle de l’information. Une première
solution consiste à travailler en marginal sur chaque
composante puis à fusionner les cartes des contours.
Figure 17 Segmentation par critère de texture
Les alternatives exploitent des méthodes vectorielles
comme le gradient couleur de Di Zenzo, ou encore des Soit une image I partitionnée en un ensemble de ré-
méthodes adaptatives comme le gradient sur la teinte gions R et soit P prédicat, ou critère, d’homogénéité :

pondéré par la saturation pour une image codée dans – I = Ri
un espace de représentation de type TLS. Cette tech- – ∀i, Ri est connexe, c’est-à-dire constituée de
nique permet l’élimination des contours induits par pixels voisins
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 382 — #9

382 I/4 Systèmes multimédias


– ∀(i, j), Ri Rj = ∅ ssi i = j – d 2 (−c→ −→
p , μR ) < s3
– ∀i, P (Ri ) = Vrai avec μV la couleur moyenne du voisinage V et −
−→ μ→R la

– ∀(i, j), P (Ri Rj ) = Faux ssi i = j couleur moyenne de la région R.
Le seuillage : un cas particulier Si le pixel courant peut fusionner avec plusieurs voi-
sins, il est affecté à la région qui minimise les trois dis-
Le seuillage a pour objectif de segmenter une image
tances. Si le pixel courant ne peut fusionner, il est le
en plusieurs classes en n’utilisant que l’histogramme,
germe d’une nouvelle région. Les inconvénients ma-
qui est supposé caractéristique du contenu. Les creux
jeurs de cette méthode reposent sur l’influence de la
ou vallées d’un histogramme correspondent à des cou-
position initiale du germe et du type de balayage.
leurs peu représentées dans l’image. À chaque pic de
l’histogramme est associée une classe. On dit qu’un Segmentation par division/fusion
histogramme est bimodal lorsque deux pics (deux La segmentation par division induit une structure hié-
modes) sont clairement identifiables. Comme l’histo- rarchisée qui permet d’établir des relations de proxi-
gramme ne contient pas d’information sur la répar- mité entre les régions, mais qui peut fractionner une
tition spatiale des couleurs, des pixels non connexes même région en plusieurs ensembles distincts. La seg-
peuvent être associés à la même classe. Il existe de très mentation par fusion produit un nombre minimal
nombreuses méthodes de seuillage d’un histogramme de régions connexes, mais décrit celles-ci dans une
(manuelle, sélection de minima absolus et locaux, mi- structure horizontale qui n’exprime pas de relation de
nimisation de variance, entropique, classification bayé- proximité. La combinaison des deux approches (appe-
sienne, méthodes locales adaptatives ou par ligne de lée Split and Merge) est d’exploiter un étage de fusion
partage des eaux) (Cocquerez et Philipp, 1995). de régions à partir d’une division grossière obtenue par
Segmentation par division
division de l’image. L’étape de division (split) divise
l’image en régions jusqu’à ce que la propriété d’homo-
Le principe consiste à tester d’abord le critère d’ho- généité soit vraie dans la sous-image. Dans l’étape de
mogénéité retenu sur l’image entière. Si le critère est fusion (merge), les régions adjacentes dont l’union véri-
valide, l’image est considérée comme segmentée ; si- fie un prédicat (pas forcément identique à celui de la
non, l’image est découpée en zones plus petites et la première phase) sont regroupées.
méthode est réappliquée sur chacune des zones. La di-
vision peut se faire en quatre parties, en six parties, en
polygones, etc. Le plus souvent une méthode dite de
quadtree est appliquée, à savoir que tant que tous les
pixels ne sont pas identiques dans la région au sens
du critère choisi, celle-ci est divisée par 4. L’inconvé-
nient de ces méthodes est que deux parties adjacentes
peuvent vérifier le même critère sans avoir été regrou- Figure 18 Principe du Split and Merge
pées dans la même région. Ces méthodes font partie
des approches descendantes.
Segmentation par fusion
À l’inverse de la démarche précédente, l’image est ex-
plorée en partant de petites régions. Ces germes vont
croître en taille en agglomérant des pixels ou des ré-
gions connexes satisfaisant un critère d’homogénéité.
Le balayage de l’image se fait à partir d’un germe ini-
tial et suivant un ordre déterminé. Un exemple d’une Figure 19 * Split and Merge (4431 divisions pour obtenir
technique dédiée aux images couleur est donnée dans 13294 régions homogènes puis fusion pour segmenter en
(Bonton et al., 2004). Un pixel fusionne avec ses voi- 7995 régions homogènes)

sins si trois prédicats sont vérifiés. Soit R l’ensemble


des pixels déjà agrégés dans la région considérée, soit V 3.3 Une méthodologie à part : la morphologie
l’ensemble des pixels voisins du pixel courant et déjà mathématique
agrégés dans la région courante et p le pixel à traiter. La morphologie mathématique ensembliste a été déve-
On note − c→p sa couleur. loppée par Jean Serra à l’Ecole des Mines de Fontaine-
p est agrégé au pixel p si : bleau (Serra, 1982; Dougherty, 1992). Elle s’est d’abord
– d 2 (−
c→ −→
p , cp ) < s1 développée en binaire puis en niveaux de gris et au-
– d 2 (−
c→p , −
μ→V ) < s2 jourd’hui en couleur. La morphologie mathématique
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 383 — #10

Traitement des images 383

binaire fait appel à la théorie des ensembles. Elle uti-


lise un ensemble de centre X , de géométrie et de taille
connues, appelé élément structurant. L’élément struc-
turant choisi est déplacé de façon à ce que son centre
X passe par tous les pixels de l’image. Pour chacune
des positions de X , l’intersection ou l’union de l’élé- Figure 21 Ouverture morphologique
ment structurant avec les objets de l’image est évaluée.
L’ensemble des points correspondant à une réponse
positive permet de construire une nouvelle image qui
constitue l’image résultat. À partir de ces principes, il
est possible de construire les opérateurs de base de la
morphologie mathématique que sont l’érosion et la di-
latation, définies par :
Figure 22 Fermeture morphologique
E(I) = {X/Bx ⊂ I} (1.21)
D(I) = {X/Bx ⊂ ∩I = ∅} (1.22)

Figure 20 Principe de la morphologie mathématique

L’érodé s’obtient en ne gardant que les pixels X qui


permettent d’inclure complètement l’élément structu- Figure 23 Les différents opérateurs morphologiques
rant centré sur X. Le dilaté s’obtient en gardant les
pixels tels que l’intersection entre l’élément structurant La morphologie mathématique en niveaux de gris
centré sur X et l’image soit non vide. Après une éro- et en couleur s’apparente quant à elle à un filtrage
sion, les objets de taille inférieure à celle de l’élément d’ordre. Ainsi l’érosion consiste à affecter à un pixel P
structurant vont disparaître, les autres seront «ampu- la valeur la plus petite de tous ses voisins pris dans la
tés» d’une partie correspondant à la taille de l’élément configuration de l’élément structurant centré sur P . À
structurant, S’il existe des trous dans les objets, c’est- l’inverse, la dilatation lui affecte la valeur la plus élevée.
à-dire des «morceaux» de fond à l’intérieur des objets, L’utilisation de ces opérateurs occasionne de fausses
ils seront accentués et les objets reliés entre eux vont couleurs lorsqu’ils sont appliqués de façon marginale.
être séparés. Remarquons également qu’une érosion de Mais comme évoqué précédemment pour les prétraite-
taille n peut se réaliser en répétant une érosion n fois ments, le choix d’un ordre pour des vecteurs est déli-
avec un élément structurant de taille 1 ou en appli- cat. C’est pourquoi on les utilise plutôt sur une image
quant une seule érosion avec un élément structurant recodée en associant à chaque pixel un entier par entre-
de taille n. La dilatation est l’opération duale (ou in- lacement de bits codant chaque composante couleur.
verse) de l’érosion. Une érosion suivie d’une dilatation
s’appelle une ouverture. L’ouverture a pour propriété
d’éliminer toutes les parties des objets qui ne peuvent
pas contenir l’élément structurant. Une dilatation sui-
vie d’une érosion s’appelle une fermeture. La fermeture
a pour propriété de combler tout ce qui est de taille
inférieure à l’élément structurant. On peut ainsi trai-
ter l’image pour en éliminer des bruits mais aussi per-
mettre l’extraction de forme type correspondant à l’élé-
ment structurant. On peut aussi extraire des contours
par le gradient morphologique qui consiste à faire la Figure 24 * À gauche image originale, au centre ouverture
différence entre l’image dilatée et l’image érodée par le marginale (fausses couleurs vertes au centre), à droite
même élément structurant. ouverture par entrelacement de bits par un élément
structurant 7 x 7
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 384 — #11

384 I/4 Systèmes multimédias

La morphologie mathématique qui «nettoie» les pe- appartenant à la même catégorie, on parlera de mé-
tites régions de taille inférieure à celle de l’élément thodes supervisées. Dans le cas où une telle organi-
structurant, qui ferme les contours peut donc être uti- sation n’est pas connue a priori, nous serons dans le
lisée comme pré ou post traitement d’une segmenta- contexte de méthodes non supervisées. Les techniques
tion. Mais elle peut elle-même constituer une étape de d’identification font ainsi appel aux méthodes de clas-
segmentation, par l’extraction d’un contour à l’aide du sification, qui selon leurs formalismes nécessitent ou
gradient morphologique ou par la mise en évidence non une phase d’apprentissage.
d’une forme de référence, celle de l’élément structu- Dans tous les cas, deux aspects fondamentaux sont
rant. On en arrive ainsi à l’étape finale d’une chaîne de à prendre en compte : la nature de l’information à uti-
traitement, l’analyse. liser dans un premier temps et la métrique qui est as-
sociée à la formalisation utilisée.
4 Analyse d’images Les principales métriques
Parmi les métriques traditionnelles, celles dérivant du
L’objectif de l’analyse est de permettre l’exploitation
cadre classique des distances de Minkowski Lp sont
du contenu de l’image à des fins d’interprétation (aide
les plus usitées, notamment la classique distance eu-
au diagnostic en imagerie aérienne, satellitaire, médi-
clidienne L2 qui ne devrait être utilisée que dans un
cale par exemple), de localisation et de reconnaissance
espace orthonormé. L’expression pour une distance
(vidéosurveillance, contrôle robotique) ou de mesure
entre deux vecteurs H 1 et H 2 , de taille n est :
des évolutions (contrôle qualité, suivi thérapeutique,
   n  p 1/p

etc.). Lp : dLp H1 , H2 = h1ci − h2ci
i=1
Suivant la nature de la tâche, la phase d’analyse ex-
Citons également dans cette veine des dérivées effi-
ploite un ou plusieurs types d’informations estimés à
caces de ces mesures qui prennent en compte l’impor-
partir des données pixels. Le passage à l’interprétation
tance en nombre de pixels de la couleur considérée :
ou la reconnaissance peut nécessiter une phase d’ap-
distance de Geman-McClure et distance pondérée par
prentissage à partir d’une base de cas. Les informations
la masse (Huang et al., 1998).
susceptibles d’être extraites à partir d’une image numé-
Lorsque les informations considérées sont des va-
rique ont trait à la couleur, la texture, la forme des ob-
riables aléatoires, il est conseillé d’utiliser des mesures
jets présents et leur organisation dans l’image. Le com-
de divergences ou des mesures de test d’hypothèse. Le
plémentaire de l’information est l’outil de mesure de
point de départ de ces métriques est la divergence de
la ressemblance, c’est-à-dire une fonction de mesure de
Kullback-Leibler1 :
distance entre deux informations de même nature. 
n
h1
dKL (H1 , H2 ) = h1ci log ci
h2
i=1 ci
4.1 Cadre général de l’analyse Les versions plus robustes de ce test sont obtenus
L’analyse d’images exploite des informations, qui se- par un test du Chi-2 ou de Bhattacharyya.
lon leur nature peuvent être exprimées sous forme 4.2 Gérer l’information couleur
de scalaire (intensité moyenne), de vecteurs (couleur
prédominante) ou de matrices (matrice de coocur- L’information couleur généralise l’information en ni-
rence). La nature de l’information qui peut être extraite veau de gris en apportant une touche de complexité
est diverse, des caractéristiques couleur ou luminance, par la dimension du problème. Cette information ré-
des caractéristiques d’aspect de surface (rugosité, tex- sume la distribution de couleur présente dans la zone
ture, brillance), des caractéristiques de forme ou de d’étude (image entière ou portion d’images). L’exploi-
construction (courbe, segments, courbure), des carac- tation de ces distributions passe soit par des statistiques
téristiques d’organisation (voisinage, inclusion, hiérar- (moyennes, écart-types, etc.), soit par l’analyse d’histo-
chie). grammes.
À partir de ces informations, l’analyse permet de Mesures de ressemblance sur un ensemble
mesurer des ressemblances ou des dissemblance entre de couleurs commun
deux images ou parties d’images. Dans le cadre géné- Dans le cadre de l’analyse d’images professionnelles,
rique de la reconnaissance des formes (RdF), l’enjeu est les conditions d’acquisition sont maîtrisées et per-
d’identifier un objet. Selon qu’il existe un modèle de mettent de numériser chaque image sur un ensemble
cet objet, ou un ensemble d’objets identifiés comme de couleurs identiques pour chaque image. Sous cette

1 Cependant, la version de Jeffrey lui est préférée pour son respect de la symétrie et de l’inégalité triangulaire (Puzicha

et al., 1997).
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 385 — #12

Traitement des images 385

contrainte, toutes les métriques présentées précédem- d’échelle. Les différences de dynamique s’expliquent
ment peuvent être utilisées pour comparer deux images par les différences de linéarité entre les fonctions.
ou portions d’images. Globalement, l’utilisation des
histogrammes cumulés se révèle être plus robuste que Métrique img1/img2 img1/img3 img2/img3
l’utilisation directe des histogrammes, mais reste très Ln 0.029 0.030 0.036
1
sensible à l’ordonnancement des couleurs (Stricker et Ln 0.0063 0.0069 0.0076
2
Orengo, 1995). Ln 0.32 0.54 0.40
inter
Exemples de mesures Lc1 0.053 0.193 0.179
La figure 25 présente quatre images d’une base Lc2 0.042 0.014 0.015
d’images multimédia classique, le tableau 5 résume Lcinter 0.003 0.097 0.037
pour les trois premières images, les mesures de dis-
Tableau 5 Exemple de mesure de distance entre images à
tance à partir d’histogrammes simples hn (en norme
partir d’histogrammes
L1 , L2 et intersection d’histogramme), et à partir d’his-
togrammes cumulés hc (en norme L1 , L2 ou test Mesures de ressemblance entre ensembles
de Cramer-Von Mises et intersection d’histogramme). de couleurs différents
Chacune des images a été quantifiée en 216 bins1 , la La contrainte des méthodes précédentes est de pouvoir
méthode employée est une quantification régulière. disposer d’une base commune pour la représentation
Les trois images ont donc le même support de repré- des couleurs (même bins). Ce type de base ne peut être
sentation, ce qui autorise dès lors l’utilisation de ces obtenu que par une quantification uniforme. Pour le-
métriques. ver cette contrainte, il est nécessaire d’utiliser des tech-
niques de mesure de distance plus complexes. Ces mé-
thodes prennent en compte la ressemblance d’un bin
couleur avec tous les autres bins couleur dans le calcul
de la distance (figure 26).

Figure 26 Problème de l’appariement couleur


(1) (2)
Distances quadratiques généralisées
La méthode la plus simple pour ce type de distance
généralise la distance euclidienne par l’introduction de
termes de pondération entre les différents éléments. La
fonction de distance s’exprime alors par :
 
(3) (4)     
dQG H1 , H2 = wij h1i − h2i h1j − h2j
i j
Figure 25 Les images comparées
(1.23)
Toutes les mesures du tableau 5 sont normalisées par
rapport au nombre de couleurs de l’image. Pour cha- Les coefficients wij forment une matrice W d’in-
cune des mesures, les images 1 et 2 sont les plus ressem- dices de similarité entre une couleur ci et une couleur
blantes parce que présentant un grand nombre de cou- cj . Le calcul de ces indices peut être effectué dans tout
leurs pour lesquelles les différences de nombre d’oc- espace adapté pour la mesure de proximité visuelle de
currences sont faibles et ce même avec les différences deux couleurs. Cependant lorsqu’un tel espace n’est

1 Un bin correspond à un ensemble de couleurs proche dans l’image initiale et regroupée dans un même classe repré-

sentée par une couleur unique dans l’image quantifiée.


“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 386 — #13

386 I/4 Systèmes multimédias

pas exploité, une pondération perceptuelle est néces- La distance interpixel est prise au sens de la norme
saire (Hafner et al.,1995 ; Faloutsos et al., 1993). Par L∝ :
exemple MPEG7 utilise un partitionnement irrégulier
Δ
selon la luminance (dans l’espace HSV). |p1 − p2 | = max {|x1 − x2 | , |y1 − y2 |} . (1.24)
 Pour une distance d ∈ {1, 2, ...N } fixée à priori, le
A+B+C
wi,j = 1 − corrélogramme de la couleur i par rapport à la couleur
2
j est défini par :

 (k) Δ  
 A= (vi − vj )2 γci ,cj = prob p2 ∈ Acj / |p1 − p2 | = k
p1∈Aci
Avec B= (si cos (hi ) − sj cos (hj ))2
 ∀k ∈ {1, 2, ...d} (1.25)
C= (si sin (hi ) − sj sin (hj ))2

4.3 Gérer l’information de texture (k)


Pour tout pixel de couleur c i dans l’image, γci ,cj
De nombreuses études ont proposé des définitions au donne la probabilité de trouver à une distance k un
terme de texture en associant à chaque fois les sché- pixel de couleur c j . La taille mémoire de stockage du
mas d’analyse permettant d’atteindre les paramètres corrélogramme est de l’ordre de O(n2 d).
ainsi définis (Haralick et al., 1973), (Gagalowicz, 1983). La matrice de coocurrence couleur
Les méthodes proposées expriment l’interaction spa-
La notion de voisinage est ici limitée à une proximité
tiale existant entre un pixel et ses voisins, à une dis-
à une distance d dans une direction θ. La matrice de
tance donnée (corrélogramme), à une distance donnée
coocurrence établit la probabilité de retrouver dans ce
pour une direction imposée (coocurrence) ou sur une
voisinage la couleur j en partant d’une couleur i.
séquence de pixels proches dans une direction donnée
(longueur de plages) (figure 27). (k,θ) Δ  
χci ,cj = prob p2 ∈ Acj / |p1 − p2 | = d, Ü(p1 , p2 ) = θ
p1∈Aci

La matrice de longueurs de plages


Une plage correspond à une séquence de pixels de
même couleur dans une direction θ donnée. Lθ (ci , lj )
représente alors le nombre de plages de couleur ci
ayant une longueur lj dans l’image. Le nombre total
Figure 27 Les voisinages exploités par les méthodes
textures
de plages dans l’image est alors :


N L
max
RNθ = Lθ (ci , lj )
ci =1 lj =1

Texture 1 Texture 2
Figure 28 Exemple de texture

Le corrélogramme
Un corrélogramme présente les corrélations spatiales
entre couleurs en fonction de la distance interpixel
(Huang et al., 1997). Pour une image A de N pixels,
quantifiée sur n couleurs {c1 , c2 , . . . .cn }. Chaque pixel
p en (x,y) est doté d’une couleur A(p) : Texture 1 Texture 2

Figure 29 Représentation des matrices de coocurrences (en


Δ haut) et longueurs de plage (en bas)
p ∈ Ac = A (p) = c
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 387 — #14

Traitement des images 387

Mesures de ressemblance sur textures D’autres bases de décomposition sont possibles


Il est difficile d’exploiter directement les informa- pour représenter la forme d’une région, notamment
tions matricielles. C’est pourquoi des descripteurs spé- celles basées sur les moments de Zernike autout d’une
cifiques sont utilisés : attributs de Haralick (Hara- famille de polynômes complexes formant une base or-
lick et al., 1973) pour les coocurrences et les cor- thogonale dans le cercle unité. À la suite de normalisa-
rélogrammes et attributs de Galloway pour les lon- tions similaires aux précédentes, il est également pos-
gueurs de plage. L’équation 1.26 montre un exemple sible d’atteindre une invariance de ces descripteurs aux
de construction dans le cas d’une matrice de coocur- transformations impliquant des rotations, translations
rence pour l’attribut de contraste définit par Haralick. et changement d’échelles. L’apport de la formulation
par les moments de Zernike réside dans le choix d’une
K−1 
K 
K−1
(k,θ) base orthogonale qui réduit la redondance entre mo-
CT R = n2 χi,j (1.26)
ments(Zernike, 1934).
n=1 i=1 j=1,|i−j|=n

4.4 Gérer l’information de forme Mesures de ressemblance entre formes


Décrire la forme d’un objet Chacune des méthodes permet de résumer la forme
Les moments géométriques d’un objet au travers son contour ou son masque par
La méthode la plus simple pour décrire un objet un ensemble de variables scalaires. L’idée générale est
est d’utiliser les moments géométriques, basés sur la alors d’exploiter cet ensemble d’information comme
formulation classique des moments bidimensionnels. un vecteur pour utiliser des métriques ad-hoc dans l’es-
L’équation 1.27 fournit la formulation générale pour timation de la ressemblance entre deux formes d’ob-
un moment d’ordre p + q . jets. Dans ce choix la formulation de Zernike est la
plus adaptée, puisque construite à partir d’une base de
 décomposition orthonormée. Le choix de la base de
mpq = xp y q f (x, y) , ∀(p, q) ∈ N 2 (1.27) représentation de la forme dépend de sa complexité et
(x,y)∈I nature. Pour des objets de forme plus circulaire, une
Pour obtenir une formulation qui soit indépendante formulation de Zernike est préférable, alors qu’à l’in-
de la position de l’objet et du changement d’échelle, la verse pour des objets plus anguleux les dérivées de mo-
formulation 1.28 est normalisée par : ments géométriques sont plus adaptées. De plus, le
 nombre de moments nécessaire pour discriminer un
μpq = (x − x)p (y − y)q f (x, y) (1.28) objet croît avec la complexité de celui-ci. Cependant,
(x,y)∈I il ne faut pas oublier que dans ces calculs, le bruit croît
avec x = m 10
et y = m 01
x et y les coordonnées du
également avec l’ordre des moments et lorsque l’ordre
m00 m00
dépasse le niveau de complexité, ils perdent leur sens.
centre de gravité de l’objet.
Ce comportement se retrouve dans la figure 30, les
Les moments de Hu deux jeux de courbes montrent la distance entre des
La limite des moments géométriques est de n’être pas caractères (manuscrits et typographiques) selon l’ordre
invariant par rotation, d’où la formulation proposée des moments géométriques, centrés pour la courbe de
par Hu (Hu, 1962). gauche et de Zernike pour la courbe de droite. Selon
la complexité des caractères, les comportements sont
μpq différents. Mais dans les deux cas, au-delà d’un certain
ηpq = ∀(p + q) ≥ 2 et (p, q) ∈ N 2
1+(p+q)/2
μ00 ordre, les moments perdent de leur intérêt en appor-
(1.29) tant plus de bruit que d’information.

ηpq est un moment centré normalisé par la masse


de l’objet (équation 1.29). Hu formule alors les sept
premiers moments d’ordre 2 et 3 qui sont des combi-
naisons des ηpq (équation 1.30), d’autres auteurs ont
étendu ces formulations jusqu’à l’ordre 7.

φ1 = η20 + η02
φ2 = (η20 − η02 )2 + 4η11
2

Figure 30 Précisions de reconstruction pour les moments


φ3 = (η30 − 3η12 )2 + 3(η21 − η03 )2 géométriques centrés et les moments de Zernike
... (1.30)
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 388 — #15

388 I/4 Systèmes multimédias

4.5 Gérer l’organisation de l’image

La reconnaissance dépend en grande partie du


contexte de la scène et de son arrangement, c’est-à-
dire la présence en certains endroits d’éléments carac-
téristiques selon leur couleur, ou leur aspect textural,
mais surtout selon un arrangement précis. Pour cap-
ter l’organisation spatiale dans la scène, il faut utili-
ser des structures particulières basées sur des graphes :
graphes d’adjacence de région, cartes topologiques ou
pyramide combinatoire. Figure 31 * Image et contour segmentés avec les relations
prises en compte dans le graphe

Capter et représenter l’organisation spatiale 5 Conclusion


Les graphes sont utilisés depuis longtemps en traite- La vue est l’un des sens privilégié de l’être humain.
ment et analyse d’images pour essayer de représenter Pour passer de la sensation, stimulation des organes
la topologie de l’image. Un graphe est une structure de des sens, à la perception, impression obtenue à partir
maillage, dont les nœuds portent généralement l’infor- des sens et appréhendé par l’esprit, de nombreux trai-
mation concernant les régions. Chaque nœud est relié tements sont effectués dans notre cerveau par des pro-
aux autres par des arcs auxquels peuvent être associés cesseurs massivement parallèles : les neurones, connec-
des informations concernant les contours communs tés entre eux par des synapses. La perception fait ainsi
aux deux régions concernées par les nœuds d’extrémi- suite à la sensation, en incluant des traitements des
tés. La figure 31 montre l’équivalent graphique des re- stimuli perçus consciemment ou inconsciemment et
lations prises en compte (le fond est volontairement en prenant en considération des informations contex-
omis). Selon les relations choisies, seuls les voisinages tuelles et des expériences passées, stockées dans une
sont conservés (graphes d’adjacence de régions) ou le bibliothèque de taille impressionnante. Cette biblio-
positionnement relatif des régions les unes par rapport thèque inclut des images, des sons, des odeurs. De
aux autres (cartes topologique, graphe d’adjacence avec plus, les interactions entre les différentes aires céré-
relations de positionnement). brales motrice, sensitive, visuelle, auditive sont encore
mal connues. C’est pourquoi vouloir automatiser le
traitement et l’analyse de scènes est une mission par-
Mesure de ressemblance ticulièrement difficile. Si de nombreuses applications
entre organisations spatiales permettent d’automatiser des tâches liées à la percep-
tion humaine, comme le contrôle qualité sur des objets
À la différence des informations de couleur, forme manufacturés ou la conduite autonome de véhicules,
et texture la complexité de l’information topologique ceci ne peut être réalisé que dans des cas bien parti-
n’est pas dans la construction des graphes, puisque culiers, avec des contraintes très fortes quant à l’envi-
celles-ci se déduisent directement de la segmentation. ronnement et la nature des objets eux-mêmes. Ainsi,
La complexité d’usage réside dans la construction guider un robot mobile dans un environnement d’in-
d’opérateur de mesure de ressemblance (Eshera et Fu, térieur, structuré, connu à l’avance, dans lequel peu
1984; Shapiro et Haralick, 1981). La mesure de ressem- de choses peuvent évoluer est envisageable. Alors que
blance entre deux images doit intégrer deux étages d’es- remplacer le système visuel d’un conducteur à l’inté-
timation des dissemblances/ressemblances. Le premier rieur d’une voiture lancée dans une agglomération est
correspond à la mesure de similarité entre les struc- aujourd’hui impossible. L’amélioration des technolo-
tures (nombre de nœuds, présence/absence de rela- gies le permettra peut être un jour, tout comme l’avan-
tions de voisinage). Le second étage inclut l’estimation cée dans les connaissances physiologiques sur le cer-
des ressemblances en termes de couleur/forme/texture veau visuel, qu’on pourra peut-être, dans un avenir
ou tout autre descripteur pour les nœuds et/ou les plus ou moins proche, modéliser. En attendant, la re-
arcs. Les méthodes qui permettent ce type de mesure cherche en imagerie numérique a de beaux jours de-
rentrent dans le cadre des algorithmes d’appariement vant elle et on peut juste faire un parallèle de prin-
(«graph-matching algorithm») (Gold et Rangarajan, 1996; cipe entre le cerveau visuel biologique et les techno-
Ranganath et Chipman, 1992). logies permettant le traitement et l’analyse numérique
des images que nous avons abordé dans ce chapitre.
“chapitre_TI_version_finale” — 2006/10/15 — 18:51 — page 389 — #16

Traitement des images 389

Bibliographie
Berry, F. (2005). Technologies des capteurs d’images couleurs. In Imagerie Numérique Couleur (GFINC), G. F.,
editor, EHINC’05, Lille.
Bonton, P., Fernandez-Maloigne, C., (ouvrage collectif) (2004). Image Numérique Couleur : de l’acquisition au
traitement. Dunod.
Cocquerez, J. et Philipp, S. (1995). Analyses d’images : filtrage et segmentation. Masson, Paris.
Dougherty (1992). An introduction to morphological image processing. SPIE press.
Eshera, M. et Fu, K. (1984). A graph distance measure for image analysis. IEEE transactions on systems, mans
and cybernetics, 14(3) :353–363.
Faloutsos C., M. Flickner, W. Niblack et al. (1993) Efficient and effective querying by image content, IBM, August
1993, RJ 9453 (83074)
Gagalowicz, A. (1983). Vers un modèle de texture. PhD thesis, Université Pierre et Marie Curie, Paris VI.
Gold, S. et Rangarajan, A. (1996). A graduated assignment algorithm for graph matching. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 18(4) :377–388.
Hafner, J., Sawhney, H., et Equitz, W. (1995). Efficient color histogram indexing for quadratic form distance
functions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(7) :729–736.
Haralick, R., Shanmugam, K., et Dinstein, I. (1973). Textural feature for image classification. In IEEE Transac-
tions on System Man and Cybernetics, volume 3(6), pages 610–621.
Hu, M. (1962). Visual pattern recognition by invariants moment. In IEEE Transactions on Information Theory,
volume 8, pages 179–187.
Huang, J., Kumar, S. R., Mitra, M., et Zhu, W.-J. (1998). Spatial color indexing and applications. In ICCV,
pages 602–607.
Huang, J., Kumar, S., Mitra, M., Zhu, W., et Zabih, R. (1997). Image indexing using color correlograms. In
IEEE Computer Vision and Pattern Recognition Conference, pages 762–768, San Juan, Puerto Rico.
Puzicha, J., Hofman, T., et Buhman, J. (1997). Non-parametric similarity measures for unsupervised texture
segmentation and image retrieval. In IEEE Conference on Computer Vision and Pattern Recognition, pages 267–272.
Ranganath, H. S. et Chipman, L. J. (1992). Fuzzy relaxation approach for inexact scene matching. In Interna-
tional Conference on Image and Vision Computing (IVC), volume 10, pages 631–640.
Serra, J. (1982). Image Analysis and Mathematical Morphology, volume I. Ac. Press.
Shapiro, L. et Haralick, R. (1981). Structural description and inexact matching. IEEE transactions on systems,
mans and cybernetics, 3(5) :504–519.
Stricker, M. et Orengo, M. (1995). Similarity of color images. In SPIE Conference on Storage and Retrieval for
Image and Video Databases III, pages 381–392.
Zernike, F. (1934). Diffraction theory of the cut procedure and its improved form, the phase contrast method.
Physica, 1 :689–704.