Vous êtes sur la page 1sur 30

Chapter 6— Indexation et recherche des images

1. 6.1—Introduction

We discussed text and audio indexing and retrieval in Chapters 4 and 5,


respectively.Nous avons étudié l'indexation et la recherche d’information textuelle
dans le chapitre 3. This chapter Ce chapitredeals with image indexing and retrieval.
traite de l'indexation et de la recherche d'image. More research has been carried out in
image indexing and Notons d’abord qu’il y a plus de littérature sur la recherche et
l’indexation d’image que sur l’audio et la vidéoretrieval than in audio and video
indexing and retrieval.. A number of practical techniques and Ce chapitre se penche
sur image feature extraction and image similarity or distance calculation based on
extracted feature l'extraction des caractéristiques et le calcul de similarité des images.
Les caractéristiques de l’image sont extraites à l’aide de notions mathématiques et
sont regroupées sous la forme d’un représentant de l’image : le vecteur descripteur de
l’image.

There are many approaches to image indexing and retrieval.Il existe de nombreuses
méthodes d'indexation et de recherche d'image. Section 6.2 briefly describes four
main On cite quatre approchesapproaches, which are based on structured attributes,
object-recognition, text, and low-level image. features. The first approach, attribute-
based, uses traditional database management systems for La première approche, basée
sur les attributs structurés, utilise les SGBD classiques pour image indexing and
retrieval. l'indexation et la recherche d’image. The second approach is not mature yet
as it relies on automatic object La deuxième approche n'est pas encore arrivée à
maturité car elle repose sur la reconnaissance automatique des objets dans une image.
La troisième approche utilise les mêmes concepts de la recherche et l’indexation
d’information textuelle du chapitre 3recognition.. La quatrième approche utilise les
caractéristiques de bas niveaux, à savoir : la couleur, la texture et la forme. Thus, the
remaining sections focus on the third and fourth approaches. Text-based image
retrieval uses traditional IR for image indexing and retrieval. Since we covered IR in
Chapter 4, Section 6.3 highlights some significant differences between text document
retrieval and image retrieval based on text description. The low-level content-based
approach to image indexing and retrieval requires the extraction of low level image
features.

An individual feature will not be able to describe an image adequately.Une seule


caractéristique ne sera pas en mesure de décrire une image. For example, it is not Par
exemple, il n'est pas possible to distinguish a red car from a red apple based on color
alone. possible de distinguer une voiture rouge d'une pomme rouge en utilisant
uniquement la couleur. Therefore, a combination of Par conséquent, une combinaison
de features is required for effective image indexing and retrieval. caractéristiques est
nécessaire pour une efficace recherche et indexation de l'image. Section 6.9 discusses
a number of

On utilise parfois « attribut » et « trait » pour designer le concept «caractéristique». Le


descripteur désigne la représentation en vecteur d’une caractéristique. Les
caractéristiques de couleur, de texture et de forme sont appelées parfois
caractéristiques locaux ou caractéristiques symboliques. L’extraction de ces
caractéristiques est appelé aussi description globale.

Nous nous intéresserons dans ce qui suit que de la description globale d’une image.

2. Descripteurs de Couleurs :

La recherche et l’indexation basée sur la couleur est la plus utiliséetechnique.. The


concepts involved are simple and are easily implemented. Elle repose sur l’idée de
retrouver les images qui ont des couleurs d’apparence similaires à l’image ou à la
description de la requête utilisateur. Elle est plus simple et facile à mettre en œuvre.
In this section we first Dans cette section, nous allons présenter look at the basic
color-based image indexing and retrieval technique.les différents descripteurs utilisés
basée sur la couleur. We then examine its Nous examinons ensuite les limitations and
describe ways to overcome these limitations. limitations de ces descripteurs et les
moyens de les surmonter.

2.1. Les descripteurs utilisés :

2.1.1 L’histogramme :

Une technique très utilisée pour la couleur est l’intersection d’histogrammes. Les
histogrammes sont faciles et rapides à calculer, et robustes à la rotation et à la
translation. Cependant l’utilisation d’histogrammes pour l'indexation et la recherche
d’images pose quatre problèmes. Premièrement, ils sont de grandes tailles, par
conséquent il est difficile de créer une indexation rapide et efficace en les utilisant tels
qu'ils sont. Deuxièmement, ils ne possèdent pas d’informations spatiales sur les
positions des couleurs. Troisièmement, ils sont sensibles à de petits changements de
luminosité, ce qui est problématique pour comparer des images similaires, mais
acquises dans des conditions différentes. Et quatrièmement, ils sont inutilisables pour
la comparaison partielle des images (objet particulier dans une image), puisque
calculés globalement sur toute l’image.

Comme l’espace colorimétrique le plus utilisé est red, green, and blue (RGB). Le
RVB. Each color channel is discretized into Chaque couleur primaire est discrétisé en
m m intervals. intervalles. So the total number Ainsi, le nombre total of discrete color
combinations (called bins) de combinaisons de couleurs discrètes (appelé bins en
anglais) n n is equal to est égal à m m3.integrated image retrieval techniques. A color
histogramUn histogramme des couleurs H(M) H(M) est un vecteur (h1, h2, ..,hi,.., hn)is
a vector (h , h ),where elementoù l'élément h hi represents the number of pixels in
image représente le nombre de pixels de l'image M M qui a la couleur bin i.falling
into bin Cet histogramme is the feature vector to be stored as the index of the
image.est le descripteur de l’image M, il est stocké en tant qu’index de l'image M.j.

During image retrieval, a histogram is found for the query image or estimated from
the user's query. Au cours de la recherche d'image, un histogramme est calculé pour
l'image de requête ou estimée à partir de la requête de l’utilisateur. The distances
between the histograms of the query image and images in the database are measured.
Les distances entre les histogrammes de l'image de la requête et des images de la base
de données sont mesurées. Les Images with a histogram distance smaller than a
predefined threshold are retrieved from theimages avec une distance inférieure à un
seuil prédéfini sont extraites de la kdatabase and presented to the user. base de
données et présentées à l'utilisateur. Alternatively, the first

Many histogram distance measurements have been proposed. Plusieurs mesures de


distance entre deux histogrammes ont été proposées. The simplest distance between
images La plus simple est la métrique L1. Elle est énoncée comme suit :

I où il et hl sont les nombres de pixels ayant la couleur du bin l.

Exemple :

Soient 3 images de 8x8 pixels. Les histogrammes de ces 3 images sont :where


H1= (8, 8, 8, 8, 8, 8, 8, 8) = (8, 8, 8, 8, 8, 8, 8, 8)
H2= (7, 7, 7, 7, 9, 9, 9, 9)= (7, 7, 7, 7, 9, 9, 9, 9) 2
H3= (2, 2, 10, 10, 10, 10, 10, 10) = (2, 2, 10, 10, 10, 10, 10, 10)
3The distances between these three images are:Les distances entre ces trois images
sont:
d(Hd(H1,H2)=, H 1 +1 +1 +1 +1 +1 +1 +1 = 8
d(H1,H3)=, H ) = 1+1+1+1+1+1+1+1 = 8) = 6+6+2+2+2+2+2+2 = 24 6 +6 +2 +2 +2
+2 +2 +2 = 24
d(H2,H3)=, H 1 5 +5 +3 +3 +3 +1 +1 +1 +1 = 23

Par conséquent, les images 1 et 2 sont les plus similaires et les images 1 et 3 les moins
similaires.

Cette technique d'extraction de couleur a un certain nombre d’inconvénients. In this


section, we Comment peut-on donner des solutions aux problèmes cités
précédemment.discuss these limitations and present ways to overcome them.
Making Use of Similarity among ColorsFaisant usage de la similarité entre les
couleurs

Supposons que toutes les images ont N N pixels (if they do not, they are pixels (si
elles ne l’ont pas, elles sont normalized to have the same number of pixels
normalisées pour avoir le même nombre de pixels N), N), then the distance between
two images is always alors la distance entre deux images est toujours less than or
equal to 2 inférieure ou égale à 2N.N. Their distance will be maximal ifLeur distance
sera maximale si http://www.netlibrary.com/nlreader/nlreader.dll?
bookid=40411&filena... two images have no common colors after color
discretization.deux images n'ont pas de couleurs communes. This means that two
images with Cela signifie que deux images perceptually similar color but with no
common color will have maximum distance according to the semblables, mais sans
couleurs communes auront une distance maximale. (This is related to the color
constancy issue [3, 4]; we do not discuss it further here.)
Many approaches have been proposed to overcome the above problem.De
nombreuses approches ont été proposées pour résoudre ce problème. The first
approach takes into La première approche prend enaccount contributions of
perceptually similar colors in the distance or similarity calculation. compte les
contributions des couleurs similaires dans le calcul de similarité. La mesure de
similarité utilisée par Niblack[5] is as follows. est la suivante. Soient X Let Xbethe
query histogram and l'histogramme de la requête et Y Y celui the histogram of an
image in the database, both normalized. d'une image dans la base de données. X e Y
sont normalisés. La similarité entre X et Y est :

is a symmetric color similarity matrix with


where où A est la matrice de similarité des couleurs avec :
Z=(X-Y)

où ci et cj sont les ième et jème couleur d’un histogramme, et d(ci, cj) est la distance
couleur selonin the mathematical transform to Munsell (MTM) color space, and la
transformation mathématique de l'espace colorimétrique de Munsell, et dmax est la
distance maximale entre n’importe quels deux couleurs de l’espace colorimétrique. La
matrice de similarité A donne les similarités entre les différentes paires de couleurs. Si
deux couleurs sont différentes, d(ci, cj) est proche de dmax et a(i, j) sera proche de zéro,
ce qui mène à presque une contribution zéro à la similarité des images. Si deux
couleurs sont similaires, d(ci, cj) est proche de zéro et a(i, j) sera proche de un, ce qui
mène à une grande contribution à la similarité des images.

Une autre approche similaire à la précédente est proposée par Chan, où les valeurs de
l’histogramme sont ajustées par la similarité des couleurs durant le calcul des
distances entre les images.
Exemple :

Soit I1 une image de deux bins, tels que H1=(bin1, bin2) =(300, 0). La deuxième
valeur est ajustée à 300w, tel que w ∈ [0,1] selon les similarités entre les couleurs
bin1 et bin2. Soit I2 une autre image, tels que H2=(0, 300). La première valeur est
ajustée à 300w. d(I1, I2)=600(1-w). Si les couleurs bin1 et bin2 sont similaires, w est
proche de un et la distance entre I1 et I2 est proche à 0. Si les couleurs bin1 et bin2
sont différentes, w est proche de zéro et la distance entre I1 et I2 est proche 600.

La deuxième approche utilise l’histogramme cumulatif. L’histogramme cumulatif


CH(M) = (ch1, ch2, . . ,chn) de l’image M est définie en termes de l’histogramme de M
H(M) comme :

Le calcul de distance utilise soit la métrique L1 ou la distance euclidienne. Cette


approche évite le calcul des distances entre les bins.

Il faut noter que l’histogramme de couleur de base, dans l'espace HSV, deux couleurs
d'apparence similaire auront des vecteurs HSV proches (plus que dans l'espace RGB
par exemple). C’est pour cela que l’espace colorimétrique est dit perceptuel.

dis the maximum distance) of image M is defined in terms of the color histogram
H(M):

6.4.2.2—Making Use of Spatial Relationships among PixelsFaisant usage des


relations spatiales entre les pixels

The second major limitation of the basic color-based image retrieval technique is that
it ignoresLe deuxième problème est que l’histogramme de couleur de base ne tient pas
comptespatial relationships among pixels. des relations spatiales entre les pixels. For
example, the two images in Figure 6.1 have the same Par exemple, les deux images à
la figure ont le mêmehistogram according to the basic color-based image index
technique, leading to the wrong histogramme de couleur alors que les deux images
sont différentes.

Figure 1 : Deux images différentes qui ont le même


histogramme de couleur de base
To overcome this limitation, it has been proposed that each image be segmented into a
fixed number Pour remédier à ce problème, chaque image est segmentée en un
nombre fixe of regions and a histogram calculated for each region [10–12]. de régions
et un histogramme est calculé pour chaque région. During retrieval, histograms of
Durant la recherche, les histogrammes descorresponding regions are compared.
régions correspondantes sont comparés.

Another limitation related to the above limitation is the masking effect of the
background [13].Un autre problème, c’est l'effet de masquage de l'arrière-plan. As
D’une part, l’image peut être vue comme d’arrière-plan et d’avant-plan. Les plus
importants objets de l’image appartiennent à l’avant-plan. L’arrière-plan contient
généralement des couleurs régulières et un grand nombre de pixels. Deux images qui
ont le même arrière-plan ont deux histogrammes similaires, pourtant ils ont des avant-
plans différents et l’utilisateur s’intéresse plutôt à l’avant plan. Ce problème de
masquage de l’avant-plan par l’arrière-plan conduit à la difficulté de rechercher les
images avec l’avant-planforeground.. For example, suppose we have three images: the
first image is a red car on black

To solve the above problem, Lu and Phillips proposed to derive separate histograms
for foregroundPour résoudre le problème ci-dessus, Lu et Phillips ont proposé
d’extraire deux histogrammes distincts, l’un pour l’arrière-plan et l’autre pour
l’avant plan. La recherche peut alors s’intéresser soit à l’arrière-plan, soit aux objets
de l’avant-plan, soit à l’arrière et l’avant-plan en même temps.

2.1.2 Couleurs dominantes

Ce descripteur est directement issu de la classification des couleurs. Chaque classe


couleur i est caractérisée par 3 paramètres : La couleur dominante CDi, le pourcentage
pi que représente la classe par rapport à l’image et la variance Vi de la couleur dans la
classe. Ce descripteur est alors constitué de C triplets CDi, pi, Vi ; C étant le nombre
de couleurs dominantes (Centroids) détectées dans l’image.
Figure 2 : Calcul d'histogrammes HSV

Cette technique est une solution au 1er problème de l’histogramme de base.

2.1.1.3 Les moments statistiques :

La méthode d’histogramme utilise la distribution complète de la couleur. On doit


stocker de nombreuses données. Au lieu de calculer la distribution complète, dans les
systèmes de recherche d’images, on calcule seulement des caractéristiques
dominantes de couleur tel que l’espérance, la variance et d’autres moments.

Il a été prouvé que les méthodes qui utilisent les moments statistiques marchent plus
vite et donnent des résultats meilleurs que les méthodes d’histogrammes.

L’espérance, la variance, les moments d’ordre 3 peuvent également être calculés sur
chaque composante couleur par les formules suivantes :
N
1
Ei = ∑P
n j=1 ij

( )
N 1
1
δ i = ∑ ( pij −E i )2 2
N j=1

( ))
N 1
1
si= ∑
N j=1
( pij −E i 3 3

Où Ei est l'espérance, δi la variance et si est le troisième moment qui correspond à la


composante couleur i.

and background [13]. 3. Descripteurs de forme


Un autre important descripteur de l'image de bas niveau est le descripteur de forme.
Pour une recherche basée sur les formes, les images doivent être segmentées par un
certains nombres segments. Bien que la segmentation de l'image est un important
sujet, nous ne le discuterons pas ici. Après la segmentation, une autre question est
soulevée dans la recherche d’image basée sur la forme, c’est la représentation et les
mesures des similarités entre les formes.

Une bonne représentation et mesure de similarité de la forme devraient avoir les deux
propriétés suivantes :

• Chaque forme devrait avoir une représentation unique, invariante à la translation, à


la rotation et au changement d’échelle;
• Les formes similaires devraient avoir des représentations similaires afin que la
recherche puisse être basée sur les distances de similarité entre les formes.

La première propriété est exigée pour identifier des objets de dimensions différentes
et à des différentes positions et orientations.

Les sections suivantes décrivent plusieurs descripteurs et mesures de similarités.

3.1. Définitions

Dans ce qui suit nous définissons quelques concepts importants associés à la


description d’une forme:

• Axe principal: c’est la ligne droite qui lie les deux points les plus éloignés dans une
forme.

• Axe secondaire : c’est la ligne droite perpendiculaire à l'axe principal. La longueur


de l’axe secondaire est de telle sorte que le rectangle formé par l’axe principal et l’axe
secondaire cadre une forme.

• Rectangle de base: le rectangle précité formé avec les axes principale et secondaire
comme ses deux côtés est appelé rectangle de base.

• Excentricité: le ratio de l’axe principal et l'axe secondaire est appelé excentricité de


la forme.

Les dimensions de la forme précitées fournissent une des représentations normalisées


qui puisse être utilisée dans l’indexation et la recherche de forme. Cependant, seuls,
ils ne décrivent pas suffisamment les formes, ils sont utilisés avec d'autres
représentations de la forme. Par exemple, dans le système QBIC (Query By Image
Content), on utilise la surface et le périmètre de la forme, orientation de l'axe
principal et les moments invariants pour l’indexation et la recherche de forme.
3.2. Moments invariants (géométriques)

Les moments ont été utilisés pour identifier des images et ont été utilisés dans
plusieurs systèmes de recherche d'image. Pour une image numérique f (x, y), le
moment d'ordre (p + q) est défini comme :

où x, y est la position d’un pixel dans l'image, et f (x, y) est l'intensité du pixel.
Si x et y sont définis comme :

alors les moments centraux sont :

Les moments centraux d’ordre 0, 1, 2 et 3 sont définis comme suit:

Le moment central normalisé d'ordre (p + q), noté par µpq, est défini comme suit :

Il a été montré que les sept moments suivants sont invariants à la translation, la
rotation et le changement d’échelle.
Les sept moments précités sont utilisés comme descripteur de la forme. La distance
euclidienne entre deux descripteurs est utilisée comme distance entre deux formes.
Cependant, il a été montré que les moments similaires ne garantissent pas que leurs
formes soient similaires. Par conséquent, la performance de l’indexation et la
recherche par les moments invariants n’est pas complètement sure.

3.3. Descripteurs de Fourier

Dans la méthode basée sur les descripteurs de Fourier, une forme est représentée en
premier par une fonction appelée signature de la forme (contour). La transformée
discrète de Fourier est appliqué à la signature pour obtenir le descripteur de Fourier.
Ces descripteurs sont utilisés pour indexer la forme. La transformation de Fourier
discrète d'une signature de forme f (i) est donné par :

Pour u=0 à N-1 où N est le nombre d'échantillons de f (i).

Il y a plusieurs types de signatures de la forme. La signature basée sur le rayon


consiste en plusieurs distances du centroid (centre de masse) de la forme vers des
points données de son contour appelés radii. Les radii sont définis comme suit :

où (xc, yc) sont les coordonnées du centroid et (xi, yi), pour i = 0 à 63, sont les
coordonnées des 64 échantillon points le long du contour de la forme. Les points
sont pris tels le nombre de pixels entre deux points est le même.
Les radii des formes et donc leurs transformations sont invariants à la translation.
Notez que les formes ne sont pas normalisées pour l'orientation. La normalisation est
accomplie en ignorant la phase dans l’évaluation des descripteurs de Fourier. La
rotation de la forme est représentée par l'information de la phase de Fu et l’amplitude
de Fu, i.e. |Fu |, est invariant à rotation. |F 0 | représente l'énergie des radii de la forme,
donc |Fu |/|F0 | sera invariant au changement d’échelle. Par conséquent, nous utilisons
le descripteur suivant, qui est invariant à la translation, à la rotation, et au
changement d’échelle pour indexer une forme :

La distance entre les formes est calculée la distance euclidienne entre leurs
descripteurs.

Pourquoi est-ce que nous devrions utiliser directement le descripteur de Fourier


comme index de la forme au lieu des radii? La raison principale est que le la
représentation directe est très sensible aux petits changements et la recherche est de
mauvaise performance. Si 64 longueurs du rayon sont utilisées directement comme un
index, ce serait très difficile de changer l'échelle et faire la normalisation pour la
rotation. Il peut paraître que nous pouvons réaliser la normalisation pour le
changement d’échelle en identifiant le rayon le plus court (ou le plus long) et
accomplir la normalisation au changement d'échelle en arrangeant la longueur du plus
court rayon. Mais cette normalisation n'est pas stable, un petite changement sur la
limite du contour peut affecter le rayon le plus court et les positions des échantillons
de point, ça mène à des descripteurs différents et à de grandes distances entre les
formes dues au petit changement.

3.4. Descripteur (Codage) de Freeman

C’est l’une des plus anciennes méthodes de description des contours. Elle repose sur
le principe de codage des directions d’un contour dans un repère absolu à partir d’une
origine donnée. Le premier point est défini par ses coordonnées cartésiennes. Le
contour est déterminé par une liste des déplacements. La précision des contours peut
être définie par le nombre des connexités (4-connexité sur 2 bits, 8connexité sur 3
bits)

Exemple de code de Freeman :


Le descripteur de Freeman est invariant à la translation et aux rotations multiples de
45° pour lesquelles le descripteur est obtenu par addition modulo 8.

Il faut noter que les chaînes de Freeman se prêtent à un certain nombre de


manipulations :

1. On obtient une dilatation de la courbe d’un facteur k en répétant K fois chaque code
de connexité.
2. On ne peut généralement pas réduire une courbe sans distorsion
3. On fait tourner une courbe de kx2Π/n (dans le cas d’une chaîne de Freeman en n
connexité) en ajoutant ou retranchant k modulo n à la chaîne initiale
4. On mesure la longueur de la chaîne par les formules suivantes :
• En 4-connexité : L = nombre de code de connexité
• En 8-connexité : L = nombre de code de connexité pairs +√ 2 nombre de code de
connexité impairs
5. Inversion d’un chemin : on inverse tous les codes de connexité et on inverse la
séquence. L’inverse d’un code de connexité jest j*=n/2+ j mod (n)
6. Simplification d’un chemin : c’est un chemin dont on a supprimé des détails sans
changer globalement la forme. Cela s’obtient en remplaçant des séquences de p
Code de connexité par des codes de connexité équivalents reliant les mêmes points
• Exemple en 4-connexité : {012} → {1}
• Exemple en 8-connexité : {03} → {2}
7. Réduction d’un chemin : c’est l’un des chemins de longueur minimale reliant les 2
extrémités de la courbe initiale
• On associe 2 par 2 des descripteurs inverses de la chaîne et on les supprime
• Exemple en 4-connexité : X={00132122} → X*={21}
• On obtient tous les chemins réduits en changeant l’ordre des associations
• En 8-connexité : c’est plus complexe
8. Fermeture d’un contour : on teste la fermeture d’un contour en vérifiant que la
chaine réduite est nulle
9. Courbe qui s’intersecte : pour savoir si une courbe décrite par sa chaîne se recoupe,
on procède à une réduction de chemin systématique en partant de son origine et en
testant si chaque nouveau descripteur possède un inverse dans la chaine déjà
parcourue. Si à un instant la chaîne déjà parcourue se réduit à une chaine nulle, on a
trouvé un point double
10. Changement d’origine d’une chaîne de longueur L : revient à une permutation
circulaire des descripteurs modulo L.
Exemple de manipulation de la chaîne de Freeman

X = chaine originale, Y = contour double, Z = rotation de Π/2, W = contour inverse


X1 = chaine originale, Y1 = chaîne réduite, T = exemple de boucle dans une chaîne
A et B sont les deux contours élémentaires (inverse et direct) en 4-connexité.

3.5. Descripteurs de points de l'intérêt

Mehrotra et Gary ont proposé l'usage d'une liste de points d’intérêt pour décrire les
formes. Soit F une forme avec n points d’intérêt, une paire est choisie pour former
un vecteur de base. Le vecteur de base est normalisé comme un vecteur unité le long
de l’axe des x. Tous les autres points d’intérêt de la forme sont transformés à ce
système de coordonnée, comme c’est illustré dans la figure. La forme F est décrite
alors par l'ensemble des coordonnée ((x1, y1), . . , (xn, yn)), où (xi, yi) sont les
coordonnées normalisées de l’ième point l'intérêt.

En normalisant le vecteur de base, la représentation est invariante au changement


d’échelle. Pour accomplir l’invariance à rotation, tous les vecteurs formés en
connectant deux points adjacents. De cette manière, la forme est décrite par plusieurs
ensembles de coordonnée, le nombre coordonnées est égal à n -1, où n est le nombre
des points d'intérêt.

Les descripteurs de la requête sont décrits de la même façon comme ceux des formes
de la base de données. La distance entre la question et les formes de la base de
données est calculé la distance euclidienne entre les ensembles de coordonnée.

Dans cette approche, les index (ensembles de coordonnée) sont nombreux et la


recherche est lente.
Figure 3 : Exemple de point de l'intérêt :
Descripteur de l'image (a) original, (b) points d'intérêt dans
le système de coordonnée normalisé.

3.7. Représentation d’une forme basée sur les régions et mesure de similarité

Les mesures de similarité des formes basées sur le contour décrites ci-dessus ne sont
pas généralement avec la perception humaine en général. Des études ont montré que
les mesures de similarité des descripteurs de contour ne cadrent pas le jugement de
similarité humain.

Dans ce qui suit nous décrivons une méthode de représentation et de mesure de


similarité de forme basée sur les régions. Cette méthode est étudiée pour les raisons
suivantes. Premièrement, cette méthode a montrée sa performance. Deuxièmement,
nous utilisons cette méthode comme exemple pour montrer le processus complet de
représentation des caractéristiques, de normalisation et de mesure de la distance.

3.7.1. Idée de base de la représentation de la forme basée sur les régions :

Soit une forme, recouverte d’une grille (Figure 4). La grille, qui consiste en cellules
carrées de dimension donnée, est suffisamment grande pour couvrir complètement la
forme. Quelques uns des cellules sont complètement ou partiellement couverts par la
forme. Quelques autres ne le sont pas. Nous assignons un 1 aux cellules couvertes à
au moins 15% de pixels par la forme, et un 0 à chacun des autres cellules. Par
exemple, la forme de la figure 4 peut être représentée par la séquence binaire
11100000 11111000 01111110 01111111.
Figure 4 : Génération de séquence binaire pour une forme.

Nous constatons que la représentation est plus précise si la dimension des cellules est
petite. La quantité d’espace mémoire et le temps de calcul des similarités seront
également grands. Un bon compromis pour la dimension d’une cellule est autour de
10x10 à 20x20 pixels.

La représentation précitée est compacte, facile à obtenir et invariante à la translation


mais pas pour le changement d’échelle et la rotation. Donc la séquence binaire doit
être normalisée pour le changement d’échelle et la rotation, si nous voulons l’utiliser
comme représentation de la forme.

3.7.2. Normalisation à la rotation

Le but de la normalisation à la rotation est de mettre les formes dans une orientation
commune et unique. Nous faisons une rotation de la forme afin que son axe principal
soit parallèle avec l’axe des x. Il y a encore deux possibilités pour ce placement : l’un
des points le plus loin peut être sur la gauche ou à droite. Cela peut être fait par une
rotation de 180°. Par exemple. La forme dans la figure 4 peut être placée en deux
orientations comme illustré dans la figure 5.

Figure 5 : Deux orientations possibles avec l'axe principal le long de la direction
des x.
Deux séquences binaires différentes sont exigées pour représenter ces deux
orientations. Comme les séquences binaires sont utilisées pour indexer des formes
dans le système de recherche, avec deux représentations, il faut deux fois plus
d’espace de stockage. Une seule séquence binaire est utilisée comme index, l’une est
déterminer à partir de l’autre durant la recherche d’image.

3.7.3. Normalisation au changement d’échelle

Pour accomplir la normalisation au changement d'échelle, on change


proportionnellement l’échelle de toutes les formes afin que leur axe principal ait la
même longueur.

3.7.4. Représentation unique de la forme

Après la normalisation à la rotation et au changement d’échelle et le choix de la


dimension des cases de la grille, on obtient une séquence binaire unique pour chaque
forme ayant un axe principal. Cette séquence binaire est utilisée comme la
représentation (le descripteur) de forme. Par exemple, le descripteur de forme dans la
figure 4 normalisé dans la figure 5 est 111111110111111000011000 ou
001111101111111111111111.

Comme nous utilisons une grille suffisamment grande pour recouvrir la forme
normalisée, une fois la dimension des cases est choisie, le nombre des cellules de la
grille dans la direction des x est fixé. Le nombre de cellules dans la direction des
dépend de l’excentricité de la forme. Par exemple, si la dimension d’une cellule d’une
grille est 24x24 pixels, le nombre de cellules dans la direction des x est 8 et le nombre
de cellules dans la direction des y peuvent varier de 1 à 8, selon excentricité de la
forme.

3.7.5. Mesure de similarité

La prochaine question est comment mesurer la similarité entre deux formes en se


basant sur leurs descripteurs. Comme le descripteur indique les cellules couvertes par
une forme, c'est naturel de définir la distance entre deux formes comme le nombre de
cellules qui ne sont pas recouvertes par ces deux formes. En se basant sur les
excentricités des formes, il y a trois cas pour le calcul de la similarité :

• Si deux formes normalisées ont le même rectangle de base, on compare les bits des
descripteurs des deux formes, et la distance entre eux est égale au nombre de bits qui
ont des valeurs différentes. Par exemple, si les formes A et B ont la même excentricité
4 et des séquences binaires 11111111 11100000 et 111111111111100
respectivement, alors la distance entre A et B est 3.
• Si deux formes normalisées ont des rectangles de base différents (i.e, ils ont
différentes longueurs pour l’axe secondaire, il n'y a aucun besoin de calculer leur
similarité comme nous pouvons supposer sans risque que ces deux les formes sont
très différentes. Par exemple, si les excentricités des formes A et B sont 8 et 2
respectivement (i.e., les longueurs des axes secondaires sont 1 et 4 cellules).

• Si deux formes normalisées ont des rectangles de base légèrement différents, c'est
encore possible que ces deux formes soient d’apparence similaire. On ajoute des 0s à
la fin du descripteur ayant le plus court axe secondaire afin que le descripteur étendu
ait la même longueur que l'autre forme. La distance entre ces deux formes est calculée
comme dans le premier cas. Par exemple, si la longueur de l’axe secondaire et la
séquence binaire de forme A est 2 et 11111111 11110000 et la longueur de l'axe
secondaire la séquence binaire de forme B sont 3 et 11111111 111111000 11100000
respectivement, alors on étend la séquence binaire pour forme A à 11111111
11110000 00000000. La distance entre A et B est 4.

Pour faciliter le calcul de similarité précité pendant la recherche, l'excentricité de la


forme est placé avec l’unique séquence binaire. Ils forment ensemble l'index d'une
forme.

4.3.7.6. D'autres opérations sur la forme

En plus de la rotation de 180° des formes, les autres deux opérations sur les formes
d’apparence similaires sont des demi-tours horizontaux et verticaux. La figure 6
montre les deux formes qui résultent de ces deux opérations sur la forme de figure 5
(a). Ces deux formes sont d’apparence similaire à la forme de la figure 4.
Figure 6 : L'exemple de forme après des demi-tours horizontaux et verticaux.

Prendre en considération de ces deux opérations permet gagner dans l’espace de


stockage. On utilise un seul descripteur pour chaque forme mais nous produisons
quatre séquences binaires pour chaque forme d’une requête durant la recherche. Dans
ce cas, les formes d’apparence similaires qui résultent d’une rotation de 180°et des
demi-tours horizontaux et verticaux sont retrouvées.

3.7.7. Utilisation de plusieurs axes principaux :

Dans la discussion précitée, nous avons supposé que chaque forme a seulement un axe
principal. En réalité, une forme peut avoir plusieurs axes principaux de même
longueur. La même forme peut avoir différentes séquences binaires selon l'axe
principal utilisé pour la normalisation de la rotation.

Pour résoudre ce problème, la normalisation de la rotation est faite le long de chaque


axe principal et la séquence binaire pour chaque normalisation est utilisée comme
descripteur de la forme. La distance entre deux formes est la distance minimale entre
chaque paire de bits des séquences binaires de ces deux formes.

3.7.8. Résumé du processus d’indexation et de recherche :


Dans ce qui a précédé on décrit une représentation de forme basée sur les régions
invariante à la translation, au changement d’échelle et à la rotation, les opérations
miroir, et sa mesure de similarité. Dans cette section, nous résumons le processus
d’indexation et de recherche de forme. Dans un système de recherche, toutes les
formes dans la base de données sont indexées. Pendant la recherche, la forme de la
requête est aussi indexée. L'index de la requête est comparé avec l’index des formes
dans la base de données et les formes similaires sont rapportées.

Chaque forme dans la base de données est traitée et indexée comme suit (en
supposant que chaque forme a seulement un axe principal) :

• L’axe principal et secondaire et l’excentricité de chaque forme sont déterminés.

• La forme est tournée pour placer l'axe principal le long de la direction des x, et
l’échelle de la forme est transformée afin que l'axe principal est d'une longueur fixe.

• Une grille avec des cellules de dimension fixe est superposée sur la forme
normalisée.

• Les 1s sont assignés aux cellules couvertes par la forme et 0s à d'autres cellules. En
lisant ces 1s et 0s de gauche à droite et de haut en bas, nous obtenons une séquence
binaire pour la forme.

• La séquence binaire et la longueur de l'axe mineur sont entreposées comme l'index


de la forme.

Durant la recherche, les étapes suivantes sont suivies pour représenter la forme de la
requête et réaliser les mesures de similarité.

1. La forme de la requête est représentée par sa longueur de l’axe secondaire et par sa


séquence binaire en utilisant le même processus d’indexation précité. Mais il faut il y
a quatre séquences binaires pour chaque requête en considérant la rotation de 180° et
les opérations des demi-tours horizontale et verticale.

2. Pour les raisons d'efficacité, ces quatre séquences binaires sont comparées
seulement avec les séquences binaires des formes dans la base de données avec des
excentricités similaires.

3. La distance entre la requête et les formes dans la base de données est calculée
comme le nombre de bits différents dans leurs séquences binaires.

4. Les formes similaires sont affichées en ordre croissant des distances de similarité.
Pour comparer deux formes, nous préférons qu'elles soient de même dimension
(normalisation au changement d’échelle). Nous tournons une des formes sur l'autre
afin qu'ils aient la même orientation (rotation à la normalisation).

3.7.9. Performance de recherche

Nous utilisons un exemple pour montrer si la mesure de distance de la méthode basée


sur les régions se conforme-t-elle vraiment avec la perception humaine. Le tableau 1
montre la distance parmi 7 questions dans la figure 8 (étiqueté de a à g) et 20 formes
dans la figure 7 (numéroté de 1 à 20). En général, les résultats obtenus se conforment
avec la perception humaine. Bien sûr, la perception humaine de la similarité des
formes parmi quelques formes est quelquefois subjective et dépend de l'application.

Figure 7 : Vingt exemples de forme


Figure 8 : Sept formes de requête.

Tableau 1 : Distances entre les sept requêtes et les vingt formes
La performance de recherche de la méthode basée sur les régions a aussi été comparée
avec les descripteurs de Fourier et les descripteurs des moments de HU et la recherche
de QBIC. Il a été rapporté que la méthode basée sur les régions plus efficace que les
autres méthodes.

4. Descripteurs de texture

 Au même titre que la couleur, la texture est une caractéristique fondamentale des
images car elle concerne un élément important de la vision humaine. De nombreuses
recherches ont été menées à la fois dans les domaines de l’analyse et de la synthèse de
texture.
L'étude de la texture des objets d'une image peut avoir des objectifs très divers :
obtenir des informations sur la nature d'un l'objet, segmenter l'image en régions
homogènes, identifier la texture afin de la réduire à un ensemble de paramètres
(compression d'images), recherche d'image par contenu, etc.

Une définition formelle de la texture est quasiment impossible. D’une manière


générale, la texture se traduit par un arrangement spatial des pixels que l’intensité ou
la couleur seules ne suffisent pas à décrire. Elles peuvent consister en un placement
structuré d’éléments mais peuvent aussi n’avoir aucun élément répétitif.

De nombreuses définitions ont été proposées, mais aucune ne convient parfaitement


aux différents types de textures rencontrées. Dans une définition couramment citée
« la texture est présentée comme une structure disposant de certaines propriétés
spatiales homogènes et invariantes par translation ». Cette définition stipule que la
texture donne la même impression à l’observateur quelle que soit la position spatiale
de la fenêtre à travers laquelle il observe cette texture. Par contre l’échelle
d’observation doit être précisée. On peut le faire par exemple en précisant la taille de
la fenêtre d’observation.

La notion de texture est liée à trois concepts principaux:

1- un certain ordre local qui se répète dans une région de taille assez grande,
2- cet ordre est défini par un arrangement structuré de ses constituants élémentaires,
3- ces constituants élémentaires représentent des entités uniformes qui se caractérisent
par des dimensions semblables dans toute la région considérée.

Il existe un grand nombre de textures. On peut les séparer en deux classes: les textures
structurées (macrotextures) et les textures aléatoires (microtextures).

Une texture qualifiée de structurée est constituée par la répétition d’une primitive à
intervalle régulier. On peut différencier dans cette classe les textures parfaitement
périodiques (carrelage, damier, etc.), les textures dont la primitives subit des
déformations ou des changements d’orientation (mur de briques, grains de café, etc.).
Les textures qualifiées d’aléatoires se distinguent en général par un aspect plus fin
(sable, herbe, etc.). Contrairement aux textures de type structurel, les textures
aléatoires ne comportent ni primitive isolable, ni fréquence de répétition. On ne peut
donc pas extraire de ces textures une primitive qui se répète dans l’image mais plutôt
un vecteur de paramètres statistiques homogènes à chaque texture.

Dans tous les cas, ces objectifs nécessitent l'extraction d'un ou de plusieurs paramètres
caractéristiques de cette texture. Nous désignerons ces paramètres sous le terme
d’attributs texturaux (textural features) et l’ensemble qu’ils constituent sous le terme
de descripteur de texture.

Certains de ces paramètres correspondent à une propriété visuelle de la texture


(comme la directionnalité ou la rugosité). D'autres correspondent à des propriétés
purement mathématiques auxquelles il est difficile d'associer une qualification
perceptive.

Les attributs texturaux peuvent être obtenus à partir d’un ensemble assez vaste de
différentes théories mathématiques. Citons notamment :

• Les attributs fondés sur des calculs statistiques effectués sur les niveaux de gris des
pixels de l'image. C'est le cas des statistiques classiques, et des matrices de
cooccurrences ou de longueurs de plages ainsi que les méthodes utilisant directement
la fonction de covariance ou les statistiques d’ordre supérieur.
• Les attributs obtenus à la suite de transformations orthogonales appliquées aux
images (transformées de Fourier, Ondelettes, etc.). Les attributs texturaux seront alors
calculés dans des domaines différents de celui de la grille spatiale des luminances
(domaine spectral par exemple).
• D'autres méthodes, basées par exemple sur la morphologie mathématique, les
intégrales curvilignes, l’application de filtres ou sur la théorie fractale peuvent
également être employées pour obtenir des attributs texturaux.
1 Les matrices de co-occurrences :

En 1973, Haralick a proposé une méthode en se basant sur les matrices de co-
occurrences de niveaux de gris. La texture d’une image peut être interprétée comme la
régularité d’apparition de couples de niveaux de gris selon une distance donnée dans
l’image. La matrice de co-occurrences contient les fréquences spatiales relatives
d’apparition des niveaux de gris selon quatre directions (ө = 0, ө=π/4, ө=π/2, ө =3π/4).
Une matrice de co-occurrences est définie au moyen d’une relation géométrique entre
deux pixels (x1,y1) et (x2,y2).

La matrice de co-occurrences Pd, ө (i j ) est carrée et de dimension Δ*Δ, où Δ est le


nombre de niveaux de gris présents dans I. Les indices de la matrice de co-
occurrences sont donc les niveaux de gris de la texture étudiée.

On définit la matrice de co-occurrences Pd, ө par : Pd, ө=( Pd, ө(i, j))

Pd, ө(i, j) représente le nombre de fois où un couple de points séparés par la distance d
dans la direction ө a présenté les niveaux de gris Ii et Ij . Pour obtenir de véritables
fréquences relatives, il faut normaliser les éléments de la matrice en les divisant par le
nombre total de paires de points élémentaires séparés par la distance d dans la
direction ө dans toute l’image.

Algorithme 2-1 : Matrice de co-occurrences :

Soit Lx={1, 2, .., Nx} et Ly ={1,2,.., Ny } les domaines spatiaux verticaux et


horizontaux de l'image et soit Δ = {0, 1, 2,.., F −1} les niveaux de gris.

L'image numérique I : Lx *Ly → Δ affecte un niveau de gris à chaque pixel. Les


définitions suivantes proviennent de [Har73].

Soit une direction ө et une distance d d'étude.

i- Initialisation de la matrice : ∀ i, j ∈ [0, L[ : Pd, ө (i, j)=0


ii- Remplissage de la matrice. Pour tout point (x1,y1) d'intensité I(x1,y1), le
couple distance-angle (d, ө); Si la relation R entre deux pixels (x1 , y2) et
(x2 , y2) est respectée :
Pd ,ө ( i, j ) = ∑ ∑ δ ( I ( x1 , y 1 ) )=i et I ( x 2 , y 2 )= j¿
x 1 ∈L x y 1 ∈L y
Exemple 4-1 :

Soit l'image suivante comportant D =4 niveau de gris {0, 1, 2, 3}:

[ ]
0001
I ( x , y )= 0 0 1 1
0223
2 2 33

P1,0° (i, j)={(x1,y1), (x2, y2) ∈ I / y1 =y2 , |x2 -x1|=d, I(x1,y1)=i et I (x2,y2)=j}

Les matrices P1,0° et P1,90° sont donc de dimension 4 et valent

[ ] [ ]
6210 6 1 20
P 1,0°= 2 2 0 0 P 1,90°= 1 2 11
1042 2 1 21
0022 1 0 12

2 Attributs texturaux :

Afin d'estimer la similarité entre les matrices de co-occurrences, Haralick a proposé


14 caractéristiques statistiques extraites à partir de cette matrice [Annexe IV].
Actuellement, seulement les quatre caractéristiques les plus appropriées sont
largement utilisées : l’énergie, l’entropie, le contraste et le moment inverse de
différence et c'est ces caractéristiques que nous avons retenues pour notre système.
n n
L’homogénéité h :h=∑ ∑ ( Pd ,ө ( i , j ) )
2

i=1 j=1

n n
L’entropie e : e=∑ ∑ P d , ө ( i , j ) log 2 Pd ,ө ( i , j )
i=1 j=1

( )
n−1 n n
Le contraste c : c=∑ ∑ ∑ Pd, ө(i , j ) ,∨i− j∨¿ n
k=0 i =1 j=1

1
Moment des différences inverses m : m=∑ ∑ 2
Pd ,ө ( i, j )
i i 1−(i− j)
5 Conclusion :

Deux remarques s’imposent :

- Pour des images qui présentent moins de variance l’une à l’autre, ces
descripteurs ne sont pas suffisant, notamment la reconnaissance de visages et
la reconnaissance d’empreintes digitales. D’autres descripteurs (descripteurs
spécifiques, biométriques) sont utilisés.
- As most images are stored in compressed form, it would be advantageous if
we could derive imageComme la plupart des images sont stockées sous forme
compactée, il serait avantageux si l'on pouvait tirer les caractéristiques d’une
image features directly from compressed image data.directement à partir de
données d'image compactées. Section 6.7 looks into a number of image
indexing De nombreuses techniques d'indexation et de recherche d'images
and retrieval techniques based on compressed image data. basées sur les
données d'image compactées pouvaient être étudiées après l’entame de la
matière de compression des données multimédias de master 2.In addition to
the techniques discussed in Sections 6.2 to 6.7, there are other techniques for
image

Vous aimerez peut-être aussi