Vous êtes sur la page 1sur 15

i i

chapitre_gouet  2005/9/28  11:44  page 1  #1


i i

Recherche par contenu visuel


dans les grandes collections d'images

Valérie Gouet-Brunet

Mots-clés : descripteurs d'image, structures d'index multidimensionnels, malédiction de la dimension.


Résumé : à l'heure où la technologie numérique permet de produire, stocker et disséminer des volumes importants
de données multimédia, automatiser la recherche d'images devient un enjeu crucial pour bon nombre d'applications.
L'indexation d'une image à partir de l'analyse de son contenu visuel est une approche récente qui permet de réduire
les ambiguïtés ou lacunes des techniques maintenant classiques d'indexation par le texte. Elle devient même la seule
solution lorsque le volume d'images rend l'annotation textuelle irréalisable. La recherche par contenu visuel dans les
grandes collections d'images est une problématique émergente née de l'intersection de deux domaines de recherche en
informatique : l'analyse d'images et les bases de données. Dans ce chapitre, nous aborderons les solutions apportées
par ces deux domaines pour cette problématique. Nous nous attacherons également à présenter les concepts et les
nouvelles solutions qui en font désormais un domaine de recherche à part entière.

1 Introduction tion lorsque le volume d'images rend l'annotation


textuelle irréalisable.
La technologie numérique permet aujourd'hui
de nouvelles applications multimédia pour de La problématique de la recherche par contenu
nombreuses communautés. Par exemple, les pro- visuel dans de grands volumes d'images se situe
fessionnels de l'audiovisuel tels que les grandes à l'intersection de deux domaines de l'informa-
chaînes de télévision numérisent et archivent les tique : l'analyse d'images et les bases de données.
journaux télévisés, de même que l'Institut natio- Les chercheurs en bases de données ont depuis
nal de l'audiovisuel avec le patrimoine audiovisuel longtemps proposé une large palette de méthodes
français. À la Bibliothèque nationale de France, d'optimisation permettant de faciliter la recherche
les chercheurs numérisent les fonds patrimoniaux, dans les grands volumes de données. Jusqu'à ré-
dont une grande partie est disponible gratuite- cemment, les chercheurs en analyse d'images ont
ment grâce au projet Gallica. Et tout simplement exclusivement concentré leurs eorts sur la mise
le grand public avec la démocratisation de l'ima- au point d'approches de description du contenu vi-
gerie numérique, au travers des magnétoscopes suel de l'image qui soient performantes en termes
et autres appareils-photos numériques. Ces nou- de reconnaissance. Les architectures développées
velles fonctionnalités conduisent à la production étaient rarement organisées autour de bases de
et au stockage de grands volumes de données nu- données et notamment travaillaient pour la plu-
mériques. Celles-ci peuvent être de plus en plus part en mémoire principale, sans l'aide d'aucune
facilement disséminées avec l'essor des nouvelles structure d'index. Les principales raisons invo-
techniques de diusion comme la télévision nu- quées étaient que d'une part, les volumes de don-
mérique ou des réseaux ouverts comme l'Internet nées manipulés permettaient de se passer d'une
(catalogues en ligne, connections pair-à-pair, etc). organisation physique particulière et que d'autre
Rechercher une ou plusieurs images dans une telle part, les structures d'index proposées en bases
masse de données numériques n'est plus trivial. de données n'étaient pas bien adaptées aux in-
Le volume produit rend désormais insusantes et formations complexes extraites des images. Mais
inadaptées les approches classiques d'exploration aujourd'hui, l'augmentation du volume des bases
par le texte telles que l'utilisation de mots-clés d'images et le développement de techniques de re-
ou de méta-données associés aux images. D'autres connaissance de plus en plus sophistiquées font
modes doivent être envisagés. L'indexation d'une que la problématique du passage à l'échelle des
image à partir de l'analyse de son contenu visuel structures traditionnelles d'index trouve un regain
est une alternative récente qui permet de réduire d'intérêt auprès de ces deux communautés.
les ambiguïtés ou lacunes des techniques d'indexa- Développer un système de recherche d'images
tion par le texte. Elle devient même la seule solu- par contenu visuel (SRI) qui soit ecace pour les
1

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 2  #2
i i
2 Recherche par contenu visueldans les grandes collections d'images

grandes collections d'images requiert ainsi une ex- cours exhaustif de l'espace. Pour être e-
pertise à la fois en analyse d'images et en bases de cace, la structure développée doit prendre
données. En particulier, pour être performantes, en compte les propriétés de l'espace des si-
les approches de description étudiées doivent te- gnatures. Cet aspect est traité à la section
nir compte des problèmes inhérents aux espaces 3. Les principales techniques de structura-
de grande dimension, de même que les structures tion sont quant à elles décrites à la section
d'index multidimensionnels doivent être appro- 4.
priées à la distribution des descripteurs d'images.
Classiquement, un système de recherche Le rapprochement de deux communautés de
d'images par contenu visuel comporte une phase recherche peut poser quelques problèmes de vo-
hors ligne d'indexation de la base d'images et une cabulaire. Notamment, il est important de souli-
phase en ligne de recherche à proprement dit, que gner que le terme "indexation" est employé dans
nous décrivons dans les deux section suivantes. la communauté de l'analyse d'images comme dans
celle des bases de données, mais n'y revêt pas la
1.1 Indexation de la base d'images même signication ! En analyse d'images, indexer
La phase d'indexation suit deux étapes suc- une image correspond à l'étape (1) d'extraction
cessives : des caractéristiques visuelles. Ici, l'index est la si-
gnature de l'image. La communauté des bases de
1. Extraction des caractéristiques visuelles. données parle quant à elle d'indexation de la base
Cette étape consiste à extraire de l'image d'images, ce qui correspond à l'étape (2) de struc-
un résumé de son apparence visuelle par turation de l'espace des signatures. Dans ce cas,
des méthodes d'analyse d'images. La mé- l'index est la structure issue de cette organisation.
thode employée pour extraire ce résumé
porte le nom de descripteur d'image. Après
extraction des caractéristiques visuelles, le
1.2 Recherche dans la base d'images
contenu visuel de l'image est décrit par un Une fois la base d'images indexée, la phase de
vecteur numérique (ou un ensemble de vec- recherche peut revêtir plusieurs formes. La plus
teurs), que l'on appelle généralement signa- ancienne et la plus classique est la recherche par
ture de l'image. La mise en place d'un des- similarité visuelle à partir d'un exemple. Dans sa
cripteur consiste également à associer aux forme la plus simple, le système reçoit en en-
signatures une mesure de similarité. Au mo- trée une image exemple et retourne l'ensemble
ment de la recherche, deux images seront ju- des images les plus similaires à cette image, au
gées similaires si leurs signatures sont simi- sens de la mesure de similarité associée à la si-
laires au sens de cette mesure de similarité. gnature. La recherche implique de trouver les plus
Le descripteur n'est pas universel pour une proches voisins de la signature associée à l'image
image donnée, l'information extraite devant requête (voir section 4). Ce mode est illustré par
être pertinente pour l'usage visé. Il doit être l'exemple (a) de la gure 1.1 obtenu à partir du
dèle au contenu syntaxique et sémantique moteur IKONA1 . La requête peut aussi porter
de l'image tout en étant compact. La section sur une partie ou un objet de l'image requête,
2 passe en revue les principales catégories de voir l'exemple (b) de la gure 1.1 ; dans ce cas,
descripteurs d'images existant. le système retourne les images impliquant les par-
ties/objets les plus similaires. La recherche par
2. Structuration de l'espace des signatures. In- l'exemple convient bien à une grande partie des
dexer l'espace des signatures consiste à or- besoins, comme nous le verrons à la section 5 à
ganiser cet espace selon une structure d'in- travers deux applications.
dex (généralement multidimensionnel) per-
mettant d'accélérer la recherche. Si l'en-
semble de l'espace et de la structure ne 2 Aperçu des méthodes d'extraction
peuvent pas être chargés en mémoire prin- de caractéristiques visuelles
cipale, l'optimisation porte sur la réduction Les méthodes de description de l'image dé-
du nombre d'accès au disque. Les approches pendent des applications considérées. Pour des
les plus récentes s'attachent également à ré- bases d'images au contenu hétérogène (on parle de
duire les coûts en temps CPU correspon- bases d'images génériques) , il existe deux classes
dant généralement au calcul de la mesure de descripteurs d'images : les descripteurs globaux
de similarité. La recherche via un index doit qui sont présentés à la section 2.1 et les descrip-
naturellement être plus rapide qu'un par- teurs locaux présentés à la section 2.2. Lorsque les

1 IKONA est un moteur de recherche d'images par contenu visuel développé par l'INRIA : http ://www-
rocq.inria.fr/imedia/ikona.html.

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 3  #3
i i
Aperçu des méthodes d'extraction de caractéristiques visuelles 3

(a) Recherche globale approximative, à partir (b) Recherche locale précise, à partir de
de descripteurs de couleur, texture et forme descripteur de points d'intérêt

Fig. 1.1  Recherche d'images par contenu visuel : Deux scénarios de recherche par l'exemple dans
une base d'images généraliste (sources : Images Du Sud et INA) à partir du moteur de recherche
IKONA. Chaque requête porte sur le rectangle blanc de la photo présentée en haut à gauche dans
l'interface de visualisation. La requête (a) est réalisée sur l'image entière et la requête (b) sur une
partie de l'image (un tournesol) détourée manuellement par l'utilisateur. Les photos retournées
sont classées par ordre décroissant de similarité visuelle, seules les neuf premières réponses sont
présentées ici. On observe que la requête (a) retourne des images traduisant une ambiance glo-
bale de  jardins en eur  alors que la requête (b) permet de retrouver des images contenant
précisément l'objet d'intérêt.

bases d'images sont relatives à un domaine spéci- latifs à l'indexation de la couleur constituent la
que, des descripteurs spéciques sont alors pré- référence et marquent même les débuts de l'in-
conisés (cf. section 2.3). dexation d'images. De nombreux espaces colori-
métriques existent : RVB est le plus classique mais
2.1 Description globale de l'image des espaces comme CIELab ou CIELuv s'avèrent
En indexation d'images, l'apparence visuelle mieux adaptés à la perception humaine de la cou-
globale d'une image est résumée par trois at- leur et donc à la recherche d'images par similarité
tributs de bas niveau : la couleur, la texture visuelle. La distribution des couleurs dans l'image
et la forme. Ces attributs ont été intégrés dans est le plus souvent décrite par un histogramme
la norme MPEG-72 . Nous les présentons briève- couleur qui représente la fréquence d'apparition
ment ci-dessous et renvoyons le lecteur au cha- des diérentes couleurs. Un tel descripteur est
pitre ¿¿Indexation des données et recherche dans robuste aux principales transformations géomé-
les bases multimédia¿¿ de la section ¿¿Systèmes triques que peut subir l'image, ce qui le rend bien
multimédia¿¿ pour plus de détails. adapté à une recherche approximative globale.
La couleur est l'un des éléments les plus re- Caractériser la texture de l'image fournit une
présentatifs du contenu d'une image. Les travaux bonne information sur l'arrangement structurel
de Swain et Ballard [Swain and Ballard, 1991] re- des surfaces dans l'image. Deux grandes classes

2 MPEG-7 : standard ISO/IEC pour la description de contenus multimédia. Parmi un large spectre d'applications,
cette norme traite de la problématique de l'indexation d'images (xes ou animées) par contenu visuel. Pour une
introduction à MPEG-7, le lecteur peut consulter le chapitre ¿¿Indexation des données et recherche dans les bases
multimédia¿¿ de la section ¿¿Systèmes multimédia¿¿.

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 4  #4
i i
4 Recherche par contenu visueldans les grandes collections d'images

d'approches existent, l'une est basée sur des me- de façon à produire un petit nombre de régions
sures statistiques alors que l'autre implique des qui constituent des zones visuellement cohérentes
mesures fréquentielles. Une approche statistique et pertinentes comme requête. Pour être discri-
répandue est basée sur une analyse psychovisuelle minantes, ces régions doivent présenter une cer-
de la texture particulièrement bien adaptée pour taine variabilité photométrique, qu'il faut décrire
l'indexation d'images. Quant aux approches fré- nement. Nous renvoyons le lecteur à l'ouvrage
quentielles, elles proviennent largement du do- [Boujemaa et al., 2004] ainsi qu'au chapitre ¿¿In-
maine du traitement du signal. Citons la trans- dexation des données et recherche dans les bases
formée de Fourier et ses variantes, les ltres de multimédia¿¿ de la section ¿¿Systèmes multimé-
Gabor et la transformée en ondelettes. dia¿¿ pour un éventail des techniques de segmen-
La description de la forme ou de la struc- tation en régions et les méthodes de caractérisa-
ture de l'image requiert en général deux niveaux tion associées.
de traitement. Elle nécessite en premier lieu une Des points d'intérêt : L'image est décrite
segmentation de l'image en régions ou au moins dans son intégralité par un ensemble de points
une extraction des contours. Ensuite, outre l'uti- d'intérêt, également appelés points clés ou points
lisation de caractéristiques simples comme la lon- saillants, qui sont extraits automatiquement pen-
gueur ou la courbure des formes extraites, une dant la phase d'indexation. Ces points repré-
technique simple consiste à caractériser la dis- sentent les sites de l'image caractérisés par une
tribution de l'orientation des gradients sur les forte variabilité locale, jugée discriminante et plu-
contours, sous la forme d'un histogramme par tôt stable face au bruit et aux transformations
exemple. D'autres approches plus sophistiquées photométriques ou géométriques que peut subir
existent, citons le codage par chaînes (codage de l'image. C'est cette variabilité locale modélisée
Freeman, codage diérentiel), les descripteurs de pour chaque point extrait qui est retenue comme
Fourier, les moments de Hu ou de Zernike. descripteur du point. L'ensemble de vecteurs ob-
Les trois classes de descripteurs qui viennent tenu constitue un résumé compact de l'image. Au
d'être présentées étant complémentaires, elles moment de la recherche, l'utilisateur dénit dyna-
peuvent être combinées selon les besoins. La - miquement la partie de l'image qui l'intéresse et
gure 1.1(a) illustre un scénario de recherche à par- seul le sous-ensemble de points d'intérêt corres-
tir d'une combinaison linéaire de ces descripteurs. pondant est recherché dans la base. En outre, la
Dans la mesure où elles caractérisent l'image dans répartition spatiale des points dans l'image rend
sa globalité, ces approches permettent une re- cette technique robuste aux occultations. La -
cherche que l'on qualie d'approximative. Elles gure 1.1(b) illustre la notion de requêtes par-
rendent compte d'une ambiance visuelle mais ne tielles par points d'intérêt. De nombreuses mé-
permettent pas la recherche de parties d'images thodes d'extraction et de caractérisation de points
ou d'objets. Les sections 2.2 et 2.3 ci-après d'intérêt existent dans la littérature, un point
concernent ce type de requêtes. de départ est [Boujemaa et al., 2004]. Le lecteur
peut aussi se référer au chapitre ¿¿Le traitement
2.2 Description locale de l'image des images numériques¿¿ de la section ¿¿Calcul
A l'opposé des approches globales, les ap- Scientique¿¿ qui traite de l'extraction de telles
proches de description locale visent à décrire le primitives dans les images.
contenu de l'image localement. Elles orent ainsi Les deux approches venant d'être présentées
la possibilité d'eectuer une recherche sur une par- ne décrivent pas la même information visuelle
tie de l'image ou encore sur un objet présent dans dans l'image, ce qui les destine à des usages dif-
l'image. La sélection étant dénie explicitement férents : les points d'intérêt se prêtent mieux à
sur une partie de l'image, on a l'habitude de leur la recherche ne d'objets ou de parties d'images
associer le paradigme de requêtes partielles. Pour au contenu hétérogène, alors que l'approche basée
les bases d'images génériques, deux techniques de sur une segmentation en régions se focalise sur les
description entrent dans ce cadre. Elles mettent en zones dominantes de l'image. Le support région
jeu des primitives de l'image de nature diérente : étant déterminé pendant la phase d'indexation,
Des régions d'intérêt : La phase d'in- la sélection au moment de la recherche se limite
dexation de l'image consiste à découper celle-ci à choisir parmi les régions proposées. Le support
en régions selon une approche de segmentation. point permet quant à lui une sélection interactive
Lorsque l'on n'a aucune connaissance a priori sur de la zone de recherche. En contrepartie, le prix
le contenu de la base d'images, il est dicile de à payer pour cette exibilité est l'extrême lour-
réaliser une segmentation qui corresponde pré- deur du descripteur, qui impose l'utilisation de
cisément aux objets que l'on souhaitera recon- structures d'index multidimensionnels pour être
naître par la suite. En général, il est préférable opérationnel. Le choix entre ces deux approches
que la segmentation réalisée reste assez grossière, doit être motivé par l'application ou par les be-

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 5  #5
i i
Structure des espaces de description 5

soins de l'utilisateur en terme de précision de la d'image se place généralement dans l'une des deux
recherche au prix du temps de réponse. En tout catégories suivantes :
cas, leur complémentarité en fait un atout pour  elle est représentée par un seul vecteur par
répondre aux diérents scénarios de requêtes par- image. C'est le cas avec les descripteurs
tielles [Boujemaa et al., 2004]. globaux ou bien avec certains descripteurs
spéciques comme les descripteurs de vi-
2.3 Descripteurs spéciques sage. L'espace engendré est généralement
Les descripteurs sus-cités ne supposent au- de grande dimension et moyennement peu-
cune connaissance a priori sur la nature des plé (par rapport à l'autre catégorie). Par
images/objets à indexer. Par descripteurs spéci- exemple, une base de 100000 images dé-
ques, on entend des descripteurs dédiés à des crites par un histogramme couleur échan-
bases d'images ou des classes d'objets relatifs à tillonné sur 216 couleurs conduit à un es-
un domaine particulier, la biométrie ou la numis- pace de 216 dimensions contenant 100000
matique par exemple. Ces descripteurs exploitent points ;
la spécicité de la classe des objets à reconnaître  elle est représentée par plusieurs vecteurs
et s'attachent à caractériser la variabilité des ob- de même dimension par image, avec po-
jets dans cette classe. Idéalement, cette varia- tentiellement des relations ou contraintes
bilité est estimée par apprentissage statistique entre vecteurs. C'est le cas avec l'approche
à partir d'un ensemble de vues représentatives par descripteurs locaux. L'espace engendré
des objets de la classe. Pour la reconnaissance est de moindre dimension mais contient un
de visages, les approches EigenFaces et Fisher- grand nombre de vecteurs. Par exemple,
Faces, étudiées et comparées par exemple dans une base de 100000 images décrites par 300
[Belhumeur et al., 1997], illustrent bien ce type points d'intérêt caractérisés par 17 inva-
d'approche. riants conduit à un espace de 17 dimen-
sions contenant 30000000 points reliés par
2.4 Composition de requêtes des contraintes géométriques.
Rechercher dans une base de photos aériennes Une telle typologie fait apparaître des caté-
une image représentant "une caserne à côté d'un gories d'espaces de description spéciques aux
aéroport dans le désert" implique l'utilisation bases d'images, qui dièrent fondamentalement
conjointe de plusieurs des descripteurs que nous en termes de dimension des données et de taille
avons passés en revue. Dans ce cas, la requête est de la population des données. Pour être ecaces,
composée de plusieurs parties d'image. Mais sur- nous verrons que les techniques d'indexation mul-
tout, elle met en jeu des relations ou contraintes tidimensionnelle ne doivent négliger aucun de ces
spatiales ("à côté de", "dans") entre les diérents deux paramètres. Des exemples de signatures de
éléments qui la composent. Ces relations sont sou- diérente nature sont donnés dans le tableau 1.1.
vent modélisées par des graphes d'adjacence entre
régions. Le lecteur peut par exemple consulter 3.2 La malédiction de la dimension
[Rigaux et al., 2001] pour plus de détails sur les Des phénomènes mathématiques particulière-
bases de données spatiales. ment non intuitifs peuvent être observés quand
la dimension de l'espace des données augmente.
3 Structure des espaces de description Ces eets portent le nom de malédiction de la
Les diérents descripteurs d'images que nous dimension, qui est une traduction de l'anglais
avons passés en revue dans la section précédente curse of dimensionality. Ils sont notamment pas-
font apparaître plusieurs catégories d'espaces de sés en revue dans les études [Weber et al., 1998,
description pour lesquels nous proposons une ty- Böhm et al., 2001] menées pour l'indexation mul-
pologie à la section 3.1. Dans la section 3.2, nous tidimensionnelle, mais seulement dans le cadre
introduisons quelques-uns des phénomènes bien d'une distribution uniforme des données. De nom-
connus qui se produisent lorsque la dimension de breuses techniques d'indexation sont basées sur le
l'espace de description est grande. Une alterna- partitionnement de l'espace en volumes englobant
tive pour minimiser ces eets est de réduire cette les données. Or on peut observer que les volumes
dimension. Les approches de réduction de la di- et les surfaces augmentent de manière exponen-
mension sont décrites à la section 3.3. tielle avec la dimension de l'espace, ce qui conduit
à une forte augmentation du temps de réponse des
3.1 Une typologie des espaces de description algorithmes de recherche. Au-delà d'une certaine
La distribution des signatures dans l'espace dimension, un parcours séquentiel de l'espace de-
de description des images dépend naturellement vient même plus performant qu'un parcours d'in-
des descripteurs employés et des images de la dex.
base. Néanmoins à l'heure actuelle, une signature Une autre observation révèle que le nombre

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 6  #6
i i
6 Recherche par contenu visueldans les grandes collections d'images

Descripteur Classe Taille/image Dimension


Histogramme couleur global 1 > 200
Filtres de Gabor global 1 ∼48
Régions d'intérêt local 2-20 ∼20
Points d'intérêt local 100-500 8-30

Tab. 1.1  Caractéristiques des espaces de description associés à diérents descripteurs d'images.
Les taille et dimension données sont des ordres de grandeur représentatifs des descripteurs existants.

de cellules obtenues par partitionnement de l'es- grande dimension, ce qui les obligent à repenser les
pace croît exponentiellement avec la dimension. modes de représentation, d'accès et de traitement
Elle porte généralement le nom de phénomène de des données issus des années 90. Dans ce contexte,
l'espace vide qui indique que plus la dimension est une proposition intéressante a été faite plus ré-
grande, plus le nombre de cellules vides est impor- cemment dans [Verleysen, 2003] : elle consiste à
tant pour un nombre de vecteurs xe. mettre en rapport la dimension avec la taille de la
Un autre phénomène, dit de concentration des population de l'espace. Faisant référence au phé-
mesures, est lié aux distances entre vecteurs : en nomène de l'espace vide sus-cité, l'auteur pose
grande dimension, les distances deviennent statis- qu'un espace est de grande dimension (ou de petite
tiquement identiques. Dans ces conditions, le bruit taille) quand la taille de sa population n'augmente
provenant de l'acquisition des données perturbe pas exponentiellement avec sa dimension. Bien
trop les métriques habituelles. que dicilement évaluable, cette analyse illustre
D'autres eets encore sont observables bien l'idée que taille et dimension des données
[Weber et al., 1998, Böhm et al., 2001]. Tous sont intimement liées en indexation multidimen-
mettent clairement en lumière que les structures sionnelle. Appliquée aux bases d'images, une telle
d'index multidimensionnels, très souvent pensées proposition étiquette la première catégorie d'es-
pour des petites dimensions, peuvent devenir in- pace introduite à la section 3.1 comme étant de
ecaces en grande dimension. Ceci nous amène grande dimension.
naturellement à poser la question suivante : quelle Face à la problématique de la malédiction de
est la limite entre les espaces de faible et de grande la dimension, le domaine de l'analyse des données
dimension ? La littérature actuelle ne fournit mal- peut fournir des alternatives : celles-ci consistent
heureusement pas de réponse unique et dénitive. à réduire la dimension de l'espace en réorgani-
Au premier abord, certains considèrent qu'un es- sant l'information portée par les données. Nous
pace est de grande dimension lorsqu'il dépasse les en abordons les grands principes dans la section
trois dimensions du monde réel, devenant ainsi suivante.
non visualisable.
Dans le cadre de l'indexation multidimension- 3.3 Réduction de la dimension
nelle, une solution consiste à dire qu'un espace est Par manque de connaissance sur la distribu-
de grande dimension dès lors qu'un parcours sé- tion des données collectées, il peut arriver que
quentiel est plus performant qu'un parcours d'in- des relations existent entre composantes de vec-
dex. L'analyse quantitative faite par Weber et al. teurs, ou même que certaines composantes véhi-
[Weber et al., 1998] sur des données suivant une culent une information non réellement pertinente.
distribution uniforme, montre ainsi qu'à partir L'espace engendré exprime alors plusieurs fois le
d'une dimension moyenne de 10, un parcours ex- même type d'information ou est caractérisé par
haustif est plus rapide qu'un parcours d'index tels des dimensions superues. Cette information in-
que le X-tree ou le R*-tree. utile peut être éliminée ou au moins réduite en dé-
L'année d'après, en apportant une preuve ma- terminant la dimension intrinsèque des données :
thématique au phénomène de concentration des c'est la dimension du plus petit sous-espace qui
mesures, Beyer et al. [Beyer et al., 1999] ont va- permet de représenter les données tout en conser-
lidé expérimentalement que, sous certaines hypo- vant la même quantité d'information.
thèses d'indépendance sur la distribution des don- Les méthodes qui permettent de transformer
nées, la recherche des plus proches voisins devient les données dans l'espace correspondant à leur di-
réellement instable lorsque la dimension dépasse mension intrinsèque portent le nom de méthodes
20. de réduction de la dimension. Lorsqu'elles sont
Il n'y a cependant pas d'école unique : les linéaires, ces méthodes consistent à estimer une
chercheurs en apprentissage statistique sont au- transformation linéaire entre l'espace original et
jourd'hui eux aussi confrontés à des données de un nouvel espace dans lequel chaque axe repré-

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 7  #7
i i
Indexation multidimensionnelle 7

sente la quantité d'information portée par la com- pour clôturer ce panorama, nous présentons à la
posante associée. L'approche linéaire la plus ré- section 4.3 le nouveau concept de recherche qu'est
pandue est certainement l'analyse en composantes la recherche approximative.
principales (ACP), pour laquelle il existe plusieurs
variantes [Gerbrands, 1981]. Le principe général 4.1 Taxonomie des types de requêtes
de l'ACP réside dans l'estimation d'un nouvel es- Qu'il s'agisse de descripteurs globaux, locaux
pace dont les axes sont orthogonaux et assurent our spéciques, la recherche d'images par simila-
une dispersion maximale de chaque composante. rité visuelle à partir d'un exemple passe par la re-
La réduction de la dimension s'eectue en élimi- cherche des vecteurs voisins d'un vecteur requête
nant les axes porteurs de peu d'information, au- q . Cette opération peut se décliner en trois stra-
trement dit ceux pour lesquels la variance des don- tégies :
nées est faible.
1. Recherche par intervalle : chercher les vec-
Des approches non linéaires ont également
teurs r dont les composantes ri sont telles
été proposées. Elles permettent de tenir compte
que : |qi − ri | < si , où les {si } représentent
de dépendances non linéaires entre composantes
les seuils associés à chaque dimension. En
et sont en général moins sensibles au bruit
d'autres termes, il s'agit de déterminer les
des données que les approches linéaires. En re-
vecteurs présents dans un hyper-rectangle
vanche, leur inconvénient majeur est que la di-
centré en q .
mension de l'espace réduit doit être xée a
priori. La plupart d'entre elles sont itératives 2. Recherche des k plus proches voisins : cher-
et consistent à minimiser une fonction de coût cher les k vecteurs les plus proches de q , au
relative aux distances entre vecteurs. Les plus sens de la mesure de similarité associée aux
connues relèvent principalement de la statistique, vecteurs.
citons l'analyse en composantes curvilinéaires 3. Recherche à ² près : chercher les vecteurs se
[Demartines and Hérault, 1997] et le cadrage mul- trouvant à une distance inférieure à un seuil
tidimensionnel [Cox and Cox, 2001]. En parallèle, ², au sens de la même mesure de similarité.
l'approche FastMap [Faloutsos and Lin, 1995] a Si par exemple cette mesure est la distance
été spéciquement développée à des ns d'indexa- euclidienne, cela revient à déterminer l'en-
tion de grands volumes de données multidimen- semble des vecteurs présents dans l'hyper-
sionnelles. Elle est purement heuristique, mais sphère (q ,²).
contrairement aux autres approches, elle possède
Très classique en bases de données spatio-
les avantages d'avoir une complexité linéaire et de
temporelles où la dimension des données est faible
permettre les insertions.
(≤ 4), la recherche par intervalle n'a que peu d'ap-
A l'heure actuelle, il n'existe malheureusement plications en recherche d'images par contenu vi-
pas de solution idéale pour réduire ecacement les suel. En eet, si la signature d'une image est re-
espaces de données de grande dimension. En eet, présentée par un ou plusieurs vecteurs, rechercher
il est rare que dans la pratique les données aient des images similaires revient plutôt à déterminer
des composantes en dépendance linéaire et soient les vecteurs les plus proches au sens de la mesure
exemptes de bruit, limitant ainsi les approches li- de similarité qui leur est associée.
néaires. Quant aux approches non linéaires, elles Les stratégies (2) et (3) sont donc mieux adap-
semblent dicilement exploitables puisqu'elles né- tées à la recherche d'images. Elles dièrent fon-
cessitent généralement la connaissance de la di- damentalement de part la nature de leurs para-
mension intrinsèque des données. mètres : k est fonction du contenu de la base puis-
qu'il doit correspondre au nombre de vecteurs si-
4 Indexation multidimensionnelle milaires au vecteur requête, alors que le paramètre
Les requêtes associées aux bases de données ² est généralement lié à la méthode de description
image sont diérentes de celles associées aux bases de l'image et plus précisément à la variabilité de
de données traditionnelles, où la recherche dite la signature d'image pour un ensemble d'images
exacte est la plus courante ("Je recherche les em- similaires. En conséquence, ces stratégies ont cer-
ployés âgés de 25 ans"). Comme cela a déjà été dit tains avantages et inconvénients : k est en général
dans la section 1, c'est principalement la recherche facile à xer et la recherche des k plus proches voi-
d'images par similarité à partir d'un exemple qui sins garantit k vecteurs résultats. En revanche, les
fait référence en indexation d'images. Elle peut réponses peuvent impliquer des vecteurs trop éloi-
revêtir plusieurs formes, que nous explicitons à la gnés correspondant à des images non similaires.
section 4.1. La section 4.2 dresse ensuite un pano- Ce problème est contourné avec la recherche à ²
rama des principales structures d'index multidi- près, mais celle-ci nécessite une bonne connais-
mensionnels existantes et est illustrée en donnant sance de la distribution des vecteurs pour déter-
le principe général de la structure M-Tree. Enn, miner ². Une telle connaissance est souvent di-

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 8  #8
i i
8 Recherche par contenu visueldans les grandes collections d'images

cile à modéliser. Une solution consiste à estimer ² Selon la structure d'index considérée, il existe
par apprentissage de la variabilité de la descrip- de nombreuses stratégies pour regrouper les don-
tion sur un jeu de données, ce que l'application ne nées en paquets. Ces derniers sont la plupart du
rend pas toujours possible. temps répartis dans des volumes de forme géo-
La plupart des structures d'index qui vont être métrique élémentaire, comme des hypercubes, des
présentées ci-après prend en compte ces deux stra- hypersphères ou parfois leur intersection. S'assu-
tégies de recherche. rer alors de la proximité du vecteur requête de
telles formes n'est pas cher en temps de calcul. Les
4.2 Structures d'index multidimensionnels algorithmes associés dièrent bien sûr si la requête
Une grande partie des structures multidimen- est de type recherche des k plus proches voisins ou
sionnelles a été développée pour l'indexation des bien recherche à ² près [Böhm et al., 2001].
bases de données en général ou des bases de don- Les structures d'index multidimensionnels tra-
nées spatiales. Elles s'attachent à traiter l'accès à ditionnelles en bases de données se répartissent en
la mémoire secondaire. D'autres sont plus récentes deux catégories qui dièrent de la façon dont les
et arontent notamment les problèmes inhérents paquets de données sont construits : les techniques
aux espaces de grande dimension. Nous ne ren- basées sur le partitionnement des données et celles
trons pas dans les spécicités de ces approches basées sur le partitionnement de l'espace. Pour la
qui sont trop nombreuses pour être détaillées ici. plupart, ces structures favorisent une gestion e-
cace des données en mémoire secondaire et visent
donc à réduire les entrées/sorties. Nous passons
Principe général en revue ces deux catégories ci-dessous, avant de
L'idée maîtresse des méthodes de structura- présenter d'autres types d'approches.
tion des espaces de données réside dans le regrou-
pement des données en paquets. Chaque paquet Partitionnement des données
regroupe un ensemble de données proches dans
une zone de l'espace. Les paquets proches peuvent Ces techniques consistent à regrouper les don-
être assemblés pour constituer un plus gros pa- nées en paquets en tenant compte de leur distri-
quet, et ainsi de suite, donnant naissance à une bution dans l'espace. La technique la plus connue
structure hiérarchique arborescente dans laquelle est le R-tree pour Rectangle tree [Guttman, 1984]
chaque n÷ud est associé à un paquet de don- . Toutes les autres techniques de cette catégorie en
nées. Le principe de la recherche des plus proches sont des variantes. À l'origine, le R-tree a été déve-
voisins d'un vecteur requête consiste alors à me- loppé pour les bases de données spatiales. Dérivée
surer la distance entre ce vecteur et un paquet de la classique structure arbre B, c'est une struc-
de la hiérarchie. Si ce dernier est jugé susam- ture arborescente qui regroupe les données en rec-
ment proche, il faut continuer la recherche dans tangles. Chaque rectangle est le rectangle minimal
les paquets de niveau inférieur, sinon cette par- englobant les données ; il est associé à un n÷ud de
tie de l'espace peut être d'emblée éliminée de la l'arbre et à une page disque qui en détermine la
recherche. Une telle structuration permet de mi- taille. Les feuilles de l'arbre contiennent les don-
nimiser le nombre de vecteurs de l'espace à consi- nées alors que les n÷uds intermédiaires stockent
dérer pendant la recherche. Par conséquent, le la hiérarchie de rectangles englobants. Le lecteur
temps CPU global, correspondant au calcul des peut se reporter au chapitre ¿¿Bases de données
mesures de similarité, s'en trouve notablement spatio-temporelles¿¿ pour un exemple de R-tree.
réduit. Si la structure et les données sont inté- Les R+ -tree, R∗ -tree et X-tree sont des adap-
gralement contenues en mémoire principale, alors tations de cette technique aux espaces multidi-
le nombre d'entrées/sorties reste inchangé. Dans mensionnels [Böhm et al., 2001]. Elles s'attachent
le cas contraire, les entrées/sorties correspondant en particulier à éliminer ou à réduire le recouvre-
à la lecture des données sur le disque (ou mé- ment entre les hyper-rectangles, de façon à mi-
moire secondaire) peuvent être avantageusement nimiser les branches d'arbre à parcourir. Le R-
réduites si le contenu d'un n÷ud à visiter est re- tree et ses variantes ont été évalués pour l'indexa-
groupé sur un minimum de pages du disque. Cette tion d'espaces multidimensionnels. Malgré toutes
organisation physique favorise une gestion ecace les précautions prises, elles ont montré une dégra-
des données sur disque. Elle est à l'origine des dation des performances dans les grandes dimen-
structures d'index en bases de données, la toute sions. En eet, le volume du recouvrement entre
première étant le B-tree3 . hyper-rectangles augmente avec la dimension, ce

3 Le B-tree, pour Balanced tree [Bayer and McCreight, 1972], permet de structurer les données selon l'une des
dimensions. Consulter par exemple le chapitre ¿¿Architecture des SGBD¿¿ pour davantage de détails sur cette
structure ainsi qu'un exemple.

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 9  #9
i i
Indexation multidimensionnelle 9

qui a pour conséquence de faire tendre la recherche contenu de chaque partition obtenue est stocké
vers un parcours complet de l'arbre. sur une page disque et les adresses de ces parti-
Les techniques SS-tree (Similarity Search tions sont représentées en mémoire par une table
tree) et SR-tree (Sphere Rectangle tree) de hachage dynamique.
[Böhm et al., 2001] sont assez proches de la fa-
mille R-tree. Ces techniques s'appuient sur cer- Indexation dans les espaces métriques
taines des propriétés des hypersphères pour mi-
nimiser les phénomènes liés à la malédiction de Certaines données peuvent ne pas être tra-
la dimension. Le SS-tree a de meilleures perfor- duites sous forme de vecteurs ou être géométri-
mances que le R∗ -tree mais n'atteint pas celles quement diciles à interpréter. Cependant, si on
du X-tree. Le SR-tree peut être vu comme la peut leur associer une mesure de similarité expri-
combinaison du R∗ -tree et du SS-tree, les n÷uds mable sous forme de distance, alors il est possible
étant dénis comme l'intersection de rectangles d'appliquer des structures d'index dédiées aux es-
et de sphères. Des évaluations ont montré que paces métriques. Plusieurs structures de ce type
le SR-tree est plus performant que le SS-tree et existent dans la littérature : elles dénissent pour
le R∗ -tree, mais nous n'avons répertorié aucune la plupart des points de l'espace spéciques ap-
comparaison avec le X-tree. pelés pivots à partir desquels la propriété d'in-
D'autres techniques de partitionnement des égalité triangulaire entre distances est judicieuse-
données existent, nous invitons le lecteur intéressé ment exploitée, de façon à réduire le temps CPU
à consulter par exemple [Böhm et al., 2001] pour lié au nombre de distances à calculer au moment
un état de l'art avancé. de la recherche. Leur pertinence dépend bien sûr
du rapport entre le coût d'un calcul de distance
et d'une comparaison de distances. La toute pre-
Partitionnement de l'espace mière structure appliquant ce principe est le VP-
tree (Vantage Points tree), mais on lui préférera
Les approches par partitionnement de l'espace une extension plus récente : le M-tree pour Metric-
consistent à découper a priori l'espace en régions, tree [Ciaccia et al., 1997], qui s'attache à minimi-
sans tenir compte de la distribution des données. ser le nombre de calculs de distances, tout en
Les structures d'index qui en découlent sont en gé- ayant une structure similaire à celle du R-tree,
néral simples à mettre en place et à gérer. Les ré- lui permettant de gérer les accès au disque à la fa-
gions ainsi générées ont l'avantage de ne présenter çon des méthodes traditionnelles. Dans un M-tree,
aucun recouvrement. L'inconvénient est que l'es- les données sont stockées au niveau des feuilles.
pace entier est représenté dans ce type de struc- Chaque n÷ud interne contient un ou plusieurs ob-
tures, certaines parties vides seront donc inutile- jets dits routeurs. Chaque objet routeur Op a tous
ment visitées pendant la recherche. ses descendants Or tels que d(Op , Or ) < r(Op ),
Ces techniques sont dérivées du k-d-tree d étant la distance associée aux objets. Le pa-
[Bentley, 1979] , qui est un arbre binaire multi- ramètre r(Op ) représente le rayon de couverture
dimensionnel consistant pour chaque niveau de de Op , la forme de la région de l'espace eective-
l'arbre à partitionner l'espace en deux sous- ment couverte dépendant de la distance d utilisée.
espaces successivement selon chaque dimension. La recherche par le biais d'une telle structure est
Le LSD-tree [Böhm et al., 2001] pour Local fondée sur deux lemmes exploitant l'inégalité tri-
Split Decision tree est une structure d'index angulaire. Ils sont présentés à la gure 1.2 pour la
simple similaire au k-d-tree mais organisée en recherche à ² près. Les auteurs du M-tree ont mon-
deux niveaux : le premier niveau est entière- tré que l'utilisation de ces lemmes permet d'éco-
ment stocké en mémoire principale et caracté- nomiser jusqu'à 40% de calcul de distances.
rise le partitionnement réalisé (à la façon du k-
d-tree). Le deuxième niveau représente les feuilles
qui contiennent les pages de données. Lorsque la
Filtrage des données
base de données est trop volumineuse, les n÷uds Les approches procédant par ltrage des don-
sont répartis sur deux niveaux, dont l'un est stocké nées consistent à accélérer le parcours séquentiel
sur le disque. Le LSDh -tree [Böhm et al., 2001] est de l'espace en utilisant une version quantiée des
une amélioration du LSD-tree pour les données de vecteurs pendant la recherche des plus proches
très grande dimension, qui s'attache à minimiser voisins. Ces approches peuvent être qualiées de
le nombre de sous-espaces vides, très nombreux en pessimistes : quitte à parcourir tout l'espace, au-
grande dimension. tant le faire le plus vite possible. La technique la
Citons également les algorithmes de plus connue est celle du VA-File, pour Vector Ap-
type grille ou grid-le introduits dans proximation File [Weber et al., 1998]. Ici l'espace
[Nievergelt et al., 1984] qui se basent sur le même est régulièrement subdivisé en cellules et chaque
algorithme de partitionnement que le k-d-tree. Le vecteur est approché par la cellule qui l'englobe.

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 10  #10
i i
10 Recherche par contenu visueldans les grandes collections d'images

Oj
r(Or)
Or
Lemme 1 :
d(Op,Or)
Si d(Q, Or ) > r(Q) + r(Or ) alors on a : d(Q, Oj ) > r(Q).
d(Q,Or)
Op Lemme 2 :
d(Q,Op) Si |d(Q, Op ) − d(Or , Op )| > r(Q) + r(Or ) alors on a :
d(Q, Or ) > r(Q) + r(Or ).
Q
r(Q)

Fig. 1.2  Illustration de la stratégie de recherche à ² près dans un M-tree, par l'utilisation de l'in-
égalité triangulaire pour éviter certains calculs de distances. Q est l'objet requête (ici ² = r(Q)),
Or un objet routeur de parent Op et Oj un descendant de Or . Le calcul de la distance d(Q, Oj )
peut être évité si le lemme 1 est vérié. Celui-ci suppose la donnée de la distance d(Q, Or ) dont
le calcul peut également être évité si le lemme 2 est vérié. La distance d(Or , Op ) entre un objet
routeur et son parent a été calculée au moment de la construction de l'arbre.

Seules ces approximations sont chargées en mé- mension puisqu'elles consistent à déterminer une
moire principale et elles sont toutes passées en re- transformation bijective entre l'espace multidi-
vue durant la recherche. La quantication utilisée mensionnel et un espace à une dimension, ou en
permet de mettre en place une distance peu coû- d'autres termes à faire passer une courbe par tous
teuse entre le vecteur requête et les vecteurs quan- les points de l'espace (d'où leur nom). La pro-
tiés sous forme de cellules. Lors de la recherche, le jection opérée ne préserve pas réellement les dis-
parcours des vecteurs non candidats est ainsi plus tances entre les données mais celles qui étaient
rapide qu'un parcours séquentiel classique des vec- proches dans l'espace original restent proches dans
teurs réels. Lorsqu'il y a ambiguïté, c'est-à-dire l'espace projeté. Ensuite, une structure d'index
lorsque les approximations ne permettent pas de simple (un B-tree par exemple), peut être utilisée
décider, on charge depuis le disque les données pour parcourir ecacement l'espace à une dimen-
réelles an de réaliser la comparaison. Cette tech- sion. Plusieurs manières de positionner la courbe
nique de ltrage des données permet de réduire dans l'espace original existent, citons la technique
considérablement les entrées/sorties ainsi que le de l'ordre Z, les courbes de Hilbert ou les Gray
temps CPU relatif au calcul des distances qui ne codes. Pour un panorama de ces techniques, le lec-
sont plus réalisées que sur une très faible partie teur peut consulter [Sagan, 1994].
de l'espace. Un autre concept, celui du Pyramid-tree
Les auteurs de cette technique montrent qu'au [Berchtold et al., 1998] n'est pas très éloigné de
delà de six dimensions pour une distribution uni- celui qui vient d'être présenté. L'espace multi-
forme des données, le VA-File atteint des per- dimensionnel est partitionné selon un ensemble
formances supérieures à la plupart des structures de pyramides ayant comme sommet commun le
d'index hiérarchiques telles que R∗ -tree et X-tree. centre de l'hyper-rectangle englobant les données
Ceci est vrai à condition que le chier des approxi- et comme bases les côtés de cet hyper-rectangle.
mations tienne en mémoire principale. Dans le cas Cette construction est une sorte de repère dans
contraire, ses performances deviennent inférieures lequel il est assez facile de représenter chaque don-
à un parcours séquentiel. née par une seule coordonnée qui est une combi-
Plusieurs optimisations du VA-File ont été naison astucieuse du numéro de la pyramide qui
proposées depuis : le VA+ -File, le IQ-tree et le la contient et de sa position dans cette pyramide.
LPC-File [Böhm et al., 2001]. Cette technique peut donc être vue comme une
projection de l'espace multidimensionnel dans un
espace à une dimension.
Linéarisation de l'espace
Les courbes de remplissage, plus communé- 4.3 Compromis entre ecacité et précision :
ment appelées Space Filling Curves sont des ap- la recherche approximative
proches non hiérarchiques. Elles peuvent être ap- Les techniques de recherche dite approxima-
parentées aux techniques de réduction de la di- tive sont récentes, puisque les premiers travaux

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 11  #11
i i
Deux cas concrets d'utilisation 11

datent de 1999. Elles représentent une alternative criminante identiant son propriétaire. Si les tech-
intéressante lorsque la recherche dans des espaces niques de tatouage permettent d'exhiber l'antério-
de données de grande dimension est confrontée à rité du dépôt de l'image tout en caractérisant de
la malédiction de la dimension. Leur principe est manière irréfutable son propriétaire, elles restent
judicieux : il s'agit d'échanger une certaine impré- à l'heure actuelle fortement sensibles aux traite-
cision dans les réponses contre une forte réduction ments que la copie a pu subir (recadrage, échan-
du temps de recherche. Ces approches sont déve- tillonnage, ajustement colorimétrique, incrusta-
loppées pour la recherche des k plus proches voi- tion de logos, etc). Les techniques de détection de
sins, qui revient alors à chercher k vecteurs parmi copie s'apparentent quant à elles à celles de l'in-
les voisins plus ou moins proches du vecteur re- dexation et de la recherche d'images par contenu
quête. Selon le cas, le degré d'imprécision dépend visuel. Elles possèdent les avantages d'être plus ro-
de la proportion de réponses exactes retournées bustes aux transformations de l'image et de pou-
ou bien de la distance entre le vecteur requête et voir s'appliquer à des documents diusés qui n'ont
les voisins retournés. Les solutions les plus évo- pas été déposés. En revanche, elles ne peuvent pas
luées permettent à l'utilisateur de connaître mais fournir de preuve légale de copie, ce qui implique
surtout de xer le niveau d'imprécision du résul- que dans le cas particulier de la recherche de co-
tat, ce qui les rend exploitables. Parmi ces ap- pies illicites, les images semblables retrouvées res-
proches, certaines sont l'adaptation à la recherche tent soumises à une expertise humaine.
approximative de structures d'index jusqu'alors De telles techniques de détection de copies
dédiées à la recherche classique, comme le VA- sont depuis peu utilisées par l'Institut national de
File et le M-tree. Des approches développées spé- l'audiovisuel. L'INA, qui a pour mission la conser-
ciquement pour la recherche approximative ont vation et l'exploitation du patrimoine audiovisuel
aussi vu le jour ; elles sont pour la plupart basées français, est actuellement détenteur d'un fonds té-
sur le regroupement des données en classes. Pour lévisé particulièrement conséquent dont 200 000
plus de détails, le lecteur est invité à se repor- heures sont déjà numérisées. À partir de descrip-
ter par exemple à [Berrani et al., 2003] qui explore teurs locaux d'images tels que ceux décrits à la
la recherche approximative avec contrôle probabi- section 2.2 couplés avec une structure d'index adé-
liste de la précision. quate, l'INA a ainsi développé un dispositif per-
mettant de détecter et de comptabiliser automa-
5 Deux cas concrets d'utilisation tiquement les éventuelles retransmissions de ce
Nous présentons maintenant deux utilisations fonds sur les grandes chaînes de télévision fran-
réelles d'un SRI et qui sont d'utilité publique. çaise, avec comme principal objectif d'en contrôler
Elles sont issues de domaines très diérents pour les droits de diusion.
lesquels la recherche par contenu visuel dans les
grandes collections d'images constitue une avan- 5.2 Lutte contre le crime
cée notable.
La Division nationale pour la répression des
atteintes aux personnes et aux biens (DNRAPB)
5.1 Traçabilité de corpus multimédia de la Direction centrale de la police judiciaire
L'essor des nouveaux médias numériques (DCPJ) a mis en place un service de lutte contre
comme les chaînes de télévision satellitaires ou la pornographie enfantine. Ce service collecte de
bien Internet contribue largement à la dissémina- nombreuses images par le biais d'Internet et de
tion de contenu multimédia. Ceci n'est pas sans perquisitions eectuées chez des particuliers sus-
susciter de nouveaux dangers pour la propriété pectés de pédophilie. A l'heure actuelle, le nombre
intellectuelle et les droits de diusion de ces don- d'images accumulées (environ 300000 clichés en
nées4 . Plus généralement, faire de la veille de do- constante augmentation) ne leur permet plus de
cuments multimédia au sein des réseaux de diu- croiser manuellement les informations visuelles
sion standard (ex : statistiques de diusion d'une pertinentes. Les techniques de recherche automa-
publicité à la télévision, d'une photo de presse sur tique par contenu ont été mises à prot et sont
l'Internet) n'est plus trivial. Dans ce contexte, la utilisées depuis 2000 comme outils d'aide à l'in-
problématique de la traçabilité de corpus d'images vestigation : au fur et à mesure de leur saisie, les
peut être vue comme la détection de copies par clichés sont indexés et classés en fonction de di-
analyse du contenu visuel des images. Il se dis- vers critères visuels tel que le vêtement de l'enfant
tingue du tatouage d'images qui consiste à intro- impliqué ou le détail d'un décor. Cette structu-
duire dans le signal une information cachée et dis- ration permet de regrouper automatiquement les

4 L'adoption en 2004 du projet de loi pour la conance dans l'économie numérique montre l'intérêt que porte le
législateur aux dangers engendrés par la dissémination des contenus numériques.

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 12  #12
i i
12 Recherche par contenu visueldans les grandes collections d'images

images relatives à une scène donnée et ainsi de fa- les techniques d'indexation et de recherche ac-
ciliter l'identication de l'auteur de ces clichés ou tuelles restent applicables. Dans les autres cas, la
de l'adulte impliqué. seule solution passera certainement par la concep-
Les bases de données ainsi constituées sont dé- tion de systèmes de recherche exploitant des bases
sormais mises en commun entre la police et la gen- de données réparties sur plusieurs machines. C'est
darmerie française. Plus encore, la politique me- déjà ce que fait le moteur de recherche Google
née actuellement par la Commission européenne pour la recherche par le texte, avec plus de 100000
vise une coopération européenne et même inter- processeurs et 250000 disques (données 2004).
nationale des polices. Un tel déploiement rend les
techniques d'indexation par contenu visuel pré- Si l'on se place ensuite du point de vue de
pondérantes pour la lutte contre le crime. l'analyse d'images, le principal dé à résoudre
est le problème du fossé sémantique. Résumer le
6 Conclusions et perspectives contenu visuel d'une image par l'analyse automa-
Dans ce chapitre, nous avons présenté la pro- tique de ses pixels ne peut pas se mesurer à ce que
blématique de la recherche par contenu visuel l'humain voit, ou plutôt perçoit lorsqu'il regarde
dans les grands volumes d'images. Abordée du cette image. Pour s'en rapprocher, l'analyse des
point de vue des bases de données, le princi- images doit être combinée avec d'autres modes, le
pal obstacle scientique à surmonter reste le pas- texte étant sémantiquement le plus riche. Au mo-
sage à l'échelle des techniques d'optimisation phy- ment de l'indexation de la base d'images, l'analyse
sique. Plusieurs solutions ont été proposées dans du contenu visuel peut permettre de propager au-
ce sens récemment. Néanmoins, le volume d'in- tomatiquement des mots-clés d'images annotées
formation grandissant de manière spectaculaire, il vers des images visuellement similaires mais non
conviendra certainement assez rapidement d'envi- annotées. Au moment de la recherche, l'interro-
sager d'autre solutions. Dans un certain nombre gation pluri-modale doit pouvoir permettre de ré-
de cas, la variabilité des images contenues dans des duire les ambiguïtés ou lacunes du texte par l'ap-
bases volumineuses doit permettre de répartir ces parence visuelle, comme de combler l'insusance
images en sous-bases ou catégories pour lesquelles sémantique des descripteurs image.

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 13  #13
i i

Index
B-tree, 8 Pyramid-tree, 10
bases
d'images R-tree, 8
indexation, 112 réduction de la dimension, 67
génériques, 2 Analyse en Composantes Principales, 6
spéciques, 3 FastMap, 7
recherche
descripteur d'image, 27 d'images, 1
descripteur global, 3 globale (approximative), 3
descripteur local, 4 locale (précise), 3
descripteur spécique, 5 par contenu visuel, 1
espaces de description, 5 par l'exemple, 2
signature, 2 types de requêtes, 7
dimension recherche à ² près, 7
malédiction de la, 67 recherche approximative, 10
réduction de la, 56 recherche des k plus proches voisins, 7
recherche par intervalle, 7
grid-le, 9
segmentation en régions, 4
image signature d'image, 27
indexation, 112 Space Filling Curves, 10
recherche par contenu visuel, 112 SR-tree, 9
index SRI, voir système de recherche d'images
multidimensionnels, 711 SS-tree, 9
principe général, 8 structuration, 2
partitionnement des données, 8 structures d'index, 811
partitionnement de l'espace, 9 système de recherche d'images, 2
espaces métriques, 9
ltrage des données, 9 VA-File, 9
linéarisation de l'espace, 10 voisin
indexation recherche des plus proches, 7
d'images, 112
multidimensionnelle, 711 X-tree, 8

k-d-tree, 9

LSD-tree, 9

M-tree, 9
malédiction de la dimension, 56
phénomène de concentration des mesures,
6
phénomène de l'espace vide, 5

points d'intérêt, 4
13

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 14  #14
i i
14 INDEX

i i

i i
i i
chapitre_gouet  2005/9/28  11:44  page 15  #15
i i

Bibliographie
[Bayer and McCreight, 1972] Bayer, R. and McCreight, E. (1972). Organization and maintenance of large ordered
indices. Acta Informatica, 1(3) :173189.
[Belhumeur et al., 1997] Belhumeur, P., Hespanha, J., and Kriegman, D. (1997). Eigenfaces vs. sherfaces : Recog-
nition using class specic linear projection. IEEE Transactions on Pattern Analysis and Machine Intelligence,
19(7) :711720.
[Bentley, 1979] Bentley, J. (1979). Multidimensional binary search in database applications. IEEE Transactions on
Software Engineering, 4(5) :333340.
[Berchtold et al., 1998] Berchtold, S., Bohm, C., and Kriegel, H. (1998). The pyramid-technique : towards indexing
beyond the curse of dimensionality. In ACM SIGMOD Int. Conf. on Management of Data, pages 142153,
Seattle, WA.
[Berrani et al., 2003] Berrani, S.-A., Amsaleg, L., and Gros, P. (2003). Approximate searches : k-neighbors +
precision. In Conference on Information and Knowledge Management, pages 2431.
[Beyer et al., 1999] Beyer, K., Goldstein, J., Ramakrishnan, R., and Shaft, U. (1999). When is "nearest neighbor"
meaningful ? In 7th International Conference on Database Theory, pages 217235, Jerusalem, Israel.
[Böhm et al., 2001] Böhm, C., Berchtold, S., and Keim, D. (2001). Searching in high-dimensional spaces - index
structures for improving the performance of multimedia databases. ACM Computing Survey, 33(3) :322373.
[Boujemaa et al., 2004] Boujemaa, N., Fauqueur, J., and Gouet, V. (2004). What's beyond query by example ?
In L. Shapiro, H.P. Kriegel, R. V., editor, Trends and Advances in Content-Based Image and Video Retrieval.
LNCS, Springer Verlag.
[Ciaccia et al., 1997] Ciaccia, P., Patella, M., and Zezula, P. (1997). M-tree : An ecient access method for similarity
search in metric spaces. In 23th Int. Conf. on Very Large Databases, pages 426435, Greece.
[Cox and Cox, 2001] Cox, T. and Cox, M. (2001). Multidimensional Scaling, Second edition. Chapman & Hall,
London.
[Demartines and Hérault, 1997] Demartines, P. and Hérault, J. (1997). Curvilinear component analysis : A self-
organizing neural network for non linear mapping of data sets. IEEE Transactions on Neural Networks, 8(1) :148
154.
[Faloutsos and Lin, 1995] Faloutsos, C. and Lin, K. (1995). Fastmap : A fast algorithm for indexing, data-mining and
visualization of traditional and multimedia datasets. In ACM SIGMOD International Conference on Management
of Data, pages 163174, San Jose, CA, USA.
[Gerbrands, 1981] Gerbrands, J. (1981). On the relationship between SVD, KLT and PCA. Pattern Recognition,
14(1-6) :375381.
[Guttman, 1984] Guttman, A. (1984). R-trees : a dynamic index structure for spatial searching. In ACM SIGMOD
Int. Conf. on Management of Data, pages 4757, Boston, MA.
[Nievergelt et al., 1984] Nievergelt, J., Hinterberger, H., and Sevcik, K. C. (1984). The Grid File : An adaptable,
symmetric multikey le structure. ACM Transactions on Database Systems, 9(1) :3871.
[Rigaux et al., 2001] Rigaux, P., Scholl, M., and Voisard, A. (2001). Spatial Databases. Morgan Kaufmann.
[Sagan, 1994] Sagan, H. (1994). Space Filling Curves. Springer, Berlin/Heidelberg/New york.
[Swain and Ballard, 1991] Swain, M. and Ballard, D. (1991). Color indexing. International Journal of Computer
Vision, 7(1) :1132.
[Verleysen, 2003] Verleysen, M. (2003). Limitations and future trends in neural computation, chapter Learning
high-dimensional data, pages 141162. IOS Press.
[Weber et al., 1998] Weber, R., Schek, H., and Blott, S. (1998). A quantitative analysis and performance study for
similarity search methods in high-dimensional spaces. In 24th International Conference on Very Large Databases,
New york, NY, USA.

15

i i

i i

Vous aimerez peut-être aussi