Vous êtes sur la page 1sur 122

Rpublique Algrienne Dmocratique et Populaire

Ministre de lEnseignement Suprieur et de la Recherche Scientifique


Universit Mhamed BOUGARA de BOUMERDES

Facult des Sciences
Dpartement dInformatique

MEMOIRE DE MAGISTER

Spcialit : Systme informatique et gnie des logiciels

Option : Spcification de logiciel et traitement de linformation
Ecole Doctorale

Prsent par :

MAMMERI Karima

Thme
Recherche dinformation par croisement de mdia
texte et image

Devant le jury de soutenance compos de:









Anne Universitaire : 2008/2009
Mr MEZGHICHE Mohamed Professeur luniversit de Boumerdes. Prsident.
Mr BOUGHANEM Mohend Professeur luniversit Paul Sabatier de Toulouse. Rapporteur.
Mme AMIROUCHE Fatiha Matre de confrence luniversit de Tizi Ouzou. Examinateur.
Mme AMROUCHE Karima Matre de confrence lINI, Alger. Examinateur.

Ddicace



la mmoire
de mon trs cher pre
je ddie ce modeste travail


Remerciements


Je tiens exprimer mes vifs remerciements et ma trs grande reconnaissance mon
encadreur Monsieur Mohand BOUGHANEM Professeur luniversit Paul Sabatier de
Toulouse pour mavoir propos ce sujet, pour ses orientations et ses remarques qui m'ont t
prcieuses tout au long de ce travail.
Je remercie sincrement Monsieur le Professeur Mohamed MEZGHICHE, responsable de
lcole doctorale en informatique de Boumerdes pour sa disponibilit et pour les efforts qu'il
a bien voulu consacrer pour notre formation dinitiation la recherche, ainsi que pour
lhonneur quil me fait de prsider le jury de ce mmoire.
Je remercie galement les membres de jury pour avoir accepter de juger ce travail.
Je remercie affectueusement ma mre, mes surs et frres.
Enfin, je remercie beaucoup ma famille, mes amis et tous ceux qui mont encourag pour
que ce travail puisse tre achev.

.














Rsum
Notre travail se situe dans le contexte de la recherche dinformation (RI), plus
particulirement la recherche dinformation dans des documents de type texte et image.
Les systmes de recherche dimages deviennent de plus en plus ncessaires. Parmi les
techniques de recherche de ce type dinformations, il existe principalement deux grandes
approches : la recherche par mots cls et la recherche par le contenu visuel. Les mots cls
retenus par lindexation peuvent tre ambigus. Les descripteurs peuvent en fait se rapporter
des termes ayant plusieurs sens et donc ne pas indiquer clairement la thmatique aborde dans
le document. Dautre part, une des difficults majeures que se pose dans le domaine de la
recherche de documents multimdia (les images) par le contenu visuel est le foss smantique
existant entre une image et son sens. Afin de pallier les faiblesses des deux types de systmes
de recherche, les systmes permettant la combinaison du texte et de limage font lobjet de
plusieurs travaux rcents.
Dans ce travail nous nous somme intress a la catgorie des systmes permettant la
combinaison du texte et de limage dont lobjectif deffectuer une recherche dinformation
croise. Plus prcisment, l'information textuelle entourant les objets multimdia (les images)
et les caractristiques visuelles (couleur ou texture pour les images par exemple) peuvent tre
utilises pour rpondre des requtes textuelles ou des requtes visuelles (images exemples).
Nous avons propos une approche pour la recherche dinformation par croisement du mdia
texte et image. Cette approche sappuie sur les rseaux de neurones, elle est compose de
trois tapes principales: La premire tape concerne la reprsentation des documents. Dans la
deuxime tape nous avons construit le rseau connexionniste pour formaliser la
reprsentation de la collection de documents. La troisime tape prsente le processus de
recherche dinformation bas sur le mcanisme dactivation de la thorie connexionniste, la
recherche peut tre effectue par une requte textuelle ou par une requte visuelle.

Mots cls : Recherche dinformation, recherche dimages fixes, la combinaison texte image,
ontologie, rseaux de neurones.







Abstract
Our work is in the context of the information retrieval, more particularly the information
retrieval in documents of type text and image.
The systems of image retrieval become increasingly necessary. Among the techniques of
retrieval for this type of information, there are two main approaches: the keyword retrieval
and retrieval by the visual contents. The key words used by the indexing can be ambiguous.
The descriptors can actually relate to terms with several meanings and therefore does not
indicate clearly the theme addressed in the document. In addition, one of the major difficulties
that is posed in the field of the multi-media document retrieval (images) by the visual contents
is the existing semantic gap between an image and its sense. To overcome the weaknesses of
both types of systems retrieval, systems allowing the combining of text and image are the
subject of several recent works.
In this work we are particularly interested by the category of the systems which combine
textual and visual information. The aim is to carry out cross information retrieval. More
precisely, textual information surrounding the objects multi-media (images) and the visual
characteristics (color or texture for the images for example) can be used to answer textual
query or visual query (images examples). We propose a new approach for information
retrieval by crossing of the media text and image. This approach is neural network based. Its
made up of three principal stages: The first stage relates to the representation of the
documents. In the second stage we built the connexionniste network to formalize the
representation of the documents collections. The third stage presents the process of
information retrieval based by activation mechanism of the connexionniste theory.
Information retrieval can be carried out by a textual query or a visual query.
Keywords: Information retrieval, image retrieval, ontology, combining text image, neural
network.






.
.
: .

. ) (
.
.

)
( ) .(
. . :

.
.

:
.


- i -
Table des matires

Introduction gnrale.................................................................................................................. 1
Problmatique......................................................................................................................... 2
Contribution............................................................................................................................ 3
Organisation du mmoire ....................................................................................................... 4

Chapitre 1: Recherche d'information

1.1 Introduction...................................................................................................................... 6
1.2 Les principaux acteurs de RI........................................................................................... 6
1.3 Le processus de recherche dinformation........................................................................ 7
1.3.1 L'indexation............................................................................................................ 8
1.3.1.1 Extraction automatique des mots ..................................................................... 9
1.3.1.2 Elimination des mots vides .............................................................................. 9
1.3.1.3 Lemmatisation................................................................................................ 10
1.3.1.4 Pondration des Termes ................................................................................. 10
1.3.2 Lappariement document-requte ........................................................................ 12
1.3.3 Reformulation de Requtes ................................................................................... 13
1.4 Les modles de recherche dinformation ...................................................................... 13
1.4.1 Modle boolen...................................................................................................... 14
1.4.2 Modles bas sur les ensembles flous .................................................................... 14
1.4.3 Modle vectoriel (vector space model) .................................................................. 15
1.4.4 Modle probabiliste............................................................................................... 16
1.4.5 Modle de langage ................................................................................................ 17
1.4.6 Le modle LSI ( Latent semantic indexing).......................................................... 18
1.5 Evaluation des systmes de recherche dinformation .................................................. 19
1.5.1 Rappel et prcision................................................................................................. 20
1.5.1.1 Courbe de Rappel /Prcision........................................................................... 20
1.5.2 Mesures combines ................................................................................................ 23
1.5.2.1 Mesure harmonique......................................................................................... 24
1.5.2.2 Mesure dvaluation E .............................................................................. 24
1.6 Conclusion..................................................................................................................... 24

Chapitre 2: La recherche d'images fixes

2.1 Introduction................................................................................................................... 26
2.2 Recherche dimages bases sur les annotations ....................................................... 26
2.3 La recherche dimage par le contenu ........................................................................... 27
Lextraction des informations visuelles .......................................................................... 29
2.3.1 Segmentation et dtection de points dintrt ...................................................... 29
2.3.2 Les descripteurs visuels.......................................................................................... 31
2.3.2.1 La couleur........................................................................................................ 32
2.3.2.2 La texture......................................................................................................... 32
2.3.2.3 La forme .......................................................................................................... 33
2.3.3 Mesures de similarit ............................................................................................ 34
Table des matires
- ii -
2.3.3.1 Distances gomtriques................................................................................... 35
- Dfinition des espaces mtriques............................................................................. 35
2.3.3.2 Intersection dhistogrammes ........................................................................... 36
2.3.3.3 Distances entre distributions ............................................................................ 36
2.3.3.4 Distances entre distributions cumules ........................................................... 37
2.3.3.5 Distance quadratique gnralise.................................................................... 37
2.3.4 Bouclage de pertinence .......................................................................................... 38
2.3.4.1 Principe............................................................................................................ 38
2.3.4.2 Annotation....................................................................................................... 40
2.3.4.3 Typologie des mthodes de bouclage de pertinence ........................................ 40
1. Mthodes ad hoc issues de la recherche de documents....................................... 40
2 .Mthodes bases optimisation.............................................................................. 41
3. Mthodes probabilistes......................................................................................... 41
4. Mthodes par classification...42
2.3.5 Quelques systmes de recherche dimages ............................................................ 42
2.3.5.1Chabot ............................................................................................................... 43
2.3.5.2 QBIC ............................................................................................................... 43
2.3.5.3 VisualSeek....................................................................................................... 43
2.3.5.4 MARS............................................................................................................... 44
2.3.5.5 IMAGEROVER............................................................................................... 44
2.3.5.6 SurfImage........................................................................................................ 44
2.3.5.7 IKONA............................................................................................................ 44
2.3.5.8 PicSOM............................................................................................................ 45
2.4 Conclusion..................................................................................................................... 45

Chapitre 3 : La combinaison texte images

3.1 Introduction................................................................................................................... 46
3.2 Les modles combinant linformation textuelle et visuelle .......................................... 47
3.2.1 LSA : un modle par analyse de la smantique latente.......................................... 47
3.2.2 PLSA : un modle probabiliste .............................................................................. 48
3.2.3 Modles Multi-Modals Hierarchical Aspect Models (MOM-HAM)................ 52
3.2.3.1 Modles I-0, I-1 et I-2 ................................................................................. 54
3.2.3.2 Modles D-0, D-1 et D-2............................................................................ 54
3.2.4 Les modles fonds sur la distribution de Dirichlet ............................................. 56
3.2.4.1 Modle Latent Dirichlet Allocation (LDA) .............................................. 56
3.2.4.2 Modle Gaussian Multinomial Mixture (GM-Mixture)............................ 58
3.2.4.3 Modle Gaussian-Multinomial LDA (GM-LDA)..................................... 59
3.2.4.4 Modle mixture of Multi-Modal LDA (MOM-LDA)............................... 61
3.2.4.5 Modle Correspondance LDA (Corr-LDA).............................................. 62
3.2.5 DAutres modles................................................................................................... 64
3.2.5.1 Modle Translation Model (TM) .............................................................. 64
3.2.5.2 Modle Continuous Relevance Model (CRM)....................................... 65
3.2.5.3 Modle Cross Media Relevance Model (CMRM) .................................... 66
3.3 Mesures de performances............................................................................................. 70
3.3.1 Perplexil.............................................................................................................. 70
3.3.2 Normalised Score ................................................................................................. 70
3.3.3 Normalised Score moyen ..................................................................................... 70
3.4 Discussion sur les modles de ltat de lart ................................................................. 71

Table des matires
- iii -
Chapitre 4 : Contribution

4.1 Introduction.............................................................................................................. 72
4.2 La vue globale de lapproche ........................................................................................ 72
4.3 Reprsentation des documents ..................................................................................... 73
4.3.1 La reprsentation conceptuelle des documents ..................................................... 73
4.3.1.1 Projection des documents sur lontologie ....................................................... 75
1.Extraction des concepts candidats............................................................................. 75
2.Pondration des termes.............................................................................................. 76
3.Calcul de similarit entre concepts............................................................................ 77
4.3.1.2 Reprsentation du document et de la requte.................................................. 79
4.3.2 Reprsentation visuelle des objets images ............................................................ 80
4.3.2.1 La couleur........................................................................................................ 81
4.3.2.2 La texture......................................................................................................... 81
4.3.2.3 La pondration des attributs visuels ................................................................ 82
4.4 Spcification du rseau de neurones ........................................................................ 84
4.4.1 La pondration des liens inter couches .................................................................. 85
4.4.1.1 Le poids du lien entre la couche C-V............................................................. 86
4.4.1.2 Le poids du lien entre la couche Q-C............................................................. 86
4.4.1.3 Le poids du lien entre la couche Q-V............................................................. 86
4.4.1.4 Le poids du lien entre la couche V-D............................................................. 87
4.4.1.5 Le poids du lien entre la couche C-D............................................................. 87
4.5 Le processus de recherche dinformation ................................................................ 87
4.5.1 Recherche par une requte textuelle....................................................................... 87
4.5.1.1 Exemple de rseau et de recherche dinformation par une requte textuelle.. 89
4.5.2 Recherche par une image exemple......................................................................... 91
4.6 Conclusion..................................................................................................................... 93

Conclusion gnrale ................................................................................................................. 94
Synthse................................................................................................................................ 94
Perspectives .......................................................................................................................... 95

Annexe A : Les ontologies ....................................................................................................... 96
Annexe B : Lalgorithme k-means ......................................................................................... 100
Annexe C : Principes de base des rseaux de neurones ......................................................... 101

Bibliographie.......................................................................................................................... 104

- iv -
Liste des figures et tableaux

Figure 1.1 : Le processus de recherche dinformation............................................................... 8
Figure1.2 : Importance dun terme en fonction de sa frequence dapparition dans un document
.................................................................................................................................................. 11
Figure 1.3 : La courbe de rappel-precision .............................................................................. 21
Figure 1.4 : Representation des points de rappel-precision. ................................................... 22
Figure1.5 : Elimination des creux dans la courbe de rappel-precision. ................................... 23
Figure 2.1 : Schema dun systeme classique de recherche dimages par le contenu visuel..... 28
Figure 2.2 : Architecture du bouclage de pertinence ............................................................... 39
Figure 3.1 : Le modele graphique de PLSA............................................................................. 49
Figure 3.2 : Exemple de structure hierarchique ....................................................................... 52
Figure 3.3 : Le modele graphique de LDA. ............................................................................. 57
Figure 3.4 :Le modele graphique de GM_Mixture. ................................................................. 58
Figure 3.5 : Le modele graphique de GM-LDA...................................................................... 60
Figure 3.6 : Le modele graphique de MOM_ LDA................................................................. 61
Figure 3.7 : Le modele graphique de CORR-LDA. ................................................................. 63
Figure 3.8 : Le modele generatif dannotation dimages ....................................................... 66
Figure 4.1 : Lapproche proposee pour la recherche dinformation ........................................ 73
Figure 4.2 : Schema generale de la representation conceptuelle de limage............................ 75
Figure 4.3 : Extrait de la taxonomie de WordNet.. .................................................................. 79
Figure 4.4 : La reprsentation du rseau connexionniste propos85
Figure 4.5 : Processus de recherche par une requte textuelle..88
Figure 4.6 : Processus de recherche par une requte visuelle...92
Figure A.1 : Principales relations semantiques dans WordNet. ............................................... 98
Figure A.2 : Exemple de sous hirarchie dans WordNet correspondent au concept car 99
Figure C.1 : Neurone formel avec fonction d'activation. ....................................................... 102
Figure C.2 : Exemple de perceptron multicouches ............................................................... 103
Tableau 1.1 : Exemple de valeur rappel-precision. .................................................................. 22
Tableau 3.1 : Comparaison des NS moyens des modeles LSA, PLSA-Mixed et PLSA-Words
.................................................................................................................................................. 52
Tableau 3.2 : La comparaison de la performance des trois modeles TM, CMRM et CRM. ... 68
Tableau 4.1 :Exemple de donnees ponderees dans le reseau ................................................... 90
Tableau 4.2 : Activation de la couche c par une requete initiale ............................................ 90
Tableau 4.3 :Valeurs dactivation de la couche V ................................................................... 91
Tableau 4.4 :Propagation vers la couche documents ............................................................... 91

- 1 -

Introduction gnrale

La recherche d'information (RI) est un vaste domaine d'tude apparu dans les annes 60.
L'avnement d'Internet et plus particulirement du Web a conduit rvler la RI au grand
jour, notamment par le biais des moteurs de recherche. La profusion de donnes numriques
disponibles a rendu indispensables des moyens de recherche performants et automatiques,
permettant tout un chacun de trouver une information prcise, la RI a alors volu vers des
tches de plus en plus nombreuses et diversifies. Les systmes de recherche d'information
(SRI) doivent aujourd'hui savoir traiter des volumes gigantesques de donnes, s'adapter aux
nouveaux modes de communication et grer la nature multimdia de l'information (l'image, le
son, la vido, le texte...).
Les systmes de RI, quels que soient leurs objectifs, la nature ou la provenance de
l'information manipule, tendent en fait vers le mme but : tablir une correspondance entre
l'information disponible et celle recherche par l'utilisateur. Toute la difficult de cette tche
de RI rside essentiellement autour de la pertinence du lien qui sera tabli.

Avec la dmocratisation des appareils multimdia, de plus en plus les images numriques
sont gnres chaque jour. Entre les ordinateurs, les scanneurs, les Webcams, les tlphones
portables avec appareil photo, de plus en plus de personnes sont en mesure de diffuser sur les
rseaux privs et publics des images numriques. La diminution du cot de stockage et la
disponibilit de techniques de numrisation de haute qualit permettent aussi aujourd'hui de
constituer de trs grandes bases d'images dans des domaines varis :
- Bases mdicales ;
- Bases d'archives (patrimoine culturel, muses, . . .) ;
- Bases d'agences photographiques, bases personnelles ;
- Bases d'images satellites et ariennes

Dans le cadre de ce mmoire, nous nous intressons plus particulirement aux
informations de type textes et images. Les systmes de recherche de documents contenant des
informations de type textes et images deviennent de plus en plus ncessaires. Parmi les
techniques de recherche de ce type dinformations, on peut trouver deux grandes approches :
Introduction gnrale
- 2 -
la recherche par mots cls (caractristiques de haut niveau), et la recherche par le contenu
visuel (caractristiques de bas niveau).
La premire repose sur un ensemble de mots cls qui ont t associs chaque document
de la collection, et qui sont ensuite utiliss par une stratgie de recherche textuelle classique.
La deuxime utilise des moyens autres que les mots-cls, comme la description du contenu
visuel, par exemple les couleurs, les textures ou les formes rencontres dans une image,
permettant aux utilisateurs de formuler des critres de recherche qui sont parfois difficile
exprimer en utilisant les mots-cls. Ces caractristiques visuelles, calcules de manire
automatique, sont ensuite exploites par le systme pour comparer et retrouver des images.

Problmatique

Comme les mots cls retenus par lindexation peuvent tre ambigus. Les descripteurs
peuvent en fait se rapporter des termes ayant plusieurs sens et donc ne pas indiquer
clairement la thmatique aborde dans le document. Dautre part, la recherche peut chouer si
les termes de la requte ny apparaissent pas. Surmonter ces limites est l'objet de plusieurs
projets de recherche rcents, cest le cas notamment de l'approche de RI dite base
concepts .

Une des difficults majeures que se pose dans le domaine de la recherche de documents
multimdia (les objets images) par le contenu visuel est le foss smantique existant entre une
image et son sens. C'est dire, partir d'une image, retrouver ce qu'elle cherche exprimer.

Nous voyons que linformation fournie par les caractristiques textuelles et celle fournies
par les caractristiques visuelles apportent toutes les deux une information diffrente et
complmentaire. Linformation visuelle indique le contenu de limage, linformation
textuelle indique le sens possible pour le contenu. Plusieurs solutions ont t proposes
permettant la combinaison de linformation textuelle et visuelle dont lobjectif dannotation
automatique dimage, et aussi pour la recherche dimage. Notre travail sinscrit dans la
catgorie des systmes qui combinent les informations textuelles et visuelles. Lobjectif est
de proposer une solution permettant la combinaison des informations de type texte et image
pour effectuer une recherche dinformation croise. Plus prcisment, l'information
contextuelle entourant les objets multimdia (les images) et les caractristiques de bas niveau
Introduction gnrale
- 3 -
(couleur ou texture pour les images par exemple) peuvent tre utilises pour rpondre des
requtes textuelles ou des requtes visuelles (images exemples).

Contribution

Pour la recherche dinformations par croisement du mdia texte et image nous proposons
une nouvelle approche qui combine le texte entourant les documents et les caractristiques
visuelles. Pour cela nous proposons lutilisation des rseaux de neurones. Cette approche est
compose de trois tapes principales :
- La premire tape concerne la reprsentation des documents et de la requte ;
- La deuxime tape concerne la spcification du rseau de neurones.
- La troisime tape prsente le processus de recherche dinformation bas sur les activations
de la thorie connexionniste.

Dans la premire tape, nous partons du principe que chaque document est dcrit par un
ensemble de mots cls (caractristiques de haut niveau), ainsi que dun ensemble de segments
visuels (caractristiques de bas niveau), chaque segment appel aussi rgion dune image est
reprsent par un vecteur
i
v .
Pour la reprsentation de haut niveau des documents, nous proposons lutilisation de
lontologie WordNet ainsi nous adaptons une indexation conceptuelle des mots cls base sur
une ontologie externe pour rsoudre le problme de la synonymie entre mots. Pour la
pondration des termes conceptuels nous utilisons une mthode de pondration qui tient
compte de la longueur du terme (en nombre de mots) et du critre TF.IDF. Cette mthode de
pondration sappelle CF.IDF dcrite par [Baziz, 2005], elle s'appuie sur l'hypothse que les
termes composs de plusieurs mots, sont plus riches smantiquement que les mots qui les
composent.
Pour la reprsentation de bas niveau des objets multimdia nous choisissons la couleur et
la texture pour les images exemple et nous utilisons une pondration inspire de
idf tf _ dcrite par [J.Z. Wangy &Y.Du, 2001]. Des poids sont attribus aux rgions en
fonction de leurs frquences dans le document et dans la collection de documents, cette
pondration est appele IPF RF .

Introduction gnrale
- 4 -
Dans la deuxime tape nous proposons une approche connexionniste qui est un rseau
de neurones pour formaliser la reprsentation de la collection de documents, le rseau de
neurone constitu de quatre couches, une couche de requtes : reprsente lentre du rseau,
une couche de concepts, une couche de vecteurs visuels, et une couche de documents, elle
reprsente la sortie de rseau.
La troisime tape est celle de recherche dinformation base sur le mcanisme
dactivation de la thorie connexionniste, la recherche peut tre effectue par une requte
textuelle ou par une requte image exemple.

Organisation du mmoire

Ce mmoire se concentre sur la recherche dinformation par croisement du mdia texte et
image, il comporte quatre chapitres dcrits comme suit :

Le premier chapitre prsente un tat de lart sur la recherche dinformation, dans lequel,
nous prsentons les notions et concepts de base de la recherche d'information, et nous
dcrivons le processus de la RI. Par la suite, les principaux modles qui sont la base de la
majorit des systmes actuels sont dcrits.
Dans le deuxime chapitre nous prsentons un tat de lart sur la recherche dimages
fixes, en distinguant les approches ABIR et CBIR. Puis nous exposons le principe et les
typologies des mthodes de bouclage de pertinence, enfin, nous dcrivons quelques systmes
de recherche dimages.
Le troisime chapitre prsente un tat de lart sur la combinaison texte image o nous
dcrivons les principaux modles de recherche dinformations combinant linformation
textuelle et visuelle.
Le quatrime chapitre traite nos propositions pour la recherche dinformations par
croisement du mdia texte et image.

Enfin, nous terminons par une conclusion gnrale qui est une synthse des travaux
effectus dans ce mmoire, Nous prsentons ensuite les perspectives d'volution
envisageables pour ces travaux.
Introduction gnrale
- 5 -
En complment, trois annexes sont ajoutes ce mmoire, La premire concerne les
ontologies, dans le cadre de notre travail nous utilisons lontologie WordNet. Dans la seconde
annexe nous dcrivons lalgorithme des k-moyennes que nous utilisons pour la pondration
des attributs visuels. Dans La troisime annexe nous prsentons les principes de base des
rseaux de neurones que nous utilisons dans nos travaux.

- 6 -



1.1 Introduction
Ces dernires annes ont vu une explosion du volume des donnes accessibles par les
utilisateurs dordinateurs surtout cause de lnorme croissance du Web. De grandes
quantits de donnes sont accessibles au public, mais la dtection efficace des informations
pertinentes reste toujours une tche trs difficile. La complexit des donnes a augment et les
systmes qui les traitent doivent sadapter aux changements.
La recherche dinformation (Information Retrieval) est le champ du domaine
informatique qui soccupe de la reprsentation, du stockage, de lorganisation et de laccs
aux informations [Salton & al, 1983].
Ce chapitre traite des concepts, techniques et modles tudis dans le domaine de la
recherche dinformation. Il est organis comme suit :
Dans la premire section nous dfinissons les principaux acteurs de RI, la deuxime
section est consacre la description du processus de la RI, dans laquelle nous dfinissons les
notions de : indexation, appariement document_requte et reformulation de requtes. Puis
Nous passons en revue les principaux modles de RI.

1.2 Les principaux acteurs de RI

Lobjectif principal dun systme de recherche dinformation (SRI) est de slectionner
dans une collection de documents ceux qui sont susceptible de rpondre au besoin en
information de lutilisateur exprim travers une requte.
Chapitre 1. Recherche dinformation

- 7 -
Dans cette dfinition on distingue trois notions cls : document, requte et pertinence qui
sont les principaux acteurs de RI.

Document : Un document peut tre un texte, un morceau de texte, une page Web,
une image, une bande vido, etc. On appelle document toute unit ou granule
documentaire qui peut constituer une rponse une requte d'utilisateur.
Requte : Une requte exprime le besoin dinformation dun utilisateur crite sous
plusieurs formes
Pertinence : La notion de pertinence est trs complexe. De faon gnrale, dans le
document pertinent, l'utilisateur doit pouvoir trouver les informations dont il a besoin.
C'est sur cette notion de pertinence que le systme doit juger si un document doit tre
donn l'utilisateur comme rponse.

1.3 Le processus de recherche dinformation

Le processus de recherche dinformation a pour but la mise en correspondance des
informations disponibles dune part, et les besoins de lutilisateur dautre part. Cette mise en
relation des besoins utilisateurs et des informations est effectue grce un Systme de
Recherche dInformation (SRI), dont le but est de retourner lutilisateur le maximum de
documents pertinents par rapport son besoin.
Le processus de recherche, couramment appel Processus en U de Recherche
dInformation [Belkin et al, 1992] est schmatiquement reprsent sur la figure 1.1.












Chapitre 1. Recherche dinformation

- 8 -
























Figure 1.1 : Le processus de recherche dinformation


Ce processus est compos de trois fonctions principales

lindexation des documents et des requtes ;
lappariement requte-document, qui permet de comparer la requte et le document ;
et la fonction de modification, qui intervient en rponse aux rsultats obtenus.

1.3.1 L'indexation

Lindexation est une tape primordiale qui doit s'effectuer avant l'tape de recherche
effective de l'information. Cette tape consiste analyser le document afin dextraire un
ensemble de mots cls appels aussi descripteurs pouvant caractriser le contenu de ce
document. Cet ensemble de mots cls peut tre regroup dans un thsaurus [Carolyn& al,
1992] [William & al, 1992] mais en pratique, un thesaurus reprsente une notion plus large
Indexation
Requte utilisateur
Indexation
Appariement
Reprsentation des
documents
Reprsentation des
requtes
Modle de RI
Modifications
Jugements
utilisateur
Chapitre 1. Recherche dinformation

- 9 -
qu'une liste de mots cls. Il regroupe des mots cls ainsi que des relations linguistiques
(quivalence, association, hirarchie).
Le rsultat de l'indexation est un ensemble de termes dfinissant ce qui est appel le langage
d'indexation.

L'indexation peut se faire selon trois modes diffrents :

Manuelle : Chaque document est analys par un spcialiste du domaine ou par un
documentaliste. Elle est difficilement ralisable dans le cas de collections
volumineuses. Elle prsente galement un aspect subjectif, des termes diffrents
peuvent tre utiliss par deux documentalistes diffrents pour reprsenter un mme
document, et un indexeur, deux moments diffrents, peut utiliser deux termes
distincts pour reprsenter le mme concept.
Semi-automatique : Ici un premier processus automatique permet d'extraire les
termes du document. Cependant le choix final reste au spcialiste du domaine ou au
documentaliste pour tablir les relations entre les mots cls et choisir les termes
significatifs.
Automatique : l'aide d'un processus entirement informatis, lindexation
automatique, que nous dcrivons en dtail dans ce qui suit, regroupe un ensemble de
traitements automatiss sur un document. On distingue : lextraction automatique des
mots des documents, llimination des mots vides, la lemmatisation (radicalisation ou
normalisation), la pondration des mots avant de crer lindex.

1.3.1.1 Extraction automatique des mots

Cette opration consiste extraire du document un ensemble de termes ou de mots
simples par une analyse lexicale permettant didentifier les termes en reconnaissant les
espaces de sparation des mots, des caractres spciaux, des chiffres, les ponctuations, etc.
1.3.1.2 Elimination des mots vides
Un des problmes majeurs de lindexation consiste extraire les termes significatifs et
viter les mots vides (pronoms personnels, prpositions,...).
Les mots vides peuvent aussi tre des mots athmatiques (les mots qui peuvent se retrouver
dans nimporte quel document parce quils exposent le sujet mais ne le traitent pas, comme
Chapitre 1. Recherche dinformation

- 10 -
par exemple contenir, appartenir, ). On distingue deux techniques pour liminer les mots
vides :
Lutilisation dune liste de mots vides (aussi appele anti-dictionnaire),
Llimination des mots dpassant un certain nombre doccurrences dans la
collection.

1.3.1.3 Lemmatisation
La lemmatisation est un processus morphologique permettant de regrouper les variantes
dun mot. En effet, on remarque que beaucoup de mots ont des formes diffrentes, mais leur
sens reste le mme ou trs similaire et notamment dans le cas des mots conjugus. Ces mots
ont la mme racine (lemme). Ainsi, on arrive liminer les terminaisons des mots, et garder
seulement la racine, on a donc une forme identique pour eux. Plusieurs mthodes sont
utilises : algorithme de porter [Porter, 1980]. La troncature, varits de successeurs,
mthode de n-gramme [Adamson et Boreham, 1974].

1.3.1.4 Pondration des Termes

La pondration est l'une des fonctions fondamentales en RI. Le poids d'un terme dans un
document traduit l'importance de ce terme dans le document. Si certaines mthodes proposent
d'introduire des lments linguistiques dans l'indexation des documents, la grande majorit
des approches et systmes oprationnels, se base sur les aspects statistiques. Parmi ces
approches on distingue :

Loi de Zipf

La loi de Zipf est une loi empirique nonce en 1949 par G.K Zipf. Elle est dcrite
comme suit : Si on dresse une liste de lensemble des mots diffrents dun texte quelconque
classs par ordre de frquences dcroissantes, on constate que la frquence dun mot est
inversement proportionnelle son rang de classement dans la liste. Formellement, cette loi
s'exprime de la manire suivante :

Rang du termefrquence du terme= constante

Chapitre 1. Recherche dinformation

- 11 -
La relation entre la frquence et le rang des termes permet de slectionner les termes
reprsentatifs dun document : on limine respectivement les termes de frquences trs
leves car ils ne sont pas reprsentatifs du document (on peut par exemple citer les mots
outils et les mots vides), et les termes de frquences trs faibles (ce qui permet dliminer les
fautes de frappes et les nologismes). Ce processus est illustr sur la figure 1.2. En utilisant
cette approche, le nombre de termes faisant partie de lindex dune collection peut tre rduit
considrablement.













Figure. 1.2 : Importance dun terme en fonction de sa frquence dapparition dans un
document

A partir de ces constatations, des techniques de pondration ont vu le jour, la plupart de
ces techniques sont bases sur les facteurs tf et idf.

Pondration selon TF*IDF
La plupart des mthodes de pondration sont fondes sur la combinaison de deux
facteurs. Un facteur tf de pondration locale, quantifiant la reprsentativit locale d'un terme
dans le document, et un second facteur idf, de pondration globale, mesurant la
reprsentativit globale du terme vis--vis de la collection des documents.
- TF (Term Frequency) : Cette mesure a t introduite pour tenir compte de la frquence dun
terme dans un document. Lide sous-jacente est que plus un terme est frquent dans un
document plus il est important dans sa description. Elle reprsente une "pondration locale"
dun terme dans un document.
Chapitre 1. Recherche dinformation

- 12 -
- IDF (Inverse Document Frequency) : ce facteur mesure la frquence dun terme dans toute
la collection, cest la "pondration globale". En effet, un terme frquent dans la collection, a
moins dimportance quun terme moins frquent. Il est exprim comme : log (N /n
i
), avec N
est la taille (nombre de documents) de la collection et n
i
le nombre de documents contenant le
terme t
i
.
La combinaison des deux mesures (tf et idf) donne une bonne approximation de
limportance du terme dans le document, particulirement dans les corpus de documents de
tailles homognes. Les fonctions de pondration sont souvent rfrences sous le nom de
TFIDF.

En effet dautres mesures de pondration ont t proposes et intgrent la taille des
documents, [Singhal et al., 1995] et [Robertson et al., 1997] proposent dintgrer la taille des
documents la formule de pondration de la faon suivante :

( )
( )
ij
j
ij
ij
tf
l
dl
b b k
k tf
wd
+
|
|

\
|

+
+
1
1
1
1


O wd
ij
est le poids du terme t
i

dans le document D
j

; k
l

contrle l'influence de la frquence du
terme t
i
dans le document D
j
, sa valeur optimale dpend de la longueur et de l'htrognit
des documents dans la collection; b est une constante appartenant l'intervalle [0, 1] et
contrle l'effet de la longueur du document ; dl
j

est la longueur du document D
j
, et l est la
longueur moyenne des documents dans la collection entire.

1.3.2 Lappariement document-requte

La comparaison entre le document et la requte revient calculer un score, suppos
reprsenter la pertinence du document vis--vis de la requte. Cette valeur est calcule partir
dune fonction ou dune probabilit de similarit note RSV (Q,d) (Retrieval Status Value),
o Q est une requte et d un document. Cette mesure tient compte du poids des termes dans
les documents, dtermin en fonction danalyses statistiques et probabilistes.

La fonction dappariement est trs troitement lie aux oprations dindexation et de
pondration des termes de la requte et des documents du corpus. Dune faon gnrale,
Chapitre 1. Recherche dinformation

- 13 -
lappariement document-requte et le modle dindexation permettent de caractriser et
didentifier un modle de recherche dinformation.

La fonction de similarit permet ensuite dordonner les documents renvoys
lutilisateur.

1.3.3 Reformulation de Requtes

Lutilisateur exprime son besoin en information sous forme dune requte afin de trouver
des rsultats qui lintressent. Cependant, le SRI renvoi parfois des rsultats qui ne lui
conviennent pas. Pour cela, une tape de reformulation de la requte est souvent utilise dans
lespoir de retrouver plus de documents pertinents.
Ce processus permet de gnrer une requte plus adquate que celle initialement formule par
lutilisateur.
La reformulation de la requte consiste modifier la requte de l'utilisateur par ajout de
termes significatifs et/ou restimation de leur poids. Si les termes rajouts proviennent des
documents de la collection, on parle de rinjection de pertinence (relevance feedback). La
modification de la requte peut aussi tre base sur le vocabulaire issu de ressources externes
telles que les ontologies ou les Thesaurus.

1.4 Les modles de recherche dinformation

Si c'est l'indexation qui choisit les termes pour reprsenter le contenu d'un document ou
d'une requte, c'est au modle de leur donner une interprtation. tant donn un ensemble de
termes pondrs issus de l'indexation, le modle remplit les deux rles suivants :
Crer une reprsentation interne pour un document ou pour une requte base sur ces
termes;
Dfinir une mthode de comparaison entre une reprsentation de document et une
reprsentation de requte afin de dterminer leur degr de correspondance (ou
similarit).

Le modle joue un rle central dans la RI. C'est le modle qui dtermine le comportement
cl d'un systme de RI. Diffrents modles de RI ont t proposs, dans ce qui suit nous
dcrivons les plus rpondus.
Chapitre 1. Recherche dinformation

- 14 -
1.4.1 Modle boolen
Ce modle de recherche est bas sur lalgbre de boole, un document est reprsent par
un ensemble de termes, la requte est exprime par une expression boolenne de mots
assembls par les oprateurs logique : ET, OU, NON.
Pour qu'un document soit une rponse une requte boolenne, un processus d'valuation est
employ pour dterminer la correspondance RSV(d,q) entre un document d et une requte q.
Une des mthodes d'valuation est dtermin comme suit :

( ) 1 , =
i
t d RSV Si ; d t
i
0 sinon
( ) 1 ,
2 1
= q q d RSV Si ( ) 1 ,
1
= q d RSV et ( ) 1 ,
2
= q d RSV ; 0 sinon.
( ) 1 ,
2 1
= q q d RSV Si ( ) 1 ,
1
= q d RSV ou ( ) 1 ,
2
= q d RSV ; 0 sinon.
( ) 1 , = q d RSV Si ( ) 0 , = q d RSV ; 0 sinon.
Ce modle possde plusieurs inconvnients :
La slection des documents est base sur une dcision binaire.
Difficult de formulation de la requte par un utilisateur
Pas de pondration des termes (descripteurs des documents).
Pas dordre pour les documents slectionns.

1.4.2 Modles bas sur les ensembles flous

Une extension du modle boolen est base sur la thorie des ensembles flous propose
par Zadeh en 1965. Dans la thorie des ensembles flous, quand un lment a un degr
d'appartenance un ensemble, cet ensemble est dit ensemble flou. Cette thorie a influenc
les chercheurs en RI pour modliser les notions dincertitudes et d'imprcisions qui existent
diffrents niveaux du processus de RI [Bordogna et al., 2000][Koczy et al., 1998]. Dans ce
modle, un document est reprsent comme un ensemble de termes pondrs comme suit :
( ) ( ) { } ,... , ,..., ,
1 1 i i j
a t a t D =
o : a
i
est le degr dappartenance du terme t
i
au document D
j
.
La correspondance RSV entre une requte Q
k
et un document D
j
est dtermine comme suit :
( ) ( ) ( ) ( )
2 1 2 1
, , , min , q D RSV q D RSV q q D RSV
j j j
=
Chapitre 1. Recherche dinformation

- 15 -
( ) ( ) ( ) ( )
2 1 2 1
, , , max , q D RSV q D RSV q q D RSV
j j j
=
( ) ( ) ( )
i j i j
q D RSV q D RSV , 1 , =

Les objectifs pour lesquels les modles de recherche dinformation intgrent les
ensembles flous sont (1) de rduire limperfection et de traiter limprcision qui caractrise le
processus dindexation, (2) de contrler limprcision de lutilisateur dans sa requte et enfin
(3) de traiter les rponses refltant la pertinence partielle des documents par rapport aux
requtes. L'inconvnient majeur de ces modles est qu'ils ne sont pas adapts au classement
(ranking) des documents pertinents, tant donn que les scores de pertinence qu'ils attribuent
aux documents sont calculs par des fonctions min ou max qui ne prennent pas
ncessairement en compte toutes les valeurs de pertinences des termes de la requte.

1.4.3 Modle vectoriel (vector space model)

Le modle vectoriel a t Propos par Salton dans le systme SMART [Salton, 1970], ce
modle reprsente les documents et les requtes sous forme de vecteurs dans lespace
vectoriel engendr par tous les termes de la collection.
Chaque document est reprsent par un vecteur { }
j n j j j
w w w d
, , 2 , 1
,..., , = , o
j i
w
,
reprsente le
poids des termes dans le document, n tant le nombre total de termes de lindex, et la requte
aussi est vue comme un vecteur { }
q n q q
w w w q
, , 2 , 1
,...., , = . Une des plus simples mesures de
similarit est celle du produit scalaire :
( )
q i
n
i
j i j
w w q d RSV
,
1
,
, =

=


Plusieurs fonctions de similarit ont t proposes. Nous citons les fonctions les plus
rpandues : les mesures de Cosinus, Jaccard et Dice.

Mesure de cosinus : ( )
( )

= =
=

=
N
i
N
i
ik ij
N
i
ik ij
k j
wq wd
wq wd
Q D sim
1 1
2 2
1
,
Chapitre 1. Recherche dinformation

- 16 -
Mesure de Jaccard : ( )
( )
( )

= = =
=
+

=
N
i
N
i
N
i
ik ij ik ij
N
i
ik ij
k j
wq wd wq wd
wq wd
Q D sim
1 1 1
2 2
1
,

Mesure de Dice : ( )
( )
( )

=
=
+

=
N
i
ik ij
N
i
ik ij
k j
wq wd
wq wd
Q D sim
1
2 2
1
2 ,

Les avantages du modle vectoriel sont nombreux : il permet la pondration des termes,
ce qui augmente les performances du systme; il permet de renvoyer des documents qui
rpondent approximativement la requte et effectivement de trier les documents rpondant
une requte. Les documents sont en effet restitus dans un ordre dcroissant de leur degr de
similarit avec la requte. Plus le degr de similarit dun document est lev, plus le
document ressemble la requte et plus il est susceptible d'tre pertinent pour lutilisateur.

1.4.4 Modle probabiliste

Un des premiers modles de RI qui remonte aux annes 1960 avec [Maron et al, 1960].
Ce modle tente destimer la probabilit quun document d soit pertinent pour une requte q,
note : P(pert /d,q). Cette approche est justifie dans le Probability Ranking Principle (PRP)
formul par Robertson [Robertson, 1977].

On distingue deux classes de documents pour une requte : les pertinents (Pert) et les non
pertinents (Npert), ainsi deux mesures de probabilit seront calcules :

- P(Pert
q
/ d) : probabilit que d soit dans la classe des Pert.
- P(Npert
q
/ d) : probabilit que d soit dans la classe des Npert.

Un document sera slectionn si P(pert /d) > P(Npert /d), ce qui est quivalent ordonner les
documents par rapport un degr de vraisemblance :
RSV(q, d) = P(Pert /d) / P(Npert /d). (1)
En appliquant la rgle de Bayes sur la formule (1), cela donnera :
RSV(q, d) = P(d /Pert) / P(d /Npert). (2)
Chapitre 1. Recherche dinformation

- 17 -
Pour estimer les probabilits P(d /Pert) et P(d /Npert) un document sera dcompos en un
ensemble dvnements. Chaque vnement dnotera la prsence ou labsence dun terme
dans un document, cest le modle de recherche indpendant "Binary Independence
Retrievel" (BIR) qui suppose lindpendance des termes des documents. La formule (2)
devient :

) / (
) / (
) , (
1
Npert t P
Pert t P
log d q RSV
i
i
t
i

=
=

Avec :
- P (t
i
/Pert)= r
i
/R
- P (t
i
/NPert) = n
i
-

r
i
/N - R
O

i
r :

est le nombre de documents pertinents dans lesquels le terme
i
t apparat.
R : est le nombre de documents pertinents pour la requte.

i i
r n : est le nombre de documents non pertinents dans lesquels le terme
i
t apparat.
N : est le nombre total de documents dans la collection.

1.4.5 Modle de langage
Les modles de langues (ou de langages) tentent de modliser lagencement de mots dans
une langue en estimant la probabilit de distribution dune squence de mots.
Ponte et Croft [Ponte et al, 1998] ont t les premiers proposer leur utilisation en RI. Pour
cela, un document sera vu comme une suite de mots, gnr par son propre modle de langue.
Lide est alors, de mesurer la probabilit quune requte Q ait t gnre par le modle de
langage M
d
dun document d, qui sera considre comme le score de pertinence du document
vis--vis de la requte, soit :
RSV(Q, d) = P(Q/M
d
)
Suivant la complexit du modle, lestimation de cette probabilit sera plus ou moins
complexe. En rgle gnrale, lindpendance des termes de la requte est suppose (modle
unigramme), le modle de langage du document est estim par la technique de lestimateur du
maximum de vraisemblance (MLE) :

Chapitre 1. Recherche dinformation

- 18 -

=
=
Q t d
Q t
d d
dl
d t tf
M t P M Q P
) , (

) / ( ) / (


O : - tf (t, d) est la frquence du terme t dans le document d;
- dl
d
est le nombre total de termes dans le document d;

Cette formule prsente cependant un problme : lorsque un document ne contient pas un ou
plusieurs termes de la requte donnant une probabilit nulle : p (t /M
d
) = 0, il y lieu alors
dassigner des probabilits diffrentes de zro de tels mots.

Le modle mixte [Song et al, 1999] apporte la solution en combinant le modle de langage du
document et le modle de langage de la collection. Ce dernier sera utilis comme un modle
de rfrence pour les mots non observs dans le document :

P(Q /d) = ((1-)P(t /M
c
)+ P(t /M
d
)).
t Q

O la valeur optimale du paramtre est dtermine empiriquement
Avec :
col tf total
tf total
M t P
t
c
_ _
_
) / ( =

O : - total_tf
t
est la frquence du terme t dans la collection ;
- total_tf_col est le nombre total de termes dans la collection.


1.4.6 Le modle LSI ( Latent semantic indexing)

Le modle LSI est une approche vectorielle, il regroupe les termes co-occurrents en
concepts, do la rduction de lespace initial de termes dindexation. Les documents et les
requtes sont alors reprsents dans le nouvel espace compos de concepts de haut niveau
ceci permet de slectionner des documents pertinents mme sils ne contiennent aucun terme
de la requte [Deerwester & al, 1990].

Ce modle se base sur la dcomposition en valeur singulire, dsigne par SVD (Singular
Value Decomposition) de la matrice terme-document, reprsentant en colonnes les documents
Chapitre 1. Recherche dinformation

- 19 -
et en lignes les termes. Un lment de cette matrice correspondant au poids dun terme pour
un document donn.
Si W est la matrice terme-document de dimension td ; o t est le nombre de termes distincts
de la collection, et d le nombre de documents dans la collection, alors SVD la dcompose en :

D S T W =

O T

est une matrice terme de taille t r, reprsente les termes des documents.
S

est une matrice de valeur singulire de taille r r diagonale (seulement les lments
en diagonal sont non-nuls)
D est une matrice document de taille r d. chaque colonne reprsente les documents
dans le nouvel espace vectoriel.

Une fois la SVD de la matrice W est calcule, il sagit de :
- Slectionner les K premire valeurs singulires de la matrice S.
- Garder les colonnes correspondantes dans les matrices T et D.

La fonction qui permet le passage de lespace des termes lespace des concepts est :
1
= S T M
Avec
T une matrice rduite de dimension k t

1
S est la matrice inverse de S, de dimension k k

Pour valuer une requte Q : - la requte doit tre reprsenter dans lespace M comme suit :

M Q Q
n
=
Puis une mesure de similarit est calcule entre la requte Q et chaque document, tous
reprsents dans le nouvel espace vectoriel M.

1.5 Evaluation des systmes de recherche dinformation
Le but de la RI est de trouver des documents pertinents une requte, et donc utiles pour
l'utilisateur. La qualit d'un systme doit tre mesure en comparant les rponses du systme
Chapitre 1. Recherche dinformation

- 20 -
avec les rponses idales que l'utilisateur espre recevoir. Plus les rponses du systme
correspondent celles que l'utilisateur espre, mieux est le systme.

Lvaluation des SRI repose gnralement sur trois lments principaux :
- une collection de documents de test;
- des requtes de test;
- une liste des documents pertinents pour chaque requte.
Nous dcrivons ci-dessous les mesures dvaluation de SRI les plus courantes.
1.5.1 Rappel et prcision

Les mesures de rappel et prcision permettent dvaluer la capacit dun SRI rpondre
aux deux objectifs principaux qui sont : retrouver tous les documents pertinents et rejeter tous
les documents non pertinents.

Rappel: Le rappel mesure la proportion de documents pertinents slectionns parmi tous les
documents pertinents dans la collection.
Prcision: La prcision mesure la proportion de documents pertinents retrouvs parmi tous
les documents slectionns par le systme.

Nombre de documents pertinents slectionns
Rappel =
Nombre total des documents pertinents


Nombre de documents pertinents slectionns
Prcision =
Nombre total de documents slectionns


1.5.1.1 Courbe de Rappel /Prcision

Idalement, on voudrait qu'un systme donne de bons taux de prcision et de rappel en
mme temps. Un systme qui aurait 100% pour la prcision et pour le rappel signifie qu'il
trouve tous les documents pertinents, et rien que les documents pertinents. Cela veut dire que
les rponses du systme chaque requte sont constitues de tous et seulement les documents
Chapitre 1. Recherche dinformation

- 21 -
idaux que l'utilisateur a identifis. En pratique, cette situation n'arrive pas. Plus souvent, on
peut obtenir un taux de prcision et de rappel aux alentours de 30%.
Les deux mtriques ne sont pas indpendantes. Il y a une relation entre elles: quand l'une
augmente, l'autre diminue. Il ne signifie rien de parler de la qualit d'un systme en utilisant
seulement une des mtrique. En effet, il est facile d'avoir 100% de rappel: il suffirait de
donner toute la base comme la rponse chaque requte. Cependant, la prcision dans ce cas-
ci serait trs basse. De mme, on peut augmenter la prcision en donnant trs peu de
documents en rponse, mais le rappel souffrira. Il faut donc utiliser les deux mtriques
ensemble.
Les mesures de rappel-prcision ne sont pas statiques non plus (c'est--dire qu'un systme
n'a pas qu'une mesure de prcision et de rappel). Le comportement d'un systme peut varier
en faveur de prcision ou en faveur de rappel (en dtriment de l'autre mtrique). Ainsi, pour
un systme, on a une courbe de rappel- prcision qui a en gnral la forme suivante:









Figure 1.3 La courbe de rappel-prcision

Afin dillustrer les calculs de rappel et de prcision, nous donnons lexemple suivant
(tableau 1.1) :
Considrons une requte pour laquelle cinq (5) documents sont pertinents dans la collection.
Soit la liste des rponses du systme {d1,.., d15}. Les documents pertinents sont marqus par
la lettre "p".
document prcision rappel pertinence
d1
d2
d3
d4
d5
d6
1,00
0,50
0,67
0,75
0 ,60
0,67
0,20
0,20
0,40
0 ,60
0,60
0,80
p

p
p

p
Chapitre 1. Recherche dinformation

- 22 -
d7
d8
d9
d10
d11
d12
d13
d14
d15
0,57
0,63
0,56
0,50
0,45
0,42
0,38
0,36
0,33
0,80
1,00
1,00
1,00
1,00
1,00
1,00
1,00
1,00


p
Tableau 1.1 : Exemple de valeur rappel-prcision.
On considre d'abord le premier document d1 restitu par le systme. A ce point, on a
retrouv un document pertinent parmi les 5 existants. Donc on a un taux de rappel de 0.2. La
prcision est 1/1. Le point de la courbe est donc (0.2, 1.0). On considre ensuite les deux (2)
premiers documents restitus. Le taux de rappel est toujours de 0.2 et la prcision est cette
fois de 0.5 (un document sur deux). Le point est donc (0.2, 0.5).
Ce processus est rpt jusqu' puisement de la liste des rponses (qui peut tre trs longue
en incluant tous les documents de la base). Les premiers points de la courbe sont alors
reprsents comme dans la Figure 1-4











Figure 1-4. Reprsentation des points de rappel-prcision.
Il arrive souvent qu'on applique l'interpolation sur la courbe de chaque requte.
L'interpolation vise crer une courbe descendante ayant l'allure de la forme gnrale de la
Figure 1.3. Le principe est le suivant :
Chapitre 1. Recherche dinformation

- 23 -
Soient i, j deux points de rappel avec i<j :
Si la prcision au point i < prcision au point j,
Alors on augmente la prcision du point i celle du point j.
Concrtement, cela signifie qu'on remplit un creux de la courbe par une ligne horizontale,
comme l'illustre la Figure 1-5.
On obtient alors une courbe en escalier. L'ide derrire l'interpolation est que les deux creux
de la courbe ne reprsentent pas vraiment la performance du systme. S'il existe un point un
rappel et une prcision plus levs, on peut toujours donner plus de documents dans la
rponse pour augmenter la performance. Le creux est donc surmontable.













Figure-1. 5- Elimination des creux dans la courbe de rappel-prcision.

1.5.2 Mesures combines
En se basant sur le principe des mesures de rappel et de prcision, les chercheurs ont t
amens investir dans dautres mesures qui pourront tre plus reprsentatives. Ces nouvelles
mesures essayent de combiner les mesures de rappel et de prcision afin de sortir avec une
seule valeur. Parmi les mesures proposes nous pouvons citer : la mesure harmonique et la
mesure dvaluation appele E.


Chapitre 1. Recherche dinformation

- 24 -
1.5.2.1 Mesure harmonique
La mesure harmonique H est une fonction qui combine les valeurs de rappel et de
prcision en une seule valeur incluse dans lintervalle [0,1] [Shaw et al, 1997].
( )
( ) ( ) j p j R
j H
1 1
2
+
=
O : R (j) et P (j) reprsentent respectivement le rappel et la prcision du j me
document renvoy par le systme.
Cette mesure gale 0 lorsque aucun document pertinent nest restitu et gale 1 lorsque
tous les documents restitus sont pertinents. On peut constater que la fonction H prend des
valeurs leves quand les valeurs de rappel et de prcision sont leves.

1.5.2.2 Mesure dvaluation E
Cette mesure a t propose par Van Rijsbergen [Rijsbergen, 1979]. Son but est de
permettre lutilisateur de spcifier laquelle des valeurs de prcision et de rappel est plus
intressante. La mesure est ainsi dfinie par :
( )
( ) ( ) j p j R
b
b
j E
1
1
1
2
2
+
+
=

La variable b est un paramtre de lutilisateur qui permet de spcifier limportance du rappel
et prcision. Si b=1, E(j) va prendre la valeur du complment de la mesure harmonique H(j).
Si (b < 1), lutilisateur privilge le rappel et si (b > 1), il privilge la prcision.

1.6 Conclusion

Dans ce chapitre nous avons prsent les principaux concepts de la recherche
dinformation, le processus et les modles les plus utiliss en RI, enfin lvaluation dun SRI.
La notion dun document a beaucoup volu depuis quil a pris la forme lectronique. Les
documents actuels contiennent plusieurs types de media (texte, son, image, vido). Pourtant la
recherche dinformations a t oriente pendant longtemps vers les informations textuelles.
Une raison fondamentale est que la majorit des documents taient historiquement du texte.
Chapitre 1. Recherche dinformation

- 25 -
Dautre part la technologie disponible jusqu' prsent ne facilitait pas le traitement de grands
nombres de donnes non textuelles. En consquence les systmes de recherche pour dautres
types de media ont volu postrieurement que les SRI textuels.
Les medias qui nous intressent dans notre travail sont le texte et limage, dans le chapitre
suivant nous prsentons un tat de lart sur la recherche dimages fixes.

- 26 -




2.1 Introduction

La problmatique de la recherche dimages dcoule directement de celle de la recherche
dinformation. Il sagit de retrouver des images pertinentes pour satisfaire les besoins dun
utilisateur. De manire analogue un systme de recherche dinformation textuelle, un
systme de recherche dimages est modlis par un modle de reprsentation des documents,
un modle de requtes, et un modle de correspondance. La recherche dimages fixes merge
aujourdhui comme un domaine de recherche important qui exploite de trs grandes bases
dimages, il existe principalement deux grandes approches pour la recherche dimages
fixes [Inou, 2004] :
- La recherche dimages base sur les annotations (ABIR
1
).
- La recherche dimages base sur le contenu (CBIR
2
).
Dans le premier cas, les images sont associes des annotations (texte environnant,
description, date de cration, auteur, mot_cl,. . .) et une requte un tel systme se fait par le
texte. Tandis que dans le second cas, le systme ne se soucie pas du contexte, mais
uniquement au contenu des images et une requte se fait par l'image.

Nous prsentons dans ce chapitre un tat de lart sur la recherche dimages fixes en
distinguant les deux approches ABIR et CBIR.

2.2 Recherche dimages bases sur les annotations
Un systme de ce type considre donc des documents de type images annotes ou prises
dans un contexte textuel et une requte est de forme textuelle.

1
. ABIR : Annotation Based Image Retrieval
2
. CBIR : Content Based Image Retrieval


Chapitre 2. Recherche dimages fixes

- 27 -
La plupart des systmes de recherche d'images accessibles au grand public (Google,
altavista, flickr,) se basent sur des informations provenant d'annotations de l'image et sont
totalement indpendants du contenu de celles-ci.
Google est un SRI qui inclut une option pour la recherche dimages sur le Web. Cest un
systme qui offre une large couverture du Web (presque 880 millions dimages indexes et 4
milliards pages Web visits). Les index sont mis jour rgulirement. Pour dterminer le
contenu graphique d'une image, Google analyse le texte de la page qui entoure l'image, le titre
de l'image et de nombreux autres critres. Google applique galement des algorithmes pour
liminer les doublons (images identiques).
Similairement Google le systme de recherche dimages de Altavista ne base pas sa
recherche sur les descripteurs du contenu visuel de limage. Les images retournes sont celles
qui contiennent des mots cls de la requte dans leur nom de fichier, et le texte entourant
limage.
Inoue [Inou, 2004] justifie la popularit de ce type de systmes par leur facilit
d'utilisation et leur efficacit. En effet, si les annotations sont bien construites, la recherche
devient une simple recherche textuelle. Le niveau smantique du texte tant assez lev, il est
alors possible de soumettre des requtes complexes, avec noms propres ou scnes
particulires. Une recherche de ce type portera donc sur le sens des images recherches.
Cependant, Deux problmes majeurs se posent dans cette approche [Inou, 2004]. Le
premier concerne la difficult de lannotation des collections dimages particulirement quand
la taille de ces dernires est grande. Le second est li la richesse du contenu smantique des
images (rien ne garantit que les annotations de l'image sont smantiquement proches du
contenu de l'image), et la subjectivit de la description. La qualit du systme est donc
entirement dpendante de la qualit des annotations.

2.3 La recherche dimage par le contenu
Un systme dindexation et de recherche dimages par le contenu est un systme qui
permet de rechercher des images similaires une requte dans une base dimages en se basant
sur les caractristiques visuelles propres aux images. Ces caractristiques, encore appeles
caractristiques de bas niveau comme les couleurs, les textures, les formes, ainsi que dautres
caractristiques [Boucher & Thi, 2005].

Chapitre 2. Recherche dimages fixes

- 28 -
LArchitecture dun systme classique de recherche dimage par le contenu visuelle est
schmatiquement reprsent sur la figue 2.1.








Requte
directe










Figure 2.1 Schma dun systme classique de recherche dimages par le contenu visuel

Ce systme sexcute comme suit:

Lutilisateur dispose dau moins trois types de moyens pour trouver linformation quil
cherche.
Les requtes par lexemple : (query by example), lutilisateur fournit un exemple, le
systme en extrait des descripteurs visuels, puis recherche les images ayant des
descripteurs similaires. Lexemple peut tre :
Une image : la requte de lutilisateur est compose dune image entire.
Images
Type de
recherche
Stockage dans lindex/
regroupement par similarit
Image/rgion/ croquis
Segmentation
/points dintrt
Extraction des
descripteurs
Reprsentation des
descripteurs
Segmentation
/points dintrt
Extraction des
descripteurs
Reprsentation des
descripteurs
Similarit
Images rsultat
Visualisation
R
e
q
u

t
e

p
a
r

l

e
x
e
m
p
l
e

N
a
v
i
g
a
t
i
o
n

Chapitre 2. Recherche dimages fixes

- 29 -
Une rgion : lutilisateur recherche des rgions dimages qui ressemble la
rgion de limage slectionne par lutilisateur.
Un croquis dessin par lutilisateur : le croquis est un cas particulier de
requte par lexemple, car dans ce cas l, le descripteur utilis est la forme.
Les requtes directes : sont composes de descripteurs visuels. On distingue :
Les requtes par caractristiques visuelles (par exemple, 25%de rouge, 30%de
vert et 45% de bleu).
Les requtes par combinaison pondre de caractristiques visuelles (par
exemple, la couleur a un poids de 75% et la texture de 25%).
La navigation : (browsing) dans les images.

Lextraction des informations visuelles

Les pixels dune image ou dune rgion dimages ne peuvent pas tre exploites
directement. Cest pourquoi on extrait laide dalgorithmes des descripteurs visuels afin
dobtenir une reprsentation plus facile utiliser. Lextraction des informations visuelles des
images doit tre effectue aussi bien pour les images de la base que pour la requte. Elle est
gnralement constitue de trois tapes :

Dabord, le systme extrait des parties de limages (rgion, zones dintrt, point
dintrt) choisies en fonction de linformation quelles contiennent.
Ensuite, le systme extrait les descripteurs visuels, cest--dire les caractristiques de
couleurs, de textures, de formes de chacune des parties (phase de caractrisation).
Enfin, une reprsentation (appele parfois signature ou index) est parfois ncessaire
pour mesurer les descripteurs visuels en une forme encore plus exploitable par le
systme (phase dindexation).

2.3.1 Segmentation et dtection de points dintrt
Lextraction de descripteurs visuels sur limage entire (descripteurs globaux) permet de
rduire le nombre de calculs ncessaires, la taille de la base de donnes ainsi que la cot des
recherches des images les plus similaires. Cependant, lapproche globale ne permet pas une
recherche efficace dobjets (au sen large) dans limage. A linverse, les descripteurs extraits
dune partie de limage (descripteurs locaux) sont efficaces mais coteux, les descripteurs
locaux peuvent tre :
Chapitre 2. Recherche dimages fixes

- 30 -
- Des rgions de limage obtenue par segmentation de limage entire,
- Des points dintrt.
- Segmentation
La segmentation dimages est une question centrale en traitement de limage [Cocquerez
& al. 1995]. En indexation, de nombreux auteurs se sont focaliss sur cet aspect et des
algorithmes de segmentation originaux ont t proposs [Winter et al. 1999] [Boujemaa & al.
2000] [Pauwels & al. 1999] ainsi que des techniques compltes pour l'indexation et la
recherche [Carson & al. 1999].
La segmentation dimage consiste sparer en rgions homognes les divers composants
visibles dans une image. Lhumain sait naturellement sparer des objets dans une image. Pour
cela, il se base notamment sur des connaissances de haut niveau qui lui permettent de dtecter
ce qui lintresse dans limage. En traitement du signal, on caractrise une rgion comme
tant un ensemble de points (pixels) ayant des proprits commune dintensits, de texture, de
couleurs , qui la diffrencient des rgions voisines. On distingue deux grandes familles
dalgorithmes :

- La segmentation par approche contour ou frontire (edge-based segmentation). Un
contour est une frontire entre deux milieux diffrents (2 couleurs, 2 niveaux de gris...). On
utilise souvent limage drive pour mettre en vidence les variations de niveau. Quand il y a
une forte variation, cela est souvent d un changement de teinte, dclairement ou de
texture, et de faon gnrale un changement de rgion. Un algorithme classique dextraction
du contour est lalgorithme de [Canny, 1986].

- La segmentation par approche rgion (region-based segmentation). Le principe est de
trouver les rgions en regroupant les pixels ayant des caractristiques similaires et en sparant
ceux qui sont diffrents (techniques division-fusion, par accroissements de rgions, par
statistiques baysienne).

Une des difficults de la segmentation est de savoir en combien de rgions doit tre
dcoupe une image, car certaines images peuvent tre segmente en peu de rgions (par
exemple, un portrait sur fond uniforme), alors que dautres ncessitent plus de rgions.

Chapitre 2. Recherche dimages fixes

- 31 -
Il existe galement des approches par segmentation o les rgions dimages sont
dtermines a priori. Elles supposent par exemple que lobjet intressant est prsent au centre
de limage ou au contraire impose une grille o toutes les rgions de limage ont la mme
aire.

- Points dintrt

Les points dintrt dune image sont les points qui seront trouvs similaires dans les
images similaires. Une manire de les dterminer est de prendre en compte les zones o le
signal change. Par exemple, les points dintrt peuvent tre les coins, les jonctions en T ou
les points de fortes variations de texture.
On distingue trois types dapproche pour lextraction de points dintrt :
- approches contours : les contours dune image sont dabords dtects, puis les points
dintrt sont extraits le long des contours en considrant les points de courbures maximales
ainsi que les intersections de contours.
- approches intensit : la fonction dintensit est utilise pour extraire directement des images
les points de discontinuit.
- approche base de modle : les points dintrt sont identifis dans limage par mise en
correspondance de la fonction dintensit avec un modle thorique.
Les approches intensit sont les plus utilises, car elles sont indpendantes des contours et
du type de points dintrt. On peut citer au moins deux avantages des points dintrt par
rapport aux rgions ils ne ncessitent pas de chanages pour dtecter les contours des rgions,
et on peut les extraire efficacement de la plupart des images.

2.3.2 Les descripteurs visuels

Les aspects visuels les plus utiliss pour la description du contenu des images sont la
couleur, la forme et la texture. Les systmes CBIR se servent dhabitude dune combinaison
de ces caractristiques pour mieux sadapter aux exigences des requtes fournies par les
utilisateurs.


Chapitre 2. Recherche dimages fixes

- 32 -
2.3.2.1 La couleur

La couleur est trs souvent le premier descripteur qui est employ pour la recherche
dimages, car elle correspond un des lments fondamentaux de la perception visuelle
humaine. La proprit de couleur est en gnrale dfinie par un triplet numrique permettant
de coder lintensit de chacune des composantes du systme de couleur [Bloch & al, 2005].
Parmi les systmes les plus utiliss on distingue :

Lespace RGB
3
: dfini par la compagnie internationale de lclairage (C.I.E) en 1931.
Chaque couleur est reprsente par trois composantes : le rouge (R), le vert (G) et le bleu (B).
Cet espace de couleur est le systme le plus connu et le plus utilis couramment, par facilit,
dans tous les systmes de vision automatique, mais il nest pas forcment le mieux adapt. En
effet, les trois composantes RVB sont trs dpendantes les unes les autres. Un simple
changement dclairage dans la scne modifie les trois composantes, alors que les objets de la
scne nont pas chang de couleur, mais se sont simplement assombris ou clairs.


Lespace HSV
4
: Les trois composantes de cet espace sont la teinte (H), la saturation (S) et la
valeur (V). Ces composantes peuvent tre interprtes de la manire suivante : la teinte
reprsente la couleur perue (rouge, jaune, vert, etc.), la saturation mesure la puret de la
couleur (par exemple pour une teinte rouge, le rose se caractrise par une saturation plus
faible que le rouge, tandis que le noir, le blanc et le gris sont caractriss par une saturation
nulle) et la valeur (luminosit) reprsente le niveau de gris, de sombre pour une valeur
faible clair pour une valeur leve. On na pas cette sparation dans le codage RVB. En
RVB les trois informations sont entirement corrles.

2.3.2.2 La texture

Il n'existe pas de dfinition satisfaisante de la texture, elle est cependant modlise
comme " la rptition d'lments de base construits partir de pixels qui respectent un certain
ordre ". Par exemple : le sable, la peau, l'eau, l'herbe, etc. Ont peut distinguer deux types de
textures [Bloch & al, 2005] :


3
. Red Green Blue
4
. Hue Saturation Value
Chapitre 2. Recherche dimages fixes

- 33 -
Les textures rgulires : dans lesquelles la priodicit du motif est vidente : grilles, murs,
tissus, etc. Elles peuvent tre dcrites par des approches frquentielles comme la transforme
de fourrier et les filtres de Gabor.

Les textures alatoires : pour lesquelles la distribution des intensits n'est l'objet d'aucune
rgularit apparente : sable, nuages, herbe, foule, etc. Elles peuvent tre dcrites par des
mthodes statistiques sur les distributions, ces mthodes s'appuient sur la construction de
matrices de cooccurrences ou d'auto corrlation reprsentant les distributions spatiales des
intensits de l'image.

2.3.2.3 La forme
Nous distinguons deux catgories de descripteurs de formes : les descripteurs bass
rgions et les descripteurs bass frontires.
Les premiers font classiquement rfrence aux moments invariants [Derrode & al. 1999]
et sont utiliss pour caractriser l'intgralit de la forme d'une rgion. Ces attributs sont
robustes aux transformations gomtriques comme la translation, la rotation et le changement
d'chelle.
La seconde approche fait rfrence aux descripteurs de Fourier [Rui & al. 1996] et porte
sur une caractrisation des contours de la forme.
Les attributs de forme sont utiliss pour caractriser les objets dans les images. Ils sont
intressants pour retrouver certains concepts qui ne peuvent ltre autrement. Prenons le mot
Ballon, par exemple. Il ny a pas de couleurs qui puissent caractriser un ballon puisque cet
objet peut tre de toutes les couleurs, par contre, il a une forme trs caractristique. La forme
est donc une information discriminante qui peu tre utile pour rduire le foss smantique.

Aprs une introduction aux principales caractristiques images utilises pour l'indexation,
nous dcrivons maintenant les mthodes de structuration de ces informations pour la
formation de la signature.

- Les histogrammes

Les histogrammes constituent une approximation de la densit de probabilit associe
l'image, vue comme une variable alatoire. Ils sont trs utiliss en recherche par le contenu.
Chapitre 2. Recherche dimages fixes

- 34 -
En 1991, Swain et Ballard [Swain & al. 1991] sont les premiers utiliser l'histogramme
pour l'indexation couleur. Lutilisation dhistogrammes pour l'indexation et la recherche
dimages pose quatre problmes [Gong & al, 1998]. Premirement, ils sont de grandes tailles,
donc par consquent il est difficile de crer une indexation rapide et efficace en les utilisant
tels quels. Deuximement, ils ne possdent pas dinformations spatiales sur les positions des
couleurs. Troisimement, ils sont sensibles de petits changements de luminosit, ce qui est
problmatique pour comparer des images similaires. Et quatrimement, ils sont inutilisables
pour la comparaison partielle des images (objet particulier dans une image), puisque calculs
globalement sur toute limage.
Plusieurs travaux rcents ont t effectus pour amliorer ces problmes. Il existe deux
approches suivies par les chercheurs : lune ajoute des informations spatiales lhistogramme,
lautre utilise dautres espaces de codage des couleurs qui se rapprochent plus de la perception
humaine.

La premire approche ajoute des informations spatiales aux histogrammes. Dans
[Stricker, 1996], les auteurs ont divis une image en cinq blocs fixs superposs et ils ont
extrait les trois premiers moments dinertie de chaque bloc pour crer un vecteur de
descripteurs.

La deuxime approche recherche d'autres espaces de couleurs qui se basent sur la
perception de couleur de lhumain. Lespace RVB est un espace de couleur utilis
couramment, par facilit, dans tous les systmes de vision automatique, mais il nest pas
forcment le mieux adapt. Dans [Smeulders & al., 2000] les auteurs ont prsent quelques
exprimentations intressantes pour utiliser dautres espaces en indexation, tandis que Park et
al. [Park & al., 1999] ont propos l'espace CIE LUV et Gong et al. [Gong & al., 1998] ont
employ lespace HVC. Un panorama des travaux existants permet de trouver plusieurs
espaces couleurs diffrents comme solution au lieu dun espace unique. La solution se trouve
probablement dans lutilisation de plusieurs espaces complmentaires [Vandenbroucke, 2000]

2.3.3 Mesures de similarit

Pour rechercher les images les plus similaires une image-exemple ou pour les
regrouper. Il faut pouvoir mesurer la similarit ou la dissimilarit des images. Nous allons
dcrire maintenant des mesures de similarits dans le cadre de la recherche dimages
Chapitre 2. Recherche dimages fixes

- 35 -
similaires. Ces mesures sont galement utilisables pour la recherche de rgions similaires,
mais aussi dans le cas de la classification supervise ou non-supervise dimages (ou de
donnes au sens gnral). Dailleurs, daprs [Bisson, 2000], tout systme ayant pour but
danalyser ou dorganiser automatiquement un ensemble de donnes ou de connaissances
doit utiliser, sous une forme ou une autre, un oprateur de similarit dont le but est dtablir
les ressemblances ou les relations qui existent entre les informations manipules.

Considrons deux images I
1
(image requte) et I
2
(image cible) indexes par des vecteurs
de R
N
: ( ) { } N i i I I = 1 ,
1 1
et ( ) { } N i i I I = 1 ,
2 2
. Le calcul de similarit entre I
1
et I
2
passe
par une mesure de proximit entre les signatures I
1
et I
2.
Dans ce contexte, toute

mesure entre
vecteurs de R
N
est utilisable et nous nous appliquons citer les plus couramment

employes
pour la recherche d'images par le contenu.

2.3.3.1 Distances gomtriques
Le premier type de mesures de dissimilarit correspond aux distances gomtriques entre
vecteurs. Dans ce cas, on parle de distances car ces mesures ont la proprit de respecter les
axiomes des espaces mtriques.

- Dfinition des espaces mtriques
Un espace mtrique E est dfinit comme un ensemble non vide dot d'une application d,
appele distance, de E E dans
+
R vrifiant les axiomes suivants :
E z y x , ,
1. ( ) y x y x d = = 0 , (Identit)
2. ( ) ( ) x y d y x d , , = (Symtrie)
3. ( ) ( ) ( ) z x d z y d y x d , , , + (Ingalit triangulaire)

Les mtriques de Minkowski (ou normes L
p
) sont les distances gomtriques les plus
courantes. Leur forme gnrale est la suivante :

( ) ( ) ( ) ( )
p
N
i
p
Mink
i I i I I I d
1
1
2 1 2 1
,
(

=

=



Chapitre 2. Recherche dimages fixes

- 36 -
Deux types de mtriques de Minkowski se retrouve dans la littrature :

- Norme L
1
: ( ) ( ) ( )

=
=
N
i
L
i I i I I I d
1
2 1 2 1
,
1


Cette distance a t utilise par Swain et Ballard [Swain & al. 1991], Funt et Finlayson [Funt
& al. 1991] et encore Stricker et Orengo [Stricker& al. 1995].


Norme L
2
(distance euclidienne) : ( ) ( ) ( ) ( )
2
1
1
2
2 1 2 1
,
2 (

=

=
N
i
L
i I i I I I d

Cette distance a t notamment utilise par Niblack et al [Niblack & al. 1994] dans le systme
QBIC.


2.3.3.2 Intersection dhistogrammes

Si les images sont indexes par des histogrammes, les distances gomtriques
s'appliquent. Cependant, il est possible de dfinir des mesures de similarit propres cette
reprsentation.
Ainsi, l'intersection d'histogramme est une des plus anciennes techniques dveloppes pour la
comparaison d'histogrammes. Elle a t propose par Swain et Ballard [Swain & al. 1991]
dans le cadre de l'indexation couleur :
( )
( ) ( ) ( )
( )

=
=
=
N
i
N
i
i I
i I i I
I I Inter
1
2
1
2 1
2 1
, min
, sec

2.3.3.3 Distances entre distributions
L'image peut tre considre comme une variable alatoire dont les vecteurs d'attributs
des pixels sont les ralisations. Le problme de mesure de similarit se ramne alors
dterminer si les ralisations correspondant aux deux images sont issues de la mme
distribution de probabilits. Nous parlons alors d'approche statistique de la mesure de
similarit.
Issue de la thorie de l'information, la divergence de Kullback-Leibler [Puzicha et al, 1997]
permet de mesurer la dissimilarit (entropie mutuelle) de deux distributions de probabilits :

Chapitre 2. Recherche dimages fixes

- 37 -
( ) ( ) ( )
( )
( ) i I
i I
i I I I K I I d
N
i
Kull
2
1
1
1 2 1 2 1
log ,

=
= =


2.3.3.4 Distances entre distributions cumules
Afin de rendre l'appariement des histogrammes plus robuste vis-_a-vis de faibles
transformations qui peuvent l'affecter, Stricker et Orengo [Stricker & al. 1995] proposent
l'utilisation des mtriques de Minkowski sur les distributions cumules des images :

( ) ( ) ( ) ( )
p
N
i
p
Mink
i C i C C C d
1
2 1 2 1
,
(

=



Avec ( ) { } N i i C C = 1 ,
1 1
o ( ) ( )

=
=
i
j
j I i C
1
1 1


Et ( ) { } N i i C C = 1 ,
2 2
o ( ) ( )

=
=
i
j
j I i C
1
2 2


2.3.3.5 Distance quadratique gnralise
La prise en compte de la corrlation des classes d'attributs de la distribution statistique est
une solution permettant d'augmenter la robustesse de l'appariement des images. La distance
quadratique gnralise prend en compte ces corrlations par l'introduction d'une matrice de
pondration A = [ ]
ij
a sur les diffrentes classes :

( ) ( ) ( )
2 1 2 1 2 1
, I I A I I I I d
T
Q
=


Le terme
ij
a est interprt comme une similarit entre les deux classes d'attributs indices
par i et j. Pour des histogrammes couleur, la matrice A peut tre construite de telle sorte que
les similarits inter-classes se rapprochent de la perception humaine des couleurs. Par
exemple, Hafner et al. [Hafner & al. 1995] utilisent :
( )
ij
d ij
ij
ij
d
a
max
1 =

O
ij
d est la distance euclidienne entre les classes de couleurs.

Chapitre 2. Recherche dimages fixes

- 38 -
2.3.4 Bouclage de pertinence

Le bouclage de pertinence (relevance feedback) a dabord t utilis sur les documents
textuels. Il est actuellement trs utilis dans le domaine de la recherche dimages par le
contenu. Car il permet lutilisateur de raffiner sa requte en fournissant au systme plusieurs
exemples de ce quil souhaite obtenir. Le bouclage de pertinence suppose que le jugement de
lutilisateur est plus pertinent que le jugement du systme. Cette technique est donc un moyen
dapporter de la smantique la recherche.

2.3.4.1 Principe

Le but de la recherche est de retrouver les images appartenant la catgorie recherche
par l'utilisateur. Le processus est dmarr par une requte, en gnral une image que prsente
l'utilisateur. Cette requte permet un premier classement des images en fonction de leur
pertinence, i.e. leur appartenance la catgorie recherche. L'utilisateur a la possibilit de
fournir des prcisions quant la catgorie qu'il recherche, par exemple sous la forme
d'annotations. A l'aide de ces prcisions, le systme peut calculer un nouveau classement et
prsenter de nouvelles images. L'utilisateur peut fournir de nouvelles annotations autant de
fois qu'il le souhaite, et chaque nouvelle mise jour le systme recalcule la pertinence des
images. Nous prsentons sur la figure 2.2 une architecture de bouclage de pertinence pour la
recherche de catgories d'images [Tong & Koller, 2001], [ Chang & al., 2003].














Chapitre 2. Recherche dimages fixes

- 39 -





















Figure 2.2 : Architecture du bouclage de pertinence


Deux tapes cls sont considrer au sein du schma du bouclage de pertinence :
- L'tape du Calcul des pertinences.
- l'tape de slection.

L'tape du Calcul des pertinences estime la pertinence de chaque image, i.e. la probabilit
d'appartenir la catgorie recherche. Il en rsulte un classement qui est prsent
l'utilisateur, qui peut choisir de terminer la session si il est satisfait, ou bien de poursuivre.
Dans le cas o l'utilisateur souhaite poursuivre sa session, le systme propose, lors de l'tape
de slection, des images que l'utilisateur peut annoter. Une fois les images annotes, le
systme utilise ces nouvelles informations pour calculer de nouvelles pertinences, et ainsi de
suite jusqu' la satisfaction de lutilisateur.

Une technique trs courante de slectionner les exemples est de demander l'utilisateur
d'annoter les images les plus pertinentes.


Initialisation
Calcul des
pertinences
Affichage
Rsultat
Fin
Satisfaction
Utilisateur ?
Slection
Affichage
Slection
Annotation
Utilisateur
Chapitre 2. Recherche dimages fixes

- 40 -
2.3.4.2 Annotation

La manire la plus simple d'annoter est de spcifier si une image appartient ou non la
catgorie recherche (annotation binaire). Nous dirons qu'une image est pertinente lorsqu'elle
appartient la catgorie recherche, et non pertinente dans le cas contraire.
L'annotation binaire peut sembler assez limite. En effet, certains chercheurs proposent
une annotation plus fine, par exemple une valeur entre 0 et 1 [Rui & Huang, 2000]. D'autres
chercheurs proposent une interface graphique o les images sont disposes dans le plan selon
leurs similarits [Rubner, 1999]. Les images les plus proches de la requte sont prsentes
l'utilisateur sous la forme d'une mosaque bidimensionnelle. L'objectif est de traduire
fidlement la notion de similarit existant au sein de l'espace de recherche. L'utilisateur peut,
l'aide de la souris, entourer l'ensemble des images qu'il juge pertinentes. D'autres chercheurs
proposent plusieurs formes de raffinement au sein de la mme interface [Caenen & al., 2000].
Trois fentres distinctes permettent l'utilisateur d'interagir avec le systme. Une premire
fentre affiche un chantillon de la base tir alatoirement, une deuxime affiche les images
annotes dans la premire, et une troisime affiche les images annotes dans un plan 2D.
Dans cette dernire fentre, l'utilisateur peut dplacer les images de manire rapprocher
celles qui sont dans la mme catgorie.

2.3.4.3 Typologie des mthodes de bouclage de pertinence
On distingue diffrentes mthodes de bouclage de pertinence :
1. Mthodes ad hoc issues de la recherche de documents
En recherche de documents, une stratgie consiste sintresser au concept de requte. La
requte est lobjet de la recherche, propose par lutilisateur. Par exemple, lorsque lutilisateur
fournit une image au systme, elle constitue alors sa requte initiale. Le but du systme est
alors de modifier cette requte en fonction des annotations de lutilisateur, de manire
retrouver ce quil recherche.
Lapproche la plus simple pour la mise jour de la requte consiste calculer une
nouvelle requte moyennant les signatures de lensemble des images pertinentes et de la
requte initiale. Cette technique, souvent dnomme query modification (QM) dans la
littrature, a t beaucoup utilise en indexation de documents, et a t introduite plus
rcemment en indexation dimages [Rui & al., 1997].
Chapitre 2. Recherche dimages fixes

- 41 -
2. Mthodes bases optimisation
Les mthodes bases optimisation, au mme titre que les mthodes ad hoc issues de la
recherche de documents, sintressent au concept de requte, laquelle elles ajoutent un
critre mathmatique minimiser [Huang & Zhou, 2001].
Ces techniques considrent la requte comme un point dancrage dans lespace de
recherche auquel une fonction de similarit permet de comparer nimporte quelle image. La
pertinence dune image est donc dtermine en fonction de la valeur renvoye par la fonction
de similarit, relativement limage requte.
Elles exploitent alors les annotations de lutilisateur pour modifier les paramtres de cette
fonction de similarit. Le problme est formul par une optimisation des paramtres de la
fonction sur un critre mathmatique. Par exemple [Peng & al., 1999] mesurent la pertinence
locale des attributs, estime partir dun critre de rduction de lerreur de classification
baysienne. Toujours dans le but doptimiser la fonction de similarit, [Doulamis &
Doulamis, 2001] minimisent lerreur quadratique moyenne sur les images annotes, ou
[Fournier & al., 2001] rtropropagent lerreur quadratique entre la similarit relle et la
similarit dsire.
3. Mthodes probabilistes
Dans le contexte des mthodes de recherche de cible, on trouve des techniques qui sont
lorigine dautres techniques de recherche de catgories. Par exemple, lapproche qui consiste
estimer la probabilit ( )
t
H x x p /
*
= pour chaque image x dtre limage cible
*
x , sachant les
informations H fournies par lutilisateur litration t. Lutilisateur fournit en gnral des
annotations relatives, i. e. cette image est plus pertinente que celle- ci. Lapproche repose
sur la loi de Bayes, qui permet destimer la probabilit dsire en fonction des itrations
prcdentes.
Le systme PicHunter [Cox & al., 2000] constitue le premier travail significatif sur les
modles bayesiens de bouclage de pertinence. Les hypothses simplificatrices faites pour leur
construction sont lorigine de travaux complmentaires. Muller et al. [Muller & al., 1999]
prennent en compte les changements de but de lutilisateur au cours de la recherche. Selon
eux, linformation renvoye par le bouclage de pertinence est bruite et parfois incohrente
dune itration lautre. La solution propose consiste pondrer les diffrents bouclages par
un degr de confiance favorisant linformation la plus rcente et la cohrence au sein des
Chapitre 2. Recherche dimages fixes

- 42 -
diverses comparaisons. Geman et Moquet [Geman & Moquet, 2000] considrent le bouclage
de pertinence plus comme un processus alatoire que bruit. Ils remettent ainsi en cause
lexistence et lutilisation dune mtrique unique pour la comparaison des images. Selon eux,
la mtrique dpend de la cible et des images que le systme propose lutilisateur. Le processus
de modlisation de la pertinence repose sur une squence de mtriques indpendantes
gnres alatoirement, correspondant des pondrations diffrentes sur les attributs.
4. Mthodes par classification
La recherche de catgories peut aussi tre vue comme un problme de classification
binaire, i.e. deux classes. La premire classe est celle des images recherches, appele classe
pertinente, et la deuxime classe est celle des images non recherches, appele classe non
pertinente. Le but est de construire une fonction capable de discriminer entre les images
pertinentes et les images non pertinentes. Compte tenu du fait que nous disposons exemples
sous la forme annotations binaires, nous rentrons dans le cadre de la classification
supervise. Les mthodes supervises sappuient sur un ensemble dapprentissage (les
exemples, ici nos annotations) pour entraner une fonction de classification (ou de
discrimination). La fonction est utilise pour dterminer la pertinence de chaque image de la
base.
En recherche dimages, diverses techniques issues de lapprentissage stastitique ont t
proposes, comme la classification par critre de Bayes [Vasconcelos, 2000], les k-Plus
Proches Voisins [Berrani & al., 2003], les Supports Vaste Marge (SVM) [Chang & al.,
2003][ Chapelle & al., 1999][Tong & Koller, 2001][ Saux, 2003], ou encore les mlanges de
gaussiennes [Najjar & al., 2003].
2.3.5 Quelques systmes de recherche dimages
Ces dernires annes, de nombreux systmes dindexation et de recherche dimages par le
contenu, ont vu le jour. La plupart des systmes de recherche par le contenu du mdia image,
permettent de naviguer au sein de la base dimages, et/ou deffectuer des recherches par
lexemple (slection dobjets ou dimages recherchs), dexprimer des requtes au moyen
dune interface graphique conviviale et adquate, et enfin de dfinir des requtes combinant
des caractristiques textuelles et visuelles. Quelques systmes sont prsents ci-aprs.

Chapitre 2. Recherche dimages fixes

- 43 -
2.3.5.1 Chabot
Au Dpartement des Ressources en Eau de Californie, le projet Chabot a t conu pour
tudier le stockage, et la recherche dans de trs grandes banques dimages [Ogle & al., 1995].
Le systme Chabot sappuie sur lexistant, les images taient accompagnes de vastes mta-
donnes (numro du CD, date, catgorie, sujet, etc.). Lobjectif de Chabot est dintgrer et de
stocker un nombre important de donnes, dtre simple utiliser et dautoriser des requtes
dites flexibles . Les requtes peuvent tre du type : Trouver une image dun coucher de
soleil pris prs de San Francisco en 1994 . Pour ce genre de requte, le systme doit
rechercher dans des types de donnes multiples comme la localisation (San Francisco), le
temps (1994) et le contenu (coucher de soleil). Il propose aussi de stocker les histogrammes
de couleur dans une base de donnes relationnelle.
2.3.5.2 QBIC
QBIC [Flickner & al., 1995][Niblack & al., 1994] a t le premier systme commercial de
recherche dimages par le contenu. Lutilisateur peut effectuer des recherches par lexemple
ou dessiner et esquisser les objets recherchs. Les images y sont caractrises en termes de
couleurs (couleur moyenne, histogramme de couleurs), de textures (grossiret, contraste,
directionnalit) et de formes (un ensemble de moments, circularit, surface). Les requtes
peuvent porter sur des informations textuelles et visuelles. La similarit est estime au moyen
de la distance quadratique pour lhistogramme et au moyen de la distance euclidienne
pondre pour les autres proprits. QBIC intgre galement le mdia vido qui prsente de
grandes similitudes avec les images.
2.3.5.3 VisualSeek
VisualSeek [Smith & al., 1996][Smith & Chang, 1996 ] est un systme capable
deffectuer des recherches sur des images et des vidos. Il sappuie sur plusieurs
fonctionnalits : extraction automatique des caractristiques et des rgions de limage,
extraction partir de donnes compresses, recherche sur la forme et sur les informations
spatiales (positionnement des rgions sur limage), indexation et recherche rapide
(dveloppement dalgorithmes spcifiques) et des outils utilisateurs conviviaux. Il reprsente
la couleur grce aux ensembles de couleurs et la texture au moyen dune transforme en
ondelettes.
Chapitre 2. Recherche dimages fixes

- 44 -
2.3.5.4 MARS
Le systme MARS (Multimedia Analysis and Retrieval Systerri) [Rui, 1997] est un des
premiers systmes de recherche dimages par le contenu utiliser le bouclage de pertinence.
Les images sont segmentes en blocs par une grille de 5 x 5. De chaque bloc, sont ensuite
extraits des descripteurs de couleur et de texture (ondelettes). Le systme propose de retrouver
et dordonner les rsultats laide dun modle boolen. Il nutilise pas dinformation
textuelle.
2.3.5.5 IMAGEROVER
Le systme IMAGEROVER. [Sclaroff & al., 1997][Lacascia & al., 1998] a pour objectif
de combiner les informations textuelles dune page web avec le contenu visuel des images.
Dans ce systme, chaque image est indexe par un vecteur global concatnant les vecteurs
visuels (rduits par ACP) et textuels (rduits dans lespace latent). Ce systme sera dcrit plus
en dtail dans le chapitre suivant.
2.3.5.6 SurfImage
SurfImage [Nastar & al., 1998] est un systme flexible de recherches dimages par le
contenu. Il est capable dutiliser plusieurs techniques de codage et de recherche des images de
la base. Il se base principalement sur la recherche par lexemple. Les caractristiques utilises
sont la couleur (histogrammes de couleurs), la forme (transforme en ondelettes et de
Fourier), la texture (matrice de cooccurrence). Il met en oeuvre le principe de retour de
pertinence en demandant lutilisateur de slectionner les images valides et non valides
chaque itration.
2.3.5.7 IKONA
Le systme IKONA [Boujemaa & al., 2001] fait suite au systme SurfImage [Nastar &
al., 1998] du groupe IMEDIA dunit INRIA-Rocquencourt. Ce systme propose de
rechercher des images par similarit visuelle (couleur, texture, forme). Il propose galement
des recherches par slection de rgions, et dutiliser le bouclage de pertinence.


Chapitre 2. Recherche dimages fixes

- 45 -
2.3.5.8 PicSOM
Le systme PicSOM [Laaksonen & al., 2002] utilise des cartes auto-organisatrices (Self
Organising Map) pour classer les images. Il fournit en plus un grand nombre doutils pour la
classification et la recherche dimages par le contenu.

2.4 Conclusion
Dans ce chapitre nous avons dress un tat de lart sur la recherche dimages fixes, les
systmes textuels de recherche dimages sont peu efficaces, car ils effectuent leurs recherches
sur le texte associ aux images o les mots cls peuvent tre ambigus. Dun autre ct, Les
mthodes de recherche dimages bases seulement sur les descripteurs visuels ne sont pas
efficaces car elles prsentent encore un certain nombre de faiblesses, notamment le foss
smantique qui existe entre les proprits visuelles extraites et les concepts utilisateurs.
Lintroduction des techniques de bouclage de pertinence dans la recherche dimages
permet damlior la recherche ainsi permet de rajouter dans une certaine mesure de la
smantique au recherche dimages par le contenu visuel.
Afin de pallier les faiblesses des deux approches de recherche dimages fixes, les
systmes qui combinent les informations textuelles et visuelles font lobjet de plusieurs
travaux rcents. Pour plus de dtails, nous prsentons dans le troisime chapitre un tat de
lart sur la combinaison texte image.

- 46 -



3.1 Introduction
La recherche dimage sur de grandes masses de donnes ncessite des outils pour dune
part extraire efficacement des descripteurs significatifs, et dautre part retrouver les images
pertinentes, les systmes actuels permettent des recherches par mots cls comme les systmes
de recherche dinformations textuelles, ou bien par une image requte ressemblant aux images
que lon cherche.
Linformation fournie par le niveau numrique (descripteurs visuels) et celle fournie par
le niveau smantique (mots-cls) apportent toutes les deux une information complmentaire :
linformation visuelle indique le contenu de limage, linformation textuelle indique les sens
possibles pour ce contenu.
Dans ce chapitre, tout dabord, nous tudions les modles permettant la combinaison de
linformation textuelle et visuelle des documents dans lobjectif dannotation automatique
dimage, de lannotation dune rgion dimage avec un seul descripteur, et aussi pour la
recherche dimages. Ensuite, pour mesurer la qualit dun modle, nous dcrivons quelques
mesures de performances. Enfin, nous terminons par une discussion sur les modles de ltat
de lart.
Avant de dtailler ces diffrents points nous dfinissons lannotation automatique
dimages.
Lannotation automatique dimages consiste associer un groupe de mots qui dcrit le
contenu visuel de limage au moyen dun systme sans aucune intervention humaine.
Pour les modles probabilistes : lauto-annotation consiste estimer pour chaque mot
w la probabilit :
- ( ) b w p o b reprsente linformation connue sur le blob (par exemple, le vecteur
dcrivant le contenu visuel du blob) pour un modle de correspondance.
Chapitre 3. La combinaison texte image
- 47 -
- ou ( ) d w p o d reprsente linformation connue sur limage (par exemple,
lensemble
d
B des vecteurs de limage) pour un modle dauto annotation dimages.

3.2 Les modles combinant linformation textuelle et visuelle
3.2.1 LSA : un modle par analyse de la smantique latente
Utilis tout dabord pour lanalyse de grand corpus de textes, LSA [Deerwester et al,
1990] pour Latent Semantic Analysis ou analyse de la smantique latente, est une technique
statistique automatique pour extraire et infrer des relations entre mots partir de leurs
contextes.

Principe de LSA
Le sens dun mot peut tre dfini statistiquement partir de lensemble des contextes
(phrases, paragraphes, textes) dans lesquels ce mot apparat. Par exemple le mot autobus sera
souvent conjointement associ dmarrer, route, gare routire, et rarement fleur, barbecue.
Cependant, le contexte du mot nest pas suffisant pour en dfinir le sens, car il ne dit rien sur
les mots qui napparaissent jamais ensemble. Par exemple, si les mots autobus et autocar
napparaisse jamais ensemble, nous navons aucune information sur les liens smantiques
entre ces mots. Or autocar doit tre considr comme proche de autobus car tout les deux
sont cooccurrents avec les mmes mots. Ce sont donc des enchanements de liens de
cooccurrences plusieurs niveaux qui permettent une reprsentation correcte du sens des
mots. Pour rsoudre cette difficult, LSA construit une matrice de cooccurrence, constitue du
nombre dapparitions de chaque mot dans chaque contexte, sans tenir compte de leur ordre.
Cette matrice est ensuite rduite laide dune dcomposition en valeur singulire (SVD)
afin de capturer dans une certaine mesure les relations entre les mots et les documents et en
esprant que les mots ayant un sens voisin (en particulier les synonymes) auront la mme
direction dans le nouveau sous espace.
En rsum, le fonctionnement de LSA est bas sur deux principes :
1- le sens dun mot peut tre dfini statistiquement partir de lensemble des contextes.
2- Deux mots sont similaires sils apparaissent dans des contextes similaires. Il rsout
dans une certaine mesure les problmes suivants :
Synonymie : deux mots ayant le mme contexte seront proches dans lespace latent.
Chapitre 3. La combinaison texte image
- 48 -
Ambigut : plusieurs documents possdant le mme mot, mais dans des sens diffrents,
nauront pas le mme contexte et seront donc loigns dans lespace latent.
Absence : mme si un mot est absent dun document sur le mme thme, les deux seront
proches dans lespace latent car ils ont le mme contexte.
Indexer et rechercher avec LSA
Le modle dindexation associ LSA est LSI (Latent Semantic Indexing) que nous
avons dvelopp dans le chapitre 1 page (18).

3.2.2 PLSA : un modle probabiliste

Le modle PLSA est un modle probabiliste propos par [Hofmann, 2001], driv du
modle Aspect modle [Hofmann, 1999].

Aspect model est un modle probabiliste qui associe une variable de classe
latente z { }
r
z z z Z ,..., ,
2 1
= pour chaque observation (une observation est loccurrence
dun mot dans un document).
Ce modle a le processus gnratif suivant :
1- Un document D d
i
est choisit selon la probabilit ( )
i
d p .
2- une classe latente Z z
k
est choisit selon la probabilit ( )
i k
d z p .
3- Un mot W w
j
est choisit selon la probabilit ) (
k j
z w p .

La probabilit jointe sur W D est dfinit par :

( ) ( ) ( )
i j i i j
d w p d p d w p =
,
, Tel que : ( ) ( ) ( )
i k
Z z
k j i j
d z p z w p d w p
k


=

PLSA Contrairement LSA qui utilise une table de cooccurrences terme_ document ;
PLSA ncessite une table de probabilit jointe. Soit P la matrice de taille
D W
n n dont
chaque case contient la probabilit ( )
i j
d w p , de cooccurrences du mot
j
w et du
document
i
d . On peut dfinir une variable z { }
r
z z z Z ,..., ,
2 1
= de classe non observe
telles que :
( )
k j k j
z w p W =
,
[ ]
r n
w
W

1 , 0
Chapitre 3. La combinaison texte image
- 49 -
( )
k k k
z p =
,
[ ]
r r
1 , 0 ( )
r r
diag
, 2 , 1 1 , 1
,..., , =
( )
k i k i
z d p D =
,
[ ]
r n
D
D

1 , 0
Si lon suppose que w et d sont indpendant conditionnellement z, on a la relation suivante :
t
D W p =
Et qui revient une SVD sur la matrice P, la matrice donne les probabilits des diffrentes
classes et les matrices W et D effectuent un classement des mots et des documents dans les
classes.
Un modle de probabilit jointe sur W D est obtenu en marginalisant sur les classes ( )
k
z :
( ) ( ) ( )
i j i i j
d w p d p d w p = ,
( ) ( ) ( )
i k
Z z
k j i
d z p z w p d p
k

=
La version symtrique du modle peut tre obtenu en inversant la probabilit conditionnelle
( )
i k
d z p en appliquant la rgle de Bayes :
( ) ( ) ( ) ( )
k i k j
Z z
k i j
z d p z w p z p d w p
k

= ,
On peut interprter chaque classe
k
z comme un concept. Chaque mot est gnr par un
concept. Un document est associ plusieurs concepts. Les mots sont supposs tre gnrs
par un mlange de distributions multinomiales. Les documents sont les documents
dapprentissage.
La figure 3.1 donne une reprsentation graphique de ce modle :






Figure 3.1 Le modle graphique de PLSA

Les paramtres du modle PLSA sont obtenus laide de lalgorithme EM (Expectation
Maximization) sur un ensemble dapprentissage en maximisant la vraisemblance des donnes.


W Z D
( )
i
d p ( )
i k
d z p
( )
k j
z w p
Chapitre 3. La combinaison texte image
- 50 -
Pour annoter un nouveau document
new
d , on calcul la probabilit a posteriori davoir un mot
donn sachant que lon connat
new
d :
( ) ( ) ( )
new k k j new j
d z p z w p d w p =

Le modle PLSA ne fournit pas de modle probabiliste au niveau du document :
Chaque document est reprsent par la proportion de chaque concept dans le document de la
base dapprentissage. Ce qui conduit deux problmes :
- Le nombre de paramtres du modle augmente en fonction de la taille du corpus,
- On ne peut pas connatre les proportions des concepts pour un nouveau document.

Lavantage dutiliser PLSA plutt que LSA est que PLSA peut utiliser les travaux raliss en
probabilit pour interprter les rsultats. Par contre LSA permet des calculs exacts
contrairement PLSA qui utilise lalgorithme EM. Les documents utiliss dans les deux
modles sont les documents dapprentissage.

Utilisation du modle LSA et PLSA en recherche dimages

Dans [Lacascia et al, 1998], un premier systme de recherche dimage sur le web utilisant
le modle LSA appel ImageRover est propos, a pour objectif de combiner les informations
textuelles dune page web avec le contenu visuel des images. Pour les attributs visuels des
histogrammes de couleurs et de textures sont extraits, ImageRover intgre aussi des
caractristiques textuelles pour mieux exprimer le contenu smantique de limage.
Pour chaque image dune page web (document HTML) un vecteur de mots est cre, en
fonction de leurs frquences doccurrences dans la page web. Le systme assigne des poids
diffrents aux mots par exemple les mots dans le titre ou dans les champs ALT et IMG sont
pondrs plus fortement, en plus les poids associs aux mots qui apparaissent avant ou aprs
une image sont calculs en fonction de leurs positions par rapport limage et aussi leurs
distance de limage.

Chaque image est finalement indexe par un vecteur global concatnant les vecteurs
visuels et textuels .Une matrice terme-image est construite, puis dcompose par SVD. La
recherche dimage revient alors une recherche par plus proche voisin. Lutilisateur peut
raliser une requte par mots-cls, transforme par le systme en un document-requte, la
Chapitre 3. La combinaison texte image
- 51 -
recherche par plus proche voisin est effectue dans lespace textuel latent, il peut aussi choisir
plusieurs images-requtes. Les deux types de requtes pouvant tre combines et raffines par
le bouclage de pertinence.

Des expriences montrent que la mthode par combinaison de texte et dimage avec
bouclage de pertinence est plus efficace que la mthode de recherche par mots-cls seuls, ou
par mots-cls et bouclage de pertinence, et par contenu visuel et bouclage de pertinence,
cependant, comme LSI est utilis seulement sur le texte, le modle nest pas capable de
trouver les cooccurrences entre les traits visuels et les mots.

Dans [Monay et al, 2003], LSA et PLSA sont utilises pour construire un systme dauto
annotation. dans leur modles LSA et PLSA-MIXED,chaque image de la base
dapprentissage est reprsente par un vecteur concatnant un vecteur textuel de 149
dimensions et un vecteur de couleur RVB de 648 dimensions. Les expriences quils ont
menes montre que dans leurs cas, le modle LSA est meilleur que le modle PLSA-
MIXED. Ils supposent dans [Monay et al, 2004] que la raison du mauvais score de PLSA
MIXED et que les deux modalits (textuelle et visuelle) sont dfinies dans PLSA MIXED
avec la mme importance lors de la dfinition de lespace latent. Or la modalit visuelle
contient moins dinformation smantique .cest pourquoi ils proposent dans [Monay et al,
2004] de construire un espace latent pour chacune des modalits, ce modle PLSA-WORDS
est construit ainsi :

1. Les probabilits ( ) z w p et ( ) d z p sont apprises uniquement sur les mots cls des images ;
2. Un deuxime modle PLSA est appris sur des traits visuels pour ( ) z v p mais en gardant la
probabilit ( ) d z p apprise sur les mots cls ;
3. soit une nouvelle image
new
d que lon veut annoter (on connat seulement les paramtres
visuels), on peut estimer ( ) d z p laide de la probabilit ( ) z v p calcul en (2) et de
lalgorithme EM.
4. la probabilit a posteriori des mots cls pour limage
new
d est infre par :
( ) ( ) ( )
new k
Z z
k new
d z p z w p d w p
k
=

.
Les rsultats obtenus avec PLSA -WORD sont meilleurs que LSA et PLSA-MIXED comme
le montre le tableau 3.1 ci_dessous, Le modle PLSA peut donc tre meilleure que LSA. La
Chapitre 3. La combinaison texte image
- 52 -
mesure de performance utilise pour la comparaison est NS (Normalised score) moyen qui
sera dcrite dans la section (mesures de performance).

Mthode LSA PLSA-MIXED PLSA-WORDS
NS
moy
0.540 0.473 0.571

Tableau 3.1 : Comparaison des NS moyens des modles LSA, PLSA-MIXED et PLSA-WORDS

3.2.3 Modles Multi-Modals Hierarchical Aspect Models (MOM-HAM)
[Barnard et al, 2003] proposent plusieurs modles gnrateurs bass sur une structure
hirarchique et sur deux principes :
- les documents sont regroups dans des classes (mlange horizontal).
- Un arbre hirarchique la structure fixe, regroupe les classes (feuilles de larbre) en
fonction de leur proximits de concepts (composants verticales).
La donne dune classe et dun niveau de larbre dfinie un nud. Chaque nud a une
certaine probabilit dmettre chaque descripteur textuel ou visuel. Chaque classe est associe
un chemin de la feuille vers la racine. La structure hirarchique ajoute permet de mieux
capturer la smantique qun modle non hirarchique. En allant du plus spcifique (feuilles
de larbre) au plus gnral (racine de larbre). Les mots et les segments visuels trs rcurrent
seront en haut de larbre, tandis que les plus spcifiques seront en bas de larbre. De plus, elle
permet un meilleur parcours (browsing) des images, et une reprsentation plus compacte. La
figure 3.2 montre un exemple de cette structure. Ces modles considrent deux variables
latentes lensemble des classes C et lensemble des niveaux de larbre L









Figure 3.2 Exemple de structure hirarchique
4 1 1
c l
N

2 ; 1 2
,c l
N
1 3
,C l
N
C
1
C
2
C
3
C
4
2 3
,C l
N
3 3
,C l
N
4 3
,C l
N
4 , 3 2
,c l
N
Chapitre 3. La combinaison texte image
- 53 -
Modle gnrateur
Lensemble des valeurs des descripteurs (textuels et visuels)
d d d
W B F = dun
document bimodal d dune classe c donne est gnr par les noeuds situs au dessus de la
classe dans la hirarchie, par un terme de la forme :
( )

(


f L l
p c l f p ,

O f reprsente un descripteur visuel ou bien un mot de d et P est un poids vertical qui
traduit les dpendances de chaque niveau. Prenant en compte toutes les classes, un document
est modlis par une somme sur toutes les classes pondre par la probabilit a priori p(c)
quun document soit dans la classe. Pour gnrer lensemble des descripteurs
d
F associs
une image d, tous les modles utilisent :
( ) ( ) ( ) ( )
d
B
d
B
d
d
W
d
W
d
n
n
B b L l
n
n
C c W w L l
d
p c l b p p c l w p c p d F p
max max
2 1
, ,


(

=
O
1
p et
2
p sont estims, en fonction du modle, par :

1
p et
2
p
Modle I-0
( ) d l p p p = =
2 1

Modle I-1 ( ) d c l p p p ,
2 1
= =
Modle I-2 ( ) c l p p p = =
2 1

Modle D-0
( ) d c B l p p
d
, ,
1
= ( ) d l p p =
2

Modle D-1
( ) d c B l p p
d
, ,
1
=
( ) d c l p p ,
2
=
Modle D-2
( ) d c B l p p
d
, ,
1
=
( ) l p p =
2


d
W
n (respectivement
d
B
n )sont le nombre de mots (respectivement de blobs) de limage d, et
max d
W
n (respectivement
max d
B
n ) sont le nombre de mots (respectivement de blobs) maximal
possible dune image d. Lutilisation des exposants
d
d
W
W
n
n
max
et
d
d
B
B
n
n
max
permet de normaliser les
valeurs obtenues afin que des images dcrites par un nombre de mots ou de blobs diffrents
soient comparables. Par exemple, une image dcrite avec le mot sun sera comparable une
image dcrite avec les mots sun et clouds, car la probabilit du mot sun dans la premire
image sera double.

Chapitre 3. La combinaison texte image
- 54 -
Pour estimer la probabilit ( ) c l w p , dmettre le mot w connaissant la structure hirarchique,
une distribution multiriomiale base sur la table des frquences des mots est utilise. La
probabilit ( ) c l b p , dmettre une instance de lespace visuel est estime par une distribution
gaussienne ( ) c l b p , ~ ( )
l c l c
N
, ,
, . Les paramtres
l c,
et
l c,
des distributions gaussiennes
sont estims en utilisant lalgorithme classique EM.

3.2.3.1 Modles I-0, I-1 et I-2
Pour les modles I-0, I-1, I-2 (I pour indpendant), les mots et les descripteurs visuels
sont supposs conditionnellement indpendants. Les poids du mlange vertical sont estims
par EM. Pour le modle I-0 conditionnellement aux donnes dapprentissage, pour le modle
I-1 conditionnellement aux donnes dapprentissage mais aussi aux classes, tandis que pour le
modle I-2 lestimation est en fonction de la classe.
Remarquons que les modles I-0 et I-1 sont dpendants des donnes dapprentissages. Ils sont
donc efficaces pour les applications de type recherche de documents, mais pas pour les
applications sur des donnes hors de la base dapprentissage. Le modle I-2 nest pas
dpendant de d, on peut donc crire pour ce modle ( ) ( )
d d
F p d F p = .

3.2.3.2 Modles D-0, D-1 et D-2
Les modles D-0, D-1 et D-2 sont construits de telles sortes que les informations
textuelles et visuelles soient dpendantes (do le D dans le nom des modles). Plus
exactement la distribution de tous les mots du document est exprime en fonction de la
distribution des blobs. Pour cela, la probabilit ( ) d c B l p
d
, , est utilise la place de ( ) d l p .
( ) d c B l p
d
, , est dfinie ainsi :
( ) d c B l p
d
, , ( )

d
B b
d c b l p , ,
( ) d c B l p
d
, , est prfre ( ) d B l p
d
, car cela permet de prendre en compte les classes dans la
distribution. ( ) d c B l p
d
, , permet de prendre en compte (de manire asymtrique) la
distribution des mots dans les classes en fonction de la distributions des vecteurs visuels des
blobs de d. Les auteurs de [Barnard et al, 2003] esprent ainsi capturer des liens entre les
deux informations. Les variantes entre les modles D-0, D-1 et D-2 sexpliquent en fonction
des dpendances des poids des mlanges pour le modle D-0 en fonction de la dpendance
Chapitre 3. La combinaison texte image
- 55 -
lensemble dapprentissage, pour le modle D-1 lensemble dapprentissage et aux classes,
et pour le modle D-2 sans dpendance.
Auto annotation
La probabilit quun mot puisse tre mis par un document est calcule comme la
probabilit dmettre w connaissant lensemble des blobs
d
B de limage d :
( ) ( )
d d
B w p B w p ,
( ) ( ) ( ) c B p c w p c p
d
C c

=
( ) ( ) ( )
d
B
d
B
d
n
n
B b L l L l C c
p c l b p p c l w p c p
max
2 1
, ,


(

=

O
1
p et
2
p sont estims, en fonction du modle.

Recherche dinformation
Pour permettre les requtes de type texte seul, visuel seul, ou texte et visuel, la capacit
gnratrice du modle est utilise. Pour rechercher les images correspondant une requte, la
probabilit de chaque image d dmettre la requte q (compose dlments textuels et ou
visuels) est estime par :
( ) ( ) ( ) d c p d c q p d q p
C c

= ,
( ) ( ) ( ) d c p d c l p c l q p
C c q f L l


(

= , ,

Les rsultats dannotation

Dans [Barnard et al, 2003] de trs nombreuses expriences sont proposes : des
expriences sont ralises sur des modles structure unaire (linear) possdent une classe et
500 nuds et des expriences structure binaire (binary) possde 9 niveaux, soient 511
noeuds. La distribution a priori des classes p (c) peut tre estimer directement (expriences
region-only) ou bien tre remplace par ( )
d
B c p la distribution de la classe connaissant les
Chapitre 3. La combinaison texte image
- 56 -
distribution des blobs (expriences region-cluster) .de mme, pour les poids des composants
verticaux (les nivaux), ( ) d l p peut tre estims en ne prenant en compte que linformation
visuelle ( )
d
B l p (experience doc-vert) ou un mlange des distributions textuelles et visuelles
des clusters (exprience ave-vert).
Les modles structure unaire ou binaire donne des rsultats similaires, les expriences doc-
vert, ave-vert et region-only donnent en gnrale des rsultats lgrement infrieurs
lexprience region-cluster. Les expriences I-2 et D-2 donne des rsultats meilleurs que les
expriences I-0 et D-0.

3.2.4 Les modles fonds sur la distribution de Dirichlet
La distribution de Dirichlet estime le vecteur de probabilit { }
r
d
p p p ,..., ,
2 1
= o
j
p est
la probabilit que le concept (appel aussi classe cache ou latente)
j
z soit dans le document
d, en fonction du nombre doccurrences
j
de chaque concept dans le document.

3.2.4.1 Modle Latent Dirichlet Allocation (LDA)
Le modle Latent Dirichlet Allocation (LDA) [Blie et al ,2003] utilise la distribution de
Dirichlet, est un modle probabiliste gnratif dun corpus de donnes discrtes, comme par
exemple les corpus de textes. Cest un modle qui suppose que les mots et les concepts sont
interchangeables. Chaque document du corpus est modlis comme un mlange de concepts.
Dans ce modle les documents sont reprsents par un mlange de concepts latents, chaque
concept tant caractris par une distribution de mots.
Pour chaque document d, le modle LDA a le processus gnratif suivant :
1. Le nombre de mots dans le document
d
w
n est suppos distribuer selon une loi de
poisson ( )
d
w
n p ~ ( ) poisson
2. choisir les proportions des concepts
d
dans le document d selon ( ) p ~ ( ) dir
3. pour { }
d
w
n j ,..., 2 , 1 :
a. choisir un concept
j
z parmi { } r ,..., 2 , 1 selon ( )
d d
z p ~ ( )
d
mult
b. on suppose que
j
w est choisi dans
d
W selon ( )
r j
d
z W p
: 1
, ~ ( )
j
z
mult
La figure 3.3 donne le modle graphique du modle LDA :
Chapitre 3. La combinaison texte image
- 57 -

Figure 3.3 Le modle graphique de LDA.

Le nombre r de concepts est suppos connu et fixe priori (et donc le nombre de valeurs que
peut prendre
d
Z ). On remarque que la structure trois niveaux permet dassocier plusieurs
concepts un document. Les mots sont gnrs par les concepts. Les probabilits des mots
sont paramtres par une matrice
r : 1
de dimension
w
n r o ( ) k z j w p
j k
= = =
;
est la
quantit fixe estimer. Les paramtres et
r : 1
sont appris une seule fois lors du processus
gnratif du corpus. Les valeurs
d
sont apprises une seule fois pour chaque document. Les
valeurs
j
z et
j
w sont apprises une seule fois pour chaque mot de chaque document.

Connaissant les paramtres et
r : 1
, la probabilit jointe entre la proportion de concept
d
,
un ensemble Z de
w
n concepts et un ensemble W de
w
n mots est :
( ) ( ) ( ) ( )
r j j
n
j
d
j
d
r n n
d
z w p z p p w z p
w
w w
: 1
1
: 1 : 1 : 1
, , , ,

=
=
O ( )
d
j
z p est simplement la probabilit
j
z
p davoir le concept
j
z et ( )
r j j
z w p
: 1
, est
j
z
la valeur de pour le concept
j
z .
La distribution des mots pour un document d donn, c'est--dire lindexation du document,
est obtenue par :
( ) ( ) ( ) ( )
d
n
j
r
z
r j j j
d
r n
d z w p z p p w p
d
w
j
w

|
|

\
|
=

= = 1 1
: 1 : 1 : 1
, ,
Le modle LDA peut tre vu comme une technique de rduction de dimensions dans
lesprit de la LSA , mais le modle LDA rduit lespace r concepts qui ont un sens par
rapport aux donnes sur lesquelles elle travaille [Tollari, 2006]. Un des avantages du modle
LDA est sa modularit et son extensibilit en dautres modles appliqus des documents
visio_textuels tels que le modle GM-LDA, MOM-LDA et Corr_LDA mais avant de voir ces
modles nous allons dabord voir le modle GM-Mixture qui nutilise pas le modle LDA
Chapitre 3. La combinaison texte image
- 58 -
mais nous le dcrivons pour comprendre le fonctionnement des modles utilisant le modle
LDA.

3.2.4.2 Modle Gaussian Multinomial Mixture (GM-Mixture)
Le modle GM-Mixture est un modle simple de mlange [Blie, 2004] [Barnard et al,
2003].dans ce modle une seule variable alatoire Z, et donc une seule composante z, est
utilise pour reprsenter les liens entre une image est sa lgende. Il y a donc une
correspondance totale (associativit) entre les blobs et la lgende dune image. Les donnes
sont supposes tre gnr par r composantes.

Processus gnrateur
Le modle GM-Mixture r dimensions construit une annotation visio-textuelle pour une
image d par le processus gnratif suivant :
1. choisir une valeur z parmi { } r ,..., 2 , 1 selon ( ) z p ~ ( ) mult
2. pour chaque blob b de limage on suppose que les traits visuels de b sont choisis selon
( )
r r
d
z B p
: 1 , : 1
, ~ ( )
z z
N ,
3. pour chaque mots w de limage on suppose que w est choisi selon ( )
r
d
z W p
: 1
, ~
( )
z
mult
La figure 3.4 montre le modle graphique du GM-Mixture :

Figure 3.4 Le modle graphique de GM-Mixture.

Modle gnrateur dune image
La distribution jointe entre les variables latentes et les variables observes est :
Chapitre 3. La combinaison texte image
- 59 -
( ) ( ) ( ) ( ). , , , , , , , ,
: 1 : 1 : 1 : 1 : 1 : 1

=
d d
W w
r
b
r r r r r
d d
z w p z b p z p W B z p
B

Les paramtres du modle ,
r : 1
,
r : 1
,
r : 1
peuvent tre estimer laide de lalgorithme
EM. On obtient alors un ensemble de distribution gaussiennes de traits visuels et de
distributions multinomiales des mots qui dcrivent r classes visio-textuelles. Comme chaque
annotation visio-taxtuelle est suppose gnre par la mme classe, une image qui a une forte
probabilit davoir une certaine distribution gaussienne aura une forte probabilit davoir la
distribution multinomiale correspondante.

Probabilit jointe
La probabilit jointe entre les blobs et les mots dune image est obtenue en marginalisant
sur la variable latente :
( ) ( )

=
=
r
z
r r r
d d
r r r
d d
W B z p W B p
1
: 1 : 1 : 1 : 1 : 1 : 1
, , , , , , , , ,

Auto annotation
La distribution conditionnelle des mots connaissant les blobs de limages est obtenue en
marginalisant sur la variable latente et en conditionnant sur les blobs de limage :
( ) ( ) ( )
r
r
z
r r r
d
r r r
d
z w p B z p B w p
: 1
1
: 1 : 1 : 1 : 1 : 1 : 1
, , , , , , , ,

=
=
O la probabilit a posteriori de z est obtenue par la rgle de bayes :
( )
r r r
d
B z p
: 1 : 1 : 1
, , , , ( ) ( )
r r
d
z B p z p
: 1 : 1
, ,

3.2.4.3 Modle Gaussian-Multinomial LDA (GM-LDA)
Le modle GM-LDA [Blie, 2004] tend le modle GM-Mixture.

Processus gnrateur
Un modle GM-LDA r composantes construit une annotation visuo-textuelle par le
processus gnratif suivant :
1. Choisir les proportions selon ( ) p ~ ( ) Dir
Chapitre 3. La combinaison texte image
- 60 -
2. Pour { }
d
B
n p ,..., 2 , 1 :
(a) Choisir une composante
p
z parmi { } r ,..., 2 , 1 selon ( )
d d
Z p ~ ( )
d
Mult
(b) Choisir le vecteur visuel
p
b selon ( )
r r p
d
z B p
: 1 : 1
, , ~ ( )
p p
z z
N ,
3. Pour { }
d
W
n j ,..., 2 , 1 :
(a) Choisir une composante
j
y parmi { } r ,..., 2 , 1 selon ( )
d d
Y p ~ ( )
d
Mult
(b) Choisir un mot
j
w selon ( )
r j
d
y W p
: 1
, ~ ( )
j
y
mult

La figure 3.5 montre le modle graphique de ce processus :

Figure 3.5 Le modle graphique de GM-LDA.

Modle gnrateur dune image
Connaissant les paramtres ,
r : 1
,
r : 1
et
r : 1
la probabilit jointe entre les proportions
d
de concepts, lensemble
d
Z des
d
B
n concepts associs aux blobs, lensemble
d
B des
d
B
n concepts associs aux blobs, lensemble
d
Y des
d
W
n concepts associs aux mots et
lensemble
d
W de
d
W
n mots pour une image d donne est :

( )
r r r
d d d d d
Y Z W B p
: 1 : 1 : 1
, , , , , , , =
( ) ( ) ( ) ( ) ( )
|
|

\
|
|
|

\
|

= =
r j j
n
j
d
j
n
p
r r p p
d
p
d
y w p y p z b p z p p
d
W
d
B
: 1
1 1
: 1 : 1
, , ,
Les composantes
d
B
n
z
: 1
et
d
W
n
y
: 1
qui gnrent respectivement les blobs et les mots ne sont pas
dpendantes conditionnellement
d
.

Chapitre 3. La combinaison texte image
- 61 -
3.2.4.3 Modle mixture of Multi-Modal LDA (MOM-LDA)
Le modle MOM-LDA [Barnard et al, 2003] se diffrencie des modles LDA prsents
prcdemment par lajout dun mlange dlments multimodaux G
G
n composantes, ainsi
que de conditions sur les distributions des blobs et des mots des images.
Processus gnratif
Ce modle suppose que les images et leurs lgendes sont gnres par le processus
gnratif suivant :
1- choisir une composante g du mlange parmi { }
G
n ,..., 2 , 1 selon ( ) n G p ~ ( ) n Multi .
2- Connaissant la composante g considre, choisir les proportions
d
selon ( )
g
g p , ~
( )
g
Dir .
3- Pour { }
d
B
n p ,..., 2 , 1 :
(a) Choisir une composante
p
z parmi { } r ,..., 2 , 1 selon ( )
d d
Z p ~ ( )
d
Mult
(b) Choisir le vecteur visuel
p
b selon ( )
r r p
d
z g B p
: 1 : 1
, , , ~ ( )
p p
z z
N ,
3. Pour { }
d
W
n j ,..., 2 , 1 :
(a) Choisir une composante
j
y parmi { } r ,..., 2 , 1 selon ( )
d d
Y p ~ ( )
d
Mult
(b) Choisir un mot
j
w selon ( )
r j
d
y g W p
: 1
, , ~ ( )
j
y
mult .
La figure 3.6 montre le modle graphique de ce processus :

Figure 3.6 Le modle graphique de MOM-LDA
Les paramtres de ce modle sont : le vecteur
G
n
n
: 1
, les matrices r n
G
: ,
W G
n r n : ,
V G
n r n , : et
V G
n r n , : .

Chapitre 3. La combinaison texte image
- 62 -
Auto annotation
A partir dune image et dun modle MOM-LDA, nous pouvons calculer une
approximation des paramtres du mlange a posteriori note et pour chaque composante
dun mlange, une approximation des paramtres
g
de la distribution de Dirichlet, note
g
.
La distribution des mots connaissant les blobs dune image est :

( )
d
B w p = ( ) ( ) ( ) ( )
d
g
d d
r
y
n
g
d p y p y w p g p
G


= = 1 1

( ) ( )

=
=
=
=
r
y
r
y
gy
gy
n
g
y w p g p
G
1
1
1


Pour chaque image il faut donc recalculer les paramtres et .

3.2.4.5 Modle Correspondance LDA (Corr-LDA)
Tous les modles LDA prsents prcdemment considraient que les blobs et les mots
sont interchangeables, et peuvent donc tre gnrs dans nimporte quel ordre. Le modle
Corr-LDA prsent dans [Blie et al, 2003] propose une interchangeabilit partiel. Les blobs
sont gnrs dabord, et les mots ensuite. Ce modle peut donc prdire les mots des images
sans rordonner les composants multinomiaux de plus hauts niveaux.
Processus gnrateur
Le processus gnrateur de ce modle est :
1- choisir les proportions
d
selon ( ) p ~ ( )
g
Dir .
2- Pour { }
d
B
n p ,..., 2 , 1 :
(a) Choisir une composante
p
z parmi { } r ,..., 2 , 1 selon ( )
d d
Z p ~ ( )
d
Mult
(b) Choisir le vecteur visuel
p
b selon ( )
r r p
d
z B p
: 1 : 1
, , ~ ( )
p p
z z
N ,
3. Pour { }
d
W
n j ,..., 2 , 1 :
(a) Choisir une composante
j
y parmi { } r ,..., 2 , 1 selon une distribution uniforme ( )
d
B
d
n Y p ~
{ }
d
B
n unif ,..., 2 , 1 .
Chapitre 3. La combinaison texte image
- 63 -
(b) Choisir un mot
j
w selon ( )
r j
d
y W p
: 1
, ~ ( )
j
y
mult .

La figure 3.7 montre le modle graphique de ce processus :

Figure 3.7 Le modle graphique de Corr-LDA.

Modle gnrateur dune image
Connaissant les paramtres ,
r : 1
,
r : 1
et
r : 1
la probabilit jointe entre les proportions
d
de concepts, lensemble
d
Z des
d
B
n blobs, lensemble
d
B des
d
B
n concepts associs aux
blobs, lensemble
d
Y des
d
W
n concepts associs aux mots et lensemble
d
W de
d
W
n mots
pour une image d donne est :

( )
r r r
d d d d d
Y Z W B p
: 1 : 1 : 1
, , , , , , , =
( ) ( ) ( ) ( ) ( )
|
|

\
|
|
|

\
|

= =
r
d
j j
n
j
B
j
n
p
r r p p
d
p
d
Z y w p n y p z b p z p p
d
W
d
d
B
: 1
1 1
: 1 : 1
, , , ,

Recherche dimage par mots cls
Soit q ={ }
q
n
q q
q
w w w ,...., ,
2 1
une requte de mots cls. La probabilit davoir la requte
connaissant le blob
p
b est :
( ) ( )

=
=
q
n
j
p
q
j p
b w p b q p
1


Chapitre 3. La combinaison texte image
- 64 -
Comparaison des modles utilisant la distribution de Dirichlet
Daprs les expriences menes dans [Blie et al, 2003] le modle Corr-LDA donne de
meilleurs rsultats que les modles GM-MIXTURE et GM-LDA en utilisant la mesure
Perpelexy que nous dcrivons dans la section (Mesures de performance).
Malheureusement, dans la littrature il nexiste pas de comparaison entre le modle MOM-
LDA et les modles GM-LDA et Corr-LDA.
3.2.5 DAutres modles
3.2.5.1 Modle Translation Model (TM)
Ce modle est propos par [Duygulu et al 2002] essaie dtablir une relation entre les
mots cls et le contenu visuels, il traite le problme dannotation dimage comme la
translation dun ensemble de segments dimage en un ensemble de mots cls, dune manire
analogue la traduction linguistique [Brown, 1993] .
Dans ce modle les images sont segmentes en multiples rgions ou en blobs, et nous
supposons une collection dimages dapprentissages annotes T o chaque image
k
j T est
reprsente par un ensemble de blobs et de mots cls,
{ } { }
km k k kn k k k k k
w w w b b b w b j ,..., , ,..., , ,
2 , 1 2 1
= = o n,m est le nombre de blobs respectivement
le nombre de mots cls dans limage k, tel que { } N k ,..., 2 , 1 = et N le nombre dimages dans
T.
Le modle 2 de Brown [Brown, 1993] est utilis pour calculer la probabilit dassigner des
mots aux blobs, cette probabilit est donne par :

( ) ( ) ( )
ki kj
N
k
m
j
n
i
kj
b b w w t i a p b w p = = = =

= = = 1 1 1


Les paramtres de ce modle sont : ( ) i a p
kj
= et ( )
ki kj
b b w w t = = tel que :
( ) i a p
kj
= : est la probabilit dassignation, o i a
kj
= si le blob
ki
b est associ au mot
kj
w .
( )
ki kj
b b w w t = = : est la probabilit de w sachant b.
Ce modle utilise lalgorithme EM pour lestimation du maximum de vraisemblance de ses
paramtres.

Chapitre 3. La combinaison texte image
- 65 -
Linconvnient majeur de ce modle et quil produit trop de mots-cls non pertinents pour
les images pendant l'annotation. [Jin et al, 2005] a propos un modle appel TMHD
(Translation Model Hybrid Measure) base sur le modle TM, dont lobjectif est damliorer
le modle en liminant les mots non corrlatifs. Cette approche utilise lontologie WordNet,
pour identifier les mots-cls non pertinents, diverses mesures smantiques de similarit entre
les mots-cls sont tudies, finalement, la combinaison d'vidence de Dempster-Shafer est
utilise pour prendre une dcision finale des rsultats de toutes ces mesures. Les rsultats
prouvent que lutilisation de lontologie WordNet avec le modle classique TM amliore
l'exactitude d'annotation en liminant les mots-cls non pertinents.
3.2.5.2 Modle Continuous Relevance Model (CRM)
Le modle de relevance continu CRM [Lavrenko et Manmatha, 2003] est un modle
statistique permettant dassigner automatiquement des mots-cls aux images non annotes. Le
modle se base sur un ensemble dimages dapprentissage annote, il fonctionne comme suit :
D'abord, chaque image ou exemple d'apprentissage est segment en des sous exemples. Puis,
nous calculons un vecteur caractristique (descripteurs visuels) qui reprsente une valeur
relle pour chaque sous-image.
En consquence, chaque exemple (image) d'apprentissage est reprsent par un ensemble de
vecteurs caractristiques { }
n
r r r r ,..., ,
2 1
= avec un ensemble de mots { }
m
w w w w ,...,
2 , 1
= ;
Comme tape finale, une distribution de probabilit jointe ( ) r w p , de l'annotation w et des
caractristiques r de limage est construite. Cette distribution jointe permet de trouver les mots
les plus probables pour des nouvelles images non annotes en recherchant les mots W qui
maximisent la probabilit conditionnelle ( ) ( ) ( ) r p r w p r w p / , = .
Processus gnrateur dannotation dimages
Le modle CRM suppose T un ensemble dimages dapprentissages et J une image de T ;
J est reprsent par un ensemble de caractristiques visuelles { }
n i
r r r r ,..., ,
2 1
= et un
ensemble de mots { }
m j
w w w w ,...,
2 , 1
= .
Le processus gnratif de chaque image J est le suivant :
1- Les mots
j
w sont choisis selon la distribution multinomiale.
2- Les caractristiques visuelles sont choisies en utilisant la distribution gaussienne.
Chapitre 3. La combinaison texte image
- 66 -
La probabilit jointe
La probabilit est calcule en tant qu'esprance jointe sur de l'espace des distributions P (. \J)
dfini par les exemples annots J et l'ensemble d'apprentissage T.
( ) ( ) ( ) J r w p J p r w p
T J
, ,

=
CRM suppose que les mots et les vecteurs visuels sont tous conditionnellement
indpendants. Donc pour une image dapprentissage J on a :
( ) ( ) ( )

= =
=
n
i
i
m
j
j
J r p J w p J r w p
1 1
,
La figure 3.8 ci-dessous montre une reprsentation graphique du CRM et les suppositions
d'indpendance inhrentes du modle.


Figure 3.8 Le modle gnratif dannotation dimages

3.2.5.3 Modle Cross Media Relevance Model (CMRM)
Le modle CMRM [Jeon et Manmatha, 2003] est un modle statistique permettant
lannotation automatique de limage et la recherche dimage, il se base sur un ensemble
dimages dapprentissage annots, il fonctionne comme suit :
Ce modle suppose T la collection dimages annotes dapprentissage, o chaque image
T J est reprsente par un ensemble de mots et un ensemble de blobs,
{ }
n m
w w b b J ,..., , ,...,
1 1
= tel que { }
m
b b ,...,
1
reprsente les blobs correspondant aux rgions de
limage J et { }
n
w w ,...,
1
reprsente les mots dans la lgende de limage J.
Chapitre 3. La combinaison texte image
- 67 -
Le modle dannotation de limage
Supposons qune image I non annote est reprsente par un ensemble de blobs
I={ }
m
b b ,...,
1
.
Pour slectionner automatiquement lensemble des mots { }
n
w w ,...,
1
qui reprsente le contenu
de limage lapproche du modle de langage gnratif est adapte puis chaque image I est
suppose caractriser par une certaine distribution de probabilit ( ) I p . Pour connatre la
probabilit dobserver un mot w pour une image I, il sagit destimer la probabilit :
( ) ( )
m
b b w p I w p ,...,
1

On ne peut pas utiliser lestimation par le maximum de vraisemblance (Maximum likelihood
estimation) pour cette probabilit car les images sont reprsentes par les blobs
k
b b ,...,
1
qui
ne contient pas les mots, cependant lensemble dimages dapprentissages T annote peuvent
tre utiliser pour lestimation de la probabilit jointe dobserver le mot w et les blobs
m
b b ,...,
1

dans les images similaires en marginalisant la distribution de w. la distribution jointe est :
( ) ( ) ( ) J b b w p J p b b w p
m
T J
m
,..., , ,..., ,
1 1

=
CMRM suppose que les mots et les blobs sont tous conditionnellement indpendants donc la
probabilit peut tre rcrite comme suit :
( ) ( ) ( ) ( )

=
=
m
i
i
T J
m
J b p J w p J p b b w p
1
1
,..., ,
La probabilit a priori ( ) J p peut tre uniforme pour toutes les images dans T. Puisque limage
J dans lensemble dapprentissage contient les mots et les blobs, lestimation par le maximum
de vraisemblance lisse est utilise, pour slectionner un mot ou un blob de limage J, cette
probabilit est donne par :
( ) ( )
J
J w p = 1
( )
J
J w n ,
+
J

( )
T
T w n ,

( ) ( )
J
J b p = 1
( )
J
J b n ,
+
J

( )
T
T b n ,

Chapitre 3. La combinaison texte image
- 68 -
O :
n ( ) J w, dsigne le nombre doccurrence du mot w dans la lgende de limage J. n( ) T w,
dsigne le nombre total doccurrence du mot w dans toute les lgendes de lensemble
dapprentissage dimage T. n( ) J b, est le nombre de rgions (blobs) de limage J. n( ) T b, est
le nombre cumulatif doccurrence de b dans lensemble dapprentissage T. J : Le nombre
total de mots et de blobs occurrent dans limage J. T : La taille de la collection : le nombre
total de mots et de blobs dans la collection T.
Les paramtres de lissage
J
et
J
dterminent le degr dinterpolation entre lestimation par
le maximum de vraisemblance et la probabilit de w et b respectivement.
Le modle de recherche de limage
Soit
k
w w Q ,...,
1
= une requte de mots cls, la probabilit dobserver le blob b connaissant
la requte Q est :
( ) ( )
( )
( )
k
k
k
w w p
w w b p
w w b p Q b p
,...,
,..., ,
,...,
1
1
1
=
La probabilit jointe ( )
k
w w b p ,..., ,
1
est estimer par :
( )
k
w w b p ,..., ,
1
= ( ) ( ) ( )

=
k
i
i
T J
J w p J b p J p
1

Une comparaison de la performance des modles TM, CMRM et CRM est faite par
[Lavrenko et Manmatha, 2003] en calculant les valeurs du rappel et de prcision de chaque
modle sur un nombre de mots 260 =
w
n mots. Le tableau suivant montre les rsultats
obtenus :
Modle TM Modle CMRM Modle CRM
Rappel 0.04 0.09 0.19
Prcision 0.06 0.10 0.16
Tableau 3.2 : La comparaison de la performance des trois modles TM, CMRM et CRM.
Les rsultats du rappel/prcision prsent dans le tableau permettent de comparer les trois
modles dauto annotation, nous voyons que le modle CRM est plus performant.
Chapitre 3. La combinaison texte image
- 69 -
[Ferecatu, 2005] a propos une approche de recherche dimage en utilisant la fois la
description de lapparence visuelle et les ventuelles informations textuelles. Dans cette
approche la recherche en boucle de pertinence comme un outil bien adapt pour le
raffinement de la requte est mette en avant, un nouveau descripteur bas sur les mots-clefs
qui fait appel une ontologie externe (WordNet) est prsent en utilisant le graphe
dhyperonymes correspondant un ensemble des mots pour induire une gnralisation des
concepts reprsents par les mots-cls et pour choisir un ensemble de concepts pivots
capables de reprsenter toute la base dimages. En combinant le nouveau descripteur avec les
signatures images disponibles on obtient une reprsentation mixte de chaque image qui peut
tre directement utilis avec le bouclage de pertinence (BP).
Lutilisation conjointe de linformation visuelle et textuelle amliorer beaucoup la qualit des
rsultats fournis par le bouclage de pertinence.

[Tollari, 2006] a propos une mthode de recherche des caractristiques visuelles dun
mot, la classification non supervise est utilise pour dterminer les rgions visuelles qui
reprsentent le mieux un mot donn. La mthode fait lhypothse que les blobs de diffrentes
images qui reprsentent exactement un mot donn vont se regrouper sils sont similaires,
tandis que les autres seront parpills. Afin de retrouver les zones visuelles qui reprsentent le
mieux un mot donn des clusters visuels sont construits en utilisant la mthode de
Classification Ascendante Hirarchique (CAH). Donc, pour chaque mot
j
w ,
- Construire un sous-ensemble ( )
j
w A dapprentissage compos des images d de lensemble
dapprentissage A possdant le mot
j
w :
( ) { } A etd W w d w A
d
j j
=
- Construire le sous-ensemble dapprentissage ( )
( )
{ }
j
B
A
w n j B
b b b w A ,..., ,
2 1
= contenant les blobs
appartenant aux images de lensemble dapprentissage ( )
j
w A .
- Raliser une CAH sur lensemble dapprentissage ( )
j B
w A , ainsi des classes visuelles seront
associs au mot
j
w .
Grasse cette mthode, des liens entre les mots et les informations visuelles peuvent tre
trouv, ces liens permettent de passer facilement dune modalit lautre.


Chapitre 3. La combinaison texte image
- 70 -
3.3 Mesures de performances
Pour mesurer la qualit dun modle plusieurs mesures de performances sont dcrites
dans la littrature, mais nous nous dcrivons seulement dans cette section les mesures
utilises dans les modles que nous avons tudis dans cet tat de lart, ces mesures sont : le
rappel et la prcision que nous avons dcrit dans le chapitre 1 page (20), perplexit,
Normalised Score et Normalised Score moyen.

3.3.1 Perplexil
Pour mesurer la qualit de lannotation une mesure de similarit est propose dans [Blie
et al ,2003], cette mesure est appele Caption perplexity, est une mesure classique utilis dans
les modles de langages, plus le score est faible, plus le modle est performant.
( )


T d
W
T d W w
d
d
d
n
B w p
perplexit
log
exp
3.3.2 Normalised Score
La mesure Normalised Score (NS) est utilise dans [Barnard et al, 2003] pour mesurer la
performance dauto annotation, elle est dfinit comme suivant :
Soit N le nombre dlments de lensemble classer, soit n le nombre dlments pertinents,
soit r le nombre dlments pertinents retrouvs et w le nombre dlments non pertinents, la
dfinition de NS est :
n N
w
n
r
NS

=
Ce score est compos de deux termes : le premier est le nombre dlments pertinents
retrouvs normalis par le nombre dlments pertinent appel aussi rappel, le deuxime est le
nombre dlments non pertinents retrouvs normalis par le nombre dlments non
pertinents. Le score NS est compris entre 1 et -1. NS=1 quand tous les lments retrouvs sont
tous les lments pertinents.

3.3.3 Normalised Score moyen
Dans le cas dun systme dauto annotation o chaque image T d (T ensemble de test)
possde un ensemble de mots pertinents
d
W
n , le score moyen
moyen
NS est:
Chapitre 3. La combinaison texte image
- 71 -
moyen
NS =
( ) ( )

|
|

\
|

T d
W W
d d
n N
d w
n
d r

O r(d) est le nombre de mots de la lgende de d que le systme a associ limage, w(d) est
le nombre de mots qui ne font partie de la lgende mais qui ont t associs a limage par le
systme ; N est le nombre de mots du lexique .

3.4 Discussion sur les modles de ltat de lart
Si nous comparons les techniques utilises pour construire les modles que nous avons
dcrit dans ce chapitre nous voyons que la combinaison de linformation textuelle et visuelle
peut seffectue de diffrentes manires : de manire prcoce ( par exemple dans [Monay et
al, 2004], les deux modalits sont regroupes dans le mme espace), de manire indpendante
lune de lautre ( par exemples les modles I-0, I-1 et I-2, GM LDA)ou bien de manire
dpendante ( les modles D-0, D-1 et D-2 , Corr-LDA). Il existe aussi des modles
hirarchique (MOM-LDA, MOM-HAM) qui tentent de capturer linformation sur plusieurs
niveaux et dautres non hirarchique (par exemple LSA, PLSA). Des modles qui utilisent la
classification et lontologie pour la recherche des documents contenant des informations de
type textes et images en utilisant la fusion des descripteurs visuels et textuels [Ferecatu,
2005]. Dautres utilisent des techniques de la classification non supervise [Tollari, 2006].
De nombreux autre modles sont dcrits dans [Hare et al, 2006], [Datta et al, 2006] et
[Datta, 2006] et qui proposent des tats de lart rcents des techniques dauto annotation et de
recherche dimages par combinaison dinformations textuelles et visuelles.
Le chapitre qui suit dveloppe nos contributions pour la problmatique de recherche
dinformations par croisement du media texte et image.

- 72 -



4.1 Introduction
Dcrire une image est un problme subjectif. Cependant, une image peut tre dcrite par
un petit nombre de concepts. Au niveau textuel, chacun de ces concepts peut tre exprim par
un ou plusieurs mots-cls. Une image peut donc tre indexe et recherche textuellement par
un ensemble de mot-cls en utilisant les modles classiques de recherche dinformation.
Cependant, le principal problme de la recherche par mots-cls est que le rsultat peut tre
compltement hors sujet. Pour rsoudre ce problme, en complment de l'information
textuelle des documents, nous utilisons les caractristiques de bas niveau des objets
multimdia (couleur et texture). Au niveau visuel, des mthodes de segmentation dimages
peuvent tre utilises pour sparer une image en diffrentes parties.
Dans ce chapitre nous prsentons notre proposition pour rpondre la problmatique de
la recherche dinformation par croisement du mdia texte et image en combinant le texte
entourant les documents et les caractristiques visuelles.

4.2 La vue globale de lapproche
Lapproche que nous proposons pour la recherche dinformation par croisement du
mdia texte et image s'appuie sur les rseaux de neurones. Ce choix est motiv par plusieurs
raisons. D'un point de vue algorithmique, ces outils sont caractriss par leur flexibilit et leur
tolrance aux fautes et s'appuient sur des mthodes dj bien tablies. De plus, ils sont
capables de manipuler un nombre important d'informations. Ainsi que, leur capacit
d'apprentissage qui constitue un atout des modles connexionnistes par rapport aux autres
modles, puisqu'ils permettent une adaptation du rseau au problme traiter.
Cette approche est compose de trois tapes principales comme le montre la figure 4.1 :
- La premire tape concerne la reprsentation des documents et de la requte ;
- La deuxime tape concerne la spcification du rseau de neurones.
Chapitre 4 : Contribution
- 73 -
- La troisime tape prsente le processus de recherche dinformation bas sur les
activations de la thorie connexionniste.















Figure 4.1 : Lapproche propose pour la recherche dinformation

4.3 Reprsentation des documents
Nous partons du principe que chaque document j est dcrite par un ensemble de mots
cls (caractristiques de haut niveau), ainsi que dun ensemble de segments visuels
(caractristiques de bas niveau), chaque segment appel aussi rgion
i
r dune image est
reprsent par le vecteur
i
v , dans ce qui suit, nous dcrivons dans la section (4.3.1) la
reprsentation conceptuelle des documents, puis dans la section (4 .3.2) nous dcrivons la
reprsentation visuelles des objets multimdia.
4.3.1 La reprsentation conceptuelle des documents
Beaucoup de bases multimdia contiennent du texte ou des mots-cls associ aux objets
multimdia (les images), le texte est li smantiquement au contenu des images. En plus, les
sujets de recherche formuls par les utilisateurs sont dhabitude plus faciles formuler en

Reprsentation conceptuelle
et visuelle des documents
Requte de lutilisateur
Reprsentation de la requte
Spcification du rseau de neurone

Processus de recherche


Chapitre 4 : Contribution
- 74 -
termes des mots-cls. Comme les annotations textuelles disponibles pour une image,
gnralement ne sont pas suffisantes pour fournir une description statistique raisonnablement
prcise de la relation entre les mots. Ainsi que, pour rsoudre le problme de la synonymie
entre mots c'est--dire, les descripteurs peuvent en fait se rapporter des termes ayant
plusieurs sens et donc ne pas indiquer clairement la thmatique aborde dans le document.
Dautre part, la recherche peut chouer si les termes de la requte ny apparaissent pas.
Surmonter ces limites est l'objet de plusieurs projets de recherche rcents, cest le cas
notamment de l'approche de RI dite base concepts .

Nous adaptons donc, une reprsentation conceptuelle des mots cls base sur une
ontologie externe, ici le texte entourant les objets multimdia est vu comme un ensemble de
concepts organiss de faon hirarchique, la relation entre les concepts est la relation de
subsomption (spcifique, gnrique).

Nous proposons lutilisation de lontologie WordNet [Fellbaum & Miller, 1998] (Voir
Annexe A) pour lindexation conceptuelle des documents, pour se faire nous sappuyons sur
le modle de reprsentation de linformation par les sous arbres propos par [Baziz, 2005].

Pour lindexation conceptuelle, il sagit de projeter la requte et le document sur le sous
rseau conceptuel de l'ontologie constitu uniquement de la relation de subsomption (IS-A), la
requte et le document sont donc reprsents par des sous hirarchies formes par les
concepts qu'ils contiennent et qui apparient ceux de l'ontologie.

De faon gnrale, comme le montre la Figure 4.2, lindexation comprend deux tapes :
(1) La premire tape consiste projeter la requte ou le document sur l'ontologie pour
dtecter les termes qui peuvent reprsenter des concepts de l'ontologie. Dans la mme tape,
une phase de dsambigusation est ncessaire pour slectionner pour chaque terme extrait, le
concept de l'ontologie qui reprsente au mieux son sens dans le contexte du document.
(2) La deuxime tape concerne la construction du sous arbre du document et de la requte.
Chapitre 4 : Contribution
- 75 -


Figure 4.2 : Schma gnrale de la reprsentation conceptuelle des documents.
4.3.1.1 Projection des documents sur lontologie
Dans cette tape il sagit dextraire du document et de la requte les termes les plus
frquents et de les projeter sur lontologie pour rcuprer les concepts aux quels ils sont
associes, puis calculer la similarit entre les diffrents concepts en utilisant des mesures de
proximit smantique en vue de slectionner, pour chaque concept, le meilleur sens
correspondant dans lontologie.

1. Extraction des concepts candidats
Lobjectif de cette tape est dextraire tout les termes entourant les objets images
susceptibles de reprsenter des concepts de lontologie, Pour ce faire, un processus important
consiste dtecter les termes forms par des mots uniques ou des groupes de mots. Ces
termes peuvent renvoyer diffrents concepts et donc correspondre diffrentes entres (ou
noeuds) dans lontologie.
Les concepts sont recherchs dans lensemble des termes extraits en favorisant la prise en
compte des termes adjacents les plus longs, car lexpression forme de deux ou plusieurs
termes est plus prcise que le ou les termes seuls [ Baziz, 2005].
Requte
Documents
Ontologie Sous_arbre
de la requte
Sous_arbre d u
document
Chapitre 4 : Contribution
- 76 -
Par exemple, la phrase abdominal external oblique muscle peut reprsenter trois
concepts diffrents qui sont : abdominal muscle , external oblique muscle et
abdominal external oblique muscle .
Le premier concept abdominal muscle , nest pas identifi car ces mots ne sont pas
adjacents. Le deuxime, external oblique muscle , et le troisime, abdominal external
oblique muscle sont synonymes. Ils appartiennent au mme noeud de l'ontologie (ici un
synset de WordNet). Leur dfinition est : external oblique muscle, musculus obliquus externus
abdominis, abdominal external oblique muscle.
Le concept slectionn est associ au plus long terme abdominal external oblique muscle qui
correspond au sens adquat dans la phrase.

2. Pondration des termes
Une fois les termes extraits du document, il s'agit de leur affecter un poids qui dtermine
leur importance dans le document. Dans les systmes classiques o les documents sont
reprsents par un ensemble de mots cls, plusieurs mthodes de pondration qui sont en
gnral des variantes de TF.IDF sont utilises. Ici dans notre cas il s'agit de pondrer des
termes composs de plusieurs mots. [Baziz, 2005] propos une mthode de pondration qui
tient compte de la longueur du terme (en nombre de mots) et du critre TF.IDF. Cette
mthode de pondration sappelle CF.IDF, elle s'appuie sur l'hypothse que les termes
composs de plusieurs mots, sont plus riches smantiquement que les mots qui les composent.
Ainsi, "coucher de soleil" est plus prcis que "coucher" et "soleil" pris sparment.
Dans cette mthode de pondration CF.IDF, chaque terme extrait reprsentera un concept
(noeud) de l'ontologie. Pour un terme T compos de n mots, sa frquence dans un document
dpend du nombre doccurrences du terme lui-mme, et de celui de tout ses sous-termes
drivs. Formellement :
( ) ( )
( )
( )
( ) ST count
T length
ST length
T count T cf
T terms sub ST
+ =

) ( _


O ( ) T count le nombre doccurrences du terme T dans le corpus.
Length(T) reprsente le nombre de mots dans T et sub_terms(T) le nombre de tous les sous-
termes (qui doivent correspondre leur tour des concepts de l'ontologie) drivs de T : sous-
termes de n-1 mots de c, sous-termes de n-2,, et tous les mots uniques de T.
Chapitre 4 : Contribution
- 77 -
Par exemple, pour le terme elastic potential energy compos de 3 mots, sa frquence est
calcule comme suit :
f(elastic potential energy) = count(elastic potential energy) + 2/3 count(potential energy) +
1/3 count(elastic) + 1/3 count(potential) + 1/3 count(energy).

Le poids global dun terme T dans un document d, W(T,d), est alors calcule comme suit :

( ) ( ) ( ) df N T cf d T W ln , =

N tant le nombre total de documents et df (document frequency) le nombre de documents o
le terme T apparat.
Notons ici que la pondration CF.IDF gnralise le critre classique TF.IDF. En effet, dans le
cas de mots simples (l'ensemble des sous termes, sub-terms est vide donc), les deux mthodes
se confondent :
( )
( )
( ) 0
) ( _
=

ST count
T length
ST length
T terms sub ST


Une fois les termes du documents sont extraits, ils sont utiliss pour construire le sous
arbre
d
H , de la mme faon pour la requte le sous arbre
q
H sera construit. Comme chaque
terme extrait peut avoir plusieurs sens, donc correspondre plusieurs concepts ou noeuds
(synsets) dans lontologie, des mesures de similarit entre les diffrents sens des termes sont
calcules en vue de slectionner, pour chaque terme, le meilleur sens correspondant dans
lontologie. La mesure de similarit entre deux noeuds reprsente une valeur condense
rsultant de la comparaison de deux sens possibles pour deux termes (donc deux concepts
candidats) en utilisant la distance entre les positions des deux concepts candidats dans
l'ontologies ou encore les relations smantiques de lontologie. Cette valeur na pas de sens
prcis mais exprime le degr du lien entre les deux concepts candidats. Nous lexplicitons
dans la section suivante.

3. Calcul de similarit entre concepts
Lvaluation du lien smantique entre deux concepts dans une ontologie est un problme
de longue date dans le domaine de lintelligence artificielle et de la psychologie. La similarit
Chapitre 4 : Contribution
- 78 -
smantique est une valuation du lien smantique entre deux concepts dont le but est
destimer le degr par lequel les concepts sont proches dans leur sens [Resnik, 1999]. La
dfinition donne par Lin de la similarit smantique repose sur trois suppositions [Lin,
1998]. La similarit entre deux concepts est lie aux caractristiques quils ont en commun
(plus ils ont de caractristiques communes, plus les concepts sont similaires) et leurs
diffrences (plus deux concepts sont diffrents, moins ils sont similaires). La similarit
maximale est obtenue lorsque deux concepts sont identiques.
La majorit des travaux portant sur le calcul de similarit dans une ontologie considrent
que la similarit peut tre value uniquement partir chemin (path based measures) entre les
deux concepts comparer telles que dfinies par exemple dans [Rada et al. 1989] [Leacock et
al., 1994] [Jiang et al., 1997]. Ou, sur la notion de contenu d'information (Information Content
ou IC) telle que dfinie par Wu et Palmer [Wu et al., 1994] et Resnik [Resnik, 1999]. Dautre
sur une combinaison du chemin et du contenu d'information [Lin, 1998] ou sur l'algorithme de
Lesk que Patwardhan, Banerjee et Pederson [Patwardhan et al., 2003] ont adapt WordNet.

La mesure que nous considrons dans ce travail est celle reposant sur la mesure Resnik
[Resnik, 1999], le choix de cette mesure a t fait, en slectionnant les mesures connues dans
la littrature comme tant la plus performante [Baziz, 2005].

La mesure de Resnik
Resnik [Resnik, 1999] a introduit la notion de Contenu d'Information (Information
Content ou IC) des concepts en utilisant le sous-ensemble correspondant la hirarchie est-
un (is-a) ou hyperonymie de WordNet. L'ide principale derrire cette mesure est que deux
concepts sont smantiquement lis ou proches, proportionnellement la quantit
d'information qu'ils partagent. La quantit d'information est dtermine par le contenu
d'information du plus spcifique concept (noeud de la hirarchie) qui subsume les deux
concepts comparer qu'il appelle lcs (pour Least Common Subsumer). Elle est dfinie comme
suit :
( ) ( ) ( )
2 1 2 1 Re
, , c c lcs IC c c sim
snik
=
Le contenu d'information (IC) d'un concept est estim en calculant sa frquence dans un
large corpus. Il est dfini comme le ngatif du log de sa probabilit :

Chapitre 4 : Contribution
- 79 -
( ) ( ) ( ) concept p concept IC log =

La frquence d'un concept dans la hirarchie, inclut la frquence de tous ces descendants
puisque une occurrence ajoute un concept est aussi ajoute aux concepts qui le subsument.
Par consquent, les concepts qui se trouvent dans la partie suprieure de la hirarchie vont
avoir les plus grandes frquences que ceux qui se trouvent dans le niveau le plus spcifique
(en bas de la hirarchie). Ce qui justifie le moins (-) du log affect par Resnik pour favoriser
les concepts spcifiques qui se trouvent en bas de la hirarchie.
Exemple : Dans la hirarchie de la Figure 4-3, le plus spcifique noeud qui subsume les
noeuds Dime et Credit card est :
lsc((dime, credit card)= medium of exchange,
La similarit selon Resnik entre les deux concepts est alors :
Sim_
Resnik
(dime, credit card)=-log p(medium of exchange),
Sachant que p(medium of exchange) reprsente le nombre d'occurrence du concept medium of
exchange dans un corpus d'apprentissage .









Figure 4-3. Extrait de la taxonomie de WordNet. Les lignes reprsentent le lien IS-A; les
lignes discontinues indiquent que des noeuds intermdiaires ont t omis.
4.3.1.2 Reprsentation du document et de la requte
Soit la hirarchie de concepts H d'une ontologie o tous les arcs sont reprsents par le
lien est-un (is-a) et soit un document initiale d
init
compose de m mots.

Asset
Medium of exchange
Money
Cash
Coin
Dime Nickel
Wealth
Treasure
Gold
Credit card
Credit

Chapitre 4 : Contribution
- 80 -
{ }
n init
t t t d ,..., ,
2 1
=
Aprs extraction des concepts et leur pondration, le document sera reprsente par m
concepts ( ) n m <= avec leurs poids respectifs :

( ) ( ) ( ) { }
m m
w c w c w c d , ,..., , , ,
2 2 1 1
=

La reprsentation de d dans H se fait alors en dfinissant N(H, d) comme l'ensemble des
concepts de d qui correspondent des concepts de H :

( ) ( ) ( ) { } d m j n d H N
j j
,..., 1 , , , = =

O pour chaque nud
j
n il existe
j
c dans le document ( ) { } m j w c d
j j
,..., 1 , , = = tel que
j
n =
j
c ou
j
n est comme lquivalent stricte de
j
c dans la structure hirarchique H, ( ) d m est le
nombre de nuds dans H qui est quivalent au nombre de termes dans d.

Considrons maintenant une requte q comprenant des concepts de H et des poids. La
requte est obtenue aprs un traitement identique celui du document :

( ) ( ) ( ) { } k r k q H N
k k
,..., 1 , , , = =

La requte est comme une conjonction (pondre) de concepts. Elle est aussi modlise par un
sous arbre minimal
q
H

de H contenant les noeuds de q.

4.3.2 Reprsentation visuelle des images
Les caractristiques de bas niveaux retenues pour les objets images sont la couleur et la
texture, nous allons dtaills prcisment ces caractristiques :
Pour la couleur, nous calculons les trois moments de couleurs, en utilisant les deux
espaces RVB et HSV.
Pour la texture, nous calculons les matrices de cooccurrences et nous crons un vecteur de
caractristiques en extrayant les quatre caractristiques les plus appropries des matrices :
lnergie, lentropie, le contraste et le moment inverse de diffrence.
Chapitre 4 : Contribution
- 81 -
4.3.2.1 La couleur
- Les espaces couleurs utiliss
Nous utilisons deux espaces couleurs : RVB et HSV, parce que RVB est lespace
couramment utilis et HSV est un espace indpendant face aux variations dclairage. Donc,
nous avons choisis les deux espaces pour leurs complmentarits.

- Les moments statistiques de couleurs
La mthode dhistogramme utilise la distribution complte de la couleur. On doit stocker
de nombreuses donnes. Au lieu de calculer la distribution complte, dans les systmes de
recherche dimages, on calcule seulement des dominantes caractristiques de couleur tels que
lesprance, la variance et dautres moments. Dans [Stricker, 1996] les auteurs ont prouv que
les mthodes utilises des moments statistiques marchent plus vite et donnent des rsultats
meilleurs que les mthodes dhistogrammes.
Lesprance, la variance, les moments dordre 3 peuvent galement tre calculs sur chaque
composante couleur par les formules suivantes :

=
=
N
j
ij i
p
N
E
1
1

( )
2
1
1
2
1
|
|

\
|
=

=
N
j
i ij i
E p
N

( )
3
1
1
3
1
|
|

\
|
=

=
N
j
i ij i
E p
N
s

O
i
E est lesprance,
i
est la variance,
i
s est le troisime moment qui correspondent la
composante couleur i (i est R, V, B de lespace RVB ou H, S, V de lespace HSV). Au total,
nous avons 9 chiffres pour RVB (3 pour chaque composante), 9 chiffres pour HSV (3 pour
chaque composante). N est le nombre de pixel ;
ij
p est la valeur de la couleur i qui
correspond au pixel j.

4.3.2.2 La texture
- Les matrices de co-occurrences
Un aspect de la texture concerne la distribution et la co-occurrence spatiale des niveaux
de gris dans une rgion locale. Cette co-occurrence peut-tre rsume dans une matrice dont
Chapitre 4 : Contribution
- 82 -
chaque terme est une probabilit conjointe d'un couple de niveau de gris spars par une
relation spatiale R. R est en gnral dfinie par un vecteur de dplacement r (d, q) o d est la
distance entre deux pixels et q la direction. Les matrices de co-occurrence, on les calculera en
gnral dans les directions 0, 45, 90 et 135 [Haralick et al, 1973].
Haralick a propos 14 caractristiques statistiques extraites partir de cette matrice.
Actuellement, seulement les quatre caractristiques les plus appropries sont largement
utilises : lnergie, lentropie, le contraste et le moment diffrentiel inverse.
- Lnergie : ( ) [ ]
2
1 1
,

= =
=
n
i
n
j
j i p h mesure lhomognit de limage. Lnergie une valeur
dautant plus faible qu'il y a peu de zones homognes. O ( ) j i p , correspond aux lments de
la matrice de cooccurrence ; c'est dire la probabilit de passer d'un pixel de niveau de gris i
un pixel de niveau de gris j.
- Lentropie : ( ) ( ) ( ) j i p j i p e
n
i
n
j
, log ,
1 1
=

= =
mesure la complexit de limage. Lorsque les
valeurs de la matrice sont presque toutes gales, l'entropie est leve. Elle permet de
caractriser le degr de granulation de l'image. Plus l'entropie est leve et plus la granulation
est grossire.
- Le contraste : ( ) ( )

= =
=
n
i
n
j
j i p j i c
1 1
2
, mesure la variation locale des niveaux de gris dans
limage. Si elles sont importantes (c'est dire s'il existe peu de rgions homognes), alors le
contraste sera lev.
- Le moment diffrentiel inverse :
( )
( )

= = +
=
n
i
n
j j i
j i p
m
1 1
2
1
,
Ce paramtre a un comportement
inverse du contraste. Plus la texture possde de rgions homognes et plus le paramtre est
lev.

4.3.2.3 La pondration des attributs visuels
Une fois les caractristiques de chaque rgion des images sont extraites, il s'agit de leurs
affecter un poids qui dtermine leurs importances dans le document, pour cela nous utilisons
une pondration inspire de idf tf _ dcrite par [J.Z. Wangy &Y.Du, 2001]. Des poids sont
attribus aux rgions en fonction de leurs frquences dans le document et dans la collection de
documents, cette pondration est appele IPF RF .
Chapitre 4 : Contribution
- 83 -
O
RF : (Region Frequency) la frquence dune rgion dans une image.
IPF : (Inverse Picture Frequency ) la frquence dune rgion dans la collection.

Notons N le nombre dimages dans la collection, pour chaque image j dans la
collection, aprs segmentation on obtient un ensemble
i
n de vecteurs dont chaque vecteur
i
v
reprsente les caractristiques dominantes
i
x (les caractristiques de couleurs et de textures)
de la rgion
i
r .
Pour dterminer le poids de chaque rgion
i
r on procde comme suit :
Soit { } L i x
i
,..., 1 : = lensemble des vecteurs reprsentant les caractristiques visuelles, o L
est le nombre total de rgions dans la collection dimages.

=
=
N
i
i
n L
1

Nous utilisons lalgorithme de clustering K_means (Voir Annexe B) et la mesure de similarit
la distance euclidienne sur lensemble dimages dapprentissages pour partitionner les
caractristiques visuelles en k groupes de centrodes
* *
2
*
1
,..., ,
k
x x x tel que :
( )
2
*
1
1
min
|

\
|
=

=

j i
L
i
k j
x x k D Est minimise,
Cest--dire, la distance la plus proche et la plus rduite entre chaque vecteur de
caractristique
i
x et le groupe k de centrode
*
j
x .
Aprs avoir regrouper les caractristiques visuelles en k groupes, chaque groupe est
reprsent par le centrode
*
j
x , nous dterminons pour chaque rgion de caractristique
i
x de
limage j le groupe
O
c le plus proche parmi les k groupes.
O
c est dterminer comme suivant :
*
1
min
0
c i
k c
c i
x x x x =


Notons maintenant
0
c
N le nombre dimages dans la collection dimages pour le groupe
dimages
O
c . Nous dfinissons alors IPF par :
Chapitre 4 : Contribution
- 84 -
1 log +
|
|

\
|
=
O
c
i
N
N
IPF
Soit
j
M le nombre total de pixels de limage j (pour la collection dimages, la taille des
images est normalise,
j
M est une constante pour toutes les images), et
ij
pr le pourcentage
de la rgion
i
r dans limage j.
ij
RF est donne comme suivant :
( ) 1 log + =
j ij ij
M pr RF
Le poids assign pour chaque rgion
i
r dans limage j est :
i ij ij
IPF RF p * =

Aprs lindexation conceptuelle et visuelle des documents, chaque document j est
reprsente par un sous arbre qui est un ensemble de nuds concepts
t
n , o chaque concept
est caractris par un poids, et un ensemble de vecteurs visuels avec leurs poids respectifs.
Pour la recherche dinformation en combinant les deux types dinformations nous proposons
une approche base sur les rseaux de neurones.

Les rseaux de neurones supportent de nombreux modles dont lobjectif est dimiter
les fonctions de reprsentation et traitement de linformation du systme nerveux humain. Un
rseau de neurones est compos de noeuds et de liens. A chaque noeud sont associes des
entres et sorties values. A chaque lien est associ un poids traduisant le degr
dinterconnexion des noeuds quil relie. Le fonctionnement du rseau est bas sur la
propagation des signaux dactivation depuis les entres jusquaux sorties (voir Annexe C).

4.4 Spcification du rseau de neurones
Pour formaliser la reprsentation de la collection de documents, nous proposons un rseau
connexionniste compos des lments rsultant de la phase d'indexation : documents,
concepts d'indexation, vecteurs visuels et liens d'indexation. Ce rseau permet la recherche
des documents contenant des informations de type textes et images par une requte de
lutilisateur qui peut tre textuelle ou image exemple. Nous utilisons trois types de neurone
Chapitre 4 : Contribution
- 85 -
pour reprsenter la collection d'informations : les neurones concepts, les neurones vecteurs
visuels et les neurones documents.

Le rseau connexionniste est donc un rseau de neurones quatre couches :
- une couche de requtes, note Q : reprsente lentre du rseau, est cre chaque requte
de lutilisateur,
- une couche de concepts, note C : reprsente lensemble des concepts existants dans la
collection de documents, et une couche de vecteurs visuels, note V : reprsente lensemble
des vecteurs visuels dans la collection.
- une couche de documents, note D ou sortie de rseau, reprsente lensemble des
documents.
La figure 4.4 prsente larchitecture gnrale du rseau connexionniste propos :














Figure 4.4 La reprsentation du rseau connexionniste propos

4.4.1 La pondration des liens inter couches
Les poids des liens entre les couches sont issus du processus dindexation et
permettent de relier chaque neurone concept et vecteur visuel aux neurones documents et de
relier par un lien bidirectionnel chaque neurone concept aux neurones vecteurs visuels. Ainsi
que de relier les neurones de la requte aux neurones concepts ou vecteurs visuels selon le








Q C



V D



Couche de vecteurs

Couche de requte Couche de concepts
Couche de documents
Chapitre 4 : Contribution
- 86 -
type de la requte. Le poids d'un concept
i
c ou dun vecteur visuel
j
v va dterminer
l'importance de ce concept ou de ce vecteur dans la caractrisation du contenu d'un document
ou d'une collection de documents.
4.4.1.1 Le poids du lien entre la couche C-V
Pour la dtermination du poids du lien bidirectionnel entre un concept
t
c et un vecteur
visuel
i
v , nous utilisons lhypothse suivante propose par : M. Boughanem et C. Soule-
Dupuy, [Boughanem & Soule, 1992] Le poids dun lien entre deux termes est augment
chaque fois que ceux-ci apparaissent dans un mme document. Par contre, il se voit diminuer
si un seul de ces termes apparat dans un document.

La formule que nous proposons en appliquant lhypothse consiste faire le rapport entre
le nombre de documents contenant le concept et le vecteur visuel, et le nombre de documents
contenant chacun sparment. La formule est dfinit par :

( )
( )
i t
i t
v c
v c
ti
E E card
E E card
poid

=
O :

t
Ec : reprsente l'ensemble de documents contenant le terme
t
c ,

i
Ev : reprsente l'ensemble de documents contenant le vecteur
i
v ,
card : reprsente le cardinal d'un ensemble.

4.4.1.2 Le poids du lien entre la couche Q-C
Le poids du lien requte concept est dtermin on affectons le poids
tk
q de chaque
concept
t
c de la requte Q aux liens requtes concepts, ce poids est calcul comme suit :
( )
t tk
c cf q =
4.4.1.3 Le poids du lien entre la couche Q-V
Le poids du lien requte vecteur est dtermin on affectons le poids ( )
'
,
k i ik
v v d q = la
distance euclidienne entre chaque vecteur
i
v de V et chaque vecteur
'
k
v de Q.

Chapitre 4 : Contribution
- 87 -
4.4.1.4 Le poids du lien entre la couche V-D
Le lien V-D reprsente le poids dun vecteur visuel
i
v dans un document j, cest un
lien descriptif dont le poids est calcul selon la formule RF*IPF.
i ij ij
IPF RF p * =
4.4.1.5 Le poids du lien entre la couche C-D
Le lien C-D reprsente le poids dun concept
t
c dans un document j, cest un lien
descriptif dont le poids est calcul selon la formule CFIDF.
t tj tj
idf cf w =
4.5 Le processus de recherche dinformation
Le processus de recherche est ralis via un mcanisme de propagation d'activation
travers le rseau, en utilisant les connexions existantes. C'est--dire qu'une requte induit
l'activation initiale de certaines cellules, cette activit initiale va se propager vers les
documents, via les connexions d'indexation.
La recherche peut tre exprime par une requte textuelle ou par une requte image
exemple.
4.5.1 Recherche par une requte textuelle
Le processus de recherche est bas sur le mcanisme de transfert des activations de la
couche requte vers la couche documents. La requte de lutilisateur est analyse afin
dextraire les concepts reprsentatifs, les nuds ou les cellules concepts correspondantes sont
activs, et elles activent leurs tours les cellules des vecteurs visuels, ces dernires actives les
cellules documents constituants la rponse du rseau. A la fin du processus, les noeuds sont
classs par ordre dcroissant de leurs valeurs dactivation et les documents associs sont
prsents lutilisateur.



Chapitre 4 : Contribution
- 88 -








F
Figure 4.5 : Processus de recherche par une requte textuelle
Le processus est ralis selon les tapes suivantes :
Soit une requte
K
Q reprsente par un sous arbre comme dj prsenter dans la section
(4.2.1.2), c'est--dire un ensemble de nuds et leurs poids.

( ) ( ) { }
k k K
q n q n Q , ,..., ,
1 1
=

- Le processus de recherche est dclench partir des cellules de la couche Q, le rseau
calcul une valeur dentre et une valeur de sortie chaque cellule concept de la couche C tel
que :
C n
t
: ( )
k t t
q n entre =
O


( ) ( ) ( )
t t
n entre f n sortie =
- Une fois la sortie de chaque concept est calcule, le rseau transmit des signaux vers la
couche V, dont chaque cellule vecteur calcul une entre selon la formule :
( )

=
0
t
tk
n cf
q
Si le nud
K t
Q n
Si non








Q C



V D



Couche de vecteurs

Couche de requte Couche de concepts
Couche de documents
Chapitre 4 : Contribution
- 89 -
( ) ( )
ti
n
t
t i
poid n sortie v entre *
1

=
=

Puis une valeur dactivation de sortie est calcule selon la formule :

( ) ( ) ( )
i i
v entre f v sortie =

- Transmission des signaux vers la couche documents. Chaque cellule document calcule une
entre selon la formule :
( ) ( )
ij
m
i
i j
p v sortie d entre *
1

=
=

Puis une valeur dactivation de sortie est calcule selon la formule :
( ) ( ) ( )
j j
d entre f d sortie =
O
n : nombre total de concepts dindexation
m : nombre total de vecteurs de descripteurs visuels dindexation

La fonction dactivation que nous choisissons pour toutes les couches est la fonction
sigmode dfinie par :
( )
1
1
+

=
x
x
e
e
x f

4.5.1.1 Exemple de rseau et de recherche dinformation par une requte textuelle
Nous supposons que :
- le document
1
d est index par les concepts
3 1
, c c et par les vecteurs
2 1
, v v et leurs poids
respectifs, donc sa reprsentation dans le rseau est : ( ) ( ) ( ) ( ) { }
21 3 11 1 31 3 11 1 1
, , , , , , , p v p v w n w n d =
- le document
2
d est index par les concepts
3 2
, c c et par les vecteurs
4 3
, v v et leurs poids,
donc: ( ) ( ) ( ) ( ) { }
42 4 32 3 32 3 22 2 2
, , , , , , , p v p v w n w n d = .
- le document
3
d est index par les concepts
5 4 1
, , c c c et par les vecteurs
6 5
, v v et leurs poids,
donc : ( ) ( ) ( ) ( ) ( ) { }
63 6 53 5 53 5 43 4 13 1 3
, , , , , , , , , v v p v w n w n w n d =
Chapitre 4 : Contribution
- 90 -
- le document
4
d est index par les concepts
4 3
, c c et par les vecteurs
8 7
, v v et leurs poids,
donc : ( ) ( ) ( ) ( ) { }
84 8 74 7 44 4 34 3 4
, , , , , , , p v p v w n w n d = .
Le rseau est ses caractristiques sont les suivants :

1
n
2
n
3
n
4
n
5
n
1
v
2
v
3
v
4
v
5
v
6
v
7
v
8
v
1
d
11
w 0
31
w
0 0
11
p
12
p 0 0 0
0 0 0
2
d 0
22
w
32
w
0 0 0 0
32
p
42
p 0
0 0 0
3
d
13
w 0 0
43
w
53
w
0 0 0 0
53
p
63
p
0 0
4
d 0 0
34
w
44
w 0 0 0 0 0 0
0
74
p
84
p

Tableau 4.1 Exemple de donnes pondres dans le rseau.
Supposons une requte Q constitu de deux concepts
4 2
, c c , reprsent par
( ) ( ) { }
4 4 2 2
, , , q n q n Q =
Nous avons donc les tapes activations suivantes :
- la premire tape : activation initiale

Nuds de C Valeur dentre
1
n
0
2
n
2
q
3
n
0
4
n
4
q
5
n
0

Tableau 4.2 activation de la couche C par une requte initiale

- la deuxime tape : propagation des activations via les connexions vers la couche V,
le tableau suivant montre les cellules vecteurs actives et leurs valeurs dentres.

Vecteurs de V Valeurs dentre
1
v
0
2
v
0
Chapitre 4 : Contribution
- 91 -
3
v ( ) ( )
43 4 23 2
poid n s poid n s +
4
v ( ) ( )
44 4 24 2
poid n s poid n s +
5
v ( ) ( )
45 4 25 2
poid n s poid n s +
6
v ( ) ( )
46 4 26 2
poid n s poid n s +
7
v ( ) ( )
47 4 27 2
poid n s poid n s +
8
v ( ) ( )
48 4 28 2
poid n s poid n s +

Tableau 4.3 valeurs dactivation de la couche V

O ( )
2
n s et ( )
4
n s sont les sortie des cellules
2
n et
4
n .
- la troisime tape : propagation des activation vers la couche D. nous obtenons les
rsultats suivants :

Les documents Valeurs dentres
1
d
0
2
d ( ) ( )
42 4 32 3
p v s p v s +
3
d ( ) ( )
63 6 53 5
p v s p v s +
4
d ( ) ( )
84 8 74 7
p v s p v s +

Tableau 4.4 propagation vers la couche documents
O
( )
3
v s , ( )
4
v s , ( )
5
v s , ( )
6
v s , ( )
7
v s et ( )
8
v s sont les sortie des cellules
4 3
, v v ,
5
v ,
6
v ,
7
v et
8
v .

4.5.2 Recherche par une image exemple
Lapproche propose permet lutilisateur de faire une recherche par une image
exemple dont le but de rechercher des images similaires ou qui ressembles limage
slectionne. Pour cela un ensemble dimages exemples sont donnes lutilisateur. Le
processus initial du rseau est dclench par le chois dune image par lutilisateur pour
rechercher les images proches.

Chapitre 4 : Contribution
- 92 -









Figure 4.6 : Processus de recherche par une requte visuelle
Le processus est ralis selon les tapes suivantes :
- la premire tape : concerne la slection dun document par lutilisateur qui est une
requte image reprsent par un ensemble de vecteurs de caractristiques visuelles :
{ }
' '
2
'
1
,..., ,
k
q K
v v v Q =
- la deuxime tape : permet de trouver les vecteurs caractrisant limage slectionne
en calculant la valeur dentre de chaque vecteur
i
v dans V :
( )
ik i i
q v entre V v = :
Tel que
( )
'
1
, min
k i
qk k
ik
v v d q

=
O ( )
'
,
k i
v v d : la distance euclidienne entre le vecteur
i
v et
'
k
v calcul par la formule
suivant :
( ) ( ) ( )
2
1
2
' '
,
k i k i
x x v v d =








Q C



V D



Couche de vecteurs

Couche de requte Couche de concepts
Couche de documents
Chapitre 4 : Contribution
- 93 -
Les vecteurs qui ont une valeur rduite seront actifs, qui leurs tours actives les concepts tel
que lentre de chaque concept est calcule selon la formule suivante :
( ) ( )
ti
m
i
i t
poid v sortie n entre =

=1

- La troisime tape : permet de trouver les documents pertinents par la propagation de
lactivation de la couche concepts vers la couche documents. Dans ce cas lentre de
chaque document est :
( ) ( )
tj
n
t
t j
w n sortie d entre =

=1

Puis une valeur dactivation de sortie est calcule selon la formule :

( ) ( ) ( )
j j
d entre f d sortie =
De manire analogue au processus de recherche par une requte textuelle, Les cellules
documents sont classes par ordre dcroissant de leurs valeurs dactivation et les documents
associs sont prsents lutilisateur.
4.6 Conclusion
Dans ce chapitre nous avons propos une approche pour rpondre la problmatique de
la recherche dinformation par croisement du mdia texte et image, cette approche est base
sur les rseaux de neurones, elle permet de prendre en compte les information textuelles et les
caractristiques de bas niveau des objets multimdia (couleur et texture) en complment des
informations textuelles des documents. Trois tapes principales sont dveloppes dans cette
approche : La premire tape concerne la reprsentation des documents, dans laquelle nous
avons dcrit la reprsentation conceptuelle des documents, et la reprsentation des
caractristiques visuelles. Dans la deuxime tape nous avons construit le rseau de neurone
constitu de quatre couches, une couche de requtes : reprsente lentre du rseau, une
couche de concepts, une couche de vecteurs visuels, et une couche de documents, elle
reprsente la sortie de rseau. La troisime tape est celle de recherche dinformation base
sur le mcanisme dactivation de la thorie connexionniste, la recherche peut tre effectue
par une requte textuelle ou par une requte image exemple.

- 94 -

Conclusion gnrale


Synthse

Beaucoup de bases multimdia existantes intgrent diffrents types de description (par
exemple image et texte). Pour rechercher efficacement ce type dinformations, il sagit de
prendre en compte le sens de limage et le contenu visuel. Ce sens peut tre apport par une
description de limage laide de mots-cls.

Nous nous somme intress dans le cadre de ce mmoire proposer une solution pour la
recherche dinformation par croisement du mdia texte et image, pour atteindre notre but nous
avons fait un tat de lart sur la recherche dinformation et un tat de lart sur la recherche
dimages fixes, puis nous avons abord un tat de lart sur la combinaison texte image. Nous
avons propos une nouvelle approche pour le problme pos, cette approche est base sur les
rseaux de neurones, elle permet de prendre en compte linformation textuelle et les
caractristiques de bas niveau des objets multimdia (couleur et texture) en complment de
l'information textuelle des documents. Trois tapes principales sont dveloppes dans cette
approche :
La premire tape concerne la reprsentation des documents, comme chaque document
est dcrit par un ensemble de concepts et un ensemble de segments visuels. Nous avons, tout
dabord dcrit lindexation conceptuelle des documents,nous avons propos lutilisation de
lontologie WordNet ainsi nous avons adapt une reprsentation conceptuelle des mots cls
base sur une ontologie externe pour rsoudre le problme de la synonymie entre mots. Pour
la pondration des termes conceptuels nous avons utilis une mthode de pondration qui
tient compte de la longueur du terme (en nombre de mots) et du critre TF.IDF. Cette
mthode de pondration sappelle CF.IDF dcrite par [Baziz, 2005], elle s'appuie sur
l'hypothse que les termes composs de plusieurs mots, sont plus riches smantiquement que
les mots qui les composent. Ensuite, Pour les caractristiques de bas niveau des objets
multimdia nous avons choisis la couleur et la texture pour les images exemple, nous avons
utilis une pondration inspire de idf tf _ dcrite par [J.Z. Wangy &Y.Du, 2001]. Des poids
Chapitre 4 : Contribution
- 95 -
sont attribus aux rgions en fonction de leurs frquences dans le document et dans la
collection de documents, cette pondration est appele IPF RF .
Dans la deuxime tape, Pour formaliser la reprsentation de la collection de
documents, nous avons construit le rseau connexionniste constitu de quatre couches, une
couche de requtes : reprsente lentre du rseau, une couche de concepts, une couche de
vecteurs visuels, et une couche de documents, elle reprsente la sortie de rseau.
La troisime tape est celle de recherche dinformation base sur le mcanisme
dactivation de la thorie connexionniste, la recherche peut tre effectue par une requte
textuelle ou par une requte image exemple.

Perspectives

En guise de perspectives, nous souhaitons dans le futur amliorer lapproche propos en
introduisant les techniques de bouclage de pertinence, pour le raffinement de la requte de
lutilisateur.
Pour la pondration des termes nous avons utilis la formule CFIDF propose par
[Baziz, 2005], et pour la pondration des attributs visuels nous avons utilis la formule RFIPF
propose par [J. Z. Wangy &Y.Du, 2001]. Dautres formules peuvent tre envisages.

Un autre volet de nos perspectives est dimplmenter lapproche propose sur les
documents textes et images, afin dtayer le bien fond de cette approche, de la tester et mme
de la comparer sur des collections de test standards (ImageClef par exemple).

- 96 -



Depuis les annes 90, les ontologies sont devenues un des champs de recherche les plus
populaires en informatique, investi par diffrentes communauts dont celle de l'intelligence
artificielle (IA) et de la RI. La raison pour laquelle les ontologies sont devenues si importantes
est due actuellement au manque de standard pour l'ingnierie des connaissances dans la
communication smantique : on attend des ontologies qu'elles jouent ce rle de
standardisation.

Une ontologie Selon son sens philosophique, est une explication systmatique de l'tre
[Gmez-Prez et al., 2004]. Par contre, il n'est pas aussi simple de dfinir une ontologie selon
son sens informatique. Nous prsenterons ici la dfinition propose par John Sowa en 2000
dans [Sowa, 2000]. Le but d'une ontologie est d'tudier les catgories des choses qui existent
ou qui peuvent exister dans un domaine en particulier. Le produit de cette tude, appel
ontologie est un catalogue des types de choses existant dans le domaine D, pour une personne
utilisant le langage L dans le but de parler de D. Une ontologie reprsente donc un schma
conceptuel qui tente de dsigner une description rigoureuse et exhaustive d'un domaine.
Habituellement, une ontologie est une structure de donnes hirarchique qui comprend toutes
les entits du domaine que l'on tente de dcrire ainsi que les relations smantiques qui existent
entre ces diffrentes entits. Mais attention, une ontologie se doit d'tre plus qu'une simple
taxonomie. Une ontologie informatique doit absolument contenir des relations ajoutant de
l'information smantique aux concepts. Un simple schma d'hritage (au sens orient objet) ne
sera jamais une ontologie complte. WordNet (prsent dans cette section) peut tre considr
comme une ontologie car en plus de contenir des relations de gnralisation / spcialisation, il
contient entre autres des relations de mronymie et d'holonymie (p. ex. : un corps humain est
compos d'une tte, de deux bras, etc.). La structuration des concepts dans une ontologie
permet de dfinir des termes les uns par rapport aux autres, chaque terme tant la
reprsentation textuelle d'un concept.

On retrouve plusieurs types d'ontologie. Nous prsentons brivement ici une liste des
principales catgories d'ontologie :
Annexe A : Les ontologies
- 97 -
- Ontologies de domaine : Ontologies qui tentent de dcrire un domaine de la connaissance
en particulier.
- Ontologies fondamentales : Ontologies qui tentent de dcrire des concepts trs gnraux et
pouvant s'appliquer plusieurs domaines. Un exemple d'ontologie fondamentale est
l'ontologie WordNet, utilise au cours de nos travaux.
- Ontologies formelles : Une ontologie formelle est une ontologie modlise par un
algorithme. Elle possde des mthodes lui permettant de vrifier le degr de cohrence de son
contenu et permet au cogniticien de possiblement viter les raisonnements incorrects faits
partir de l'ontologie.
- Ontologies de tche : Ce type d'ontologie dcrit les concepts ainsi que les relations entre
ceux-ci pour une tche spcifique faisant partie d'un domaine prcis [Timpf, 2001]. Ces
ontologies prservent le contexte dterminant la smantique d'un concept par rapport une
tche.
- Ontologies haut niveau : Ontologies utilises pour reprsenter et tudier les catgories de
choses telles que les entits, vnements, processus, actions, temps, etc. [Sowa, 2000].
De faon gnrale, le mot "ontologie" est utilis abusivement pour renvoyer des
structures lexicales et smantiques varies. Par exemple, les catalogues ; les index du domaine
de la RI ; les modles entit-relation (ER) de la communaut des bases de donnes ; les
dictionnaires, le thesaurus de la communaut de l'informatique linguistique ; les dfinitions de
classes orientes objets de la communaut de l'ingnierie des systmes, les lexiques,
WordNet, l'UMLS, le MeSH, etc. Plusieurs lments ou composants constituent une
ontologie. Ceux qui reviennent le plus dans la littrature sont, (1) les concepts (souvent
reprsents par des termes), (2) les relations entre ces concepts (telles la relation sous-classe-
de ou encore partie-de), (3) les fonctions, qui sont des cas particuliers de relations dans
lesquelles le nime lment de la relation est dfini de manire unique partir des n-1
premiers, (4) les axiomes, utiliss pour structurer des "phrases" qui sont toujours vraies et (5)
les instances : elles sont utilises pour reprsenter des lments.
Parmi les ontologies les plus rpandues, utilises en recherche d'information, on cite Gene
Ontology (GO), MeSH et UMLS (domaine mdical), Mikrokosmos [Beale et al., 1995],
WordNet [Fellbaum & Miller, 1998] , EuroWordNet [Vossen, 1998], Sensus [Knight et al.,
1994], Yahoo Directory (hirarchie de catgories de Yahoo!) et Cyc [Lenat, 1995],
WordNet occupe sans doute avec MeSH et UMLS, les premiers rangs ([Gonzalo et al.,
1998][Guarino et al., 1999] [Zweigenbaum, 1993] [Smeaton et al., 1995][Liu et al., 2004]
Annexe A : Les ontologies
- 98 -
[Gao et al., 2005] [Moldovan et al., 2000][Chua et al., 2004]). Concernant WordNet, les
raisons de cette large utilisation sont dues au fait que cette base de donnes lexicale couvre de
faon quasi-totale la langue anglaise, ce qui la place souvent en adquation avec les donnes
traites en recherche d'information dans le cas gnral, qui sont de type presse (journaux et
priodiques). Nous l'avons utilise, pour notre part, dans notre approche. Nous la dcrivons
succinctement dans la suite.

WordNet
WordNet [Fellbaum & Miller, 1998] est un lexique smantique de la langue anglaise, il
peut sembler tre un dictionnaire standard mais en fait, il est beaucoup plus que cela. Outre le
fait qu'il nous fournit les synonymes des mots en fonction du sens, WordNet nous donne en
plus une taxonomie pour les noms, les verbes, les adjectifs et les adverbes. Dans WordNet,
une entre est donc un concept qui est reprsent par un Synset, cest--dire lensemble des
termes (mots ou groupes de mots) synonymes qui peuvent dsigner ce concept, Par exemple,
les mots car, auto et automobile font partie du mme synset dans WordNe. Les concepts relis
smantiquement par une relation donne un Synset, sont reprsents par une classe qui porte
le nom de la relation. La relation de base entre les termes dans WordNet est la Synonymie.
Les Synsets sont lis par des relations telles que spcifique-gnrique ou hyponyme-
hyperonyme (is-a) et la relation de composition meronymie-holonymie (part_of) comme
reprsentes dans le schma de la Figure A-1.










Figure A.1 : Principales relations smantiques dans WordNet.

Synonyme
Mronyme Concept Holonyme
Hyperonyme
Hyponyme
(partie) (entier)
(terme gnrique)
(nom et dfinition)
(terme spcifique)
Annexe A : Les ontologies
- 99 -
Elles peuvent tre dfinies comme suit :
Synonymie : les synonymes tant associs la classe Concept ;
Relation Hyperonymie: Cest le terme gnrique utilis pour dsigner une classe
englobant des instances de classes plus spcifiques. Y est un hyperonyme de X si X est
un type de (kind of) Y.
Relation Hyponymie: Cest le terme spcifique utilis pour dsigner un membre dune
classe (relation inverse de Hyperonymie). X est un hyponyme de Y si X est un type de
(kind of) Y.
Relation Holonymie: Le nom de la classe globale dont les noms meronymes font
partie. Y est un holonyme de X si X est une partie de (is a part of ) Y.
Relation Mronymie: Le nom dune partie constituante (part of), substance de
(substance of) ou membre (member of) dune autre classe (relation inverse de
lholonymie). X est un mronyme de Y si X est une partie de Y. exemple : {voiture} a
pour mronymes {{porte}, {moteur}}.
La Figure A.2 donne un exemple de sous-hirarchie extraite de WordNet correspondant au
concept "car".















Figure A.2 : Exemple de sous hirarchie dans WordNet correspondent au concept car .


- 100 -


L'algorithme des k-moyennes (k-means) [MacQueen, 1967] est sans aucun doute la
mthode de partitionnement la plus connue et la plus utilise dans divers domaines
d'application. Ce succs est d au fait que cet algorithme prsente un rapport cot/efficacit
avantageux.
Lalgorithme des k-moyennes utilise initialement k clusters contenant les k premiers vecteurs
qui servent de centres des clusters. Chaque vecteur restant est ensuite ajout au cluster dont le
centre le plus proche. Les k clusters sont produits lissue du k_means de faon minimiser
la fonction objective :
( )

=
=
k
j C x
j i
j i
g x E
1
2

O
i
x est un point quelconque du cluster
j
C et
j
g le point moyen de
j
C , k j .. 1 = . Les
paramtres dentres du k_means sont le nombre k de clusters et la mesure de similarit.
Lalgorithme se rsume aux quatre tapes suivantes :
1. choisir k vecteurs alatoirement pour initialiser les centres des clusters ;
2. affecter chaque vecteur au centre le plus proche. Il en rsulte une partition en k
clusters
k
C C ,...,
1

3. recalculer les centres de chacun des ces clusters,
4. les tapes 2 et 3 sont rptes jusqu ce que le choix des centres des clusters se
stabilise.

L'algorithme des k-moyennes ne peut tre utilis que sur des donnes dcrites par des attributs
numriques permettant ainsi le calcul des centrodes.









- 101 -


Dans les rseaux de neurones (ou rseaux connexionnistes), toutes les connaissances sont
reprsentes par des liaisons entre les units (neurones) et leurs poids synaptiques (valeurs)
associs, par analogie avec la neurobiologie. Un rseau de neurones peut tre reprsent
comme un graphe orient et pondr. Les noeuds de ce graphe sont des automates simples
nomms neurones formels ou tout simplement units du rseau. Un neurone formel possde
plusieurs entres d'information, est dot d'un tat interne, que l'on appelle tat dactivation, et
une fonction de sortie f qui permet de calculer une valeur de sortie en fonction de son tat
d'activation.
Chaque neurone peut propager son tat d'activation une autre unit du rseau en passant
par des arcs pondrs appels connexions, liens ou poids synaptiques.

1. Le neurone formel
Le fonctionnement d'un neurone formel est inspir du fonctionnement des neurones rels.
D'une faon gnrale [Mc Culloch et al., 1943] .Un neurone formel fait une somme {w1 ,w2
,...,wn} pondre par des potentiels d'actions {e1 ,e2 ,...,en}qui lui parviennent. Chacun de ces
potentiels {ei , i=1..n} et de ces poids {wi , i=1..n} est une valeur numrique qui reprsente
respectivement l'tat du neurone qui l'a mis et l'importance du lien avec ce dernier :

( )

=
i
i i
w e S *

Puis le neurone formel s'active suivant la valeur S de cette sommation (Figure 1.) :
- Si cette somme (S) dpasse un certain seuil (b) alors le neurone est activ et transmet une
rponse (sous forme de potentiel d'action) dont la valeur (A) est celle de son activation (la
fonction d'activation F du neurone).
- Si le neurone n'est pas activ alors il ne transmet rien.
Annexe C : principe de base des rseaux de neurones

- 102 -


Figure C.1 : Neurone formel avec fonction d'activation.

Dans le modle d'origine, la fonction d'activation F est une fonction seuil. Mais, les
chercheurs soucieux de conformit avec le modle biologique donnent une description
continue du neurone.
La fonction F va produire un signal continu qui rend limportance de l'activation du neurone.
Cette fonction est gnralement borne, continue et croissante comme celle des fonctions
sigmodes :
( )
x
e
x F
+
=
1
1
1
et ( )
1
1
2
+

=
x
x
e
e
x F

Qui sont respectivement valeurs dans [0,1] et dans [-1, +1].

2. Rseau neuronal

Un rseau neuronal est un ensemble de neurones formels interconnects et voluant dans
le temps par interactions rciproques, un rseau neuronal se dfinit par :
- son architecture, qui reprsente la structure de ses connexions,
- la dynamique des tats - activation
- la dynamique de ses connexions.
La dynamique des tats correspond l'volution des tats des diffrents neurones d'un
rseau. Cette dynamique dpend la fois des fonctions d'activation de chaque neurone, de la
structure et des poids des connexions. L'volution des poids des connexions correspond la
dynamique des connexions.

Annexe C : principe de base des rseaux de neurones

- 103 -
Dans le cadre de nos travaux, nous utilisons un rseau de neurones multicouches, le
modle du PMC (perceptron multicouches), qui, en plus d'une couche de neurones d'entre et
d'une couche de sortie, possde galement une ou plusieurs couches intermdiaires. Ces
couches, nommes couches caches, n'ont aucun contact avec l'environnement extrieur, leur
rle tant uniquement d'effectuer des calculs intermdiaires. Dans ce type d'architecture, les
units d'une couche sont relies toutes celles de la couche suivante. Il n'existe aucune
connexion entre les neurones d'une mme couche (figure C.2). L'activation des rseaux de
type perceptron multicouches est ralise par la propagation des signaux partir des units
d'entre vers la sortie, en passant par les diffrentes couches caches. D'une manire
simplifie, leur principe de fonctionnement est le suivant : la couche d'entre est active par
l'arrive d'une donne, en recevant une composante du vecteur x sur chacun de ses neurones
d'entre. La premire couche cache effectue le calcul de l'tat d'activation pour chacune de
ces units. Les valeurs de sortie sont transmises aux neurones de la couche cache suivante,
qui calculent leur tour un nouvel tat d'activation. Ce traitement est rpt pour chacune des
couches caches. Finalement, l'unit de la couche de sortie ayant la valeur la plus forte
indique la classe calcule pour l'entre.



Figure.C.2 : Exemple de perceptron multicouches

- 104 -
Bibliographie

[Adamson et Boreham, 1974]. G. Adamson and J. Boreham. The use of an association
measure based on character structure to identify semantically related pairs of words and
document titles. Information storage and retrieval, 10 :25360, 1974.
[Barnard & al, 2003] Barnard, K., Duygulu, P., Forsyth, D., de Freitas, N., Blei, D. M. &
Jordan, M. I. (2003), Matching words and pictures, Journal of Machine Learning Research.
[Baziz, 2005] Mustapha Baziz, indexation conceptuelle guide par ontologie pour la
recherche d'information , thse de doctorat de l'universit Paul Sabatier (France), dcembre,
2005.
[Beale & al., 1995] Beale, Stephen, Sergei Nirenburg und Kavi Mahesh (1995): Semantic
Analysis in the Mikrokosmos Machine Translation Project. In Proceedings of the Second
Symposium on Natural Language Processing, Bangkok, Thailand, 2.-4. August 1995. 294-
307.
[Belkin et al., 1992] N. J. Belkin and W. Croft. Information filtering and information
retrieval: two sides of the same coin ? Communications of the ACM, 35(12), December 1992.
[Berrani & al, 2003] Berrani, S.-A., Amsaleg, L., & Gros, P. (2003). Recherche
approximative de plus proches voisins : application la reconnaissance d'images par
descripteurs locaux. Technique et Science Informatiques.
[Bisson, 2000] Bisson, G. 2000. La similarit une notion symbolique numrique. Chap. XX of
Apprentissage symbolique-numrique (tome 2). Eds Moulet. Editions CEPADUES.
[Blie & al, 2003] D. M. Blei and M. I. Jordan, Modeling Annotated Data, Proc. ACM
Conference on Research and Development in Information Retrieval, 2003.
[Blie, 2004] David Meir Blei, PROBABILISTIC MODELS OF TEXT AND IMAGES, in
computer science with a designated emphasis. In communication, computation and statistic in
the Graduate Division of the University of California, BERKELEY, 2004.
[Bloch & al, 2005] Bloch, I., Gousseau, Y., Matre, H., Iviatignon, D., Pesquet-Popescu, B.,
Schmitt, F., Sigelle, M., & Tupin, F. 2004. Le traitement des images, Polycopi du cours
ANIM, Dpartement TSI - Tlcom-Paris.
[Bordogna et al., 2000] Flexible Querying of Structured Documents. Proceedings of the
Fourth International Conference on Flexible Query Answering Systems (FQAS), 2000.
[Boucher& Thi, 2005] Alain Boucher et Thi-Lan Le . Comment extraire la smantique dune
image, 3rd International Conference: Sciences of Electronic, Technologies of Information and
Telecommunications March 27-31, 2005 TUNISIA.
Bibliographie
- 105 -
[Boughanem & Soule, 1992] Boughanem M., Soule-Dupuy C. Un modle connexionniste
pour la recherche dinformations. in Linformatique Documentaire : Bulletin du centre de
hautes tudes internationales dinformatique documentaire, Sep.1992, N.47, p.13-30.
[Boujemaa & al, 2001] Boujemaa, N., Fauqueur, J., Ferecatu, M., Fleuret, F., Gouet, V.,
Saux, B. Le, & Sahbi, H. 2001. IKONA : Interactive Generic and Specific Image Retrieval. In
: International workshop on Multimedia Content-Based Indeiing and Retrieval (MMCBIR).
[Boujemaa & al. 2000] Boujemaa (N.), Nastar (C.) et Malki (J.). { Requtes partielles sans
segmentation pour la recherche d'images par le contenu. RFIA'2000, Paris, Fvrier 2000.
[Brown, 1993] P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, and R. L. Mercer. The
mathematics of machine translation : Parameter estimation. Computational Linguistics,
19(10):263311, 1993.
[Caenen et al, 2000] Caenen, G., Frederix, G., Kuijk, A., Pauwels, E., & Schouten, B. Show
me what you mean ! PARISS : A CBIR-interface that learns by example. International
Conference on Visual Information Systems (Visual'2000).
[Canny, 1986] Canny, J. 1986. A Computational Approach to Edge Detection. IEEE
Transactions on Pattern Analysis and Machine Intelligence.
[Carolyn& al, 1992] Carolyn J. Crouch, Bokyung Yang: Experiments in Automatic Statistical
Thesaurus Construction. SIGIR 1992.
[Carson & al.1999] Carson (C.), Thomas (M.), Belongie (S.), Hellerstein (J.M.) et Malik
(J.).Blobworld: A system for region-based image indexing and retrieval. Third Int. Conf. on
Visual Information Systems, June 1999.
[Chang & al, 2003] Chang, E., Li, B. T., Wu, G., & Goh, K. Statistical learning for effective
visual information retrieval. IEEE International Conference on Image Processing. Barcelona,
Spain. (2003).
[Chapelle & al, 1999] Chapelle, O., Ha_ner, P., & Vapnik, V. (1999). Svms for histogram
based image classification. IEEE Transactions on Neural Networks.
[Chua et al., 2004] Chua, S.; Kulathuramaiyer, N.; Semantic Feature Selection Using
WordNet Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International
Conference on 20-24 Sept. 2004.
[Cocquerez & al. 1995] Cocquerez (J.) et Philipp (S.). Analyses d'images: filtrage et
segmentation. Paris, Masson, 1995.
[Cox & al. 2000] Cox, I., Miller, M., Minka, T., Papathomas, T., & Yianilos, P. (2000). The
bayesian image retrieval system, PicHunter : Theory, implementation and psychophysical
experiments. IEEE Transactions on Image Processing.
[Datta & al, 2006] Datta, R., Ge, W., Li, J., and Wang, J. Z. 2006. Toward bridging the
annotation-retrieval gap in image search by a generative modeling approach. In Proc. ACM
Multimedia.
Bibliographie
- 106 -
[Datta, 2006] R. Datta and D. Joshi, Image Retrieval: Ideas, Influences, and Trends of the
New Age, In Proc. ACM Transactions on Computing Surveys, 2006.
[Deerwester & al, 1990] Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K.
Landauer, Richard Harshman.Indexing by Latent Semantic Analysis, Journal of the
American Society of Information Science, 1990.
[Derrode & al. 1999] Derrode (S.), Mezhoud (R.) et Ghorbel (F.). Reconnaissance de formes
par invariants complets et convergents : Application _a l'indexation de bases d'objets _a
niveaux de gris. GRETSI'99. Vannes, France, Septembre 1999.
[Doulamis & Doulamis, 2001] Doulamis, N., & Doulamis, A. (2001). A recursive optimal
relevance feedback scheme for CBIR. International Conference in Image Processing
Thessaloniki, Greece.
[Duygulu & al 2002] Duygulu, P., Barnard, K., de Freitas, J. F. G. & Forsyth, D. A. (2002),
Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary, in
Proceedings of the 7th European Conference on Computer Vision-Part IV.
[Fellbaum & Miller, 1998] Fellbaum, C. & Miller, G, (1998), WordNet: An Electronic
Lexical Database, the MIT Press.
[Ferecatu, 2005] Marin FERECATU : Recherche dimages par retour de pertinence actif
utilisant des descripteurs visuels et textuels , thse de doctorat de l'universit Versailles
Saint-Quentin-en-Yvelines (France), juillet 2005.
[Flickner & al, 1995] Flickner et al., Query by Image and Video Content: The QBIC
System , Computer, September 1995.
[Fournier& al, 2001] Fournier, J., Cord, M., & Philipp-Foliguet, S. (2001). Back-
propagation algorithm for relevance feedback in image retrieval. International Conference in
Image Processing . Thessaloniki, Greece.
[Funt & al. 1991] Funt .B.V. et Finlayson .G.D. Color constant color indexing. Technical
Report n 91-09, Vancouver, B.C., Canada, School of Computing Science, Simon Fraser
University, 1991.
[Gao & al., 2005] Guihong Gao and Jian-Yun Nie and Jing Bai: Integrating word
relationships into language models. SIGIR '05: Proceedings of the 28th annual international
ACM SIGIR conference on Research and development in information retrieval, Salvador,
Brazil, 2005.
[Geman & Moquet, 2000] Geman, D., & Moquet, R. (2000). A stochastic feedback model for
image retrieval. RFIA'2000 . Paris, France.
[Gmez-Prez & al., 2004] Gmez-Prez, A., Fernndez-Lpez, M., and Corcho. (2004).
Ontological Engineering with examples from the areas of Knowledge Management, e-
Commerce and the Semantic Web. Springer.
[Gong & al, 1998] Y. Gong, G. Proietti and C. Faloutsos. Image Indexing and Retrieval
Based on Human Perceptual Color Clustering. Proc. of International Conference on Computer
Vision and Pattern Recognition(CVPR), June 1998.
Bibliographie
- 107 -
[Gonzalo & al., 1998] Gonzalo, J., Verdejo, F., Chugur I., Cigarrn J.: Indexing with
WordNet synsets can improve text retrieval, in Proc. the COLING/ACL '98 Workshop on
Usage of WordNet for Natural Language Processing, 1998.
[Guarino et al., 1999] Guarino, N., C. Masolo, and G. Vetere, OntoSeek: Using Large
Linguistic Ontologies for Accessing On-Line Yellow Pages and Product Catalogs, . 1999,
National Research Council, LADSEBCNR: Padavo, Italy.
[Hafner & al. 1995] Hafner. J, Sawhney .H.S et Equitz .W. Efficient color histogram
indexing for quadratic form distance functions. IEEE Transactions on Pattern Analysis and
Machine Intelligence, July 1995.
[Hare et al, 2006] J. S. Hare, P. A.S. Sinclair, P.H. Lewis, K. Martinez, P. G. B. Enser, and
C.J. Sandom. Bridging the Semantic Gap in Multimedia Information Retrieval: Top-down
and Bottom-up Approach in proceeding of Mastering the gap: from information extraction to
semantic representation.
[Hofmann, 2001] Hofmann, T, Unsupervised learning by probabilistic latent semantic
analysis. Machine Learning, 2001.
[Hofmann, 1999] Hofmann, T. Probabilistic latent semantic indexing. In Proceedings of the
Twenty-Second Annual International SIGIR Conference, 1999.
[Huang & Zhou, 2001] Huang, T., & Zhou, X. (2001). Image retrieval with relevance
feedback : From heuristic weight adjustment to optimal learning methods. International
Conference in Image Processing. Thessaloniki, Greece.
[Haralick et al, 1973]. Haralick R.M., Shanmugam K., Dinstein I. (1973), Textural Features
for Image Classification, IEEE Trans. On Systems, Man, and Cybernetics, Vol. SMC-3, No.
6, November 1973, pp. 610-621.
[Inou, 2004] M. Inoue, 2004: On the need for annotation-based image retrieval, in Workshop
on Information Retrieval in Context.
[J.Z. Wangy &Y.Du, 2001] J. Z. Wang and Y. Du. Rf x ipf : A weighting scheme for
multimedia information retrieval. In ICIAP, pages 380385, 2001.
[Jeon et Manmatha, 2003] J. Jeon, V. Lavrenko, and R. Manmatha, Automatic Image
Annotation and Retrieval using Cross-media Relevance Models, Proc. ACM Conference on
Research and Development in Information Retrieval, 2003.
[Jiang & al., 1997] Jiang J. & Conrath D. (1997) Semantic similarity based on corpus
statistics and lexical taxonomy. In Proceedings on International Conference on Research in
Computational Linguistics, Taiwan, 1997.
[Jin & al, 2005] Y. Jin, L. Khan, L. Wang, M. Awad, Image Annotations By Combining
Multiple Evidence & WordNet, ACM Multimedia, 2005.
[Knight et al., 1994] Kevin Knight and S. Luk. Building a large-scale knowledge base for
machine translation. In Proceedings of AAAI'94, 1994.
Bibliographie
- 108 -
[Koczy et al., 1998] Baranyi, P.; Gedeon, T.D.; Koczy, L.T.; Intelligent information retrieval
using fuzzy approach. Systems, Man, and Cybernetics, 1998. 1998 IEEE International
Conference on Volume 2, 11-14 Oct. 1998 Page(s):1984 - 1989 vol.2 Digital Object Identifier
10.1109/ICSMC.1998.728188.
[LaCascia & al, 1998] La Cascia, M., Sethi, S., & Sclaroff, 5. 1998 (6). Combining Textual
and Visual Cues for Content-based Image Retrieval on the World Wide Web. In IEEE
Worshop on Content-based access of Image and Video Librairies.
[Laaksonen & al, 2002] Laaksonen, J., Koskela, M., & Oja, E. 2002. PicSOM Self-
organizing image retrieval with MPEG-7 content descriptions. IEEE Transactions on Neural
Networks, Special Issue on Intelligent Multimedia Processing.
[Lavrenko & Manmatha, 2003] V. Lavrenko, R. Manmatha, and J. Jeon, A Model for
Learning the Semantics of Pictures, Proc. Advances in Neutral Information Processing
Systems, 2003.
[Lenat, 1995] D.B. Lenat, CYC: A Large Scale Investment in Knowledge Infrastructure,
Communications of the ACM, 1995.
[Lin, 1998] D. Lin. (1998) An information-theoretic definition of similarity. In Proceedings
of 15th International Conference On Machine Learning, 1998.
[Liu et al., 2004] Liu, S., Liu, F., Yu, C., and Meng, W. 2004. An effective approach to
document retrieval via utilizing WordNet and recognizing phrases. In Proceedings of the 27th
Annual international Conference on Research and Development in information Retrieval
(Sheffield, United Kingdom, July 25 - 29, 2004). SIGIR '04. ACM Press, New York.
[MacQueen, 1967] MacQueen (J.). Some methods for classification and analysis of
multivariate observations. In : Proceedings of the Fifth Berkeley Symposium on Mathematical
statistics, 1967.
[Maron et al, 1960]. Maron, M. and Kuhns, J. On relevance, probabilistic indexing and
information retrieval. Journal of the Association for Computing Machinery, 7 :216244.
1960.
[Mc Culloch et al., 1943] W. McCulloch and W. Pitts, "A logical calculus of the ideas
immanent in nervous activity," Bulletin of Mathematical Biophysics 5: 115-133, 1943.
[Moldovan & al., 2000] D. Moldovan, S. Harabagiu, M. Pasca, R. Mihalcea, R. Goodrum, R.
Girju, and V. Rus. 1999. LASSO: A tool for surfing the answer net. In Proceedings of the
Text Retrieval Conference (TREC-8).
[Monay & al, 2003] F. Monay and D. Gatica-Perez, On Image Auto-Annotation with Latent
Space Models, Proc. ACM Multimedia, 2003.
[Monay & al, 2004] F. Monay & D. Gatica-Perez,PLSA- based image auto annotation:
constraining the latent space. In proceedings of ACM Multimedia (ACM MM). New york,
NY, USA: ACM Press, 2004.
[Muller & al, 1999] Muller, W, Squire, D. M, Muller, H, & Pun, T. (1999). Hunting moving
targets: an ex- tension to bayesian methods in multimedia databasesTechnical report.
Bibliographie
- 109 -
Computer Vision Group, Computing Science Center, University of Geneva, Genve,
Switzerland.
[Najjar & al, 2003] Najjar, N., Cocquerez, J., & Ambroise, C. (2003). Feature selection for
semi supervised learning applied to image retrieval. IEEE ICIP. Barcelena, Spain.
[Nastar et al, 1998] Nastar C. et al., Surfimage: a Flexible Content-Based Image Retrieval
System , The 6
th
ACM Inernational Multimedia Conference. (MM98), Bristol, England, pp.
339-344, September 1998.
[Niblack & al. 1994] Niblack .W, Barber .R, Equitz .W, Flickner. M, Glasman .E.H,
Petkovic.D, Yanker .P, Faloutsos .C et Taubin .G. The QBIC project: Querying images by
content, using color, texture, and shape. Storage and Retrieval for Image and Video Databases
(SPIE). February 1994.
[Ogle & al, 1995] Ogle V.E. et al, Chabot : Retrieval from a Relational Database of Images,
IEEE Computer, p. 40-48, September 1995.
[Park & al, 1999] D. Park, J. Park and J.H.Han. Image Indexing using Color Histogram in
the CIELUV Color Space. Proc. of the 5
th
Japan-Korea Joint Workshop on Computer Vision,,
January 1999.
[Patwardhan & al, 2003] S. Patwardhan,S. Banerjee, and T. Pedersen : Using measures of
semantic relatedness for word sense disambiguation. In Proceedings of the Fourth
International Conference on Intelligent Text Processing and Computational Linguistics
CICLING, Mexico City, 2003.
[Pauwels & al. 1999] Pauwels (E.J.) et Frederix (G.). Finding salient regions in images: Non-
parametric clustering for image segmentation and grouping. Journal of Computer Vision and
Image Understanding, July-August 1999.
[Peng & al., 1999] Peng, J., Bhanu, B., & Qing, S. (1999). Probabilistic feature relevance
learning for content based image retrieval. Computer Vision and Image Understanding.
[Ponte & al, 1998] Jay M. Ponte, W. Bruce Croft: A Language Modeling Approach to
Information Retrieval. SIGIR, 1998.
[Porter, 1980]. M. F. Porter. An algorithm for suffix stripping. Program 14. 1980.
[Puzicha & al. 1997] Puzicha (J.), Hofmann (T.) et Buhmann (J.). Non-parametric similarity
measures for unsupervised texture segmentation and image retrieval. IEEE Conference on
Computer Vision and Pattern Recognition. June 1997.
[Rada & al., 1989] Rada, R., Mili, H., Bicknell, E., and Blettner, M. (1989). Development
and application of a metric on semantic nets. IEEE Transaction on Systems, Man, and
Cybernetics.
[Resnik, 1999] Resnik, P., "Semantic Similarity in a Taxonomy: An Information-Based
Measure and its Application to Problems of Ambiguity in Natural Language", Journal of
Artificial Intelligence Research (JAIR), 11, pp. 95-130, 1999.
[Rijsbergen, 1979]. C. van Rijsbergen. Information retrieval. Butterworths. 1979.
Bibliographie
- 110 -
[Robertson et al., 1997] S. E. Robertson and S. Walker. On relevance weights with little
relevance information. In Proceedings of the 20th annual international ACM SIGIR
conference on Research and development in information retrieval, pages 1624. ACM Press,
1997.
[Robertson, 1977]. S. Robertson. The probability ranking principle in IR. Journal of
Documentation, 33(4) :294304. 1977.
[Rubner, 1999] Rubner, Y. (1999). Perceptual metrics for image database navigation.
Doctoral dissertation, Stanford University.
[Rui & al., 1997] Rui, Y., Huang, T., Mehrotra, S., & Ortega, M. (1997). A relevance
feedback architecture for content-based multimedia information retrieval systems. IEEE
Workshop on Content-Based Access of Image and Video Libraries.
[Rui & al. 1996] Rui (Y.), She (A.C.) et Huang (T.S.). Modified fourier descriptors for shape
representation - a pratical approach. Proc. of First International Workshop on Image
Databases and Multi Media Search. 1996.
[Rui & Huang, 2000] Rui, Y., Huang, T., Mehrotra, S., & Ortega, M. (1997). A relevance
feedback architecture for content-based multimedia information retrieval systems. IEEE
Workshop on Content-Based Access of Image and Video Libraries. 2000.
[Rui, 1997] Rui. Y.1 997. A relevance feedback architecture in content-based multimedia
information retrieval systems. In : Proceedings IEEE Workshop Content-Based Access of
Image and Video Libraries.
[Salton & al, 1983] Salton, G., & McGill, M. Introduction to Modern Information Retrieval.
McGraw-Hill, New York, 1983.
[Salton, 1970], G. Salton. The SMART retrieval system : Experiments in automatic document
processing. Prentice Hall. 1970.
[Saux, 2003] Saux, B. L. (2003). Classification non exclusive et personnalisation par
apprentissage : Application la navigation dans les bases d'images. Doctoral dissertation,
INRIA.
[Sclaroff & al, 1997] Sclaroff, S., Taycher, L., & Cascia, M. La. 1997. ImageRover A
Content-Based Image Browser for the World Wide Web. In : Proceedings of IEEE Workshop
on Contentbased Access of Image and Video Libraries.
[Shaw et al, 1997]. W. Shaw, R. Burgin, and P. Howell. Performance standards and
evaluations in IR test collections : Cluster-based retrieval models. Information Processing and
Management, 33(1) :114. 1997.
[Singhal et al., 1995] A. Singhal, G. Salton, M. Mitra, and C. Buckley. Document length
normalization. Information Processing and Management, 32(5) :619633. 1995.
[Smeaton et al., 1995] A.F. Smeaton & I. Quigley (1995). Experiments on Using Semantic
Distances Between Words in Image Caption Retrieval, in Proceedings of ACM SIGIR
Conference.
Bibliographie
- 111 -
[Smeulders & al., 2000] Smeulders, A., Worring, M., Santini, S., Gupta, A., & Jain, R.
(2000). Content-based image retrieval at the end of the early years. IEEE Transactions on
Pattern Analysis and Machine Intelligence,
[Smith & Chang, 1996] Smith J.R. et Chang S.F., Tools and Techniques for Color Image
Retrieval , Storage & Retrieval for Image and Videos database IV, SPIE Proceedings, Vol.
2670, February 1996.
[Smith et al, 1996] Smith J.R. et al., VisualSEEK: a fully automated content-based image
query system , ACM Multimedia96, November 1996.
[Song et al, 1999] Fei Song, W. Bruce Croft: A General Language Model for Information
Retrieval. CIKM 1999: 316-321.
[Sowa, 2000] Sowa, J. F. (2000). Knowledge representation : logical, philosophical and
computational foundations. Brooks/Cole Publishing Co., Paci_c Grove, CA, USA.
[Stricker & al. 1995] Stricker .M.A. et Orengo .M. Similarity of color images. SPIE,
Storage and Retrieval for Image Video Databases III, 1995.
[Stricker, 1996] M. Stricker and A. Dimai. Color indexing with weak spatial constraints.
SPIE Proc, 1996.
[Swain & al. 1991] Swain (M.J.) et Ballard (D.H.). Color indexing. International Journal of
Computer Vision, vol. 7, n_ 1, 1991, pp. 11-32.
[Timpf, 2001] Timpf, S. (2001). The need for task ontologies in interoperable gis. In
University of Zrich, Department of Geography. http ://e-collection.ethbib.ethz.ch/ecol
pool/bericht/bericht_169.pdf.
[Tollari, 2006] Tollari Sabrina : Indexation et recherche dimage par fusion dinformations
textuelles et visuelles, thse de doctorat de l'universit du sud Toulon var (France),
Octobre, 2006.
[Tong & Koller, 2001] Tong, S., & Koller, D. Support vector machine active learning with
application to text classification. Journal of Machine Learning Research, 2001.
[Vandenbroucke, 2000] N. Vandenbroucke. Segmentation dimages couleur par
classification de pixels dans des espaces dattributs colorimtriques adapts - Application
lanalyse dimages de football. Thse de doctorat, Universit des Sciences et Technologies de
Lille, 2000.
[Vasconcelos, 2000] Vasconcelos, N. (2000). Bayesian models for visual information
retrieval. Doctoral dissertation, Massachusetts Institute of Technology.
[Vossen, 1998] Vossen, P. (1998). EuroWordNet : A Multilingual Database with Lexical
Semantic Networks. Kluwer Academic Publishers. Dordrecht, The Netherlands.
[William & al, 1992] William B. Frakes and Ricardo Baeza-Yates (eds.), 1992. Informa-tion
Retrieval Data Structures & Algorithms. Prentice-Hall. ISBN.
Bibliographie
- 112 -
[Winter & al. 1999] Winter (A.) et Nastar (C.). Differential feature distribution maps for
image segmentation and region queries in image databases. IEEE Conference on Computer
Vision and Pattern Recognition. Colorado, June 1999.
[Wu et al, 1994] Z. Wu, M. Palmer, Verb semantics and lexical selection, In Proceedings of
the 32nd annual meeting of the Association for Computational Linguistics, pp 133-138, 1994.
[Zweigenbaum 1993] P. Zweigenbaum et al., Linguistic and medical knowledge bases: An
access system for medical records using natural language, Technical report, MENELAS:
deliverable 9, AIM Project A2023, 1993.