Vous êtes sur la page 1sur 134

UNIVERSITE DEVRY-VAL DESSONNE

Laboratoire dInformatique, Biologie Intgrative et Syst`mes Complexes


e
e

`
THESE
Prsente par
e
e

Rostom KACHOURI
Pour lobtention du titre de

Docteur de lUniversit dEvry-Val dEssonne


e
Spcialit:
e
e

Sciences pour lingnieur - Traitement des IMages et


e
du SIgnal

Classication multi-mod`les des images dans


e
les bases htrog`nes
e e
e
Th`se soutenue le 29 juin 2010
e
Devant le jury compos de:
e

S. Ruan
W. Puech
K. Hamrouni
A. Ben Hamida
D. S-Masmoudi
K. Djemal
N. Derbel
H. Maaref

:
:
:
:
:
:
:
:

Professeur, Universit de Reims,


e
Professeur, Universit de Montpellier II,
e
MCF, ENIT-Universit de Tunis,
e
Professeur, ENIS-Universit de Sfax,
e
MCF, ENIS-Universit de Sfax,
e
MCF, Universit dEvry Val dEssonne,
e
Professeur, ENIS-Universit de Sfax,
e
Professeur, Universit dEvry Val dEssonne,
e

Rapporteur
Rapporteur
Rapporteur
Examinateur
Examinateur
Encadrant
Co-directeur
Directeur

Ddicaces
e

` a
A lme de mon p`re Sadok
e
` ma m`re Monia
A
e
Auxquels, je dois ce que je suis
`
A Imen
`
A notre lle Rahma
`
A notre futur garon Rayan
c

Remerciements
Jaimerais avant tout exprimer ma gratitude et mes remerciements ` mon encadrant
a
scientique de th`se, M. Khalifa Djemal, ma de confrences de luniversit dEvry. Jai
e
tre
e
e
normment appris ` ses cts. Il a su minitier ` la recherche, me pousser ` toujours
e
e
a
oe
a
a
faire mieux et il ma souvent aid ` surmonter les dicults de ce cheminement quest
ea
e
le doctorat. Encore plus que ses grandes qualits scientiques, jai beaucoup apprci ses
e
e e
qualits humaines, en particulier lcoute, le partage et la comprhension, qui men ont
e
e
e
fait un ami.
Jadresse galement ` mon directeur de th`se, M. Hichem Maaref, professeur de lunie
a
e
versit dEvry, mes plus sinc`res remerciements. Cest un homme dune grande patience,
e
e
tr`s ` lcoute et tr`s comprhensif et qui est directement responsable du bon droulement
e a e
e
e
e
de mes travaux. Je le remercie chaleureusement pour ses attentions et les nombreuses discussions professionnelles et personnelles que nous avons eues.
Je veux absolument remercier M. Nabil Derbel, professeur de luniversit de Sfax et
e

Mme Dorra Sellami-Masmoudi, ma de confrences ` lEcole nationale des ingnieurs de


tre
e
a
e
Sfax et habilite ` diriger les recherches, sans qui cette collaboration de th`se en cotutelle
e a
e
ne serait pas ce quelle est aujourdhui.
Jexprime ma gratitude ` M. William Puech, professeur de luniversit de Montpellier II
a
e
ainsi qu` Mme Su Ruan, professeur de luniversit de Reims, pour avoir accept de juger
a
e
e
mes travaux en tant que rapporteurs. Je remercie M. AHMED BEN HMIDA, professeur
de luniversit de Sfax, qui a accept de faire partie de ce jury. Je tiens galement ` exprie
e
e
a

mer ma reconnaissance ` M. Kamel Hamrouni, ma de confrences ` lEcole nationale


a
tre
e
a
des ingnieurs de Tunis et habilit ` diriger les recherches, pour avoir accept de juger
e
ea
e
mes travaux et prsider ce jury.
e
Une th`se est un travail assez personnel qui sinscrit toutefois dans une quipe. Je
e
e
remercie donc tous mes coll`gues doctorants, tous les membres temporaires ou permae
nents que jai crois au cours de cette exprience, je pense en particulier ` Imen, Ahmed,
e
e
a
Mohamed, Slim, Amin, Imen, Anwar, Anis, Asma, Salima, Iman, Mouna, christophe,
Jean-yves, christophe, Pierre, Hamdi, Abdelkader, Samia, Nader, Majid, yassine, Khalid
(ils sont trop nombreux pour pouvoir les citer tous). Ils mont beaucoup apport pendant
e
ces derni`res annes: joie, fous rires, complicit, soires, voyages, ouverture desprit.
e
e
e
e
Comme il y a aussi une vie en dehors du travail (si tout de mme un petit peu) jai eu
e
la chance de rencontrer hors du labo des personnes qui sont aujourdhui des amis: Tarek,
Hedi, Mehdi, Hamdi, Sabeur, Khalil, Sebastien, Nader et tant dautres! Auxquels je dois
aussi de bons moments de sincrit, rigolade et complicit.
e e
e
Enn last but not least jexprime toute ma gratitude ` ma m`re Monia, ma femme
a
e
Imen et ma petite lle Rahma qui ont support avec moi les meilleurs et les pires moments
e
et qui mont donn la force daller au bout de cette aventure. Bref, pour ce bout de chemin
e
fait ensemble.

Rsum
e
e

La reconnaissance dimages est un domaine de recherche qui a t largement tudi


ee
e
e
par la communaut scientique. Les travaux proposs dans ce cadre sadressent principalee
e
ment aux diverses applications des syst`mes de vision par ordinateur et ` la catgorisation
e
a
e
des images issues de plusieurs sources. Dans cette th`se, on sintresse particuli`rement
e
e
e
aux syst`mes de reconnaissance dimages par le contenu dans les bases htrog`nes.
e
ee e
Les images dans ce type de bases appartiennent ` dirents concepts et reprsentent
a
e
e
un contenu htrog`ne. Pour ce faire, une large description permettant dassurer une
ee e
reprsentation able est souvent requise. Cependant, les caractristiques extraites ne
e
e
sont pas ncessairement toutes appropries pour la discrimination des direntes classes
e
e
e
dimages qui existent dans une base donne dimages. Do`, la ncessit de slection des
e
u
e
e
e
caractristiques pertinentes selon le contenu de chaque base. Dans ce travail, une mthode
e
e
originale de slection adaptative est propose. Cette mthode permet de considrer unie
e
e
e
quement les caractristiques qui sont juges comme les mieux adaptes au contenu de la
e
e
e
base dimages utilise. Par ailleurs, les caractristiques slectionnes ne disposent pas
e
e
e
e
gnralement des mmes performances. En consquence, lutilisation dun algorithme
e e
e
e
de classication, qui sadapte aux pouvoirs discriminants des direntes caractristiques
e
e
slectionnes par rapport au contenu de la base dimages utilise, est vivement recome
e
e
mande. Dans ce contexte, lapproche dapprentissage par noyaux multiples est tudie et
e
e
e
une amlioration des mthodes de pondration des noyaux est prsente. Cette approche
e
e
e
e
e
sav`re incapable de dcrire les relations non-linaires des dirents types de description.
e
e
e
e
Ainsi, nous proposons une nouvelle mthode de classication hirarchique multi-mod`les
e
e
e
permettant dassurer une combinaison plus exible des caractristiques multiples. Dapr`s
e
e
les exprimentations ralises, cette nouvelle mthode de classication assure des taux de
e
e e
e
reconnaissance tr`s intressants. Enn, les performances de la mthode propose sont
e
e
e
e
mises en vidence ` travers une comparaison avec un ensemble dapproches cit dans la
e
a
e
littrature rcente du domaine.
e
e
Mots-cls: Reconnaissance dimages par le contenu, Bases dimages htrog`nes, Exe
ee e
traction dattributs, Slection adaptative des caractristiques les plus pertinentes, Ape
e
prentissage par noyaux multiples, Classication multi-mod`les.
e

Abstract

Image recognition is widely studied by the scientic community. The proposed research
in this eld is addressed to various applications of computer vision systems and multiple
source image categorization. This PhD dissertation deals particularly with content based
image recognition systems in heterogeneous databases. Images in this kind of databases
belong to dierent concepts and represent a heterogeneous content. In this case and to
ensure a reliable representation, a broad description is often required. However, the extracted features are not necessarily always suitable for the considered image database.
Hence, the need of selecting relevant features based on the content of each database. In
this work, an adaptive selection method is proposed. It considers only the most adapted
features according to the used image database content. Moreover, selected features do
not have generally the same performance degrees. Consequently, a specic classication
algorithm which considers the discrimination powers of the dierent selected features is
strongly recommended. In this context, the multiple kernel learning approach is studied
and an improved kernel weighting method is presented. It proved that this approach is
unable to describe the nonlinear relationships of dierent description kinds. Thus, we propose a new hierarchical multi-model classication method able to ensure a more exible
combination of multiple features. Experimental results conrm the eectiveness and the
robustness of this new classication approach. In addition, the proposed method is very
competitive in comparison with a set of approaches cited in the recent literature.
Key words: Content based image recognition, Heterogeneous image databases, Feature extraction, Adaptive feature selection, Multiple kernel learning, Multi-model classication.

Table des mati`res


e

Ddicaces
e
Remerciements
Rsum
e
e
Abstract
Index des symboles

Introduction gnrale
e e

1 Extraction dattributs et classication dimages dans les bases htrog`nes 10


e e
e
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.2 Reconnaissance dimages par le contenu . . . . . . . . . . . . . . . . . . .
11
1.2.1 Types dattributs . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
1.2.1.1 La couleur . . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.2.1.2 La texture . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.2.1.3 La forme . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.2.2 Catgories dattributs . . . . . . . . . . . . . . . . . . . . . . . .
e
15
1.2.2.1 Attributs globaux . . . . . . . . . . . . . . . . . . . . . .
15
1.2.2.2 Attributs locaux . . . . . . . . . . . . . . . . . . . . . .
16
1.2.3 Mthodes de classication et valuation des performances . . . . .
e
e
17
1.2.3.1 Classication . . . . . . . . . . . . . . . . . . . . . . . .
17
1.2.3.2 Rtroaction et bouclage de pertinence . . . . . . . . . .
e
17
1.2.3.3 Performances de classication dimages . . . . . . . . . .
18
1.3 Bases dimages htrog`nes utilises . . . . . . . . . . . . . . . . . . . . .
ee e
e
18
1.3.1 La base dimages COLUMBIA . . . . . . . . . . . . . . . . . . . .
19
1.3.2 La base dimages COREL . . . . . . . . . . . . . . . . . . . . . .
19
1.3.3 La base dimages CALTECH . . . . . . . . . . . . . . . . . . . . .
20
1.4 Techniques de classication dimages . . . . . . . . . . . . . . . . . . . .
22
1.4.1 Mthodes de classication non-supervise . . . . . . . . . . . . . .
e
e
22

1.5

1.6
1.7

1.4.2 Mthodes de classication supervise . . . . . . . . . . . . . . . .


e
e
24
Caractristiques utilises pour la description dimages dans les bases htrog`nes 26
e
e
ee e
1.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
1.5.2 Les couleurs moyennes . . . . . . . . . . . . . . . . . . . . . . . .
27
1.5.3 Les histogrammes couleurs . . . . . . . . . . . . . . . . . . . . . .
28
1.5.4 La matrice corrlogramme . . . . . . . . . . . . . . . . . . . . . .
e
28
1.5.5 Les statistiques de premier ordre . . . . . . . . . . . . . . . . . .
29
1.5.6 La matrice de co-occurrences . . . . . . . . . . . . . . . . . . . .
29
1.5.7 Les transformes en ondelettes de Daubeshie . . . . . . . . . . . .
e
31
1.5.8 Le descripteur GIST . . . . . . . . . . . . . . . . . . . . . . . . .
31
1.5.9 La matrice norme du gradient . . . . . . . . . . . . . . . . . . . .
31
1.5.10 Les moments de Hu . . . . . . . . . . . . . . . . . . . . . . . . . .
33
1.5.11 Optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
1.5.12 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34

Evaluation des caractristiques . . . . . . . . . . . . . . . . . . . . . . . .


e
35
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38

2 Slection Adaptative des caractristiques les plus pertinentes


e
e
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mthodes de slection . . . . . . . . . . . . . . . . . . . . . . . . .
e
e
2.2.1 Les mthodes Filtres . . . . . . . . . . . . . . . . . . . . . .
e
2.2.2 Les mthodes Enveloppantes . . . . . . . . . . . . . . . . . .
e
2.3 Travaux connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 LAnalyse en Composantes Principales . . . . . . . . . . . .
2.3.2 La slection base sur les Algorithmes Gntiques . . . . . .
e
e
e e
2.4 La Slection Adaptative des Caractristiques pertinentes . . . . . .
e
e
2.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2 Apprentissage multiple . . . . . . . . . . . . . . . . . . . . .
2.4.3 Discrimination linaire de Fisher . . . . . . . . . . . . . . .
e
2.4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5 Evaluation de la slection des caractristiques par ACP, AG et SAC


e
e
2.5.1 ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2 AG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.3 SAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.4 Rsultats de classication . . . . . . . . . . . . . . . . . . .
e
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

40
41
41
41
42
42
42
44
45
45
45
46
49
49
49
52
55
57
59

3 Machines ` Vecteurs Supports ` noyaux multiples


a
a
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Machines ` Vecteurs Supports . . . . . . . . . . . . . . . . . . . . . . . .
a
3.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61
62
62
62

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3.2.2
3.2.3
3.2.4
3.2.5

Notions de base . . . . . . . . . . . . . . . . . . .
Cas linairement sparable . . . . . . . . . . . . .
e
e
Cas non-linairement sparable . . . . . . . . . .
e
e
Extension aux probl`mes multi-classes . . . . . .
e
3.2.5.1 Algorithme SVM: Un contre tous . . . .
3.2.5.2 Algorithme SVM: Un contre un . . . . .
3.2.5.3 Algorithme DAG-SVM . . . . . . . . . .
3.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . .
3.3 Approche dapprentissage par noyaux multiples . . . . .
3.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Techniques de pondration de noyaux . . . . . . .
e
3.4 Pondration de noyaux base sur les taux dapprentissage
e
e
3.4.1 Introduction . . . . . . . . . . . . . . . . . . . . .
3.4.2 Principe de MK SVM . . . . . . . . . . . . . . .
3.4.3 Apprentissage multiple . . . . . . . . . . . . . . .
3.4.4 Calcul des dirents poids de noyaux . . . . . . .
e
3.4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . .

3.5 Evaluation de la mthode MK SVM . . . . . . . . . . . .


e
3.5.1 Rsultats de classication . . . . . . . . . . . . .
e
3.5.2 Temps dexcution . . . . . . . . . . . . . . . . .
e
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
SVM
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

63
63
64
65
66
66
67
67
67
67
68
70
70
70
71
71
73
73
74
75
76

4 Mthode de classication hirarchique multi-mod`les


e
e
e
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Classication hirarchique multi-mod`les . . . . . . . . . . . . . . . . . .
e
e
4.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Principe de lapproche multi-mod`les . . . . . . . . . . . . . . . .
e
4.2.3 Rsolution de conit de dcision par NCC . . . . . . . . . . . . .
e
e
4.2.4 Classication hirarchique . . . . . . . . . . . . . . . . . . . . . .
e
4.2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3 Evaluation et comparaison . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3.1 Evaluation de MC-MM ` travers direntes mthodes de slection


a
e
e
e
4.3.2 Performances de MC-MM utilisant la mthode de slection SAC .
e
e
4.3.3 Comparaison des rsultats MC-MM base SAC avec des mthodes
e
e
e
de classication connues . . . . . . . . . . . . . . . . . . . . . . .
4.3.3.1 Mthode simultane classique . . . . . . . . . . . . . . .
e
e
4.3.3.2 Approche des Multiple Instance Learning . . . . . . . . .
4.3.3.3 Approche des sacs de mots-visuels . . . . . . . . . . . .
4.3.3.4 Approche dapprentissage par noyaux multiples . . . . .
4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78
79
79
79
79
80
81
83
83
83
84
86
86
88
89
92
96

Conclusion gnrale et perspectives


e e

98

Liste des publications

102

Bibliographie

105

Table des gures

1.1
1.2

1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11

1.12
1.13
1.14
1.15

2.1
2.2
2.3

Architecture dun syst`me de reconnaissance dimages par le contenu


e
bas sur la classication. . . . . . . . . . . . . . . . . . . . . . . . . . .
e
Image couleur RVB : association de trois sous-images monochromes, correspondant respectivement au direntes composantes Rouge, Vert et
e
Bleu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Dirents mod`les de texture. . . . . . . . . . . . . . . . . . . . . . . .
e
e
Direntes transformations gomtriques que peut subir une image. . .
e
e e

Echantillons dimages segmentes de la base COREL. . . . . . . . . . .


e
Graphe typique de prcision-rappel. . . . . . . . . . . . . . . . . . . . .
e

Echantillons des 100 objets de la base dimages COIL-100 de COLUMBIA.

Echantillons dimages de direntes classes de la base COREL utilise.


e
e

Echantillons dimages de direntes classes de la base CALTECH-256


e
utilise. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e
Approche de classication supervise: type de modlisation a) Intrins`que
e
e
e
et b) Discriminante. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Echantillons des caractristiques extraites respectivement des images


e
Dinosaure et Rose: a) Histogramme, b) Matrice des normes du gradient,
et c) GIST. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coecients dondelettes pour deux niveaux de dcomposition. . . . . .
e

Echantillons des descripteurs GIST extraits pour direntes images de


e
la base COREL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Nouvelle forme de la caractristique des normes du gradient des image
e
Dinosaure et Rose: a) la projection selon x et b) la projection selon y. .
Taux de classication des mod`les individuels associs ` lensemble des
e
e a
caractristiques employes pour direntes sous-bases dimages COREL
e
e
e
(` gauche) et CALTECH-256 (` droite). . . . . . . . . . . . . . . . . .
a
a

11

13
14
15
16
18
19
20
20
25

27
31
32
35

38

Les deux premi`res directions principales (b1 et b2 ) dun nuage de NIm


e
observations dans Rd . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Diagramme standard dun algorithme gntique. . . . . . . . . . . . .
e e
44
Diagramme de la mthode de Slection Adaptative des Caractristiques
e
e
e
les plus pertinentes qui correspondent aux mod`les slectionns dans Ms . 48
e
e
e

2.4

2.5

2.6

3.1
3.2
3.3
3.4
3.5
3.6

4.1

4.2
4.3

4.4
4.5

4.6

4.7

4.8
4.9

Allure des valeurs propres ranges par ordre dcroissant respectivement


e
e
pour les sous-bases COREL avec : a) 3 classes, b) 5 classes, c) 7 classes
et d) 10 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Allure des valeurs propres ranges par ordre dcroissant respectivement
e
e
pour les sous-bases COLUMBIA avec : a) 3 classes, b) 5 classes, c) 7
classes et d) 10 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparaison des prcisions moyennes de classication respectivement
e
bases sur les slections ACP (90%), AG2 et SAC pour direntes souse
e
e
bases dimages COREL. . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple de classication SVM linairement sparable. . . . . . . . . .
e
e
Exemple de classication SVM non-linairement sparable. . . . . . . .
e
e
Exemple de classication SVM multi-classes (NC = 3). . . . . . . . . .
Diagramme de la mthode de classication MK SVM utilisant la noue
velle pondration KW-BTR. . . . . . . . . . . . . . . . . . . . . . . . .
e
Performances de classication moyenne des deux algorithmes MK SVM
et SimpleMKL pour direntes sous-bases dimages COREL. . . . . . .
e
Courbes prcision-rappel de a) MK SVM et b) SimpleMKL pour direntes
e
e
sous-bases dimages COREL. . . . . . . . . . . . . . . . . . . . . . . .

50

51

58
64
65
66
72
75
75

R`gle de dcision du classieur NCC: classication de limage requte


e
e
e
Iq dans lespace dattributs Fm , ` travers les deux classes values Ci et
a
e
e
Cj . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
80
Diagramme illustrant larchitecture de la mthode de classication hirarchique
e
e
multi-mod`les MC-MM. . . . . . . . . . . . . . . . . . . . . . . . . . .
e
82
a) Les images correctement classies et b) celles mal classies de la
e
e
classe African peoples and villages pour la sous-base dimages COREL
utilise (10 classes). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
e
86
Comparaison des prcisions moyennes de MC-MM et de la mthode de
e
e
classication classique pour direntes sous-bases dimages COREL. . .
e
87
Les dix histogrammes de mots-visuels qui reprsentent lensemble des
e
classes de la sous-base dimages COREL avec 10 classes. Chaque histogramme illustre le nombre doccurrence des dirents mots-visuels
e
extraits ` partir des images de la classe correspondante. . . . . . . . .
a
89
a) Sac de mots-visuels qui reprsente lensemble des images appartee
nant aux 10 classes de la sous-base COREL utilise, b) Distances entre
e
les caractristiques histogrammes de mots-visuels des direntes paires
e
e
dimages de la sous-bases COREL utilise (10 classes). . . . . . . . . .
e
90
Graphes des deux matrices de confusion respectives de MC-MM (`
a
gauche) et BoF (` droite) pour la sous-base dimages COREL avec 10
a
classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
Courbes prcision-rappel de MC-MM et BoF pour la sous-base dimages
e
COREL avec 10 classes. . . . . . . . . . . . . . . . . . . . . . . . . . .
91
Comparaison des prcisions moyennes de MC-MM et SimpleMKL pour
e
direntes sous-bases dimages a) COREL et b) CALTECH-256. . . . .
e
93

4.10
4.11
4.12

4.13

Courbes prcision-rappel de a) MC-MM et b) SimpleMKL pour direntes


e
e
sous-bases dimages COREL. . . . . . . . . . . . . . . . . . . . . . . .
Courbes prcision-rappel de a) MC-MM et b) SimpleMKL pour direntes
e
e
sous-bases dimages CALTECH-256. . . . . . . . . . . . . . . . . . . .
Les images requtes de la classe Sunset scenes de la base COREL
e
(` gauche) et les images mal-classies (` droite) avec respectivement
a
e
a
MC-MM et SimpleMKL. Toutes les images requtes restantes (non illustres
e
e
a
` droite) sont correctement classies ` travers chaque mthode. . . . .
e a
e
Les images requtes de la classe Chimp de la base CALTECH-256
e
(` gauche) et les images mal-classies (` droite) avec respectivement
a
e
a
MC-MM et SimpleMKL. Toutes les images requtes restantes (non illustres
e
e
a
` droite) sont correctement classies ` travers chaque mthode. . . . .
e a
e

93
93

94

94

Liste des tableaux

1.1
1.2
1.3
1.4
1.5

Noms et identiants des 23 classes utilises ` partir des deux bases dimages
e a
COREL et CALTECH-256. . . . . . . . . . . . . . . . . . . . . . . . . .

Evaluation de lecacit de classication des mod`les individuels associs


e
e
e
aux caractristiques couleurs pour direntes sous-bases COREL. . . . .
e
e

Evaluation de lecacit de classication des mod`les individuels associs


e
e
e
aux caractristiques textures et formes pour direntes sous-bases COREL.
e
e

Evaluation de lecacit de classication des mod`les individuels associs


e
e
e
aux caractristiques couleurs pour direntes sous-bases COLUMBIA. . .
e
e

Evaluation de lecacit de classication des mod`les individuels associs


e
e
e
aux caractristiques textures et formes pour direntes sous-bases COe
e
LUMBIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Variation de la dimension des composantes principales slectionnes avec


e
e
la mthode de slection ACP en fonction de direntes sous-bases dimages
e
e
e
COREL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Variation de la dimension des composantes principales slectionnes avec
e
e
la mthode de slection ACP en fonction de direntes sous-bases dimages
e
e
e
COLUMBIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 3 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 5 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 7 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 10 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 3 classes. . . . . . . . . . . . . . . . . . . . . . . . . .
2.8 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 5 classes. . . . . . . . . . . . . . . . . . . . . . . . . .
2.9 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 7 classes. . . . . . . . . . . . . . . . . . . . . . . . . .
2.10 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 10 classes. . . . . . . . . . . . . . . . . . . . . . . . . .

21
36
36
37

37

2.1

50

51
53
53
53
53
54
54
54
55

2.11 Variation des param`tres SAC pour direntes sous-bases COREL. . . .


e
e
2.12 Variation des param`tres SAC pour direntes sous-bases COLUMBIA. .
e
e
2.13 Rsultats de classication SVM base sur la slection ACP pour direntes
e
e
e
e
sous-bases dimages COREL. . . . . . . . . . . . . . . . . . . . . . . . . .
2.14 Rsultats de classication SVM base sur la slection ACP pour direntes
e
e
e
e
sous-bases dimages COLUMBIA. . . . . . . . . . . . . . . . . . . . . . .
2.15 Rsultats de classication SVM base ACP (90%), AG2 et SAC pour
e
e
direntes sous-bases dimages COREL. . . . . . . . . . . . . . . . . . .
e
Exemple de pondration de noyaux KW-BTR pour la sous-base COREL
e
avec 5 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Comparaison des rsultats de classication MK SVM et SimpleMKL pour
e
direntes sous-bases dimages COREL. . . . . . . . . . . . . . . . . . .
e
3.3 Comparaison des temps dapprentissage et de pondration (en Minutes)
e
des deux algorithmes MK SVM et SimpleMKL pour direntes sous-bases
e
COREL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

56
56
57
57
58

3.1

4.1

74
74

76

Classication MC-MM ` ravers direntes mthodes de slection pour


a
e
e
e
quatre sous-bases dimages COREL. . . . . . . . . . . . . . . . . . . . . .
84

4.2 Evaluation de la gnralisation MC-MM. Etude comparative avec les deux


e e
e
e
procdures de gnralisation dcroissante et max mod`les pour direntes
e
e e
e
sous-bases COREL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
4.3 Matrice de confusion de la classication MC-MM pour la sous-base COREL avec 10 classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85

4.4 Evaluation des deux mthodes de classication MC-MM et classique pour


e
direntes sous-bases dimages COREL. . . . . . . . . . . . . . . . . . .
e
87
4.5 Comparaison de la la prcision moyenne de classication de la mthode
e
e
MC-MM avec celles de direntes mthodes MIL de ltat de lart pour la
e
e
e
sous-base COREL avec 10 classes. . . . . . . . . . . . . . . . . . . . . . .
88

4.6 Etude comparative des deux mthodes MC-MM et SimpleMKL pour direntes
e
e
sous-bases dimages COREL et CALTECH-256. . . . . . . . . . . . . . .
92
4.7 Comparaison des temps dapprentissage (en Minutes) de MC-MM et SimpleMKL
pour direntes sous-bases COREL et CALTECH-256. . . . . . . . . . .
e
95

Index des symboles


Symboles
P
TP
FP
I
R
V
B
p
N
c = I(p)
cl
RVB
HSV
HMMD
YCrCb
Hist
L
Dist
Cor
A-Cor
NG
ng

Moy

Etype

Var
FOS
Dir
SGLD
SGLD

Signications
Nombre total des images pertinentes dans une base.
Taux des vrai positifs, i.e. nombre dimages pertinentes retrou
ves.
e
Taux des faux positifs, i.e. nombre dimages non-pertinentes
retrouves.
e
Image couleur.
Matrice couleur Rouge de I dans lespace couleur RV B.
Matrice couleur Verte de I dans lespace couleur RV B.
Matrice couleur Bleue de I dans lespace couleur RV B.
Pixel de limage I.
Nombre de pixels p dans limage I.
Couleur dun pixel p dans limage I.
Nombre de couleurs dans limage I.
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur RV B.
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur HSV .
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur HM M D.
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur Y CrCb.
Caractristique histogrammes couleurs de limage I, extraite `
e
a
partir de lespace couleur RV B.
Norme innie.
Distance inter-pixel dans une image.
Matrice corrlogramme de limage I.
e
Caractristique auto-correlogramme de limage I.
e
Image niveau de gris correspondante ` limage I.
a
Nombre de niveaux de gris dans limage N G.
Moyenne de la distribution des niveaux de gris de limage N G.

Ecart type de la distribution des niveaux de gris de limage N G.


Variance de la distribution des niveaux de gris de limage N G.
Caractristique statistiques de premiers ordres de limage I.
e
Direction inter-pixel dans une image.
Matrice de co-occurences de limage I.
Ensemble des attributs extraits de la matrice de co-occurence

INDEX DES SYMBOLES

cl
ij
hi ; hj
hLAP
el
ij

Daub

GIST
GX ; GY
hX ; hY
G
PX
PY
G-norm
i=1,2,...,7
Hu
Bapp
NIm
xi
n
Fi = Rd
Xi = [xi ,xi ,...,xi Im ]
1 2
N

X
C
dxj

i
p
bi
B

NC

SGLD de limage I: {M oyenne, Energie, V ariance, Contraste, Entropie, Homogeneite & Correlation}.
Coecients dondelettes de Daubeshie de limage I pour un
niveau de dcomposition l, i,j [0,1].
e
Filtres de Daubeshie selon les lignes et les colones.
Matrice de convolution du ltre Laplacien.
Coecient condens de la transformation dondelette de
e
Daubeshie de limage I pour un niveau de dcomposition l,
e
i,j [0,1].
Caractristique coecients condenss de la transformation
e
e
dondelette de Daubeshie de limage I ` deux niveaux de
a
dcomposition.
e
Descripteur GIST de limage I.
Gradients directionnels selon x et y (approximations des
drives horizontale et verticale) de limage N G.
e e
Masques de Sobel, i.e. matrices de convolution horizontale
et verticale.
Matrice normes du gradient correspondante ` GX et GY .
a
Projection de G selon X.
Projection de G selon Y .
Caractristique projection de la matrice normes du grae
dient de limage I selon X et Y .
Moments invariants de Hu, calculs ` partir de limage I.
e a
Caractristique des moments de Hu de limage I.
e
Base dapprentissage.
Nombre dimages dapprentissage dans la base Bapp .
Vecteur caractristique de dimension d, i = [1,2,...,n].
e
Nombre de caractristiques xi , i = [1,2,...,n].
e
Espace dattributs de la caractristique xi , i = [1,2,...,n].
e
Nuage des NIm points, dits aussi individus ou observations
dans lespace dattribut Fi , i = [1,2,...,n].
Caractristique moyenne dun nuage dobservations X.
e
Matrice de covariance dun nuage dobservations X.
Dformation principales de lobservation xj par rapport ` la
e
a

forme moyenne X.
Base modale, correspond ` la diagonalisation de la matrice
a
de covariance C.
Vecteur propre de la matrice de covariance C, i = [1,2,...,d].
Sous-matrice de contenant les p premiers vecteurs propres
de la matrice de covariance C.
Composante principale dun nuage dobservations X, i = [1,2,
...,p].
Vecteur des amplitudes modales de deformations, reprsente
e
une forme dans lespace p-dimensionnel dni par les compoe
santes principales retenues.
Inertie totale correspondante ` la matrice de covariance C.
a
Pourcentage de variance relatif aux p premiers modes, i.e. le
taux dinertie total correspondant.
Nombre de classes contenues dans BApp .
2

INDEX DES SYMBOLES


C = {C1 ,C2 ,...,CNC }
M = {M1 ,M2 ,...,Mn }

Ensemble des NC classes contenues dans BApp .


Espace des mod`les correspondants aux caractristiques extre
e
aites ` partir de la base dimages Bapp , i.e. xi=1,2,...,n .
a
NErr (Mi )
Nombre dimages mal classies (ou errones) selon le mod`le
e
e
e
Mi , i = [1,2,...,n].
NCorr (Mi )
Nombre dimages correctement classies selon le mod`le Mi ,
e
e
i = [1,2,...,n].
E(Mi )
Taux derreur de classication du mod`le Mi , i = [1,2,...,n].
e
P er(Mi )
Taux de classication en phase dapprentissage (performance
dapprentissage) du mod`le Mi , i = [1,2,...,n].
e
T = {P er(Ms1 ),P er(Ms2 ), Performances dapprentissage des dirents mod`les dans M,
e
e
...,P er(Msn )}
organises par ordre de pertinence dcroissant.
e
e
m1 (i)
Valeur moyenne des performances dapprentissage situes a gae `
uche de la performance dapprentissage P er(Msi ) dans la liste
T , i = [1,2,...,n].
m2 (i)
Valeur moyenne des performances dapprentissage situes a dre `
oite de la performance dapprentissage P er(Msi ) dans la liste
T , i = [1,2,...,n].
2
2
v1 (i); v2 (i)
Variances respectives ` m1 (i); m2 (i), i = [1,2,...,n].
a
P (i)
Discriminant de Fisher.
FS
Seuil adaptatif de slection des mod`les pertinents.
e
e
Ts = {P er(Ms1 ),P er(Ms2 ),Liste des performances dapprentissage correspondantes aux mo...,P er(Msk )}
d`les slectionns.
e
e
e
Ms = {Ms1 ,Ms2 ,...,Msk } Sous-ensemble des mod`les slectionns correspondants aux cae
e
e
ractristiques les plus pertinentes.
e
Y = [y1 ,y2 ,...,yi ,...,yNIm ] Ensemble des tiquettes correspondantes aux images dapprentise
sage; pour un probl`me de classication binaire, yi {-1,1}.
e
f (x)
Fonction de dcision SVM.
e
i ; b
Hyper-param`tres dapprentissage SVM, i = [1,2,...,NIm ].
e
x
Vecteur support SVM.

Transformation non-linaire de F dans un espace de Hilbert


e
H; Card(H) > Card(F).
K(x,xi ) = (x),(xi ) H Fonction noyau, i = [1,2,...,NIm ].
ct, u, et
Param`tres de noyaux.
e
Mod1
Mod`le permettant de sparer les deux classes C1 et C2 dans
e
e
lalgorithme DAG-SVM.
M
Nombre de noyaux dans lapproche MKL.
m
Poids du noyau km , m = [1,2,...,M ].
i
Variables molles (slack variables en anglais).
C
Terme de rgularisation de marge SVM.
e
(L2 , L1 )
Normes mixtes.
L2
Norme quadratique.
Sm ()
Fonction direntiable de (Sonnenburg et al., 2006).
e

Valeur optimale dun sous-ensemble de contraintes selon le


programme doptimisation de (Sonnenburg et al., 2006).
K = [k1 ,k2 ,...,kM ]
Ensemble des M noyaux de base.
NCorr (km )
Nombre dimages correctement classies avec le noyau km ,
e
m = [1,2,...,M ].
T R km
Taux dapprentissage correspondant au noyau km , m = [1,2,
3

INDEX DES SYMBOLES

T R = [T Rk1 ,T Rk2 ,...,


T R kM ]
K = [k1 ,k2 ,...,kM ]
= [1 ,2 ,...,M ]
Ci
N ivl
Iq
Fm (Iq )
di
BT est
C Msk (Iq ) C
C Msk ,Msk1 (Iq ) C
C(Iq ) =
C Msk ,Msk1 ,...,Ms1 (Iq ) C

...,M ].
Ensemble des taux dapprentissage T Rkm , m = [1,2,...,M ].
Organisation des noyaux de lensemble K selon lordre des taux dapprentissage dcroissant.
e
Ensemble des poids correspondants aux noyaux km , m = [1,2,
...,M ].
Centres de la classe Ci dans un espace dattributs F, i = [1,2,
...,NC ].
Niveau hirarchique l de la mthode MC-MM, l = [1,2,...,k-1];
e
e
k est le nombre de mod`les slectionns par la mthode SAC.
e
e
e
e
Image requte.
e
Projection de Iq dans lespace Fm .
Distance Euclidienne entre Ci et F(Iq ), i = [1,2,...,NC ].
Base dimages de test.
Classication de limage Iq avec le mod`le Msk .
e
Classication de limage Iq avec les mod`les Msk , Msk1 .
e
Classication de limage Iq selon la mthode MC-MM.
e

Introduction gnrale
e e
Contexte et motivations
La classication dimages dans les bases htrog`nes suscite de plus en plus dintrt
ee e
ee
dans le domaine de reconnaissance dimages. En eet, de nombreuses applications des
syst`mes de vision par ordinateur, comme les interactions Homme-Machine, la dtection
e
e
des vnements, le contrle des processus et dautres applications spciques ` un domaine
e e
o
e
a
donn, ont fait na
e
tre, conjointement au dveloppement croissant des images numriques
e
e
issues du Web, un grand besoin pour mettre au point des techniques de classication
dimages plus ecaces. Toutefois, les performances de classication des images dans les
bases htrog`nes dpendent principalement de la qualit de description de ces images.
ee e
e
e
Au dbut, les techniques de description utilises taient, gnralement, textuelles. Dans
e
e e
e e
ce cas, un ensemble de mots-cls est associ manuellement ` chaque image. Ce procd de
e
e
a
e e
description utilise beaucoup de smantique de par la description des images par un hue
main. Une expertise humaine, permettant dassurer une certaine corrlation entre le texte
e
et les images, est exige. Il est cependant subjectif ` cause du tr`s grand nombre dine
a
e
terprtations pouvant tre attribues au contenu dune mme image. Ainsi, le probl`me
e
e
e
e
e
majeur est que les rsultats de reconnaissance dimages base sur une description par
e
e
mots-cls peuvent tre compl`tement hors sujet. Dautant plus, lorsquil sagit de base
e
e
e
htrog`nes, o` le contenu des images est assez vari et dicile ` dcrire. Par ailleurs, lasee e
u
e
a e
sociation de mots-cls ` limage est une dmarche raliste pour des petites bases dimages,
e a
e
e
mais elle est compl`tement impensable et impraticable pour des grandes bases. En raison
e
de ces limitations inhrentes aux techniques de description textuelle, leur utilisation dee
vient de plus en plus dicile dans les bases htrog`nes, grant une tr`s grande collection
ee e
e
e
dimages.
De nouvelles techniques de description bases sur le contenu mme des images sont
e
e
apparues et prsentent de nos jours un intrt croissant. Contrairement aux mthodes
e
ee
e
dannotation textuelle, ces nouvelles techniques permettent lacc`s aux images via leurs
e
proprits visuelles: informations qui peuvent tre tires de limage elle-mme telles que
ee
e
e
e
la couleur, la texture, la forme, etc... Ces proprits visuelles sont extraites sous formes
ee
densembles dattributs appels souvent caractristiques. Par consquent, larchitecture
e
e
e
type dun syst`me de reconnaissance dimages par le contenu, dsign gnralement par
e
e
e e e
lacronyme anglais CBIR (Content Based Image Recognition), repose principalement sur
deux tapes primordiales: lExtraction dattributs visuels pour la description des images
e
et la Classication qui m`ne ` la reconnaissance de ces images. Dans ce cadre, plusieurs
e a
approches ont t proposes pour dvelopper soit des techniques dextraction dattributs
ee
e
e
soit des mthodes de classication supervises ou non supervises.
e
e
e
Dans le cas des bases htrog`nes, dites aussi gnralistes, les images sont de divers
ee e
e e
types et leur contenu est assez vari. De ce fait, les caractristiques pertinentes pour la
e
e
description dune catgorie dimages ne sont pas ncessairement ecaces pour dautres.
e
e


INTRODUCTION GENERALE
Gnralement face ` ce probl`me, des caractristiques de dirents types (dites aussi
e e
a
e
e
e
htrog`nes) sont employes pour assurer une description robuste des images. Cette large
ee e
e
description couvre, gnralement, la majorit des caractristiques visuelles des images
e e
e
e
dans les bases htrog`nes. Cependant, elle soure essentiellement dune grande dimenee e
sionnalit. De plus, selon la base dimage considre, une partie de cette description est
e
ee
souvent non adapte au contenu de la base et par consquent inecace lors de la phase
e
e
de reconnaissance. Do`, la ncessit de slection des caractristiques pertinentes selon
u
e
e
e
e
le contenu de la base dimages considre. En outre, gnralement les caractristiques
ee
e e
e
slectionnes ne disposent pas des mmes performances de discrimination. Considrant
e
e
e
e
leet ngatif des caractristiques les moins performantes, une simple concatnation de
e
e
e
toutes les caractristiques slectionnes ne m`ne pas toujours ` des rsultats de clase
e
e
e
a
e
sication optimaux. En consquence, lutilisation dun algorithme de classication, qui
e
sadapte aux pouvoirs discriminants des direntes caractristiques slectionnes ainsi que
e
e
e
e
le contenu de la base dimages utilise, est bien recommande. Cela permet damliorer
e
e
e
davantage les taux de reconnaissance naux.
Dans ce travail nous nous intressons ` la reconnaissance dimages par le contenu dans
e
a
les bases dimages htrog`nes. La phase de reconnaissance est totalement automatique
ee e
et adapte au contenu de la base considre. Aucune rtroaction de lutilisateur pour
e
ee
e
indiquer un bouclage de pertinence nest envisage. Le syst`me tudi se base ainsi sur
e
e
e
e
une construction hors ligne dune large description dimages, qui repose sur une varit
ee
de caractristiques htrog`nes. Ce sujet de recherche tait et reste un probl`me oue
ee e
e
e
vert et dicile ` cause de la grande dicult de description des images dans ce type
a
e
de bases et la complexit de combinaison des caractristiques htrog`nes. Dans cette
e
e
ee e
th`se, nous contribuons ` la rsolution de quelques problmatiques lies aux syst`mes de
e
a
e
e
e
e
reconnaissance dimages htrog`nes par le contenu. Une mthode de slection adaptaee e
e
e
tive des caractristiques les plus pertinentes et une mthode de classication hirarchique
e
e
e
multi-mod`les sont proposes.
e
e

Contribution et plan du manuscrit


Les travaux eectus dans le cadre de cette th`se portent sur lextraction dattrie
e
buts htrog`nes, loptimisation de la description et/ou la dimension des caractristiques,
ee e
e
la slection des caractristiques les plus pertinentes et le dveloppement dune nouvelle
e
e
e
approche de classication dimages htrog`nes. Loriginalit de notre travail rside prinee e
e
e
cipalement dans la slection adaptative des caractristiques les plus pertinentes et la
e
e
classication hirarchique multi-mod`les. Le manuscrit de la th`se est ainsi organis en
e
e
e
e
quatre chapitres, de la mani`re suivante :
e
Dans le premier chapitre, les lments fondamentaux dun syst`me de reconnaissance
ee
e
dimages par le contenu sont prsents. Nous discutons ainsi les bases dimages et leurs
e
e
contenus, les types dattributs existants en littrature, les deux catgories de classicae
e
tion et les mesures de pertinence ddies aux syst`mes CBIR. En particulier, les bases
e e
e
dimages htrog`nes employes dans cette th`se sont exposes. Suite ` une prsentation
ee e
e
e
e
a
e
de ltat-de-lart des direntes techniques de classication qui existent dans la littrature,
e
e
e
lensemble des direntes caractristiques htrog`nes retenues est dtaill. Pour amliorer
e
e
ee e
e
e
e
les performances de reconnaissance base sur cet ensemble de caractristiques, une ope
e
7


INTRODUCTION GENERALE
timisation de certaines dentres elles est galement introduite. Une large valuation de
e
e
ces caractristiques, apr`s optimisation, est fournie ` la n de ce chapitre. Cette tude
e
e
a
e
montre que le pouvoir discriminant de chaque caractristique dpend du contenu de la
e
e
base dimages considre.
ee
Le deuxi`me chapitre est consacre ` la slection des caractristiques les plus pertie
e a
e
e
nentes. Initialement, les proprits des deux catgories de slection: Filtres et Envelopee
e
e
pantes sont rappeles. Les mthodes de slection les plus utilises, en particulier la teche
e
e
e
nique linaire danalyse en composantes principales et la slection base sur les algorithmes
e
e
e
gntiques sont dcrites. Une tude singuli`re des fonctions de slectivit employes par
e e
e
e
e
e
e
e
ces algorithmes est aussi eectue. Ensuite, une nouvelle mthode de slection adaptative
e
e
e
des caractristiques les plus pertinentes est propose. Lvaluation des performances de
e
e
e
cette mthode de slection est ensuite prsente. Une comparaison avec les direntes
e
e
e
e
e
mthodes de slection traites, dans ce chapitre, est galement fournie.
e
e
e
e
Dans le troisi`me chapitre, lapproche dapprentissage par noyaux multiples connue
e
par lacronyme anglais MKL (Multiple Kernel Learning) applique ` la reconnaissance
e a
des images htrog`nes par le contenu est aborde. Dans cette th`se, lapproche MKL
ee e
e
e
est considre en particulier pour les Machines ` Vecteurs Supports (SVM). Suite ` une
ee
a
a
br`ve exposition des notions de bases des SVMs, lapproche MKL est prsente. En tenant
e
e
e
compte de limportance de ltape de calcul des poids de noyaux dans cette approche,
e
une nouvelle mthode de pondration des noyaux est propose. Une valuation de la
e
e
e
e
classication SVM ` noyaux multiples base sur la nouvelle pondration, ainsi quune
a
e
e
comparaison avec un algorithme rcent, sont fournies ` la n de ce chapitre.
e
a
Le quatri`me chapitre est consacr ` la proposition dune nouvelle mthode de clase
ea
e
sication hirarchique multi-mod`les. Une valuation de cette nouvelle mthode de clase
e
e
e
sication en se basant sur la slection adaptative des caractristiques, propose dans
e
e
e
le chapitre 2 est eectue. Des comparaisons avec la mthode de classication classique
e
e
(employant un mod`le unique), lapproche des Multiple Instance Learning ainsi que lape
proche des sacs de mots-visuels et lapproche MKL sont fournies. Les performances de
notre proposition en terme de temps de calcul sont aussi mises en vidence.
e
Enn, la conclusion gnrale prsente une synth`se des contributions apportes ainsi
e e
e
e
e
que les pistes dnissant des perspectives possibles pour des travaux futurs.
e

Chapitre

Extraction dattributs et classication


dimages dans les bases htrog`nes
ee e

Les lments fondamentaux dun syst`me de reconnaissance dimages par le contenu


ee
e
sont prsents dans ce chapitre, une attention particuli`re est rserve au cas des bases
e
e
e
e
e
htrog`nes. Lensemble des caractristiques htrog`nes utilises dans cette th`se est
ee e
e
ee e
e
e
discut suite ` une prsentation dun tat-de-lart des techniques de classication dimages.
e
a
e
e
Une large valuation des performances de reconnaissance de cet ensemble de caractristie
e
ques est galement fournie.
e

10

1.1. INTRODUCTION

1.1

Introduction

La recherche dimages a t base, initialement, sur lannotation textuelle des images


ee
e
(Jeon et al., 2003), (Ben-Ismail et al., 2008), sachant quune forte corrlation doit exister
e
entre le contenu de ces images et les tiquettes textuelles associes. Le cot de gnration,
e
e
u
e e
ainsi que le foss linguistique associs ` ces annotations (Hare et al., 2006), expliquent
e
e a
le grand intrt accord, aujourdhui, aux techniques de recherche dimages bases sur le
ee
e
e
contenu (Gevers and Smeulders, 2004). Dans cet objectif et depuis une dizaine dannes,
e
de nouvelles mthodes ont permis la mise en place de dirents syst`mes de recherche et
e
e
e
de reconnaissance dimages par le contenu souvent dsigns par lacronyme anglais CBIR
e
e
(Content Based Image Retrieval ).
Dans une premi`re partie de ce chapitre, les lments fondamentaux dun syst`me
e
ee
e
de reconnaissance dimages par le contenu sont tudis. Nous dtaillons, en particulier,
e
e
e
les bases dimages et leurs contenus, les types de description dimages, les mthodes de
e
classication et les mesures de pertinence ddies aux syst`mes CBIR dans la section 1.2.
e e
e
Les bases dimages htrog`nes utilises sont prsentes dans la section 1.3. Dans une
ee e
e
e
e
deuxi`me partie, une synth`se des techniques de classication dimages est expose dans
e
e
e
la section 1.4. Ensuite, lensemble des caractristiques retenues pour la description des
e
images htrog`nes est dcrit dans la section 1.5. Une large valuation des performances
ee e
e
e
de reconnaissance de cet ensemble de caractristiques est galement fournie ` la n du
e
e
a
chapitre.

1.2

Reconnaissance dimages par le contenu

Base
dimages
dapprentissage

Extraction
dattributs

Classification
Supervise

Oui

Apprentissage

Non
Rsultas
de classification

Classifieur

Oui

Base
dimages
de test

Extraction
dattributs

Boucle de
pertinence

Classification

Fig. 1.1 Architecture dun syst`me de reconnaissance dimages par le contenu bas sur
e
e
la classication.
Larchitecture type des syst`mes CBIR est illustre par la gure 1.1. Cette architecture
e
e
est compose principalement par deux tapes importantes, ` savoir lextraction dattributs
e
e
a
visuels pour la description des images et la classication qui m`ne ` la reconnaissance de
e a
ces images. Dans ce cadre, plusieurs approches ont t proposes pour dvelopper soit des
ee
e
e
techniques dextraction dattributs, soit des mthodes de classication. Par ailleurs, les
e
11

1.2. RECONNAISSANCE DIMAGES PAR LE CONTENU


performances dun syst`me CBIR reposent sur un ensemble dlments fondamentaux tels
e
ee
que le type de la base dimage considre, le type de la description dimages employe ainsi
ee
e
que la mthode de classication utilise. Dans cette section, nous discutons lensemble de
e
e
ces lments. Lanalyse prsente, comporte les dnitions principales de chaque partie, ce
ee
e
e
e
qui permet de mieux comprendre son inuence sur le syst`me de reconnaissance dimages.
e
Un syst`me de reconnaissance dimages est souvent conu pour un type bien dtermin
e
c
e
e
de base dimages. Les bases dimages se classent, gnralement, en deux grandes catgories:
e e
e
Les bases spcialises sont des bases dans lesquelles nous trouvons des images
e
e
dun domaine particulier (images mdicales, images satellitaires, images architectue
rales, images biomtriques telles que les images de visages ou dempreintes, images
e
artistiques telles que les tableaux de muse, etc...).
e
Les bases htrog`nes dsignes aussi par gnralistes sont des bases dimages
e e
e
e
e
e e
de sujets tr`s varis comprenant des catgories dimages tr`s direntes (par exemple
e
e
e
e
e
couchers de soleil, montagne, plage, animaux, vhicules, btiments, etc...).
e
a
Les images dans le cas des bases spcialises ont le plus souvent un contenu smantique
e
e
e
homog`ne et prsentent plusieurs caractristiques en commun. Les applications vises sont
e
e
e
e
gnralement professionnelles. La reconnaissance dimages dans de telles bases est en fait
e e
un probl`me spcique ` un domaine bien particulier. On cite par exemple, lauthene
e
a
tication des individus dans les bases dimages biomtriques telles que les bases diris
e
(Jlassi and Hamrouni, 2010) et de visages (Rowshan et al., 2008). Ou encore la dtection
e
de pathologies dans le cas des bases dimages mdicales, tel que le dpistage du cancer
e
e
du sein dans les bases mammographiques (Cheikhrouhou et al., 2009) et la segmentation des tumeurs de cerveau dans les bases dimages IRM (Chen and Ruan, 2010). Une
intgration de la vrit terrain dnie par les connaissances dun expert du domaine est
e
e e
e
alors ncessaire pour dvelopper des algorithmes spciques. Lobjectif est doptimiser
e
e
e
lecacit du syst`me de reconnaissance dimages dans ces bases et de rpondre aussi
e
e
e
aux attentes de lexpert. Par contre, la deuxi`me catgorie de bases dimages gnralistes
e
e
e e
regroupe des images appartenant ` des concepts htrog`nes. Les images sont alors de
a
ee e
divers types et elles ont un contenu assez complexe. Par consquent, la dicult de recone
e
naissance dimages est accrue dans ce type de bases ` cause des limitations de description
a
des images. En outre, ces bases requi`rent lidentication pralable de concepts spciques
e
e
e
pour la cration dune vrit-terrain.
e
e e

1.2.1

Types dattributs

Les images sont des objets numriques tr`s riches en terme dinformations. En plus
e
e
de lespace mmoire gigantesque exig, la manipulation directe de ces images dans un
e
e
syst`me de reconnaissance dimages par le contenu ne permet pas dobtenir des temps
e
de rponse ralistes. Il convient donc dutiliser une reprsentation de dimension rduite
e
e
e
e
pour caractriser le contenu de ces images. Lobjectif principal de lextraction dattrie
buts est de dterminer pour chaque image, une reprsentation (signature) qui soit, dune
e
e
part compacte, pour tre rapidement accessible et facilement comparable, et dautre
e
part susamment compl`te pour bien caractriser limage. Il est recommand deme
e
e
ployer des attributs invariants aux transformations colorimtriques telle que le changement
e
dclairage et aux transformations gomtriques telle que le changement dchelle. Ceci
e
e e
e
permet de palier aux direntes transformations que peut subir une image. Cependant,
e
12

1.2. RECONNAISSANCE DIMAGES PAR LE CONTENU


la caractrisation robuste et discriminante des images reste un grand d en traitement
e
e
dimages. Gnralement, les attributs dits de bas niveau sont souvent les plus utiliss
e e
e
pour la description dimages par le contenu. Ces attributs dcrivent les principales cae
ractristiques visuelles existant dans une image, ` savoir la couleur, la texture et la forme.
e
a
1.2.1.1

La couleur

Le physicien James Clerk Maxwell (Pascale, 2003) a prouv que toute couleur, tant
e
e
initialement une sensation provoque par la lumi`re avec lil, le cerveau et notre exprience,
e
e
e
`
est une synth`se de trois couleurs seulement: le rouge, le vert et le bleu. A partir de cette
e
dcouverte en 1865, la colorimtrie (la science qui tudie la couleur) a vu le jour.
e
e
e
Les attributs couleurs sont les premiers utiliss dans les syst`mes de reconnaissance
e
e
dimages par le contenu et ils sont toujours les plus utiliss grce ` leur simplicit dexe
a a
e
traction, leur richesse de description et leur ecacit de reconnaissance. Les auteurs dans
e
(Bimbo, 2001) ont fourni une tude tendue des direntes mthodes employes pour lexe
e
e
e
e
traction dattributs couleurs. Un ensemble dattributs couleurs a t test pour tre inclus
ee
e
e
dans le standard MPEG-7 (Manjunath et al., 2001). Ces attributs couleurs dpendent die
rectement de lespace couleur utilis pour la reprsentation couleur de limage. Dans la
e
e
littrature, plusieurs espaces couleurs sont tudis.
e
e
e
Dni en 1931 par la compagnie internationale de lclairage (C.I.E.), lespace couleur
e
e
RVB (Rouge Vert et Bleu) reprsente les couleurs par synth`se soustractive. Chaque
e
e
couleur est reprsente par trois composantes: rouge, vert et bleu. Lespace RVB est
e
e
gnralement lespace couleur de base dans lequel sont captures les images. La gure 1.2
e e
e
illustre la dcomposition dune image couleur en trois sous-images monochromes selon
e
lespace couleur RVB.

Fig. 1.2 Image couleur RVB: association de trois sous-images monochromes, correspondant respectivement au direntes composantes Rouge, Vert et Bleu.
e
Les autres espaces couleurs reprsentent des transformations directes de lespace RVB.
e
Ces transformations ont pour objectif damliorer la reprsentativit colorimtrique de
e
e
e
e
limage et dassurer des mesure de distance plus linaires.
e
Les espaces couleurs HSI, HSV, HSB et HLS (appels communment HSx ) sont plus
e
e
proches de la perception humaine de couleur que lespace couleur RVB, mais ils ne sont pas
encore perceptuellement uniformes. Nous citons aussi les espaces couleurs YUV et YIQ
o` la composante Y reprsente la luminance du pixel et les pairs de composantes UV et IQ
u
e
13

1.2. RECONNAISSANCE DIMAGES PAR LE CONTENU


reprsentent les composantes chromatiques. Nous pouvons trouver aussi lespace couleur
e
XYZ, o` les composantes X et Z sont les composantes chromatiques et la composante Y est
u
la somme pondre des valeurs R, V et B. Comme il nest pas perceptuellement uniforme,
ee
luniformisation de lespace XYZ se fait par une transformation projective qui dbouche
e
sur lespace couleur LUV. Dautres espaces couleurs existent aussi tels que HMMD, L a b ,
LST et YCrCb. Pour plus de dtails concernant les espaces couleurs, nous recommandions
e
le lecteur intress de consulter la rfrence suivante (Pascale, 2003).
e
e
ee
1.2.1.2

La texture

La texture est lie aux apparences de surface des images ce qui est dune grande
e
importance dans tout domaine relatif ` la perception visuelle. Dans la littrature, nous
a
e
trouvons plusieurs dnitions de la texture. Nous citons parmi lesquelles: la texture
e
est lattribut qui reprsente la distribution spatiale des niveaux de gris des pixels dune
e
rgion (IEEE-Press, 1990). Ou encore: la texture est lensemble des proprits de
e
ee
voisinage locales des niveaux de gris dune rgion de limage (Livens et al., 1997). Bien
e
quil ny ait pas jusqu` prsent une dnition prcise de la texture, toutes les dnitions
a e
e
e
e
possibles arment que la texture est linformation gnre par les variations des niveaux
e ee
de gris entre des pixels voisins au sein dune image. Dirents mod`les de texture sont
e
e
illustrs dans la gure 1.3.
e

Fig. 1.3 Dirents mod`les de texture.


e
e
Les attributs textures sont de plus en plus utiliss dans la description dimages car ils
e
attnuent certains probl`mes lis ` la description couleur. En eet, la description texture
e
e
e a
est tr`s ecace, surtout dans le cas dune distribution couleur tr`s proche. Les attributs
e
e
textures sont diviss en deux catgories : La premi`re est dterministe et fait rfrence
e
e
e
e
ee
a
` une rptition spatiale dun motif de base dans direntes directions. Cette approche
e e
e
structurelle correspond ` une vision macroscopique des textures. La deuxi`me approche,
a
e
dite microscopique, est probabiliste et cherche ` caractriser laspect chaotique qui ne
a
e
comprend ni motif localisable, ni frquence de rptition principale.
e
e e
1.2.1.3

La forme

Contrairement aux attributs couleurs et textures qui sintressent ` la description du


e
a
contenu gnral de limage, les attributs formes sont capables de caractriser les dirents
e e
e
e
objets contenus dans limage.
Gnralement, ce type dattribut indique laspect gnral dun objet, comme son
e e
e e
contour, donc une segmentation sous forme de traitement prliminaire de limage est soue
vent ncessaire. Deux catgories dattributs formes peuvent tre extraites: La premi`re
e
e
e
e
14

1.2. RECONNAISSANCE DIMAGES PAR LE CONTENU


catgorie est base sur la gomtrie des rgions de limage. La deuxi`me est base sur les
e
e
e e
e
e
e
statistiques des intensits de pixels des direntes rgions dans limage.
e
e
e
Une image peut subir des transformations gomtriques comme la rotation, la transe e
lation et le changement dchelle. Pour assurer une description assez robuste et ecace,
e
les attributs formes couvrent, gnralement, toutes les chelles de reprsentation (allant
e e
e
e
des dtails jusqu ` la forme grossi`re) que comporte un objet. De plus, ils sont soue
a
e
vent insensibles aux direntes variations causes par des transformations gomtriques.
e
e
e e
La gure 1.4 prsente un exemple des transformations gomtriques que peut subir une
e
e e
image.

Fig. 1.4 Direntes transformations gomtriques que peut subir une image.
e
e e

1.2.2

Catgories dattributs
e

Les attributs visuels sont extraits ` partir de limage selon trois niveaux dabstractions:
a
le niveau global, le niveau rgions et le niveau points dintrt. Le premier niveau re`te
e
ee
e
une description globale des images, tandis que les deux derniers permettent dassurer une
description locale. De ce fait, les dirents types dattributs, dcrits dans la section 1.2.1,
e
e
peuvent tre considrs pour limage enti`re ou pour une partie spcique de limage.
e
ee
e
e
Dans la littrature, il est dusage de distinguer deux catgories dattributs: les attributs
e
e
globaux et les attributs locaux (Aly et al., 2009).
1.2.2.1

Attributs globaux

Lapproche globale de reconnaissance dimages par le contenu est initialement dveloppe


e
e
dans les syst`mes Photo-Book (Pentland et al., 1994), QBic (Flickner et al., 1995) ou
e
Virage (Bach et al., 1996), et plus rcemment par ImageRover (Sclaro et al., 1997),
e
PicToSeek (Gevers and Smeulders, 1999), Compass (Brunelli and Mich, 2000) et Ikona
(Boujemaa et al., 2001). Cette approche globale permet la reconnaissance des images en
se basant sur des similarits visuelles mesures sur les images enti`res. Une image dcrite
e
e
e
e
globalement est reprsente par un seul vecteur dattributs, ce qui nest pas le cas avec les
e
e
attributs locaux. Par consquent, la phase de classication et de reconnaissance devient
e
plus rapide. Gnralement, ce type dattributs est robuste et peu aect par le bruit qui
e e
e
peut sajouter au contenu de limage. Les histogrammes de couleur ou de niveaux de gris
et les corrlogrammes sont des exemples typiques de ce type de description (Stricker and
e
15

1.2. RECONNAISSANCE DIMAGES PAR LE CONTENU


Swain, 1994), (Huang et al., 1997). Lensemble des caractristiques globales, employes
e
e
dans ce travail de th`se, est prsent dans la section 1.5.
e
e
e
1.2.2.2

Attributs locaux

Lapproche locale de reconnaissance dimages se base essentiellement sur la description


de parties spciques dans limage, reprsentes souvent par des sous-rgions homog`nes.
e
e
e
e
e
Plusieurs travaux ont t proposs pour la localisation de ces sous-rgions. Les subdivisions
ee
e
e
systmatiques dimages en carrs sont simples et rapides mais imprcises (Moghaddam
e
e
e
et al., 1999), (Malki et al., 1999). Cependant, une subdivision manuelle assure des segmentations en rgions plus proches des attentes de lutilisateur mais elle nest pas adapte
e
e
pour des bases dimages de grande taille (Bimbo and Vicario, 1998). Gnralement, les
e e
mthodes de segmentation non-supervises sont les plus utilises. Ces mthodes pere
e
e
e
mettent de dtecter automatiquement les sous-rgions homog`nes dans limage (Carson
e
e
e
et al., 1999), (Ma and Manjunath, 1999) en se basant sur les rpartitions de couleur
e
et de texture. Des chantillons dimages segmentes par rgion de la base COREL sont
e
e
e
illustres dans la gure 1.5. Les sous rgions dtectes sont reprsentes par leurs couleurs
e
e
e
e
e
e
dominantes (Chen and Wang, 2004).

Fig. 1.5 Echantillons dimages segmentes de la base COREL.


e
La description dimage est construite dans ce cas par un ensemble de vecteurs dattributs. Les attributs utiliss sont, gnralement, extraits pour chaque sous rgions dans
e
e e
e
limage. Une technique rcente impliquant la mise en correspondance de rgions pour la
e
e
recherche dimages est propose par (Wang et al., 2001) dans le syst`me SIMPLIcity et
e
e
plus tard par (Sridhar et al., 2002) et (Stehling et al., 2002). En ralit, la similarit
e e
e
entre deux images est mesure comme une combinaison des similarits entre les rgions
e
e
e
constituantes de chaque image. Le syst`me eectue, dans ce cas, une recherche globale
e
car toutes les primitives de limage sont prises en compte.
Il est possible galement de caractriser le contenu des images par le biais de la dese
e
cription des points dintrt. Plusieurs mthodes de dtection de points dintrt dans les
ee
e
e
ee
images sont proposes tout en soulignant dirents aspects dinvariance avec direntes
e
e
e
proprits et direntes tailles dchantillons. On cite, par exemple, la Dirence de Gausee
e
e
e
sienne (DoG pour Dierence of Gaussian) (Lowe, 2004), Harris Laplace (Mikolajczyk and
Schmid, 2004) et Hessien Ane (Mikolajczyk et al., 2005). Les approches locales bases
e
sur des descriptions de points dintrt permettent deectuer des recherches prcises mais
ee
e
au prix dun temps de calcul tr`s lev (Schmid et al., 1998), (Gouet and Boujemaa, 2001).
e e e
Eectivement, le nombre lev des points dintrt dtects par image (quelques centaines)
e e
ee e
e
et laspect dimensionnelle des descripteurs (128 dimensions pour un vecteur unique SIFT
Scale-Invariant Feature Transform (Lowe, 2004)) rendent la mise en correspondance entre
les images tr`s coteuse en temps de calcul. Des travaux rcents ont contribu ` la come
u
e
ea
pensation des limites de ces descripteurs en utilisant une nouvelle approche appele sac
e
des descripteurs ou sac de mots-visuels (Csurka et al., 2004b), (Willamowski et al., 2004),
(Zhang et al., 2007). Lide est de construire pour chaque image une caractristique gloe
e
bale qui dtermine les direntes occurrences dun ensemble de catgories de descripteurs
e
e
e
16

1.2. RECONNAISSANCE DIMAGES PAR LE CONTENU


locaux, appels aussi mots-visuels. Les performances dune telle approche exigent une
e
majorit de points dintrt en commun des images appartenant ` un mme concept.
e
ee
a
e
Par consquent, les travaux employant une description locale se situent, gnralement,
e
e e
dans des contextes prcis et les approches utilises sappuient sur certaines proprits
e
e
ee
connues de ces contextes pour fonctionner. Les syst`mes bass sur une description locales
e
e
manquent donc de gnralit par rapport aux images quils peuvent traiter. Eectivement,
e e
e
les attributs locaux sont surtout utiliss dans le cas des bases dimages dites spciques
e
e
o` les images appartenant ` une catgorie bien dtermine reprsentent une rpartition
u
a
e
e
e
e
e
assez homog`ne. Les mthodes dveloppes sont souvent ddies aux corpus utiliss et
e
e
e
e
e e
e
parfois peu adaptables ` dautres images. Ainsi, une description locale est beaucoup moins
a
performante dans le cas des images htrog`nes, o` les images dune mme classe ne
ee e
u
e
prsentent pas forcment une majorit de sous rgions ou de points dintrts en commun.
e
e
e
e
ee

1.2.3

Mthodes de classication et valuation des performances


e
e

1.2.3.1

Classication

On distingue principalement deux types de classication, supervise et non-supervise,


e
e
suivant que lon dispose ou non dune expertise des images ` classier (gure 1.1). La
a
classication supervise se base sur une phase dapprentissage o` lon cherche ` produire
e
u
a
automatiquement des r`gles de dcision ` partir dimages dj` classies. Le choix de la
e
e
a
ea
e
technique dapprentissage ` utiliser est tr`s important dans un tel processus. La classicaa
e
tion de nouvelles images de test est ralise dans une seconde phase, appele gnralisation.
e e
e e e
`
A partir des images dapprentissage, le classieur utilis doit bien gnraliser les r`gles
e
e e
e
de dcision apprises sur de nouvelles images requtes appartenant ` une base dite de
e
e
a
test. Ltape dapprentissage est ralise hors ligne, alors que celle de gnralisation est
e
e e
e e
eectue en ligne. La classication non-supervise se ram`ne quand ` elle au regroupee
e
e
a
ment des images de la faon la plus naturelle possible sans aucune connaissance a priori du
c
contenu de la base. Cette volont de regrouper naturellement les images est assez ambigu.
e
e
Elle est formalise, le plus souvent, par lobjectif de rduire la variation du contenu des
e
e
images intra-classe et de mieux caractriser la discrimination des images inter-classe. Un
e
tat-de-lart des direntes techniques de classication, qui existent dans la littrature,
e
e
e
est prsent dans la section 1.4.
e
e
1.2.3.2

Rtroaction et bouclage de pertinence


e

Gnralement, les rsultats de classication sont obtenus dune faon automatique


e e
e
c
selon la description pralable du principe de base des dirents types de classication.
e
e
Toutefois, il est possible de se servir dune boucle de pertinence o` lutilisateur rane
u
progressivement lecacit de reconnaissance. Dans ce cas, lutilisateur marque les images
e
rsultantes de la classe candidate comme pertinentes, non pertinentes ou neutres vis ` vis
e
a
limage requte. Le processus de reconnaissance est ainsi rpt ` chaque fois avec ces
e
e ee a
nouvelles informations jusqu` lobtention du rsultat dsir. Cette interaction nest pas
a
e
e e
toujours ecace, sachant quelle suppose un ensemble de connaissance chez lutilisateur.
On distingue gnralement deux types dutilisateurs: les experts et les non-spcialistes.
e e
e
Uniquement, les experts peuvent interagir ecacement avec le syst`me pour amliorer les
e
e
rsultats de reconnaissance. Cependant, pour les non-spcialistes, aucune interaction ne
e
e
peut tre considre.
e
ee

17

1.3. BASES DIMAGES HETEROGENES UTILISEES


1.2.3.3

Performances de classication dimages

Lvaluation des performances dun syst`me de reconnaissance dimages concerne a la


e
e
`
fois sa capacit de reconnaissance et son ecacit en terme de rapidit dexcution. Cette
e
e
e
e
derni`re est facile ` valuer, il sut de mesurer le temps de rponse moyen du syst`me sur
e
ae
e
e
plusieurs requtes. Lvaluation des capacits de reconnaissance est eectue en comparant
e
e
e
e
le rsultat de classication obtenu ` un rsultat de rfrence, appel souvent vrit terrain.
e
a
e
ee
e
e e
En eet, la connaissance de la vrit-terrain permet de raliser une valuation automatique
e e
e
e
et de fournir des performances ables. Les crit`res de qualit les plus utiliss sont des
e
e
e
mesures de performance standard (Bimbo, 2001), il sagit principalement de la prcision
e
et du rappel. Soit pour une image requte donne, T P le taux des vrai positifs, F P le
e
e
taux des faux positifs et P le nombre total des images pertinentes dans la base. Notons
que les taux T P et F P indiquent, respectivement, le nombre dimages pertinentes et
non-pertinentes retrouves. La prcision et le rappel sont dnis comme suit:
e
e
e
Prcision =
e

TP
,
TP + FP

Rappel =

TP
P

(1.1)

En variant le nombre dimages requtes, un graphe de prcision-rappel peut tre obe


e
e
tenu. La prcision est souvent une fonction dcroissante du rappel. Le graphe typique de
e
e
prcision-rappel est illustr par la gure 1.6.
e
e

Fig. 1.6 Graphe typique de prcision-rappel.


e
Vu que les valeurs scalaires de la prcision et du rappel sont comprises toutes les deux
e
entre 0 et 1, le graphe de prcision-rappel est dit idal si la prcision est gale ` un pour
e
e
e
e
a
toute valeur de rappel.

1.3

Bases dimages htrog`nes utilises


e e
e
e

Pour valuer et valider les direntes approches tudies et dveloppes dans ce travail,
e
e
e
e
e
e
trois bases dimages htrog`nes sont utilises, ` savoir, la base COLUMBIA, la base
ee e
e
a
18

1.3. BASES DIMAGES HETEROGENES UTILISEES


COREL et la base CALTECH-256. Ces bases constituent des concepts bien dnies o`
e
u
chaque image ne peut appartenir qu` une seule classe. Dans ce qui suit, une description
a
des trois bases dimages utilises est fournie.
e

1.3.1

La base dimages COLUMBIA

La base dimages COLUMBIA contient des images tires dobjets 3D pris en direntes
e
e
1
positions. Dans cette th`se, la collection utilise de cette base est COIL-100 . La collece
e
tion COIL-100 est utilise surtout dans le domaine de reconnaissance dobjets. Elle est
e
constitue par des images en couleurs prises ` partir de 100 objets dirents. Lensemble
e
a
e
de ces objets est ach dans la gure 1.7.
e

Fig. 1.7 Echantillons des 100 objets de la base dimages COIL-100 de COLUMBIA.
`
A laide dun plateau motoris (tourne-disques) et un fond noir, chaque objet est
e
captur selon direntes positions pour constituer une classe de la base. Le plateau est
e
e
tourn de 360 pour changer la position de lobjet par rapport ` une camra couleur xe.
e
a
e

Une image de lobjet est prise ` chaque intervalle de 5 . Ceci correspond ` 72 positions
a
a
direntes pour chaque objet. COIL-100 contient donc 7200 images de taille 128 128
e
pixels.

1.3.2

La base dimages COREL

La base COREL 2 est tire de dirents CD-ROMs publies, strictement pour des raie
e
e
sons de recherche, par COREL corporation. Cette base comprend 2300 images catgorises
e
e
par le concepteur en une vrit-terrain de 23 classes thmatiques (personnes, animaux,
e e
e
eurs, montagnes, etc.), contenant 100 images chacune. Chaque image est de taille 384
256 pixels ou 256 384 pixels. Cette base est considre comme une rfrence pour les
ee
ee
spcialistes travaillant sur la reconnaissance dimages dans les bases htrog`nes. Des
e
ee e
chantillons de direntes classes dimages contenues dans la base COREL utilise sont
e
e
e
reprsents dans la gure 1.8.
e
e
1. La base COIL-100 (Columbia Object Image Library) est accessible en ligne ` ladresse suivante:
a
http://www.cs.columbia.edu/CAVE/databases.
2. La base COREL peut tre tlcharge du site web de James Z. Wangs Research Group, disponible
e
ee
e
en ligne ` ladresse suivante: http://wang.ist.psu.edu/docs/home.shtml.
a

19

1.3. BASES DIMAGES HETEROGENES UTILISEES

Fig. 1.8 Echantillons dimages de direntes classes de la base COREL utilise.


e
e

1.3.3

La base dimages CALTECH

Fig. 1.9 Echantillons dimages de direntes classes de la base CALTECH-256 utilise.


e
e
La base CALTECH-256 3 (rassemble par (Grin et al., 2007)) est compose dimages
e
e
tires de 256 catgories direntes, cest une extension de la base CALTECH-101 4 . Elle
e
e
e
contient de 80 ` 827 images par catgorie. Le nombre total des images contenues dans
a
e
3. La base CALTECH-256 contient moins dalignement entre les images dune mme classes
e
que dans le cas de la base CALTECH-101. Elle est disponible en ligne ` ladresse suivante:
a
http://www.vision.caltech.edu/Image Datasets.
4. La base CALTECH-101 (rassemble par (Fei-Fei et al., 2006)) est compose dimages tires de 101
e
e
e
catgories dobject, elle contient de 31 ` 800 images par catgorie. Cette base dimages est connue par sa
e
a
e
grande variabilit inter-classe.
e

20

1.3. BASES DIMAGES HETEROGENES UTILISEES


cette base est 30608 images de taille 300 300 pixels. Cette base est connue par une
grande variabilit inter et intra-classes. Dans ce travail, nous utilisons un ensemble de 23
e
classes de la base CALTECH-256, contenant 100 images chacune. La gure 1.9 illustre
des chantillons de direntes classes dimages contenues dans le sous-ensemble utilis.
e
e
e
Les noms ainsi que les identiants (IDs) correspondants aux 23 classes utilises ` partir
e a
des deux bases dimages COREL et CALTECH-256 sont prsents dans le tableau 1.1 (on
e
e
maintient lappellation anglaise).
Tab. 1.1 Noms et identiants des 23 classes utilises ` partir des deux bases dimages
e a
COREL et CALTECH-256.
IDs
Noms de classes
COREL
CALTECH-256
0
Buses
Backpack
1
Horses
Baseball-bat
2
Dinosaurs
Bathtub
3
Elephants
Bear
4
Flowers
Billiards
5
Forests
Binoculars
6
African peoples and villages Bowling-ball
7
Food
Bread-maker
8
Mountains and glaciers
Calculator
9
Cars
Camel
10
Dogs
Chandelier
11
Lizards
Chess-board
12
Fashion models
Chimp
13
Sunset scenes
Coin
14
Beach
Computer monitor
15
Waterfalls
Cormorant
16
Antique furnitures
Diamond-ring
17
Battle Ships
Dolphin
18
Skiing
Elk
19
Desserts
Fern
20
Buttery
Fire-truck
21
Historical buildings
Harp
22
Night scenes
Ketch
Nos exprimentations sont ralises en utilisant, pour chaque base dimages, neuf souse
e e
bases direntes. Ces sous-bases contiennent un nombre variable de classes thmatiques
e
e
allant de 3 jusqu` 23 classes. Dans les bases htrog`nes, certaines images de classes
a
ee e
direntes peuvent se rvler dun aspect tr`s proches, alors que des images de la mme
e
e e
e
e
classe peuvent avoir des structures dissemblables. De ce fait, la classication supervise est utilise. Grce ` ltape dapprentissage, ce type de classication assure une
e
e
a a e
meilleure sparation des direntes classes dans les bases dimages htrog`nes. Une
e
e
ee e
synth`se des techniques de classication, existant dans la littrature, est prsente dans la
e
e
e
e
section 1.4. Par ailleurs, vu la nature htrog`ne et le manque de connaissance ` priori sur
ee e
a
le contenu des bases utilises, les images appartenant smantiquement au mme concept
e
e
e
ne prsentent pas forcment une majorit de sous-rgions ou de points dintrt come
e
e
e
ee
muns. Par consquent, lutilisation dune description globale des images est adopte.
e
e
Dautre part, les rsultats de reconnaissance obtenus restent fortement dpendants de
e
e
21

1.4. TECHNIQUES DE CLASSIFICATION DIMAGES


la description dimages utilise. Pour couvrir les direntes caractristiques visuelles des
e
e
e
images htrog`nes, une large description est gnralement recommande (Manjunath
ee e
e e
e
et al., 2001), (Androutsos et al., 2005). Dans notre cas, un ensemble de caractristiques
e
de dirents types est extrait. Plus de dtails sont fournis dans la section 1.5. Ainsi,
e
e
le syst`me CBIR tudi dans notre contexte de travail, se base essentiellement sur une
e
e
e
construction hors ligne dune large description globale des images. Ltape de reconnaise
sance est base sur une technique de classication supervise. Cette tape est totalement
e
e
e
automatique et adapte au contenu de la base considre. Aucune rtroaction de lutilisae
ee
e
teur, pour lvaluation des rsultats ` travers un bouclage de pertinence, nest envisage.
e
e
a
e
Dans la section suivante, un tat-de-lart des techniques de classication dimages est
e
prsent.
e
e

1.4

Techniques de classication dimages

Les performances dun syst`me de reconnaissance dimages par le contenu reposent


e
essentiellement sur les caractristiques ainsi que la catgorie dattributs utilises pour la
e
e
e
description des images. Cependant, le bon usage de cette description dimages, ` travers
a
un algorithme de classication, qui sadapte au processus de reconnaissance considr, est
ee
dune extrme importance. Ainsi, la mthode de classication utilise inue, conjointee
e
e
ment avec la nature de description dimages employe, sur les rsultats de reconnaissance
e
e
obtenus. Le crit`re principal de toute mthode de classication se base sur le fait que les
e
e
images appartenant au mme concept doivent avoir au moins une ou plusieurs proprits
e
ee
communes (Jurgen, 2004). Le processus de classication gnral comporte deux tapes:
e e
e
ltape dapprentissage et celle de gnralisation. Ltape dapprentissage sert ` construire
e
e e
e
a
un mod`le ` partir des images de la base considre. Ltape de gnralisation reprsente
e a
ee
e
e e
e
la classication proprement dite. Particuli`rement, le mod`le construit en phase dapprene
e
tissage est utilis en gnralisation pour estimer les classes des direntes images requtes
e
e e
e
e
(Han and Kamber, 2006).
Une grande varit de syst`mes/approches et techniques de classication se trouve
ee
e
dans la littrature. Cependant, aucune approche ne prtend tre la plus performante pour
e
e
e
tous les probl`mes de classication (Stork et al., 2001). Dans ce cadre, un bref tat-de-lart
e
e
des direntes techniques de classication est prsent dans cette section. Nous rappelons
e
e
e
que ces techniques sont principalement catgorises en deux familles: la classication none
e
supervise et la classication supervise (section 1.2.3.1).
e
e

1.4.1

Mthodes de classication non-supervise


e
e

Dans lapproche de classication non-supervise, les classes qui constituent la base


e
dimages ne sont pas identies. Gnralement, le nombre de classes est galement ine
e e
e
connu. Ainsi, la classication non-supervise, connue en anglais par clustering consiste
e
a e
` dterminer les direntes classes naturellement sans aucune connaissance pralable.
e
e
Lobjectif, dans ce cas, est didentier une structure dans les images de la base en se basant sur leurs contenus. Tout en caractrisant la discrimination des images inter-classe et
e
rduisant la variation du contenu des images intra-classe, les images sont attribues aux
e
e
direntes classes estimes selon la similarit de leurs caractristiques. Par consquent, le
e
e
e
e
e
choix dune mesure de distance approprie est une tape importante dans tout algorithme
e
e
de clustering. Cette distance spcie la faon avec laquelle la similitude de deux images
e
c
22

1.4. TECHNIQUES DE CLASSIFICATION DIMAGES


est calcule. Cela est dune grande inuence sur la forme nale des classes. Eectivement,
e
certaines images peuvent tre proches lune de lautre en fonction dune certaine distance
e
et plus loignes selon une autre (Dengsheng and Guojun, 2003). La tche de regroupee
e
a
ment dimages peut tre ventuellement simplie si le nombre de classes dans la base
e
e
e
est connu, mais la classication reste toutefois non-supervise puisque le classieur nest
e
toujours pas guid par des images dj` tiquetes. De ce fait, lanalyse de la rpartition
e
eae
e
e
des images, dites aussi observations, dans lespace des attributs reste le seul moyen qui
permet de caractriser la signication des vritables classes. Dans la suite, nous eectuons
e
e
un aperu plus dtaill des mthodes de classication non-supervise qui existent dans la
c
e
e
e
e
littrature.
e
Il existe plusieurs approches pour la catgorisation des mthodes de classication
e
e
non-supervise. Souvent, ces mthodes sont regroupes en deux grandes catgories: pae
e
e
e
ramtriques et non-paramtriques (Fukunaga, 1972). Les mthodes paramtriques sont
e
e
e
e
bases sur une pr-analyse dune structure de donnes globale. Les performances de ce
e
e
e
type de mthodes dpendent essentiellement des hypoth`ses eectues suite ` lapproxie
e
e
e
a
mation de leurs param`tres (le nombre de classes par exemple). Le crit`re de classication
e
e
le plus intuitif et frquemment utilis est le crit`re de lerreur quadratique. Il est parfaitee
e
e
ment adapt au cas des classes compactes et isoles (Jain et al., 1999). Parmi les mthodes
e
e
e
paramtriques qui se basent sur ce crit`re, la mthode la plus communment utilise est
e
e
e
e
e
celle de lalgorithme K-means (McQueen, 1967). Plusieurs variantes de cet algorithme
ont t proposes pour grer la sensibilit ` la rpartition initiale (Anderberg, 1973).
ee
e
e
e a
e
Dans le cas des mthodes non-paramtriques, aucune hypoth`se sur le(s) param`tre(s)
e
e
e
e
caractrisant(s) nest eectue. Le nombre de classes est particuli`rement non dni. Les
e
e
e
e
images sont regroupes selon une fonction de densit. Par consquent, la performance des
e
e
e
mthodes non-paramtriques est, naturellement, tr`s sensible ` la distribution dimages
e
e
e
a
dans la base. Lexemple classique dapproches non-paramtriques est lalgorithme appel
e
e
CAST pour Cluster Anity Search Technique. Cest une approche itrative (Portnoy
e
et al., 2002) qui examine ecacement les observations aberrantes (Shamir and Sharan,
2002).
Une deuxi`me structuration des mthodes de classication non-supervise est courame
e
e
ment utilise dans la littrature. Cette structuration inclut trois catgories:
e
e
e
Les mthodes de classication hirarchiques: constituent la famille de teche
e
niques qui gn`rent des suites de partitions embo ees les unes dans les autres, et
e e
t
allant depuis la partition triviale o` une seule classe contient toutes les observations
u
jusqu` la partition triviale o` chaque observation constitue une classe ` part. La
a
u
a
mthode de classication hirarchique doit choisir une partition assez adapte entre
e
e
e
ces deux extrmes. La taxonomie communment utilise des mthodes hirarchiques,
e
e
e
e
e
comprend cinq sous-catgories (Jain et al., 1999): Les approches Ascendantes /
e
Descendantes , Monothtiques / Polythtiques , Dterministes / Floues ,
e
e
e
Dterministes / Stochastiques et Incrmentales / Non-incrmentales .
e
e
e
Les mthodes de classication par partitionnement: permettent principalee
ment dorganiser les images en K classes. Comme K est un param`tre dentre, une
e
e
certaine connaissance du domaine est ncessaire, ce qui nest pas toujours dispoe
nible en pratique (Ester et al., 1996). Un algorithme de partitionnement commence
gnralement par une partition initiale, puis utilise une stratgie de contrle itrative
e e
e
o
e
pour optimiser une certaine fonction objective. Chaque classe est reprsente par son
e
e
centre de gravit (K-centroid ) ou par une des images de la classe situe ` proximit
e
e a
e
de son centre (K-medoid ). Un ensemble de mthodes appartenant ` cette catgorie,
e
a
e
23

1.4. TECHNIQUES DE CLASSIFICATION DIMAGES


telles que le mod`le de mlange de gaussienne, lalgorithme EM pour Expectatione
e
Maximization et le mod`le non-supervis de Bayes existent dans la littrature. Par
e
e
e
ailleurs, lalgorithme de partitionnement le plus populaire est lalgorithme K-means
(Berry, 2003).
Les mthodes de classication par deux voies de clustering, connues
e
par co-clustering ou bi-clustering : sont des algorithmes o` non seulement les
u
images sont groupes, mais aussi leurs caractristiques, cest ` dire, si les images sont
e
e
a
reprsentes dans une matrice de donnes, les lignes et les colonnes sont regroupes
e
e
e
e
en mme temps (Kim and Cipolla, 2008).
e
Laperu prsent des direntes approches de clustering dmontre une large gamme
c
e
e
e
e
de mthodes de classication non-supervise. Le choix dune mthode particuli`re dpend
e
e
e
e
e
fortement de lapplication et du type de sortie tant souhait. Dans la section suivante,
e
e
les mthodes de classication supervise sont exposes.
e
e
e

1.4.2

Mthodes de classication supervise


e
e

Dans cette approche de classication, une connaissance de la signication de chaque


classe est exige. Evidemment le nombre de classes est x et les images disponibles sont
e
e
dj` attribues aux direntes classes de la base. Lobjectif est ainsi daecter de nouea
e
e
velles images aux classes appropries suivant la modlisation eectue en phase dapprene
e
e
tissage. En gnral deux types de modlisation peuvent tre distingues: la modlisation
e e
e
e
e
e
intrins`que et la modlisation discriminante.
e
e
Modlisation intrins`que: permet dexpliciter les classes par la dnition de leurs
e
e
e
proprits intrins`ques. Dans ce cas, lobjectif est de dterminer un mod`le qui
ee
e
e
e
caractrise au mieux chaque classe dans lespace dattributs. La classication de
e
nouvelles images de test repose sur les mesures de similarit entre ces images et les
e
dirents mod`les de classes.
e
e
Modlisation discriminante: assure une description implicite des classes par la
e
dnition des fronti`res de dcision permettant de discriminer ces classes. Ainsi,
e
e
e
le but est de chercher des hyper-plans, dans lespace dattributs correspondant.
Ces hyper-plans doivent sparer au mieux les direntes classes de la base. En
e
e
gnralisation, il sut de trouver de quel ct de ces hyper-plans se trouve chaque
e e
oe
image requte.
e
Une illustration de ces deux types de modlisation est prsente par la gure 1.10. En
e
e
e
se basant sur lune de ces modlisation, plusieurs mthodes de classication supervises
e
e
e
existent dans la littrature. Nous dcrivons succinctement dans la suite les mthodes les
e
e
e
plus utilises pour la classication dimages.
e
Comme mthodes intrins`ques, la classication baysienne dtermine la probabilit
e
e
e
e
e
dappartenance de chaque image aux direntes classes de la base (Langley and Sage,
e
1999). Cette mthode est dite Nave ou Simple car elles supposent que les images dape

prentissage sont toujours indpendantes. Si les images ne suivent pas une loi de distribue
tion connue, les conditions de probabilit employes seront errones et la r`gle de Bayes
e
e
e
e
ne peut tre applique. Les arbres de dcision, quand ` elles, reprsentent des processus
e
e
e
a
e
rcursifs (Quinlan and Rivest, 1989), (Quinlan, 1993). Les images requtes sont examines
e
e
e
par larbre de dcision de chaque classe dans la base. Concr`tement, chaque noeud dans
e
e
larbre de dcision contient un test (de type Si ... Alors ) correspondant ` la valeur
e
a
24

1.4. TECHNIQUES DE CLASSIFICATION DIMAGES

a)

b)

Fig. 1.10 Approche de classication supervise: type de modlisation a) Intrins`que et


e
e
e
b) Discriminante.

dun attribut donn. Les feuilles de larbre reprsentent les dcisions tires ` partir des
e
e
e
e a
rsultats de ces tests. Les arbres de dcision fonctionnent mieux si le nombre de valeurs
e
e
possible pour chaque attribut est faible. Par contre, pour un grand jeu de donnes, larbre
e
devient illisible. Dans le mme contexte, les rseaux de neurones articiels, connus par
e
e
lacronyme anglais ANN (Articial Neural Networks), reposent sur la thorie des percepe
trons (Maren, 1990). Un ANN est compos de plusieurs neurones rpartis sur une couche
e
e
dentre, une couche de sortie et un nombre de couches caches. Par ailleurs, il nexiste
e
e
pas de r`gle pour choisir le nombre de couches du rseau. Les MLP pour Multi Layer
e
e
Perceptron sont constitus par une ou plusieurs couches caches (Freeman and Skapura,
e
e
1991). Par contre, les rseaux ` fonctions radiales de base, connus par lacronyme anglais
e
a
RBF (Radial Basis Functions), sont constitus par une seule couche cache (Oyang et al.,
e
e
2005). Gnralement, les ANNs sont robustes aux erreurs et sont donc bien adapts aux
e e
e
probl`mes dapprentissage dimages bruites. Cependant, ils ont une pauvre possibilit
e
e
e
dinterprtation et un choix de param`tres tr`s dlicats.
e
e
e e
Par ailleurs, les mthodes discriminantes reprsentent souvent des techniques de clase
e
sication linaires. Deux types de classication linaire sont utiliss: les fonctions dise
e
e
criminantes et les machines ` vecteurs supports. Les fonctions discriminantes sont des
a
mthodes de classication simples qui sparent les images appartenant aux direntes
e
e
e
classes en se basant sur une analyse linaire. Ces fonctions peuvent tre performantes
e
e
dans le cas o` les direntes classes de la base sont linairement sparables. Cependant,
u
e
e
e
dans la plus part des cas, elles ne permettent pas datteindre des prcisions considrables.
e
e
An damliorer les performances de ces fonctions, de nouvelles variantes sont prsentes
e
e
e
dans la littrature (Kimura et al., 1997). Face aux fonctions linaires, les machines ` vece
e
a
teurs supports, connues par lacronyme anglais SVMs (Support Vector Machines), sont
initialement conues pour les probl`mes de classication binaires. Elles permettent de
c
e
sparer linairement les exemples positifs des exemples ngatifs dans lensemble des images
e
e
e
dapprentissage par un hyper-plan qui garantisse un maximum de marge (Vapnik, 1999).
Lecacit des SVMs est souvent suprieure ` celle de toutes les autres mthodes de
e
e
a
e
classication supervises. Pour les probl`mes de non-sparabilit, les SVMs permettent
e
e
e
e
deectuer une transformation non-linaire des observations dentre dans un espace de
e
e
dimension suprieure pour se ramener au cas linaire. En outre, les SVMs peuvent sadrese
e

25

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES
ser galement aux probl`mes de classication multi-classes (Weston and Watkins, 1999),
e
e
(Xu and Chan, 2003), (Platt et al., 2000).
En revanche, il existe des mthodes de clasication supervises qui ne ncessitent pas
e
e
e
de modlisation. En eet, au contraire des mthodes de classication supervise traditione
e
e
nelles, aucun mod`le nest construit ` partir des images dapprentissage. Cest le cas du
e
a
raisonnement ` partir dexemples telle que la mthode des K-plus proches voisins (Kppv),
a
e
connue en anglais par K-nearest neighbor (Weiss, 1991), ou encore Memory Based Reasoning (Stanll, 1987). La r`gle de dcision de la mthode Kppv consiste principalement
e
e
e
a
` attribuer une image requte ` la classe reprsente en majorit dans son voisinage. Ce
e a
e
e
e
voisinage est dni par les K plus proches observations dans la base dapprentissage par
e
rapport ` limage requte considre. Deux param`tres sont gnralement requis, ` savoir
a
e
ee
e
e e
a
le nombre de voisins K ` tenir en compte et la fonction de similarit ` utiliser. Lecaa
ea
cit des Kppv est gnralement sensible ` la densit des direntes rgions de lespace de
e
e e
a
e
e
e
reprsentation des images dapprentissage. De plus, la mthode Kppv ncessite souvent
e
e
e
un espace mmoire tr`s important du fait que la totalit de la base dapprentissage doit
e
e
e
tre stocke.
e
e
`
A la n de cette synth`se, nous distinguons principalement deux mthodes de classie
e
cation: supervise et non-supervise. Les mthodes non-supervises dterminent automae
e
e
e
e
tiquement les direntes classes de la base dimages, mais prsentent souvent des capacits
e
e
e
de prcision assez limites. Les mthodes supervises, quand ` elles, ncessitent un ene
e
e
e
a
e
semble de connaissances retant la vrit terrain de la base dimages dapprentissage.
e
e e
Do` elles aboutissent, gnralement, ` de meilleures performances de classication. Dans
u
e e
a
ce travail de th`se, le contexte supervis est adopt, en particulier, les classieurs SVMs
e
e
e
sont utiliss. Un choix justi par la qualit de ces classieurs en terme de performance de
e
e
e
classication. Plus de dtails concernant les SVMs sont fournis dans le chapitre 3. Dans la
e
section suivante, lensemble des caractristiques, utilises pour la description des images,
e
e
est dtaill.
e
e

1.5
1.5.1

Caractristiques utilises pour la description dimages


e
e
dans les bases htrog`nes
e e
e
Introduction

Comme il a t dj` signal prcdemment et face au contenu assez variable des images
ee ea
e e e
htrog`nes, la description adopte dans ce travail est base sur lextraction dattributs
ee e
e
e
globaux. Une image dcrite globalement, contrairement ` lutilisation des caractristiques
e
a
e
locales, est reprsente gnralement par un seul vecteur dattributs pour chaque cae
e e e
ractristique extraite. Ceci permet de rendre plus rapide la reconnaissance des images.
e
Les caractristiques globales couramment utilises re`tent principalement des proprits
e
e
e
ee
visuelles de bas niveau dans limage telles que la couleur, la texture, la forme, etc... Une
littrature abondante constitue ltat de lart de ce type de description. Plusieurs contrie
e
butions rcentes sont aussi proposes (Datta et al., 2008), (He and Cercone, 2009). An
e
e
dassurer une riche description ncessaire pour la nature htrog`ne des images traites, un
e
ee e
e
ensemble de douze caractristiques globales de dirents types (dites aussi htrog`nes)
e
e
ee e
est utilis. Nous choisissons essentiellement des caractristiques classiques et prouves
e
e
e
e
pour une meilleure valuation des direntes mthodes proposes dans cette th`se. Toue
e
e
e
e

26

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES
tefois, il est toujours possible demployer dautres caractristiques pour la description des
e
images.
Les caractristiques couleurs moyennes (Faloutsos et al., 1994) calcules dans quatre
e
e
espaces couleurs dirents, ` savoir les espaces RVB, HSV, HMMD et YCrCb, la cae
a
ractristique histogramme couleur (Hafner et al., 1995) ainsi que la caractristique corrloe
e
e
gramme (Huang et al., 1997) sont utilises pour la description couleur. Comme caractristie
e
ques de texture, les statistiques de premier ordre (Press et al., 1987) calcules ` partir de
e a
lhistogramme niveaux de gris des images, ainsi que les attributs extraits de la matrice
de co-occurrence (Haralick et al., 1973), appele souvent par lacronyme anglais SGLD
e
(Spatial Gray Level Dependency), sont aussi utiliss. Nous calculons en plus la matrice
e
contenant les normes du gradient (Delingette and Montagnat, 2001) de tous les pixels dans
limage et les transformes en ondelettes de Daubeshie. Le descripteur GIST (Oliva and
e
Torralba, 2001) est aussi maintenu comme une caractristique reprsentant la couleur et
e
e
la texture. Enn, les moments de Hu (Hu, 1962) sont employs comme caractristiques de
e
e
forme. La gure 1.11 prsente quelques chantillons des caractristiques extraites ` partir
e
e
e
a
des images Dinosaure et Rose appartenant ` deux classes direntes de la base COREL,
a
e
dcrite et prsente dans la section 1.3.2.
e
e
e

a)

b)

c)

Fig. 1.11 Echantillons des caractristiques extraites respectivement des images Dinoe
saure et Rose: a) Histogramme, b) Matrice des normes du gradient, et c) GIST.
Soit I une image couleur quantie sur cl couleurs {c1 ,c2 ,...,ccl }. Chaque pixel pi ,
e
i = [1,2,...,N ], de coordonns (x,y) est dot dune couleur I(pi ): pi Icj I(pi ) = cj ,
e
e
j {1,2,...,cl}. Dans lespace couleur RV B, les trois matrices couleur (Rouge, Vert et
Bleu) de I sont notes respectivement par R, V et B. Les direntes caractristiques
e
e
e
utilises dans ce travail sont prsentes ci apr`s.
e
e
e
e

1.5.2

Les couleurs moyennes

La caractristique couleur moyenne (Faloutsos et al., 1994), sert ` dterminer les


e
a e
direntes distributions moyennes de couleur dans une image. Elle peut tre calcule pour
e
e
e
nimporte quel espace couleur. Le nombre dattributs constituant cette caractristique
e
dpend alors du nombres daxes dans lespace couleur utilis pour la reprsentation de
e
e
e
limage. Par exemple, la caractristique couleur moyenne de limage I dans lespace coue
leur RV B est formule comme suit:
e

27

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES

x = (Rmoy , Vmoy , Bmoy )t

(1.2)

Sachant que:
N

R(p),
Rmoy =
N p=1

(1.3)

Vmoy =
V (p),
N p=1

(1.4)

B(p).
Bmoy =
N p=1

1.5.3

(1.5)

Les histogrammes couleurs

Les histogrammes couleur (Hafner et al., 1995) sont des indicateurs de rpartition de
e
` partir dun espace discret de couleur dni par les
niveaux de couleurs dans une image. A
e
axes couleurs correspondants (par exemple Rouge, Vert et Bleu), lhistogramme couleur
est dtermin par la discrtisation de limage couleur et le calcul du nombre doccurrence
e
e
e
de chaque couleur dans cette image. Les histogrammes couleur dans lespace RV B sont
calculs comme suit, i {1,2,...,cl}:
e
N

1
R(p) == ci ,
histR (ci ) =
N p=1

(1.6)

1
V (p) == ci ,
histV (ci ) =
N p=1

(1.7)

1
histB (ci ) =
B(p) == ci .
N p=1

1.5.4

(1.8)

La matrice corrlogramme
e

Les caractristiques prcdentes (la couleur moyenne et lhistogramme couleur) ne


e
e e
tiennent pas en considration la distribution spatiale de couleur dans limage. Dans ce
e
cadre et pour palier ` ces limitations de description couleur, la caractristique corrlogramme
a
e
e
a t propos (Huang et al., 1997). Un corrlogramme prsente les corrlations spatiales
ee
e
e
e
e
entre couleurs en fonction dune distance inter-pixel, prise au sens de la norme L :
|p1 p2 | = max{|x1 x2 |,|y1 y2 |}.

(1.9)

Pour une distance Dist {1,2,...,N } xe a priori, le correlogramme de la couleur ci


e
par rapport ` la couleur cj est dni par:
a
e
Dist
Corci ,cj = prob [p2 Icj
p1 Ici

28

/|p1 p2 | = Dist].

(1.10)

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES
Dist
Pour tout pixel de couleur ci dans limage I, Corci ,cj retourne la probabilit 5 de trouver
e
un pixel de couleur cj ` une distance Dist.
a

1.5.5

Les statistiques de premier ordre

Soit N G limage niveau de gris correspondante ` limage I. Lhistogramme des ng


a
niveaux de gris de limage N G est calcul comme suit, i {1,2,...,ng}:
e
N

1
hist(i) =
N G(p) == i
N p=1

(1.11)

Etant donn quune image peut tre considre comme une distribution statistique de
e
e
ee
niveaux de gris. Les statistiques de premier ordre (Press et al., 1987), calcules ` partir de
e a
lhistogramme de cette image, permettent deectuer une tude des textures y contenues
e
(analyse texturelle). Les attributs extraits sont respectivement la moyenne, lcart type
e
et la variance de la distribution des niveaux de gris dans limage. La caractristique
e
correspondante est alors:

x = (Moy , Etype , Var )t

(1.12)

Sachant que:
ng

i hist(i),
Moy =
ng i=1

(1.13)

ng

Etype =

1
(i M oy)2 hist(i),
ng i=1

(1.14)

Var =
(N G(p) M oy)2 .
N p=1

1.5.6

(1.15)

La matrice de co-occurrences

La matrice de co-occurrences (Haralick et al., 1973), calcule ` partir de limage niveau


e a
de gris N G, reprsente une tude statistique du second ordre de limage. Elle ressemble `
e
e
a
la matrice correlogramme, prsente dans la section 1.5.4, sauf que la notion de voisinage
e
e
ici est dnie par une distance Dist suivant une direction Dir. La matrice de co-ocurrences
e
tablit la probabilit de retrouver dans ce voisinage le niveau de gris j en partant dun
e
e
niveau de gris i:
(Dist,Dir)

SGLDi,j

= prob [p2 N Gj

/ |p1 p2 | = Dist, (p1 ,p2 ) = Dir].

(1.16)

p1 N Gi

Il est possible de calculer sur cette matrice des attributs statistiques classiques comme
la moyenne et la variance, ainsi que dautres attributs telles que lentropie, linertie, la
5. Cette probabilit correspond au nombre doccurrences des pixels p2 de couleur cj dans le voisinage
e
du pixel p1 (p1 Ici ). Le voisinage considr est x par la distance Dist.
ee
e

29

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES
corrlation, etc... Selon Haralick, treize attributs de texture peuvent tre calculs (Haralick
e
e
e
et al., 1973). Uniquement les sept les plus pertinents et plus utiliss sont retenus:
e
1
M oyenne = 2
ng

ng

ng

(Dist,Dir)

SGLDi,j

(1.17)

i=1 j=1

ng

ng

(Dist,Dir) 2

[SGLDi,j

Energie =

(1.18)

i=1 j=1

ng

ng

(Dist,Dir)

(i M oyenne)2 SGLDi,j

V ariance =

(1.19)

i=1 j=1

ng

ng
(Dist,Dir)

(i j)2 SGLDi,j

Contraste =

(1.20)

i=1 j=1

ng

ng
(Dist,Dir)

Entropie =

SGLDi,j

(Dist,Dir)

Log[SGLDi,j

(1.21)

i=1 j=1

ng

ng

Homogeneite =
i=1 j=1

ng

1
(Dist,Dir)
SGLDi,j
1 + (i j)2

(1.22)

ng
(Dist,Dir)

(i x )(j y )SGLDi,j

Correlation =

/ (x y )

(1.23)

i=1 j=1

avec x , y et x , y sont les moyennes et les variances respectives des deux distributions
marginales px (i) et py (j):
ng

ng

x =

i px (i),

2
x

(i x )2 px (i)

i=1
ng

(j y )2 py (j)

(1.25)

i=1
ng

2
j py (j), y =

y =

(1.24)

j=1

j=1

(1.26)
sachant que px (i) et py (j) sont calcules comme suit:
e
ng

ng
(Dist,Dir)
SGLDi,j
,

px (i) =

(Dist,Dir)

py (j) =

j=1

SGLDi,j
i=1

30

(1.27)

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES

1.5.7

Les transformes en ondelettes de Daubeshie


e

Pour un niveau de dcomposition l, les coecients dondelettes de Daubeshie sont


e
calculs comme suit, i,j [0,1]:
e
cl (x,y) =
ij

N G(, ) hi (2x ) hj (2y ), l = 1,


l1
c00 (, ) hi (2x ) hj (2y ), l 2,

(1.28)

sachant que hi (k) et hj (k) reprsentent les ltres de Daubeshie respectivement selon les
e
lignes et les colonnes.
Les attributs textures considrs, dans notre cas, sont les coecients dondelettes de
ee
Daubechie correspondants ` deux niveaux de dcomposition. La gure 1.12 illustre le
a
e
principe de base de la rpartition de ces coecients pour chaque image.
e

Image
originale

Niveau 1

C1

C1

C1

2
2
C00 C01

C1

00

01

10

Niveau 2

11

2
2
C10 C11

C1

10

C1

01

C1

11

Fig. 1.12 Coecients dondelettes pour deux niveaux de dcomposition.


e

1.5.8

Le descripteur GIST

Le descripteur GIST est une caractristique globale qui tente dimiter le syst`me de
e
e
perception humain, (Potter, 1975), (Biederman, 1982), (Tversky and Hemenway, 1983),
pour identier rapidement les principales rgions de couleur et de texture dans une image.
e
Il a t propos initialement pour dvelopper des reprsentations de sc`nes ` faible dimenee
e
e
e
e
a
sion (Oliva and Torralba, 2001). GIST a montr rcemment de tr`s bon rsultats pour la
e e
e
e
recherche et la reconnaissance dimages (Li et al., 2008).
Plusieurs mod`les GIST utilisant dirents types de caractristiques de bas niveau ont
e
e
e
t rcemment proposs (Oliva and Torralba, 2001), (Renniger and Malik, 2004), (Siagian
ee e
e
and Itti, 2007), (Torralba et al., 2003). Le mod`le dOliva et Torralba (Oliva and Torralba,
e
2001) est adopt pour lextraction du descripteur GIST. Initialement, limage est pre
e
ltre, ensuite elle est segmente systmatiquement en carrs selon une grille 4 4. Enn,
e
e
e
e
les histogrammes des orientations du gradient sont extraits en se basant sur les transformes de Fourrier calcules ` partir de plusieurs chelles de limage. Limplmentation
e
e a
e
e
GIST 6 utilise, consid`re ` lentre les images de taille carre xe et produit un vecteur de
e
e a
e
e
dimension 960 attributs, respectivement au trois chrominances R, V et B de limage. Un
ensemble dchantillons des descripteurs GIST extraits de direntes images de la base
e
e
COREL est prsent dans la gure 1.13.
e
e

1.5.9

La matrice norme du gradient

La norme du gradient (Delingette and Montagnat, 2001) prsente le degr de dirence


e
e
e
dintensit dun pixel par rapport ` ces voisins. Il sagit de traiter le contour de limage ce
e
a
6. Limplmentation MatLab utilise du descripteur GIST est disponible sur la page web de Antonio
e
e
Torralba ` ladresse suivante: http://people.csail.mit.edu/torralba/code/spatialenvelope.
a

31

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES

a)

b)

c)

d)

Fig. 1.13 Echantillons des descripteurs GIST extraits pour direntes images de la base
e
COREL.
qui permet de distinguer les direntes rgions et les dirents objets dans cette image.
e
e
e
La norme du gradient dune image peut tre calcule ` laide de dirents ltres, ` savoir
e
e a
e
a
le ltre de Sobel, le ltre de Prewitt, le ltre Laplacien, etc... Le ltre de Sobel, considr
ee
dans notre cas, suppose que le contenu des direntes sous rgions de limage est hoe
e
mog`ne, ainsi le contour peut tre dtect en se basant sur les discontinuits des niveaux
e
e
e
e
e
de gris dans limage. Initialement, limage niveau de gris N G subit une convolution avec
les masques de Sobel, hX et hY , pour le calcul des gradients directionnels selon x et y
(approximations des drives horizontale et verticale). Deux images, appeles GX et GY ,
e e
e
sont obtenues suite ` ces convolutions. GX et GY contiennent, respectivement, en chaque
a
point des approximations de la drive horizontale et verticale de chaque pixel de limage.
e e
Ces images sont calcules comme suit:
e
GX = hX N G,

GY = hY N G

(1.29)

avec hX et hY sont des matrices de convolution de taille 3 3:

1 2 1
0 ,
hX = 0 0
1 2
1

32

1
2
hY =
1

0
0
0

1
2
1

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES
La matrice norme du gradient correspondante combine, en chaque pixel de limage, les
approximations des gradients horizontaux et verticaux pour obtenir une approximation
globale de la norme du gradient:
G=

1.5.10

G2 + G2
X
Y

(1.30)

Les moments de Hu

Les Moments sont des attributs de forme tr`s puissants. Un moment est une somme
e
pondre de tous les pixels en fonction de leurs positions dans limage (plus de dtails
ee
e
sont fournis dans (Teague, 1980)). En 1962, les sept moments de Hu ont t proposs (Hu,
ee
e
1962):

= 20 + 02
= (20 02 )2 + 42
11
2
= (30 312 ) + (321 03 )2
= (30 + 12 )2 + (21 + 03 )2
= (30 312 )(30 + 12 )[(30 + 12 )2 3(21 + 03 )2 ] + (321 03 )
(21 + 03 )[3(30 + 12 )2 (21 + 03 )2 ]
= (20 02 )[(30 + 12 )2 (21 + 03 )2 ] + 411 (30 + 12 )(21 + 03 )
= (321 03 )(3,0 + 12 )[(30 + 12 )2 3(21 + 0,3 )2 ] (3,0 312 )
(21 + 03 )[3(30 + 12 )2 (21 + 03 )2 ]

(1.31)

Les moments de Hu sont invariants aux direntes transformations gomtriques


e
e e
dcrites dans la section 1.2.1.3.
e

1.5.11

Optimisation

Suite ` lextraction de cette varit de caractristiques, quelques traitements sont


a
ee
e
apports ` certaines dentre elles (Kachouri et al., 2008b). Ces traitements permettent
e a
principalement de rduire la dimension de ces caractristiques, tout en prservant leur
e
e
e
pertinence de description voire mme en lamliorant. Dans ce contexte, loptimisation
e
e
des caractristiques suivantes est eectue:
e
e
La matrice correlogramme (section 1.5.4): La caractristique auto-correloe
gramme (Huang et al., 1999) est utilise ` la place de la matrice correlogramme.
e a
En fait, lauto-correlogramme est dni comme une sous-caractristique du corree
e
logramme, il sagit de sa diagonale. Elle capture seulement la corrlation spatiale
e
entre les niveaux de couleur identiques dans limage.
Les ondelettes de Daubeshie (section 1.5.7): Deux niveaux de dcomposition
e
en ondelettes rendent sept ensembles de coecients, tel quil est indiqu par la
e
gure 1.12. Une rduction du nombre de ces coecients est eectue par le calcul
e
e
dune seule valeur rsultante pour chaque ensemble. Il sagit de lnergie sous-bande
e
e
de tous les coecients dondelettes appartenant ` lensemble considr. Vu que les
a
ee
2
coecients bas niveau de lapproximation c00 ne sont pas adapts ` une analyse de
e a
33

1.5. CARACTERISTIQUES UTILISEES POUR LA DESCRIPTION DIMAGES



`
DANS LES BASES HETEROGENES
texture, une mesure des directions indpendantes du signal haute frquence correse
e
pondant est ralise par un ltrage Laplacien:
e e
c2 (x,y) =
00

c2 (, ) hLAP (x , y ),
00

(1.32)

avec hLAP est la matrice de convolution (3 3)

1 1
1 8
hLAP =
1 1

du ltre Laplacien:

1
1
1

Les attributs textures extraits des dirents dtails ainsi que du ltrage Laplacian
e
e
de lapproximation sont calculs comme suit:
e
el =
ij

1
KZ

|cl (k,z)|2 ,
ij

i,j [0,1] et l [1,2],

(1.33)

k=1 z=1

avec K et Z sont les deux dimensions respectives de lensemble des coecients dondelettes cl (plus de dtails sont fournis dans (Serrano et al., 2004)).
e
ij
La matrice norme du gradient (section 1.5.9): Gnralement, les images sont
e e
caractrises ` laide dun histogramme de la norme du gradient. Il est galement
e e a
e
possible dutiliser des histobins de 8, 16 ou 32, ... bins. Un histobin est une forme
rduite de lhistogramme, o` chaque bin reprsente la somme dun ensemble dlments
e
u
e
ee
voisins de lhistogramme. Le nombre de voisins est dtermin par le nombre de bin
e
e
dans lhistobin. Ces mthodes dcrivent linformation texture dans limage. Pour
e
e
mettre en valeur laspect contour, la description norme du gradient est exploite
e
autrement dans notre travail. Une projection selon les deux axes de cette matrice
est eectue:
e
PX (x) =

1
max G

G(x,y), et PY (y) =
y

1
max G

G(x,y)

(1.34)

Les deux vecteurs normaliss PX et PY reprsentent une description forme de limage


e
e
a
` partir de sa matrice norme du gradient correspondante. Ils re`tent respectivement
e
la variation verticale et horizontale du contour. Cette mthode permet de rduire
e
e
la dimension de la matrice norme du gradient, tout en prservant sa qualit de
e
e
description. La gure 1.14 montre la capacit de discrimination de cette nouvelle
e
caractristique des normes de gradient entre deux images de classes direntes de
e
e
la base COREL.
Les moments de Hu (section 1.5.10): An de considrer le contour plus que
e
toutes autres informations dans limage, les moments de Hu sont calculs ` partir
e a
de la matrice norme du gradient au lieu de limage initiale. Ceci permet denrichir
davantage la description forme de cette caractristique.
e

1.5.12

Conclusion

Dans cette section, lensemble des caractristiques de dirents types, extrait pour la
e
e
description dimages dans les bases htrog`nes, a t prsent. Une valuation de cet
ee e
ee e
e
e
ensemble est eectue (Kachouri et al., 2008a). Les rsultats de cette valuation, pour
e
e
e
direntes bases dimages htrog`nes, sont illustrs et discuts dans la section suivante.
e
ee e
e
e
34

1.6. EVALUATION DES CARACTERISTIQUES

a)

b)

Fig. 1.14 Nouvelle forme de la caractristique des normes du gradient des image Dinoe
saure et Rose: a) la projection selon x et b) la projection selon y.
Dans le reste de ce manuscrit, les direntes caractristiques couleur moyennes sont
e
e
notes, respectivement aux espaces couleurs correspondants, par RVB, HSV, HMMD et
e
YCrCb, lhistogramme couleur par Hist, lauto-correlo-gramme par A-Cor, les statistiques
de premiers ordres par FOS, lensemble des attributs extraits de la matrice de co-occurence
par SGLD, les coecients condenss de la transformation dondelette de Daubeshie ` deux
e
a
niveaux de dcomposition par Daub, le descripteur GIST par GIST, les deux projections
e
de la matrice normes du gradient par G-norm et les moments invariants par Hu.

1.6

Evaluation des caractristiques


e

Nous avons implment sous MatLab les direntes caractristiques dcrites dans la
e
e
e
e
e
section 1.5. Ensuite, an dvaluer le pouvoir discriminant individuel de chacune de ces
e
caractristiques, nous avons entra e lensemble des mod`les SVMs correspondants sur les
e
n
e
bases dimages htrog`nes utilises (section 1.3). Dans un premier temps, quatre sousee e
e
bases dimages, constitues respectivement par 3, 5, 7 et 10 classes sont utilises ` partir
e
e a
de la base COREL et la base COLUMBIA. Les performances de classication correspondantes ` chaque mod`le, pour les direntes sous-bases employes, sont mesures ` travers
a
e
e
e
e a
les deux crit`res de qualit: prcision et rappel (plus de dtails ont t fournis dans la
e
e
e
e
ee
section 1.2.3.3).
Les valeurs moyennes de la prcision (Pmoy ) et du rappel (Rmoy ) des mod`les valus,
e
e e
e
pour les quatre sous-bases COREL, sont prsentes par les tableaux 1.2 et 1.3. Les
e
e
meilleures et les pires performances dans ces tableaux sont aches en gras pour les
e
direntes sous-bases dimages utilises. Similairement, les tableaux 1.4 et 1.5 prsentent
e
e
e
les performances de classication des dirents mod`les SVMs correspondants ` lensemble
e
e
a
des caractristiques extrait, pour les quatre sous-bases COLUMBIA. Idem, les meilleures
e
et les pires performances dans ces tableaux sont aches en gras.
e
Les tableaux 1.2, 1.3, 1.4 et 1.5 montrent que les performances de classication illustres
e
varient bien videment en fonction des direntes caractristiques employes. Les pere
e
e
e
formances de classication dun mod`le dune caractristique donne varient encore en
e
e
e
fonction des direntes sous-bases dimages utilises. Ce qui prouve que le pouvoir discrie
e
minant de chaque caractristique nest pas absolu, mais il varie sensiblement en fonction
e
du contenu de la base dimage considre.
ee
35

1.6. EVALUATION DES CARACTERISTIQUES

Tab. 1.2 Evaluation de lecacit de classication des mod`les


e
e
caractristiques couleurs pour direntes sous-bases COREL.
e
e
Sous-bases COREL
RVB
HSV
HMMD YCrCb
3 classes
Pmoy
0.8320 0.9071
0.9338 0.8129
Rmoy
0.8000 0.9067
0.9333 0.7733
5 classes
Pmoy
0.6735 0.6889
0.7384
0.6897
Rmoy
0.6640 0.6880
0.7280 0.6640
7 classes
Pmoy
0.6236 0.5684 0.5657 0.6444
Rmoy
0.6057 0.5429 0.5543
0.6114
10 classes
Pmoy
0.5655 0.4585 0.4830
0.5750
Rmoy
0.5560 0.4480 0.4760
0.5720

individuels associs aux


e
Hist
0.9643
0.9600
0.8928
0.8800
0.8593
0.8400
0.8055
0.7800

Tab. 1.3 Evaluation de lecacit de classication des mod`les individuels


e
e
caractristiques textures et formes pour direntes sous-bases COREL.
e
e
Sous-bases COREL
FOS
SGLD
Daub
GIST G-norm
3 classes
Pmoy
0.6801 0.8981 0.7690 0.8919
0.8648
Rmoy
0.6800 0.8800 0.7733 0.8400
0.8267
5 classes
Pmoy
0.5858 0.7439 0.3903 0.8457 0.7016
Rmoy
0.5680 0.7200 0.4640 0.5440
0.5840
7 classes
Pmoy
0.5087 0.6844 0.2881 0.8231 0.7288
Rmoy
0.5143 0.6743 0.5314 0.3714 0.4857
10 classes
Pmoy
0.4228 0.6387 0.2104 0.7089 0.6776
Rmoy
0.4520 0.6160 0.2880 0.4760
0.4760

A-Cor
0.9643
0.9600
0.9338
0.9280
0.8549
0.8343
0.7996
0.7840
associs aux
e
Hu
0.7351
0.7333
0.6451
0.6480
0.5147
0.5200
0.4336
0.4520

Dapr`s le tableau 1.2, la caractristique Hist est la plus performante parmi les direntes
e
e
e
caractristiques couleurs employes, pour la classication des sous-bases COREL avec 3,
e
e
7 et 10 classes. Cependant, la caractristique A-Cor est plus pertinente pour la classie
cation de la sous-base COREL avec 5 classes. De mme, les caractristiques couleurs
e
e
les moins performantes pour la classications des sous-bases COREL avec 3, 5, 7 et 10
classes sont respectivement YCrCb, RVB, HMMD et HSV. Dapr`s le tableau 1.3, parmi
e
les direntes caractristiques textures et formes employes, GIST aboutit aux meilleures
e
e
e
performances de classication, pour les sous-bases COREL avec 5, 7 et 10 classes. Pour
la classication de la sous-base 3 classes, cest la caractristique SGLD qui sav`re la plus
e
e
pertinente. Dapr`s les tableaux 1.4 et 1.5, les performances de classication des direntes
e
e
caractristiques sont nettement meilleures. Ceci est d essentiellement au contenu moins
e
u
complexe des images de la base COLUMBIA par rapport au contenu des images de la
base COREL (plus de dtails sont fournis dans la section 1.3). Cependant, le pouvoir
e
discriminant de chaque caractristique dpend toujours de la base dimage considre. On
e
e
ee
constate, par exemple, que la caractristique YCrCb est la plus pertinente, conjointement
e
avec la caractristique RVB, pour la classication des sous-bases COLUMBIA avec 3,
e
5 et 7 classes. Mais elle ne lest pas pour la classication de la sous-base COLUMBIA
10 classes (tableau 1.4). De plus, les caractristiques textures et formes les moins perfore
mantes pour la classication des sous-bases COLUMBIA sont FOS pour la classication
de la sous-base 3 classes, Hu pour la classication de la sous-base 7 classes, et Daub pour
la classication des sous-bases 5 et 10 classes (tableau 1.5).
36

1.6. EVALUATION DES CARACTERISTIQUES

Tab. 1.4 Evaluation de lecacit de classication des mod`les individuels associs aux
e
e
e
caractristiques couleurs pour direntes sous-bases COLUMBIA.
e
e
Sous-bases COLUMBIA
RVB
HSV
HMMD YCrCb
Hist
A-Cor
3 classes
Pmoy
1.0000 1.0000 0.7444 1.0000 0.9733 0.9506
Rmoy
1.0000 1.0000 0.7391 1.0000 0.9710 0.9420
5 classes
Pmoy
1.0000 0.9840 0.8109 1.0000 0.9840 0.9704
Rmoy
1.0000 0.9826 0.8000 1.0000 0.9826 0.9652
7 classes
Pmoy
0.9835 0.9330 0.7012 0.9835 0.8919 0.8664
Rmoy
0.9814 0.9317 0.6832 0.9814 0.8820 0.8571
10 classes
Pmoy
0.9582 0.9454 0.7888 0.9439 0.9075 0.8623
Rmoy
0.9435 0.9435 0.7783 0.9217 0.9000 0.8565

Tab. 1.5 Evaluation de lecacit de classication des mod`les individuels associs aux
e
e
e
caractristiques textures et formes pour direntes sous-bases COLUMBIA.
e
e
Sous-bases COLUMBIA
FOS
SGLD
Daub
GIST G-norm
Hu
3 classes
Pmoy
0.8275 1.0000 0.8537 0.9310
0.9367
0.8632
Rmoy
0.7971 1.0000 0.7391 0.9130
0.9275
0.7681
5 classes
Pmoy
0.8882 0.9437 0.6902 0.9314
0.9007
0.8766
Rmoy
0.8696 0.9217 0.7565 0.8957
0.8783
0.8087
7 classes
Pmoy
0.8333 0.8478 0.5813 0.9069 0.8163 0.5214
Rmoy
0.7950 0.7950 0.5528 0.7329
0.7702 0.5466
10 classes
Pmoy
0.6896 0.8376 0.4691 0.9271 0.8277
0.4971
Rmoy
0.7435 0.8000 0.5783 0.7304
0.7391 0.5304

Une valuation plus large des direntes caractristiques a t eectue sur 23 classes
e
e
e
ee
e
des bases COREL et CALTECH-256. La gure 1.15 illustre respectivement les taux de
classication correspondants ` lensemble des caractristiques employes pour direntes
a
e
e
e
sous-bases dimages COREL et CALTECH-256. Les sous-bases utilises sont respectivee
ment constitues avec 3, 5, 7, 10, 13, 15, 17, 20 et 23 classes pour chacune des deux bases
e
dimages.
Dapr`s cette valuation, nous pouvons constater que parmi lensemble des caractristie
e
e
ques extraites, Hist, A-Cor, GIST et G-norme sont souvent les plus pertinentes et la
caractristique Daub est pratiquement celle la moins performante. Cependant, les courbes
e
aches par la gure 1.15 prouvent davantage que les performances de classication dun
e
mod`le de caractristique donn dpendent essentiellement du contenu de la base dimages
e
e
e e
considre. Nous constatons par exemple que HMMD sav`re plus performante que Hu
ee
e
pour la classication de toutes les sous-bases dimages COREL. Pour la classication de la
base CALTECH-256, Hu devient lg`rement plus ecace que HMMD. Par ailleurs, pour la
e e
mme base dimages COREL, les taux de classication des caractristiques FOS et SGLD
e
e
varient en fonction des direntes sous-bases utilises. Eectivement, pour les sous-bases
e
e
3, 5, 7 et 10 classes, SGLD est plus pertinente que FOS. Cependant, pour le reste des sousbases COREL, les taux de classication de la caractristique FOS deviennent meilleurs
e
que ceux de la caractristique SGLD.
e

37

1.7. CONCLUSION

Fig. 1.15 Taux de classication des mod`les individuels associs ` lensemble des
e
e a
caractristiques employes pour direntes sous-bases dimages COREL (` gauche) et
e
e
e
a
CALTECH-256 (` droite).
a

1.7

Conclusion

Dans ce chapitre, les lments fondamentaux dun syst`me de reconnaissance dimages


ee
e
par le contenu ont t prsents. Une grande attention a t alloue ` la classication et
ee e
e
ee
e a
a
` la description dimages dans les bases htrog`nes. Un tat-de-lart des techniques de
ee e
e
classication dimages a t expos. Ensuite, un ensemble de caractristiques bas niveau
ee
e
e
de dirents types, ainsi quune varit doptimisation de certaines caractristiques ont
e
ee
e
t dcrits. Une large valuation de la pertinence de chacune des caractristiques emee e
e
e
ployes a t eectue ` travers direntes sous-bases appartenant ` trois bases dimages
e
ee
e a
e
a
htrog`nes de rfrence. Les rsultats de cette valuation ont prouv que le pouvoir disee e
ee
e
e
e
criminant de chaque caractristique nest gu`re absolu et que les performances de classie
e
cation des direntes caractristiques dpendent fortement du contenu de la base dimage
e
e
e
considre.
ee
Cest dans ce cadre que nous proposons, dans le chapitre suivant, la slection adape
tative des caractristiques les plus pertinentes pour la reconnaissance dimages dans les
e
bases htrog`nes.
ee e

38

Chapitre

Slection Adaptative des caractristiques les


e
e
plus pertinentes

Nous traitons dans ce chapitre la slection des caractristiques pertinentes pour la


e
e
reconnaissance dimages dans les bases htrog`nes. Apr`s une tude des deux approches
ee e
e
e
de slection existantes (Filtres et Enveloppantes), une mthode originale de slection
e
e
e
adaptative des caractristiques est propose. Cette slection est totalement adapte `
e
e
e
e a
lensemble des caractristiques employes et au contenu de la base dimages htrog`ne
e
e
ee e
utilise.
e

40

2.1. INTRODUCTION

2.1

Introduction

Le nombre ainsi que lhtrognit des caractristiques extraites pour la description


ee e e e
e
du contenu dimages dans les bases htrog`nes, limitent gnralement les performances de
ee e
e e
classication. En eet, ces caractristiques ne sont pas ncessairement toutes pertinentes et
e
e
utiles pour la classication des images en phase de reconnaissance. Le probl`me rencontr
e
e
dans ce cas est le choix des caractristiques pertinentes. Dans cet objectif, des mthodes
e
e
de slection des caractristiques sav`rent indispensables. Plusieurs mthodes de slection
e
e
e
e
e
ont t proposes et publies (Weston et al., 2000), (Tieu and Viola, 2004), (Muller et al.,
ee
e
e
2004), (Kudo and Sklansky, 2000). Toutefois, il ny a toujours pas une mthode gnrique
e
e e
qui assure automatiquement la slection des caractristiques pertinentes en fonction du
e
e
contenu de la base dimages considre. Dans cet objectif, nous proposons une nouvelle
ee
mthode de slection. Cette mthode permet daugmenter les performances de la descripe
e
e
tion par une slection adaptative dun sous-ensemble de caractristiques pertinentes en
e
e
fonction du contenu de la base dimages et du classieur utiliss.
e
Dans ce chapitre, les deux catgories de mthodes de slection existantes dans la
e
e
e
littrature, ` savoir les mthodes ltres et les mthodes enveloppantes sont dcrites dans
e
a
e
e
e
la section 2.2. Ensuite, deux mthodes de slection assez connues sont prsentes dans la
e
e
e
e
section 2.3. La proposition de notre mthode de slection adaptative est dtaille dans la
e
e
e
e
section 2.4. Le chapitre est enn cltur par la section 2.5, o` on prsente une valuation
o e
u
e
e
des direntes mthodes de slection discutes.
e
e
e
e

2.2

Mthodes de slection
e
e

La slection dun sous-ensemble de caractristiques qui sera considr comme le plus


e
e
ee
pertinent est un domaine assez tudi et les algorithmes proposs sur ce sujet font lobjet,
e
e
e
depuis plusieurs annes, dune littrature abondante (Kohavi and John, 1997), (Guyon and
e
e
Elissee, 2003). Les mthodes de slection proposes sav`rent assez diverses et varies,
e
e
e
e
e
cependant, il nexiste pas de cadre thorique unifacteur pour toutes ces mthodes. Deux
e
e
branches principales peuvent tre distingues en littrature, les mthodes ltres et les
e
e
e
e
mthodes enveloppantes.
e

2.2.1

Les mthodes Filtres


e

Les mthodes ltres, connues en anglais par Filters, sont tr`s rapides. Elles reposent
e
e
sur des considrations thoriques, qui permettent gnralement de mieux comprendre
e
e
e e
les relations de dpendance entre les attributs (Yu and Liu, 2004). Le principe est de
e
slectionner un sous-ensemble dattributs selon un certain crit`re, comme la corrlation
e
e
e
par exemple. Le sous-ensemble permettant doptimiser ce crit`re sera ainsi retenu (Kohavi
e
and John, 1997). On cite parmi les mthodes de slection appartenant ` ce type lAnalyse
e
e
a
en Composantes Principales (ACP) (Jollie, 1986) et lAnalyse Linaire Discriminante
e
(ALD)(Fukunaga, 1990). Cependant, comme elles ne prennent pas en compte le classieur utilis en phase de gnralisation, les mthodes ltres restent souvent incapables de
e
e e
e
garantir des taux de reconnaissance considrables (Addison and Macintyre, 2003).
e

41

2.3. TRAVAUX CONNEXES

2.2.2

Les mthodes Enveloppantes


e

Bien que conceptuellement plus simples que les ltres, les mthodes de slection ene
e
veloppantes, connues en anglais par Wrappers, ont t introduites plus rcemment (John
ee
e
et al., 2000). Ce type de slection fait appel ` un algorithme de classication. Il sagit,
e
a
en fait, dune approche qui teste dirents sous-ensembles de jeux de caractristiques et
e
e
qui choisit le sous-ensemble donnant les meilleures performances. Ainsi, le sous-ensemble
de caractristiques slectionn est bien adapt au classieur utilis. Les taux de recone
e
e
e
e
naissance sont gnralement levs car la slection prend en compte le biais intrins`que
e e
e e
e
e
de lalgorithme de classication (Bi et al., 2003), (Zhu et al., 2004), (Chen et al., 2006).
Linconvnient majeur de cette technique de slection est son besoin coteux en temps
e
e
u
de calcul, surtout quand le nombre dimages cro Gnralement, le syst`me doit tre
t. e e
e
e
relanc plusieurs fois avec direntes combinaisons de caractristiques pour conserver au
e
e
e
nal la meilleure solution (Kohavi and John, 1997).

2.3

Travaux connexes

Plusieurs comparaisons entre les direntes mthodes de slection, qui existent dans
e
e
e
la littrature, ont t eectues. Un rcapitulatif des mthodes les plus populaires est
e
ee
e
e
e
prsent dans (Kudo and Sklansky, 2000). Dans cette section, une valuation de deux
e
e
e
mthodes de slection assez connues et tr`s utilises est prsente. Ces deux mthodes
e
e
e
e
e
e
e
sont lACP comme technique ltre et la slection base sur les Algorithmes Gntiques
e
e
e e
(AGs) comme technique enveloppante.

2.3.1

LAnalyse en Composantes Principales

Lanalyse en composantes principales (ACP) est sans doute celle la plus connue et la
plus utilise dans le domaine de lanalyse de donnes. Introduite par les travaux de Hotele
e
ling et Lo`ve (Hotelling, 1933), (Lo`ve, 1948), lACP est une mthode factorielle danalyse
e
e
e
de donnes multi-dimensionnelles. Elle dtermine une dcomposition dun vecteur dattrie
e
e
but en composantes dcorrles et orthogonales tout en ajustant au mieux sa distribution.
e
ee
Les composantes numres sont dites principales et sont ordonnes par ordre dcroissant
e
ee
e
e
selon leur degr dajustement. Ces nouvelles variables (les composantes principales, quon
e
note en ce qui suit CPs) sont en fait des combinaisons linaires des attributs de dpart.
e
e
Elles correspondent essentiellement aux directions de la plus grande variance (gure 2.1).
LACP a t expose en dtails dans plusieurs travaux, nous en rappelons ici les points
ee
e
e
fondamentaux.
Soit NIm le nombre dimages dapprentissage, chaque image est reprsente par une
e
e
d
caractristique x de dimension d, dans un espace dattributs F = R . Le nuage correspone
dant des NIm points, dits aussi individus ou observations, est not par X = [x1 ,x2 ,...,xNIm ].
e
Lobjectif de lACP est de dterminer la base orthogonale ajustant au mieux ce nuage de
e
points selon un crit`re gomtrique. Elle dtermine pour cela les directions successives
e
e e
e
de variance maximale qui correspondent galement ` cet optimum (voir gure 2.1, o` la
e
a
u
premi`re composante correspond ` la droite dallongement maximum b1 ). Lordre fourni
e
a
sur les CPs obtenues est utile dune part ` la caractrisation et menant dautre part `
a
e
a
une approximation modale permettant une reprsentation compacte de la distribution
e
des observations. LACP caractrise ainsi la variabilit inhrente des attributs dapprene
e
e
tissage en rvlant leurs dformations principales relativement ` une forme de rfrence,
e e
e
a
ee
42

2.3. TRAVAUX CONNEXES


classiquement, la forme moyenne. Par ailleurs, lACP est une mthode de second ordre
e
car elle se base uniquement sur ltude de la matrice de covariance des attributs.
e
la caractristique moyenne des NIm images dapprentissage, et C la matrice
Soient X
e
de covariance, donnes par:
e

X=

C=

1
NIm

1
NIm

NIm

xj ,

(2.1)

j=1

NIm

avec dxj = xj X, j = [1,2,...,NIm ].

dxj dt j ,
x

(2.2)

j=1

La diagonalisation de la matrice de covariance C produit la base modale :


C = ,

o` = diag(1 ,2 ,...,d ), avec 1 2 ... d .


u

(2.3)

Les composantes principales slectionnes sont en fait les p premiers vecteurs propres
e
e
i , i = [1,2,...,p], avec p < d. Une approximation modale peut tre ralise en conservant
e
e e
uniquement les p premieres composantes. Une forme approche scrit alors:
e e

X = X + p bp ,

avec bp = t (X X),
p

(2.4)

o` p est une sous-matrice de contenant les p premiers vecteurs propres de C et


u
dnissant la base dapproximation modale. Le vecteur des amplitudes modales de dformae
e
tions B = (b1 ,b2 ,...,bp )t reprsente une forme dans lespace p-dimensionnel dni par les
e
e
composantes principales retenues. Il fournit une reprsentation compacte de la distribue
tion initiale des observations (p < d voire p
d). La qualit de la reprsentation obtenue
e
e
sur la base tronque peut tre value par le pourcentage de variance relatif aux p premiers
e
e e
e
modes, cest-`-dire par le pourcentage dinertie total correspondant:
a
=

p
i=1

100,

o` T =
u

i .

(2.5)

i=1

La gure 2.1 prsente le principe gomtrique de lACP.


e
e e

Fig. 2.1 Les deux premi`res directions principales (b1 et b2 ) dun nuage de NIm obsere
d
vations dans R .

43

2.3. TRAVAUX CONNEXES

2.3.2

La slection base sur les Algorithmes Gntiques


e
e
e e

Les algorithmes gntiques (AGs), ont t dvelopps dans les annes 1970, comme
e e
ee e
e
e
une mthode doptimisation ecace. Il existe un grand nombre de varits dAG, mais
e
ee
les principes de base restent inchangs. Dans un AG (Kudo and Sklansky, 2000), on a
e
une population de base qui est souvent compose de cha
e
nes de caract`res correspondant
e
chacune ` un chromosome. Souvent chaque chromosome est une cha binaire de taille
a
ne
n. Les mcanismes dun AG de base sont assez simples (Goldberg, 1991), il sagit de faire
e
des copies de cha
nes et des changes de morceaux de cha
e
nes. Essentiellement, un AG
est compos de trois oprateurs gntiques: la slection, le croisement et la mutation. La
e
e
e e
e
slection correspond ` la copie de chaque cha en fonction des valeurs dune fonction
e
a
ne
de slectivit ` optimiser. Apr`s la slection, le croisement est appliqu. Il correspond `
e
ea
e
e
e
a
un croisement des direntes cha
e
nes tires lors de la slection. Le croisement se fait en
e
e
deux tapes. Initialement, les nouveaux lments slectionns sont apparis au hasard, puis
e
ee
e
e
e
chaque paire de cha
nes subit un croisement. Cest-`-dire que lon change alatoirement k
a
e
e
lments entre les direntes paires de cha
ee
e
nes. Pour nir la derni`re tape est la mutation.
e e
Elle permet de modier alatoirement un lment de cha
e
ee
ne. Cest une modication qui
nappara quoccasionnellement. Ces tapes sont eectues jusqu` ce que lon obtienne
t
e
e
a
des rsultats qui nvoluent plus, (Rebaine, 2005). La gure 2.2 prsente les direntes
e
e
e
e
tapes dun AG.
e
Population
de base

valuation par la fonction


de slectivit

Slection

Croisement

Mutation

Non

Satisfaction du
critre darrt
Oui
Rsultats

Fig. 2.2 Diagramme standard dun algorithme gntique.


e e
En outre, lAG est un algorithme ecace pour trouver des solutions optimales dans les
probl`mes doptimisation. Plusieurs tudes ont t faites sur lutilisation des AGs pour la
e
e
ee
slection des caractristiques (Vriesenga, 1995), (Siedlecki and Sklansky, 1989). Dans ce
e
e
contexte, nous prsentons bri`vement la slection base sur les AGs.
e
e
e
e
44

2.4. LA SELECTION ADAPTATIVE DES CARACTERISTIQUES


PERTINENTES
LAG est essentiellement un algorithme volutionnaire qui cherche ` rsoudre des
e
a e
probl`mes doptimisation en utilisant les mthodes de lvolution (la slection naturelle
e
e
e
e
dite aussi darwinienne et la gntique dans les syst`mes biologiques). Il vise ` slectionner,
e e
e
a e
a
` chaque gnration (itration), de nouvelle population (sous-ensemble de caractristiques
e e
e
e
dans notre cas) jusqu` la satisfaction dun certain crit`re darrt. Lecacit dun AG
a
e
e
e
repose essentiellement sur la pertinence de la fonction de slectivit employe. La fonction
e
e
e
de slectivit autorise aux AGs dexplorer lespace de population initiale (lensemble initial
e
e
des caractristiques extraites) et dvaluer la qualit de la solution obtenue. Cette fonction
e
e
e
doit tre bien adapte au probl`me, vu quelle a gnralement des eets destructifs aussi
e
e
e
e e
bien que constructifs. Les AGs peuvent avoir tendance ` converger vers des optimums
a
locaux ou mme des points arbitraires plutt que loptimum global du probl`me. Dans le
e
o
e
contexte de slection des caractristiques, lapproche de slection enveloppante base sur
e
e
e
e
les AGs int`gre principalement les taux de classication correspondants aux direntes
e
e
caractristiques en tant que crit`res pour la conception de la fonction de slectivit (Zhuo
e
e
e
e
et al., 2008).

2.4
2.4.1

La Slection Adaptative des Caractristiques pere


e
tinentes
Introduction

De nouvelles mthodes qui combinent les techniques ltres et enveloppantes sont


e
rcemment proposes (Guyon and Elissee, 2003). Elles permettent de proter ` la fois
e
e
a
de la rapidit des mthodes ltres et de ladaptation des mthodes enveloppantes entre les
e
e
e
caractristiques slectionnes et le classieur utilis. Dans ce mme contexte, la mthode
e
e
e
e
e
e
de Slection Adaptative des Caractristiques pertinentes est prsente dans cette section.
e
e
e
e
Dans la suite du document, nous dsignons cette mthode par lacronyme SAC. Pour la
e
e
partie enveloppante de la mthode, les SVMs (Vapnik, 1999) sont employs. Ces classie
e
eurs sont prsents dans le chapitre suivant. Les SVMs sont utiliss pour lvaluation
e
e
e
e
de lensemble des caractristiques extraites en phase dapprentissage. Par consquent,
e
e
les mesures de pertinence eectues pour les direntes caractristiques sont bases sur
e
e
e
e
les images dapprentissage. Do` ladaptation du pouvoir discriminant de chaque cau
ractristique value avec le contenu de la base dimages considre. Le Discriminant
e
e
e
ee
Linaire de Fisher, not souvent par lacronyme anglais FLD (Fisher Linear Discrie
e
minent) (Fisher, 1936), est ensuite utilis pour laspect ltre de la mthode. FLD assure la
e
e
slection des caractristiques les plus pertinentes en se basant sur la distribution linaire
e
e
e
des valuations SVMs eectues. Le principe de la mthode de slection propose, est
e
e
e
e
e
dtaill ci apr`s.
e
e
e

2.4.2

Apprentissage multiple

Face ` une large description constitues par n caractristiques direntes, les perfora
e
e
e
mances dun apprentissage unique, considrant ` la fois toutes les n caractristiques, ne
e
a
e
peuvent pas reprsenter le pouvoir discriminant de chacune des caractristiques utilises.
e
e
e
De ce fait, un apprentissage multiple, permettant dvaluer sparment les direntes cae
e e
e
ractristiques, est adopt. Pour chaque apprentissage, les images de la base sont classies
e
e
e

45

2.4. LA SELECTION ADAPTATIVE DES CARACTERISTIQUES


PERTINENTES
en se basant sur la description dune seule caractristique. Les performances dapprentise
sage rsultantes dterminent le pouvoir discriminant de la caractristique considre.
e
e
e
ee
Soit BApp une base dapprentissage. On rappelle que NIm est le nombre total des
images htrog`nes de cette base et que Fi est lespace dattributs correspondant ` la
ee e
a
caractristique xi , i = [1,2,...,n]. Le nuage des NIm observations dans Fi est not par
e
e
Xi = [xi ,xi ,...,xi Im ], i = [1,2,...,n]. Soit C = {C1 ,C2 ,...,CNC } lensemble des NC classes
1 2
N
contenues dans BApp . Pour lvaluation de lensemble des caractristiques en fonction
e
e
du contenu de BApp , on entra le classicateur SVM en considrant chacune des cane
e
ractristiques candidates. Cest ` dire on eectue, pour les n caractristiques extraites,
e
a
e
n apprentissages dirents o` lon utilise ` chaque fois une caractristique unique. On
e
u
a
e
note par M = {M1 ,M2 ,...,Mn } lespace des mod`les obtenus. Les n mod`les appartenant
e
e
a
` M sont les direntes hyper-surfaces qui correspondent aux n caractristiques extraites.
e
e
Ces hyper-surfaces reprsentent les n fronti`res de sparation entre les direntes classes
e
e
e
e
dans C. Pour chaque mod`le de cet espace, les NIm images de la base dapprentissage
e
sont divises en deux groupes: groupe des images mal classies (ou errones) et groupe
e
e
e
des images correctement classies. On note dans ce qui suit, le nombre dimages dans
e
ces deux groupes respectivement par NErr (Mi ) et NCorr (Mi ), i = [1,2,...,n]. Pour chaque
mod`le dans M, il en rsulte le taux derreur et le taux de classication en phase dape
e
prentissage (performance dapprentissage), quon note respectivement i {1,2,...,n},
E(Mi ) et P er(Mi ):
E(Mi ) =

NErr (Mi )
,
NIm

P er(Mi ) =

NCorr (Mi )
, i = [1,2,...,n]
NIm

(2.6)

Comme chaque caractristique est associe ` un mod`le, on propose de raliser la


e
e a
e
e
slection des caractristiques pertinentes ` travers la slection des mod`les les plus pere
e
a
e
e
formants dans M. Lavantage de cette slection est quelle assure une rduction du nombre
e
e
de mod`les, avec une faible augmentation dans la probabilit derreur de classication.
e
e
Elle permet de dterminer un sous-ensemble de mod`les pertinents et dexclure le reste
e
e
des mod`les qui sont considrs comme non discriminants pour la classication de la base
e
ee
dimages considre. Ceci permet non seulement dallger le traitement de gnralisation
ee
e
e e
en ligne, mais aussi dviter leet ngatif des mod`les non pertinents sur le rsultat nal
e
e
e
e
de reconnaissance. Pour cela, une discrimination linaire de Fisher est applique.
e
e

2.4.3

Discrimination linaire de Fisher


e

Lobjectif de la slection des caractristiques par la discrimination linaire de Fisher


e
e
e
est principalement lidentication dune direction de lespace des attributs sur laquelle les
projections des caractristiques sont particuli`rement bien spares. La slection des cae
e
e e
e
ractristiques les plus pertinentes devient donc une classication binaire de lensemble orie
ginal des caractristiques selon cette direction de Fisher. Deux classes de caractristiques
e
e
en rsultent: la classe des caractristiques tr`s pertinentes et la classe des caractristiques
e
e
e
e
peu pertinentes. La direction de projection est souvent obtenue comme une combinaison
linaire des variables originales. Cependant, le discriminant de Fisher correspondant ne
e
peut pas prtendre tre toujours le meilleur sous-espace linaire de projection pour une dise
e
e
crimination optimale de la pertinence des direntes caractristiques. Dans la mthode de
e
e
e
slection SAC, nous proposons de considrer les performances dapprentissage des mod`les
e
e
e
correspondants ` ces caractristiques pour lidentication dune meilleure discrimination
a
e
de Fisher.
46

2.4. LA SELECTION ADAPTATIVE DES CARACTERISTIQUES


PERTINENTES
Soit T = {P er(Ms1 ),P er(Ms2 ),...,P er(Msn )} la liste des performances dapprentissage
des dirents mod`les dans M, organises par ordre de pertinence dcroissant (P er(Ms1 )
e
e
e
e
P er(Ms2 ) ... P er(Msn )). Cette organisation est tr`s importante puisquelle est bien
e
adapte ` la fois aux caractristiques employes et au contenu mme de la base dimages
e a
e
e
e
considre. Elle change d`s que lensemble des caractristiques ou le contenu de la base
ee
e
e
`
dimages change. A partir de la liste de performance dapprentissage T pr-organise, on
e
e
dtermine selon le crit`re discriminant de Fisher une valeur optimale FS qui reprsente
e
e
e
le seuil adaptatif de slection des mod`les les plus pertinents. FS spare ainsi la catgorie
e
e
e
e
des performances dapprentissage correspondantes aux mod`les tr`s pertinents de celles
e
e
correspondantes aux mod`les peu pertinents dans la liste T . Pour cela, on commence
e
par le calcul de m1 (i) et m2 (i), i [1,2,...,n]. Ces deux valeurs reprsentent les deux
e
moyennes des performances dapprentissage situes, respectivement, de part et dautre de
e
la performance dapprentissage P er(Msi ) dans la liste T :
1
m1 (i) =
i

P er(Msj ),
j=1

1
m2 (i) =
P er(Msj ), i = [1,2,...,n]
n i j=i+1

(2.7)

En second lieu, en fonction de ces deux valeurs moyennes m1 (i) et m2 (i), on calcule
2
2
les deux variances respectives v1 (i) et v2 (i):
i
2
v1 (i)

|P er(Msj ) m1 (i)|2 ,

=
j=1

|P er(Msj ) m2 (i)|2 , i = [1,2,...,n]

2
v2 (i) =

(2.8)

j=i+1

Maximiser la marge de sparation entre les mod`les pertinents et non pertinents revient
e
e
essentiellement ` maximiser le discriminant de Fisher P (i):
a
P (i) =

|m1 (i) m2 (i)|


, i = [1,2,...,n]
2
2
v1 (i) + v2 (i)

(2.9)

Ainsi, le seuil adaptatif de slection des mod`les pertinents FS est dtermin comme
e
e
e
e
suit:
1 FS n = arg max P (i)
i

1 FS n :

FS = n
FS < n

(2.10)

SAC prserve tous les mod`les calculs


e
e
e
SAC limine les mod`les jugs non pertinents
e
e
e

FS reprsente en fait lindice k de la performance dapprentissage ` partir de laquelle le


e
a
reste des performances dans la liste T correspondent ` des mod`les considrs comme non
a
e
ee
assez pertinents. La liste des performances dapprentissage des mod`les slectionns est
e
e
e
Ts = {P er(Ms1 ),P er(Ms2 ),...,P er(Msk )}, avec P er(Msi ) est la performance dapprentissage du mod`le slectionn Msi , i = [1,2,...,k]. Les caractristiques les plus pertinentes sont
e e
e
e
47

2.4. LA SELECTION ADAPTATIVE DES CARACTERISTIQUES


PERTINENTES
celles correspondantes aux dirents mod`les slectionns Msi , i = [1,2,...,k]. En phase de
e
e
e
e
gnralisation de la classication hirarchique multi-mod`les, prsente dans le chapitre 4,
e e
e
e
e
e
uniquement le sous-ensemble des mod`les slectionns Ms = {Ms1 ,Ms2 ,...,Msk } est eme
e
e
ploy. Plus de dtails sont fournis dans la section 4.2.4.
e
e
BApp :

Base dimages
dapprentissage

Extraction
des
caractristiques

X1

X2

X 3

...

Xn

valuation SVM des caractristiques


par apprentissage multiple

M:

M1

M2

M3

...

Mn

Discrimination linaire de Fisher

Ms:

Ms1

Ms2

...

Msk

Fig. 2.3 Diagramme de la mthode de Slection Adaptative des Caractristiques les plus
e
e
e
pertinentes qui correspondent aux mod`les slectionns dans Ms .
e
e
e
La gure 2.3, illustre le diagramme de la mthode de slection adaptative des cae
e
ractristiques les plus pertinentes. Lalgorithme SAC est fourni dans ce qui suit:
e

Algorithme SAC
SAC (Bapp ,Fi ), i = 1,2,...,n
1: Pour chaque caractristiques xi , i = 1,2,...,n Faire
e
2:
Mi = Apprentissage SV M (Xi ); Eq. 3.3
3:
P er(Mi ) = NCorr (Mi ) ; Eq. 2.6
NIm
4: Fin Pour
5: T = Organisation des performances dapprentissages des dirents mod`les (P er(Mi ));
e
e
i {1,2,...,n}
6: k = FLD (T ); Eq. 2.10
7: Ms = {Ms1 ,Ms2 ,...,Msk }

48

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC

2.4.4

Conclusion

Dans cette section, la mthode de slection SAC a t prsente. Cette slection pere
e
ee e
e
e
met didentier un sous-ensemble des caractristiques les plus pertinentes, en se basant
e
principalement sur le pouvoir discriminant individuel de ces caractristiques. Apr`s un
e
e
apprentissage multiple, les caractristiques sont slectionnes en se basant sur une discrie
e
e
mination Fisher de leurs taux dapprentissage. Cette slection est totalement adapte a la
e
e `
base dimages, les caractristiques et le classieur utiliss. Une valuation de la mthode
e
e
e
e
de slection propose est illustre et discute dans la section suivante.
e
e
e
e

2.5

Evaluation de la slection des caractristiques par


e
e
ACP, AG et SAC

Dans cette section, nous prsentons les param`tres de slection obtenus, pour direntes
e
e
e
e
sous-bases dimages COREL et COLUMBIA, avec les mthodes de slection ACP, AG
e
e
et SAC, dcrites prcdemment. Lensemble des douze caractristiques prsentes dans le
e
e e
e
e
e
chapitre 1 est employ pour la ralisation de cette valuation.
e
e
e
Comme technique de rduction de dimension, lvaluation de la mthode ACP est efe
e
e
fectue selon une mesure du nombre des composantes principales slectionnes ` partir
e
e
e a
du vecteur dattributs initial. La dimension de ce dernier correspond ` la concatnation
a
e
de la totalit des caractristiques extraites, 3295 attributs dans notre cas. Cependant,
e
e
les mthodes de slection enveloppantes AG et SAC, employant conjointement le clase
e
sieur SVM pour lvaluation de caractristiques, sont expertises selon la pertinence
e
e
e
des caractristiques slectionnes. Pour cela, le seuil de slection (cest-`-dire le nombre
e
e
e
e
a
de caractristiques slectionnes), ainsi que la liste de ces caractristiques et leurs taux
e
e
e
e
dapprentissage correspondants sont fournis.

2.5.1

ACP

Pour les direntes sous-bases COREL utilises, lallure des valeurs propres, ranges
e
e
e
par ordre dcroissant en fonction des vecteurs propres correspondants, est illustr par la
e
e
gure 2.4. On constate, dans les quatre cas, que les valeurs propres ne sont signicatives
que pour les premiers vecteurs propres. Eectivement, elles se dgradent rapidement quand
e
le nombre de vecteurs propres croit. Do`, le principe de rduction de dimension de la
u
e
mthode ACP. Seulement, les premiers vecteurs propres sont considrs. Ceci permet de
e
ee
retenir uniquement les composantes dites principales ` partir de la distribution initiale des
a
images dapprentissage. Le nombre de composantes principales slectionnes (CPs) dpend
e
e
e
dun taux dinrtie x par lutilisateur. Bien que sa dtermination reste empirique, la
e
e
e
valeur de ce taux est dune extrme importance. Le tableau 2.1 montre que selon une
e
faible variation des taux dinertie maintenus, le nombre des vecteurs propres retant le
e
nombre de CPs retenues diminue sensiblement. Do` la forte rduction de dimensionnalit
u
e
e
qui peut tre apporte par la mthode ACP.
e
e
e
De mme, la gure 2.5 et le tableau 2.2 prsentent respectivement lallure des valeurs
e
e
propres, ranges par ordre dcroissant en fonction des vecteurs propres correspondants,
e
e
et la variation du nombre de composantes principales ` travers les direntes sous-bases
a
e
COLUMBIA utilises.
e

49

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC

a)

b)

c)

d)

Fig. 2.4 Allure des valeurs propres ranges par ordre dcroissant respectivement pour
e
e
les sous-bases COREL avec : a) 3 classes, b) 5 classes, c) 7 classes et d) 10 classes.

Tab. 2.1 Variation de la dimension des composantes principales slectionnes avec la


e
e
mthode de slection ACP en fonction de direntes sous-bases dimages COREL.
e
e
e
Sous-bases Dimensions des composantes principales slectionnes
e
e
COREL
selon dirents taux dinertie
e
100 %
95 %
90 %
3 classes
225
45
22
5 classes
375
76
41
7 classes
525
98
52
10 classes
750
116
60

50

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC

a)

b)

c)

d)

Fig. 2.5 Allure des valeurs propres ranges par ordre dcroissant respectivement pour
e
e
les sous-bases COLUMBIA avec : a) 3 classes, b) 5 classes, c) 7 classes et d) 10 classes.

Tab. 2.2 Variation de la dimension des composantes principales slectionnes avec la


e
e
mthode de slection ACP en fonction de direntes sous-bases dimages COLUMBIA.
e
e
e
Sous-bases
Dimensions des composantes principales slectionnes
e
e
COLUMBIA
selon dirents taux dinertie
e
100 %
95 %
90 %
3 classes
147
18
9
5 classes
245
23
11
7 classes
343
26
13
10 classes
490
31
14

51

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC
Nous observons pour les direntes sous-bases dimages COREL et COLUMBIA eme
ployes que le nombre de CPs retenues dans chaque cas est tr`s vulnrable par rapport au
e
e
e
taux dinertie choisi. Un choix qui reste ou et assez variable dune distribution dimages
a
` une autre. Par consquent, les performances de slection de la mthode ACP ne peuvent
e
e
e
tre values qu` partir des rsultats de classication qui en rsultent. Lvaluation des
e
e
e
a
e
e
e
direntes mthodes de slection tudies ` travers leurs performances de classication
e
e
e
e
e a
est fournie dans la section 2.5.4.

2.5.2

AG

Une slection enveloppante des caractristiques pertinentes est eectue en se basant


e
e
e
sur les AGs 1 . Les caractristiques, ayant des taux de classication levs en phase dape
e e
prentissage, auront des valeurs de slectivit meilleures, et donc une forte probabilit
e
e
e
dtre slectionnes dans les prochaines gnrations de lAG. Les taux de classication
e
e
e
e e
examins sont nots i , i = [1,2,...,n]. Dans ce contexte, nous proposons trois fonctions de
e
e
slectivit:
e
e
Fonction de slectivit 1: La fonction de slectivit 1 est conue grce aux taux
e
e
e
e
c
a
de classication pondrs par des poids retant lordre de pertinence des direntes
ee
e
e
caractristiques. On note ces poids par wi , i = [1,2,...,n]. La formule est alors comme
e
suit:
Slectivit 1 = wi i , i = [1,2,...,n]
e
e

(2.11)

Fonction de slectivit 2: Une fonction de slectivit objective et unique, qui


e
e
e
e
favorise ` la fois les meilleurs taux de classication et les faibles dimensions des
a
caractristiques, est conue. La fonction de slectivit 2 permet ainsi de rsoudre un
e
c
e
e
e
probl`me de slection ` crit`res multiples. Soit Dimi , i = [1,2,...,n] la dimension de
e
e
a
e
la caractristique i, la fonction de slectivit est alors donne par:
e
e
e
e
Slectivit 2 = i +
e
e

1
, i = [1,2,...,n]
Log(Dimi )

(2.12)

Fonction de slectivit 3: La fonction de slectivit 3 permet de calibrer le taux


e
e
e
e
de classication de chaque caractristique par rapport aux taux minimal et maximal,
e
respectivement min et max , de toutes les caractristiques employes. La fonction
e
e
de slectivit est calcule comme suit:
e
e
e
Slectivit 3 =
e
e

i min
, i = [1,2,...,n]
max i + 1

(2.13)

Dans le reste de ce manuscrit, les direntes mthodes enveloppantes de slection des


e
e
e
caractristiques bases sur les AGs sont dsignes comme suit: AG1 , AG2 et AG3 , respece
e
e
e
tivement par rapport ` lutilisation des fonctions de slectivit: Slectivit 1 , Slectivit 2
a
e
e e
e
e
e
et Slectivit 3 .
e
e
Les tableaux 2.3, 2.4, 2.5 et 2.6 illustrent respectivement les rsultats des trois mthodes
e
e
de slection des caractristiques bases sur les trois AGs tudis pour quatre sous-bases
e
e
e
e
e
1. La boite ` outils dOptimisation des Algorithmes Gntiques (GAOT) conue pour MatLab 5 est
a
e e
c
utilise. GAOT implmente des volutions simules dans lenvironnement MatLab tout en permettant
e
e
e
e
des reprsentations ` la fois binaires et rel.
e
a
e

52

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC

Tab. 2.3 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 3 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.9422, 1 }
AG2 7
{ HMMD, YCrCb, Hist, A-Cor,
{ 0.9955, 0.9244, 1, 1,
FOS, SGLD, G-norm }
0.8577, 0.9777, 1 }
AG3 2
{ RVB, Hist }
{ 0.9422, 1 }

Tab. 2.4 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 5 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.9173, 1 }
AG2 8
{ RVB, HSV, HMMD, Hist,
{ 0.9173, 0.9013, 0.9013, 1,
A-Cor, FOS, SGLD, G-norm } 1, 0.7200, 0.8693, 1 }
AG3 2
{ RVB, Hist }
{ 0.9173, 1 }

Tab. 2.5 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 7 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.8285, 1 }
AG2 9
{ RVB, HSV, HMMD, YCrCb, { 0.8285, 0.7485, 0.7409,
A-Cor, FOS, SGLD, Daub, Hu } 0.8000, 0.9942, 0.5847,
0.8095, 0.4609, 0.5600 }
AG3 2
{ RVB, Hist }
{ 0.8285, 1 }

Tab. 2.6 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 10 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.7600, 1 }
AG2 9
{ RVB, HSV, HMMD, YCrCb,
{ 0.760, 0.660, 0.6666,
A-Cor, FOS, SGLD, G-norm, Hu } 0.7253, 0.9530, 0.4920,
0.6906, 1, 0.4493 }
AG3 2
{ RVB, Hist }
{ 0.7600, 1 }

53

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC
dimages COREL. Dapr`s les caractristiques slectionnes dans chaque cas, il est clair
e
e
e
e
que AG1 et AG3 ne slectionnent pas des caractristiques assez adaptes ` la base dimages
e
e
e a
utilise. En fait, ces deux slections AGs convergent vers des optimums locaux pour toutes
e
e
les sous-bases dimages COREL employes. Eectivement, AG1 et AG3 slectionnent rese
e
pectivement {RVB, G-norm} et {RVB, Hist} dans tous les cas. Par contre, la mthode
e
de slection AG2 est beaucoup meilleure. Les caractristiques slectionnes dans chaque
e
e
e
e
cas changent en fonction de la sous-base dimages considre. De plus, selon leurs taux de
ee
classication en phase dapprentissage, ces caractristiques sont souvent pertinentes.
e
De mme, les tableaux 2.7, 2.8, 2.9 et 2.10 illustrent respectivement les rsultats des
e
e
trois mthodes de slection des caractristiques AG1 , AG2 et AG3 pour les quatre souse
e
e
bases dimages COLUMBIA employes. Pour cette base dimages, on constate que les
e
Tab. 2.7 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 3 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, HSV }
{ 1, 1 }
AG2 2
{ RVB, HSV }
{ 1, 1 }
AG3 1
{ RVB }
{1}

Tab. 2.8 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 5 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, YCrCb }
{ 1, 1 }
AG2 2
{ RVB, YCrCb }
{ 1, 1 }
AG3 1
{ RVB }
{1}

Tab. 2.9 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 7 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, YCrCb }
{ 1, 1 }
AG2 2
{ RVB, YCrCb }
{ 1, 1 }
AG3 1
{ RVB }
{1}
trois mthodes de slection AG ne sont pas ecaces. Eectivement, elles slectionnent
e
e
e
presque les mme caractristiques indpendamment de la sous-base dimages utilise. En
e
e
e
e
fait, AG1 , AG2 et AG3 convergent quasiment vers les mmes optimums locaux, pour les
e
trois premi`res sous-bases dimages COLUMBIA avec 3, 5 et 7 classes. Par exemple, AG1
e
54

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC
et AG2 slectionnent dune faon similaire {RVB, HSV}, pour la sous-base COLUMBIA
e
c
avec 3 classes, et {RVB, YCrCb}, pour les sous-bases COLUMBIA avec 5 et 7 classes.
Par ailleurs, la mthode AG3 slectionne toujours la mme caractristique {RVB}, sans
e
e
e
e
considrer la variation du contenu des direntes sous-bases dimages.
e
e
Cette dgradation des performances de slection des direntes mthodes AGs, peut
e
e
e
e
sexpliquer par le contenu des images traites. Contrairement aux images de la base COe
REL, celles appartenant ` direntes classes de la base COLUMBIA ont gnralement des
a
e
e e
contenus assez proches. Ceci est d essentiellement ` larri`re plan commun de toutes les
u
a
e
images de la base (fond noir). De plus, les images dune mme classe contiennent toutes une
e
reprsentation dun mme objet eectues selon direntes prises de vue. Plus de dtails
e
e
e
e
e
concernant la base COLUMBIA sont fournis dans la section 1.3.1. Les caractristiques
e
extraites ont souvent des pouvoirs de discrimination comparables pour cette base. Par
consquent, la slection des caractristiques les plus pertinentes est gnralement dicile.
e
e
e
e e
Dans le reste du manuscrit, les rsultats de slections des direntes mthodes AGs ne
e
e
e
e
sont considres que pour la base dimages COREL.
ee
Tab. 2.10 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 10 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 1
{ RVB }
{1}
AG2 5
{ HSV, YCrCb, Hist, { 0.9367, 0.9979, 1,
SGLD, Daub }
0.9020, 0.5755 }
AG3 1
{ RVB }
{1}
Par analogie avec le cas des sous-bases COREL, AG2 semble tre plus ecace que
e
AG1 et AG3 pour la slection des caractristiques les plus pertinentes dans la sous-base
e
e
COLUMBIA avec 10 classes.

2.5.3

SAC

Les rsultats de slection des caractristiques les plus pertinentes, obtenus avec la
e
e
e
mthode SAC pour direntes sous-bases dimages COREL et COLUMBIA, sont prsents
e
e
e
e
dans les tableaux 2.11 et 2.12.
Dapr`s le tableau 2.11, on observe que neuf caractristiques sont slectionnes pour
e
e
e
e
les trois premi`res sous-bases COREL avec 3, 5 et 7 classes et seulement quatre pour
e
la derni`re sous-base avec 10 classes. Ceci rsulte de laccroissement de la complexit
e
e
e
du contenu des images en fonction du nombre de classes dimages dans la base. Absolument, laugmentation du nombre de classes implique plus de complexit dans le contenu
e
de la base dimages, ce qui restreint de mani`re vidente le nombre de caractristiques
e e
e
pertinentes qui permettent dassurer des performances dapprentissage considrables. Par
e
ailleurs, les caractristiques pertinentes slectionnes dans chaque cas ne dpendent pas
e
e
e
e
uniquement du nombre de classes dans la sous-base considre, mais aussi du contenu
ee
mme de cette base. Eectivement, bien que les neuf caractristiques slectionnes sont
e
e
e
e
les mmes pour les trois premi`res sous-bases (3, 5 et 7 classes), lordre de pertinence
e
e
de ces caractristiques di`rent dune sous-base ` lautre (tableau 2.11). Ce qui prouve
e
e
a
55

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC
Tab. 2.11 Variation des param`tres SAC pour direntes
e
e
Sous-bases
Param`tres de slection
e
e
COREL
Seuil de Caractristiques slectionnes
e
e
e
slection
e
3 classes
9
{Hist, A-Cor, G-norm, GIST,
HMMD, HSV, SGLD, RVB, YCrCb}
5 classes

{Hist, A-Cor, G-norm, GIST,


RVB, HSV, HMMD, YCrCb, SGLD}

7 classes

{Hist, G-norm, GIST, A-Cor,


RVB, SGLD, YCrCb, HSV, HMMD}

10 classes

{Hist, G-norm, GIST, A-Cor}

sous-bases COREL.
Taux dapprentissage
correspondants
{1, 1, 1, 1, 0.9955,
0.9866, 0.9777,
0.9422, 0.9244}
{1, 1, 1, 1, 0.9173,
0.9013, 0.9013,
0.8933, 0.8693}
{1, 1, 1, 0.9942,
0.8285, 0.8095, 0.80,
0.7485, 0.7409}
{1, 1, 1, 0.9533}

ladaptation du pouvoir discriminant de chaque caractristique par rapport au contenu


e
de la base dimage utilise par la mthode SAC.
e
e
Le tableau 2.12 prouve galement que lensemble des caractristiques slectionnes
e
e
e
e
ainsi que leurs degrs de pertinence dpendent de la base dimages considre. Par exemple,
e
e
ee
FOS est slectionne pour les quatre sous-bases COLUMBIA. De mme, Hu est slectionne
e
e
e
e
e
pour les sous-bases COLUMBIA avec 3 et 5 classes. Par ailleurs, ces deux caractristiques
e
ne sont slectionnes pour aucune sous-base COREL. De plus, la caractristique HMMD,
e
e
e
slectionne pour la sous-base COREL avec 3 classes, ne gure pas dans la liste des
e
e
caractristiques slectionnes pour la sous-base COLUMBIA avec le mme nombre de
e
e
e
e
classes. Do` laspect adaptatif de la mthode de slection SAC.
u
e
e
Tab. 2.12 Variation des param`tres SAC pour direntes sous-bases COLUMBIA.
e
e
Sous-bases
Param`tres de slection
e
e
COLUMBIA Seuil de Caractristiques slectionnes
e
e
e
Taux dapprentissage
slection
e
correspondants
3 classes
10
{RVB, HSV, YCrCb, Hist, A-Cor, {1, 1, 1, 1, 1, 1, 1, 1,
FOS, SGLD, G-norm, GIST, Hu}
0.9659}
5 classes
11
{RVB, YCrCb, Hist, A-Cor, FOS, {1, 1, 1, 1, 1, 1,
G-norm, GIST, SGLD, Hu, HMMD, 1, 0.9591, 0.9551,
HSV}
0.9306, 0.9020}
7 classes
10
{RVB, YCrCb, Hist, A-Cor, G-norm, {1, 1, 1, 1, 1, 1,
GIST, FOS, HSV, SGLD, HMMD
0.9358,
0.9271,
0.9037, 0.8921}
10 classes
8
{A-Cor, G-norm, GIST, YCrCb, {1, 1, 1, 0.9979,
HSV, HMMD, FOS, SGLD}
0.9367, 0.9224,
0.9122, 0.9020}
Dans cette section, une valuation des trois mthodes de slection ACP, AG et SAC
e
e
e
a t prsente. Nous constatons que lACP reprsente une forte technique de rduction
ee e
e
e
e
de dimension. Cependant, elle est tr`s sensible ` la valeur du taux dinertie appliqu.
e
a
e
56

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC
La slection AG, quand ` elle, permet de slectionner des ensembles de caractristiques
e
a
e
e
pertinentes, mais le choix de la fonction de slectivit approprie pour chaque base reste
e
e
e
assez dlicat. Contrairement aux mthodes ACP et AG, la mthode SAC est totalement
e
e
e
automatique. Elle assure la slection dun sous-ensemble des caractristiques les plus pere
e
tinentes indpendamment de toute sorte de rglage ou de calibration de param`tres. De
e
e
e
plus, cette slection est caractrise principalement par son aspect adaptatif. En eet, la
e
e e
slection des caractristiques est parfaitement adapte au contenu de la base dimages
e
e
e
considre. Dans la section suivante, les rsultats de classication obtenus en se basant
ee
e
sur les direntes mthodes de slection tudies sont prsents.
e
e
e
e
e
e
e

2.5.4

Rsultats de classication
e

Les tableaux 2.13 et 2.14 illustrent respectivement les rsultats de classication SVM
e
obtenus en se basant sur la slection ACP pour les direntes sous-bases dimages COREL
e
e
et COLUMBIA. Les meilleures et les pires performances dans ces tableaux sont aches
e
en gras.
Tab. 2.13 Rsultats de classication
e
sous-bases dimages COREL.
Sous-bases
COREL
3 classes
Pmoy
Rmoy
5 classes
Pmoy
Rmoy
7 classes
Pmoy
Rmoy
10 classes Pmoy
Rmoy

SVM base sur la slection ACP pour direntes


e
e
e

Tab. 2.14 Rsultats de classication


e
sous-bases dimages COLUMBIA.
Sous-bases
COLUMBIA
3 classes
Pmoy
Rmoy
5 classes
Pmoy
Rmoy
7 classes
Pmoy
Rmoy
10 classes Pmoy
Rmoy

SVM base sur la slection ACP pour direntes


e
e
e

Taux dinertie utiliss


e
100 %
95 %
90 %
0.4656 0.8155 0.8301
0.4933 0.5867 0.6533
0.0400 0.6481 0.8258
0.2000 0.3680 0.4400
0.1644 0.3083 0.7405
0.1943 0.243 0.3657
0.2103 0.3197 0.7621
0.1320 0.1680 0.2640

Taux dinertie utiliss


e
100 %
95 %
90 %
0.8922 1.0000 0.9861
0.7733 0.9200 0.9067
0.8958 0.9314 0.9437
0.7200 0.8240 0.8480
0.7489 0.8982 0.9015
0.5086 0.5943 0.6286
0.8170 0.9204 0.9221
0.4720 0.5600 0.5960

La classication base sur la slection ACP sav`re meilleure dans la base COLUMe
e
e
BIA. Ceci est d principalement ` la complexit du contenu de la base COREL (plus de
u
a
e
57

2.5. EVALUATION DE LA SELECTION DES CARACTERISTIQUES PAR ACP,


AG ET SAC
dtails concernant les direntes bases dimages utilises sont fournis dans le chapitre 1).
e
e
e
Cependant, les rsultats de classication des deux bases dimages montrent que lecae
cit de la slection ACP varie sensiblement en fonction des taux dinertie utiliss. Dans le
e
e
e
cas des direntes sous-bases dimages COREL et COLUMBIA employes, le taux 90%
e
e
semble tre le meilleur, mais le taux 95% permet dobtenir une classication plus pertie
nente pour la sous-base COLUMBIA avec 3 classes. Bien que des travaux de recherche
existent (Thomas, 2000), la dtermination du taux dinertie optimal reste gnralement
e
e e
empirique et aucune mthode thorique nest encore approuve.
e
e
e
Pour comparer la qualit de slection des trois mthodes tudies, la base COREL
e
e
e
e
e
qui semble tre beaucoup plus comptitive est retenue. En se basant sur les rsultats de
e
e
e
2
3
slection AG et les performances de classication ACP , la slection AG2 ainsi que la
e
e
mthode ACP correspondante ` un taux dinertie de 90%, que lon note dans la suite ACP
e
a
(90%), sont considres pour une comparaison avec la mthode SAC. Le tableau 2.15 4
ee
e
prsente les rsultats de classication SVM bass ACP (90%), AG2 et SAC. Les meilleures
e
e
e
et les pires performances dans ce tableau sont aches en gras.
e
Tab. 2.15 Rsultats de classication SVM base ACP (90%), AG2 et SAC pour
e
e
direntes sous-bases dimages COREL.
e
Sous-bases
Rsultats de classication base
e
e
COREL
ACP (90 %)
AG2
SAC
3 classes
Pmoy
0.8301
0.9540 0.9879
5 classes
Pmoy
0.8258
0.9230 0.9750
7 classes
Pmoy
0.7405
0.8554 0.9123
10 classes Pmoy
0.7621
0.8207 0.8371
Pour plus de lisibilit, les performances de classication prsentes dans le tableau 2.15
e
e
e
sont illustres ` travers la gure 2.6 pour les quatre sous-bases dimages COREL.
e a

Fig. 2.6 Comparaison des prcisions moyennes de classication respectivement bases


e
e
sur les slections ACP (90%), AG2 et SAC pour direntes sous-bases dimages COREL.
e
e
2. Les rsultats de slection AG sont fournis dans les tableaux 2.3, 2.4, 2.5 et 2.6.
e
e
3. Les performances de classication ACP sont fournis dans le tableau 2.13.
4. Les rsultats de classication bass sur les slections AG1 et AG3 sont galement fournis dans le
e
e
e
e
chapitre 4 (tableau 4.1).

58

2.6. CONCLUSION
Dune part, il est clair dapr`s la gure 2.6 que les deux mthodes de slection AG2 et
e
e
e

SAC sont plus performantes que la mthode ACP. Evidemment, en tant que techniques
e
enveloppantes, AG2 et SAC permettent dassurer une slection des caractristiques beaue
e
coup mieux adapte au classieur SVM employ en phase de gnralisation. Dautre part,
e
e
e e
on observe que les caractristiques slectionnes par la mthode SAC m`nent toujours `
e
e
e
e
e
a
des rsultats de classication meilleurs par rapport aux rsultats de celles slectionnes
e
e
e
e
par la mthode AG2 . Ce qui prouve davantage la robustesse et lecacit de la mthode
e
e
e
de slection propose.
e
e

2.6

Conclusion

Nous avons prsent dans ce chapitre une nouvelle mthode de Slection Adaptative
e
e
e
e
des Caractristiques les plus pertinentes, intitule SAC. Cette mthode est essentiellee
e
e
ment destine pour les syst`mes de reconnaissance dimages htrog`nes par le contenu.
e
e
ee e
Suite ` un apprentissage multiples des classieurs SVMs, la mthode de slection propose
a
e
e
e
dtermine un sous-ensemble des caractristiques les plus pertinentes. Les caractristiques
e
e
e
sont slectionnes en se basant sur une discrimination Fisher de leurs taux dapprentise
e
sage individuels. Cette slection est parfaitement adapte au contenu de la base dimages
e
e
utilise et aux caractristiques employes. Une large valuation de la mthode SAC, ainsi
e
e
e
e
e
que deux autres mthodes de slections assez populaires a t eectue ` travers deux
e
e
ee
e a
bases dimages de rfrence. Cette valuation conrme laspect adaptatif de notre propoee
e
sition. De plus, il a t bien vri que la mthode SAC ne ncessite aucune intervention
ee
e e
e
e
de la part de lutilisateur pour un rglage de param`tres. Eectivement, contrairement
e
e
aux mthodes ACP et AG, les caractristiques les plus pertinentes sont slectionnes par
e
e
e
e
la mthode SAC dune mani`re automatique.
e
e
Une comparaison des performances de classication base sur les direntes mthodes
e
e
e
de slection, prouve la pertinence et la supriorit de la slection SAC.
e
e
e
e

59

Chapitre

Machines ` Vecteurs Supports ` noyaux


a
a
multiples

Lapproche dapprentissage par noyaux multiples, appele souvent par lacronyme ane
glais MKL (Multiple Kernel Learning) est prsente dans ce chapitre. Rcemment proe
e
e
pose, MKL est destine ` amliorer les performances des mthodes de classication
e
e a
e
e
a
` noyaux, en particulier les machines ` vecteurs supports (SVM). La pertinence des
a
rsultats de classication MKL dpend essentiellement de la qualit des poids aects
e
e
e
e
a
` chaque noyau. Apr`s avoir prsent les direntes mthodes de pondration utilises
e
e
e
e
e
e
e
dans la littrature, une nouvelle pondration destine pour lapprentissage SVM ` noyaux
e
e
e
a
multiples est propose.
e

61

3.1. INTRODUCTION

3.1

Introduction

Inspire de la thorie statistique de lapprentissage, SVM fut introduite par Vladie


e
mir Vapnik comme mthode de classication binaire par apprentissage supervis (Vape
e
nik, 1999). Grce ` ses performances, cette mthode de classication est devenue en une
a a
e
courte priode un outil standard dans ltat de lart de plusieurs probl`mes de reconnaise
e
e
` lorigine, SVM repose
sance, en particulier celui des images htrog`nes par le contenu. A
ee e
sur lexistence dun classieur linaire qui spare deux classes dans un espace appropri.
e
e
e
Son extension aux probl`mes multi-classes est rapidement mise en vidence (Weston and
e
e
Watkins, 1999), (Vapnik, 1999), (Friedman, 1997), (Xu and Chan, 2003), (Platt et al.,
2000). De plus, pour permettre une sparation optimale dans les cas non-linairement
e
e
sparables, SVM utilise des fonctions noyaux (kernels). Les dveloppements rcents des
e
e
e
SVMs, ont prouv que lutilisation des noyaux multiples gnre plus de exibilit et pere
e e
e
met damliorer linterprtabilit de ces mthodes (Lanckriet et al., 2004a). Le noyau est
e
e
e
e
ainsi dni comme une combinaison linaire convexe de plusieurs noyaux. Par consquent,
e
e
e
le probl`me de choix de noyau est transfr vers le calcul des poids optimaux de dirents
e
ee
e
noyaux. En gnral, les algorithmes MKL assurent lapprentissage des hyper-param`tres
e e
e
SVM et des poids de noyaux dans un mme probl`me doptimisation.
e
e
Plusieurs mthodes ont appliqu lapproche MKL dans le contexte de reconnaissance
e
e
dimages (Suard et al., 2007), (Varma and Ray, 2007), (Gehler and Nowozin, 2009).
Ces mthodes sont bases souvent sur un ensemble doptimisation pour le calcul des
e
e
poids de noyaux (Rakotomamonjy et al., 2007). Par ailleurs, elles sourent gnralement
e e
dun temps de calcul tr`s important. Nous proposons ainsi une nouvelle mthode de
e
e
pondration, en se basant sur le degr de pertinence de chaque noyaux. La nouvelle
e
e
pondration permet donc de mieux considrer les noyaux les plus pertinents en un temps
e
e
dexcution beaucoup plus rapide que les mthode classiques. Cette mthode est destine
e
e
e
e
principalement pour lapprentissage des SVMs ` noyaux multiples.
a
Dans ce chapitre, le principe de fonctionnement gnral des SVMs est rappel dans la
e e
e
section 3.2. Lapproche dapprentissage par noyaux multiples est ensuite prsente dans
e
e
la section 3.3. Particuli`rement, les mthodes de pondration de noyaux utilises dans la
e
e
e
e
littrature sont exposes dans la mme section. Enn, la nouvelle mthode de pondration
e
e
e
e
e
est propose dans la section 3.4. Lvaluation de cette mthode ainsi quune comparaison
e
e
e
avec un algorithme MKL rcent sont discutes dans la section 3.5.
e
e

3.2
3.2.1

Machines ` Vecteurs Supports


a
Introduction

Depuis les annes quatre vingt dix, les SVMs nont cess de susciter lintrt de plue
e
ee
sieurs communauts de chercheurs de dirents domaines dexpertise. La performance
e
e
de ces classieurs dpasse celle des mthodes supervises traditionnelles dans plusieurs
e
e
e
applications (Bi et al., 2003), (Zhu et al., 2004), (Ritendra et al., 2006), (Chen et al.,
2006). Dans cette section, le principe de fonctionnement gnral des SVMs est prsent.
e e
e
e
La linarit et la non-linarit ainsi que lextension aux probl`mes multi-classes de la
e
e
e
e
e
mthode SVM sont galement exposes.
e
e
e

62

`
3.2. MACHINES A VECTEURS SUPPORTS

3.2.2

Notions de base

Pour deux classes dimages donnes, le but des SVMs est de trouver un classieur
e
linaire qui spare les images tout en maximisant la distance entre ces deux classes. Il
e
e
sagit dun hyper-plan de sparation. Les images les plus proches de cet hyper-plan, cest
e
a
` dire les plus diciles ` classier, sont appeles vecteurs supports. Les SVMs assurent une
a
e
modlisation discriminante qui sappuie sur la dtermination des dirents vecteurs supe
e
e
ports dans les deux classes. Il est vident quil existe une multitude dhyper-plans valides
e
mais la proprit remarquable des SVMs est que cet hyper-plan doit tre optimal. Foree
e
mellement, cela revient ` chercher un hyper-plan dont la distance minimale aux dirents
a
e
vecteurs supports est maximale. Ainsi, les SVMs sont souvent appels des Sparateurs `
e
e
a
Vaste Marge. Intuitivement, le fait davoir une marge plus large procure plus de scurit
e
e
lorsque lon classie de nouvelles images en phase de gnralisation. En gnral, la classie e
e e
cation dune image requte est donne par sa position par rapport ` lhyper-plan optimal
e
e
a
trouv en phase dapprentissage.
e
Il existe deux cas de mod`les SVMs: les cas linairement sparables et les cas none
e
e
linairement sparables. Les premiers sont les plus simples, car ils permettent de trouver
e
e
facilement le classieur linaire (gure 3.1). Dans les cas non-linairement sparables, le
e
e
e
classieur de marge maximale ne peut pas tre utilis car ceci ne fonctionne que dans les
e
e
cas linairement sparables. Un syst`me de marges lastiques est alors mis en place pour
e
e
e
e
tolrer des erreurs de classication et donc tolrer des vecteurs supports ` lintrieur de
e
e
a
e
la marge (gure 3.2). Ce compromis entre erreurs et taille de la marge est contrl par
oe
un hyper-param`tre dapprentissage, que lon note par C. Dans la plupart des probl`mes
e
e
de classication rels, il ny a pas de sparation linaire possible entre les donnes. Pare
e
e
e
ticuli`rement, pour la reconnaissance dimages par le contenu dans les bases htrog`nes,
e
ee e
les images appartenant aux direntes classes sont souvent non-linairement sparables.
e
e
e
Nous rappelons ici les deux cas de sparation linaire et non-linaire.
e
e
e

3.2.3

Cas linairement sparable


e
e

Un probl`me de classication binaire est linairement sparable, si les images dape


e
e
prentissage appartenant aux deux classes peuvent tres compl`tement sparables. La clase
e
e
sication par SVM est ainsi dite linaire et il sagit, dans ce cas, dune comparaison entre
e
les images a travers un simple produit scalaire. Soient NIm le nombre dimages dappren`
tissage, X = [x1 ,x2 ,...,xi ,...,xNIm ] le nuage dobservations dans lespace dattributs correspondant et Y = [y1 ,y2 ,...,yi ,...,yNIm ] lensemble de leurs tiquettes. Notons que toutes les
e
`
tiquettes yi appartiennent ` lensemble {-1,1} (classication binaire). A partir de lexae
a
mination des couples dentre-sortie {(xi , yi ); i = 1,2,...,NIm }, le but est de trouver une
e
fonction f : X Y , telle que la probabilit P (f (X) = Y ) soit minimale. Dans le cas
e
linaire, la fonction de dcision SVM est la suivante:
e
e
NIm

f (x) =

i yi x.xi + b

(3.1)

i=1

avec, x est un vecteur support et les xi sont les observations des direntes images dape
prentissage. Les multiplicateurs de Lagrange i et le biais b sont des hyper-param`tres
e
dapprentissage dtermins par la rsolution du Lagragien du probl`me doptimisation
e
e
e
e
initial. La gure 3.1 illustre un exemple de classication binaire linairement sparable.
e
e
63

`
3.2. MACHINES A VECTEURS SUPPORTS

Fig. 3.1 Exemple de classication SVM linairement sparable.


e
e
Lquation (3.1) permet de dterminer un hyper-plan de sparation optimal dans le cas
e
e
e
linaire. Cependant, cette quation ne convient plus lorsque les images dapprentissage
e
e
sont non-linairement sparables. En consquence, une classication SVM non-linaire,
e
e
e
e
qui se base sur une fonction noyau, est ncessaire.
e

3.2.4

Cas non-linairement sparable


e
e

On consid`re que les images dapprentissage sont initialement reprsentes dans un


e
e
e
d
espace dattributs F = R . Pour rsoudre le probl`me de non-sparabilit des observations
e
e
e
e
correspondantes dans cet espace, les SVMs consistent ` eectuer une transformation nona
linaire de F dans un espace de Hilbert H de dimension suprieure, ventuellement
e
e
e
innie (Card(H) > d). Cette transformation non-linaire des vecteurs caractristiques xi ,
e
e
i = [1,2,...,NIm ] permet une sparation linaire des images dans un nouvel espace appel,
e
e
e
gnralement, espace de re-description. Plus la dimension de lespace de re-description
e e
est importante, plus la probabilit de pouvoir trouver un hyper-plan sparateur entre
e
e
les images est leve. On a donc une transformation dun probl`me de sparation none e
e
e
linaire dans lespace de reprsentation initial en un probl`me de sparation linaire dans
e
e
e
e
e
un espace de re-description de plus grande dimension. En pratique, cette transformation
est ralise ` laide dune fonction noyau, souvent appele K et dcrite comme suit:
e e a
e
e
K(x,xi ) = (x),(xi )

avec

: F H;
x (x)

H,

i = [1,2,...,NIm ].

(3.2)

Card(H) > Card(F)

La fonction de dcision SVM devient donc:


e
NIm

f (x) =

i yi K(x,xi ) + b
i=1

64

(3.3)

`
3.2. MACHINES A VECTEURS SUPPORTS
Les fonctions noyaux peuvent avoir plusieurs formes. Quelques familles de fonctions
noyaux paramtrables sont connues et il revient ` lutilisateur de les tester pour dterminer
e
a
e
celle qui convient le mieux pour son application. Pour un vecteur support x et une observation x , les noyaux combinant x et x les plus utiliss sont les suivant:
e
Polynmial:
o
Sigmo
dal:

Laplacien:

Gaussien:

K(x,x ) = (x.x + ct)u

(3.4)

K(x,x ) = tanh(x.x + )

(3.5)

K(x,x ) = e
K(x,x ) = e

xx

(3.6)

xx 2
2 2

(3.7)

avec, ct, u, et sont des param`tres de noyaux. Un exemple de classication none


linairement sparable est illustr par la gure 3.2. Dans ce cas, lutilisation dune fonction
e
e
e
noyau sav`re ncessaire pour se ramener, en passant par une dimension plus grande, au
e
e
cas linairement sparable (gure 3.1).
e
e

Fig. 3.2 Exemple de classication SVM non-linairement sparable.


e
e

3.2.5

Extension aux probl`mes multi-classes


e

Bien quils soient conus comme des classieurs binaires, les SVMs peuvent sadresser
c
galement aux probl`mes de classication multi-classes. Un exemple de classication SVM
e
e
a
` trois classes (NC = 3) est illustr par la gure 3.3.
e
Des approches permettant de considrer la classication multi-classes comme un seul
e
probl`me doptimisation existent en littrature (Weston and Watkins, 1999). Linconvnient
e
e
e
de ces mthodes est quelles sont beaucoup plus gourmandes en terme de calcul que
e
la rsolution de plusieurs probl`mes de classication binaires. Dans la littrature, il est
e
e
e

65

`
3.2. MACHINES A VECTEURS SUPPORTS

Fig. 3.3 Exemple de classication SVM multi-classes (NC = 3).


dusage de distinguer une varit de techniques de dcomposition des probl`mes multiee
e
e
classes en un ensemble de classication binaire. Ci apr`s, nous rappelons les techniques
e
les plus utilises pour lextension des SVMs aux probl`mes multi-classes.
e
e
3.2.5.1

Algorithme SVM: Un contre tous

Un probl`me de classication de NC classes (NC > 2) est dcompos selon la technique


e
e
e
un contre tous en NC classications binaires. Pour cela, NC classieurs SVMs binaires
e
sont construits (Vapnik, 1999). Lapprentissage du i`me classieur SVM est ralis de
e e
`me
e
faon que les images de la i
c
classe sont considres positives, alors que toutes les
ee
images des autres classes sont considres ngatives. En phase de gnralisation, une
ee
e
e e
image requte est prsente ` lensemble des NC classieurs SVM. Elle est tiquete
e
e
e a
e
e
ainsi en fonction du rendement maximum parmi les NC classieurs. Linconvnient de
e
cette mthode rside dans sa complexit dapprentissage, vu que le nombre dchantillons
e
e
e
e
dapprentissage devient tr`s important. En eet, chacun des NC classieurs SVMs est
e
entrain en utilisant tous les chantillons disponibles.
e
e
3.2.5.2

Algorithme SVM: Un contre un

La technique un contre un, quand ` elle, construit NC (NC 1)/2 classieurs SVMs
a
binaires, en utilisant toutes les paires de combinaisons binaires des NC classes. Lapprentissage de chaque classieur SVM est ralis en considrant les images de la premi`re
e e
e
e
classe comme des exemples positifs et les images de la seconde classe comme des exemples
ngatifs. Pour combiner les dirents classieurs SVM, lalgorithme de vote majoritaire
e
e
pour max-wins voting est adopt. Cet algorithme permet de trouver la classe rsultante
e
e
en choisissant la classe vote par la majorit des classieurs (Friedman, 1997). Le nombre
e
e
dimages utilises pour lapprentissage de chaque classieur SVM est tr`s rduit, car seuls
e
e e
les images appartenant ` deux classes parmi les NC classes sont prises en consideration.
a
Do`, un temps dapprentissage plus court. Linconvnient de cette mthode rside dans
u
e
e
e
le fait que chaque image requte doit tre prsente ` un grand nombre de classieurs
e
e
e
e a
66

3.3. APPROCHE DAPPRENTISSAGE PAR NOYAUX MULTIPLES


(NC (NC 1)/2). Il en rsulte un ralentissement de la phase de gnralisation, en partie
e e
culier lorsque le nombre de classes est considrable (Xu and Chan, 2003).
e
3.2.5.3

Algorithme DAG-SVM

Similairement ` la technique un contre un, lalgorithme DAG-SVM consiste en un


a
apprentissage de NC (NC 1)/2 classieurs SVM binaires. Comme son nom lindique,
cette mthode sappuie, dans la phase de gnralisation, sur un graphe de dcision orient
e
e e
e
e
acyclique (DAG pour Directed Acyclic Graph) (Platt et al., 2000). DAG-SVM cre un
e
mod`le pour chaque paire de classes. Soit le mod`le Mod1 permettant de sparer les deux
e
e
e
classes C1 et C2 . La particularit de cet algorithme est quil consid`re que Mod1 ne vote
e
e
pas rellement pour la classe C1 sil classie une image requte dans C1 . DAG-SVM
e
e
suppose plutt, dans ce cas, que Mod1 vote contre la classe C2 . Ceci est vident, puisque
o
e
cette requte doit se trouver de lautre ct de lhyper-plan sparateur que la plupart des
e
oe
e
images appartenant ` la classe C2 . Par consquent, lalgorithme ne tient plus compte de
a
e
tous les mod`les impliquant la classe C2 . Ainsi, apr`s chaque classication avec un des
e
e
mod`les binaires, une des classes candidates est rejete. De ce fait, une seule classe est
e
e
retenue, suite ` NC 1 tapes uniquement. Limage requte considre est ainsi attribue
a
e
e
ee
e
a
` cette classe. Ceci permet dobtenir des taux de reconnaissance similaire ` ceux de la
a
technique un contre un, mais le temps de rponse est beaucoup plus rduit. Dans notre
e
e
travail de th`se, les SVMs 1 multi-classes utiliss sont bass sur le principe de lalgorithme
e
e
e
DAG-SVM.

3.2.6

Conclusion

Dans cette section, nous avons prsent le principe de fonctionnement des SVMs. Cest
e
e
une mthode de classication tr`s performante, qui sadresse ` la fois aux cas linaire et
e
e
a
e
non-linaire ainsi quaux probl`mes de classication binaires et multi-classes. Cependant,
e
e
linconvnient majeur des SVMs est le choix du noyau appropri et la dtermination eme
e
e
pirique de ses param`tres en fonction de la distribution des images dapprentissage (Duan
e
et al., 2003). En consquence, des mod`les plus exibles sont fortement recherchs. Dans
e
e
e
ce cadre, lapproche dapprentissage par noyaux multiples est initialement propose en
e
2004 (Lanckriet et al., 2004a). Cette proposition est base principalement sur lutilisation
e
de noyaux multiples dans le mme processus dapprentissage ce qui sav`re une solution
e
e
tr`s intressante pour palier aux limites des fonctions de dcision ` noyau unique.
e
e
e
a

3.3
3.3.1

Approche dapprentissage par noyaux multiples


Principe

Pour amliorer les performances de la fonction de dcision SVM et mettre en valeur


e
e
son interprtabilit, les auteurs dans (Lanckriet et al., 2004a) ont propos lapproche
e
e
e
dapprentissage par noyaux multiples dsigne gnralement par lacronyme anglais MKL
e
e e e
(Multiple kernel Learning). Dans cette approche, le noyau K(x,x ) est dni comme une
e
1. La boite ` outils MatLab de Object-Oriented SVM utilise dans notre travail de th`se est disponible
a
e
e
en ligne ` ladresse suivante: http://theoval.sys.uea.ac.uk/gcc/svm/toolbox.
a

67

3.3. APPROCHE DAPPRENTISSAGE PAR NOYAUX MULTIPLES


combinaison de plusieurs noyaux de base. La formulation correspondante de cette proposition est la suivante:
M

K(x,x ) =

m km (x,x )

(3.8)

m=1

avec m 0, m {1,2,...,M } et M m = 1, o` M est le nombre de noyaux de base


u
m=1
utiliss, m est lindice de noyaux et m est le poids du noyau km .
e
Chaque noyaux km , m = [1,2,...,M ] peut tre calcul sur dirents sous-ensemble de
e
e
e
la base dapprentissage, par direntes caractristiques ou selon direntes formulations
e
e
e
et dirents param`tres (Lanckriet et al., 2004a). La fonction de dcision SVM ` noyaux
e
e
e
a
multiples est donc la suivante:
NIm

f (x) =

i yi

m km (x,xi )

+b

(3.9)

m=1

i=1

Initialement, la performance dapprentissage SVM dpendait fortement de la reprsene


e
tation des images dans lespace dattributs correspondant. Ceci est implicitement considre
ee
par le choix du noyau employ. Lutilisation de plusieurs noyaux dans le mme processus
e
e
dapprentissage amliore les performances de classication et permet de surmonter les
e
limites des mthodes de classication bases sur un noyau unique. Cependant, les noyaux
e
e
utiliss nont pas un mme degr de pertinence. Ensuite, le probl`me de reprsentation
e
e
e
e
e
dimages ` travers le choix des noyaux est transfr vers le calcul des poids optimums
a
ee
des dirents noyaux utiliss dans cette approche dapprentissage par noyaux multiples.
e
e
Plusieurs mthodes de pondration ont t proposes dans ce contexte (Bach et al., 2004),
e
e
ee
e
(Sonnenburg et al., 2006), (Rakotomamonjy et al., 2008). Les mthodes de pondration
e
e
de noyaux les plus connues sont discutes et prsentes dans la section suivante.
e
e
e

3.3.2

Techniques de pondration de noyaux


e

Une faon simple pour respecter les crit`res de pondration MKL, prsents ` la suite
c
e
e
e
e a
de lquation (3.8), est dutiliser un poids xe et commun pour tous les M noyaux:
e
m =

1
, m {1,2,...,M }
M

(3.10)

Vu quelle ne consid`re pas la variation de pertinence des dirents noyaux employs,


e
e
e
cette pondration alt`re gnralement les rsultats de classication naux et elle est soue
e
e e
e
vent non ecace. De ce fait, les poids des dirents noyaux doivent tre bien adapts `
e
e
e a
lecacit de ces noyaux ` travers le probl`me de classication considr.
e
a
e
ee
Des travaux rcents sont concentrs sur des mthodes plus ecaces. En gnral,
e
e
e
e e
les poids des noyaux sont tirs dans le mme probl`me doptimisation que les hypere
e
e
param`tres dapprentissage. i , b et les valeurs des coecients m sont ainsi obtenus en
e
rsolvant le probl`me doptimisation dual suivant:
e
e
1
min
,b,, 2

m
m=1

NIm

i yi km (x,xi ) + b
i=1

NIm

+C

i
i=1

68

(3.11)

3.3. APPROCHE DAPPRENTISSAGE PAR NOYAUX MULTIPLES

yi f (xi ) 1 i , i {1,2,...,NIm }

i 0, i {1,2,...,NIm }

sachant que m 0, m {1,2,...,M }

et

m = 1
m=1

o` les direntes variables i sont appeles des variables molles (slack variables en anglais),
u
e
e
elles sont introduites pour considrer les erreurs de classication qui peuvent tre associes
e
e
e
a
` chaque point dapprentissage. Lhyper-param`tre doptimisation C, appel aussi terme
e
e
de rgularisation de marge, permet de pondrer ces erreurs de classication pour optie
e
miser la fonction sparatrice nale. Cette mthode permet de dterminer itrativement
e
e
e
e
les hyper-param`tres dapprentissage ainsi que les coecients de pondration MKL en
e
e
mme temps. Initialement, les auteurs dans (Lanckriet et al., 2004b) ont introduit lape
proche des noyaux multiples pour les classications binaires. Linconvnient majeur de
e
cette proposition est quelle est base sur un probl`me de programmation quadratiquee
e

ment contraint. Eventuellement, elle devient rapidement intraitable d`s que le nombre
e
dimages dapprentissage ou le nombre de noyaux est grand. De plus, le probl`me de mie
nimisation dans lapproche de (Lanckriet et al., 2004b) est rellement un probl`me dual
e
e
dans lequel les coecients de pondration sont rgulariss selon les deux normes mixtes
e
e
e
(L2 , L1 ) ` la place de la norme quadratique L2 . En consquence, la formulation MKL de
a
e
Lanckriet et al. nest pas un probl`me de minimisation rgulier. Bach et al. ont propos
e
e
e
une version plus rguli`re de ce probl`me pour traiter des probl`mes ` moyenne chelle
e
e
e
e
a
e
(Bach et al., 2004). An de pouvoir supporter les probl`mes ` grande chelle, les auteurs
e
a
e
dans (Sonnenburg et al., 2005), (Sonnenburg et al., 2006) ont adress lapproche MKL
e
en rsolvant un probl`me de programmation linaire semi-innie, connu par lacronyme
e
e
e
anglais SILP (Semi-Innite Linear Program):

max
,

tel que

m = 1, m 0, m {1,2,...,M }
m=1

(3.12)

et

S ()

m=1 m m

avec 0 C, et

i yi = 0, i {1,2,...,NIm }

i=1

Sachant que la formulation de la fonction direntiable Sm () est la suivante:


e
Sm () =

1
2

NIm NIm

NIm

i j yi yj km (xi ,xj )
i=1 j=1

(3.13)

i=1

Sonnenburg et al. utilisent lalgorithme appel Column Generation Technique qui


e
consiste ` chercher, pour un sous-ensemble de contraintes, les valeurs optimales de et
a
m , m {1,2,...,M }, puis ` dterminer si satisfait la contrainte: M m Sm () .
a e
m=1
Dans ce cas, la solution peut tre optimale, sinon des contraintes sont rajoutes ` lene
e a
semble de dpart et ce processus est itr jusqu` lobtention de la convergence des
e
ee
a
direntes valeurs des poids m , m [1,2,...,M ]. Lavantage de cette derni`re formue
e
lation (quation (3.12)) est que lapproche MKL est considre par la rsolution itrative
e
ee
e
e
69

3.4. PONDERATION DE NOYAUX BASEE SUR LES TAUX


DAPPRENTISSAGE SVM
dun probl`me SVM classique ` noyau unique. Cependant, lalgorithme itratif de Sone
a
e
nenburg et al. ncessite un grand nombre ditrations avant de pouvoir converger vers des
e
e
solutions raisonnables. Eectivement, les probl`mes SILP peuvent avoir un nombre inni
e
de contraintes (Glasho and Gustafson, 1983).
Rcemment, Rakotomamonjy et al. ont propos une optimisation de lalgorithme de
e
e
Sonnenburg et al. (Rakotomamonjy et al., 2008). Les deux algorithmes minimisent la
mme fonction objective, mais ils di`rent au niveau de lecacit de calcul. En fait, le
e
e
e
nouvel algorithme, appel SimpleMKL, optimise les coecients de pondration par une
e
e
mthode de descente du gradient. Ce qui lui permet de surmonter les limites des probl`mes
e
e
SILP. Cet algorithme est utilis pour la comparaison des rsultats obtenus dans la partie
e
e
exprimentale de ce chapitre.
e
Dans la section suivante, nous proposons une mthode originale de pondration des
e
e
noyaux. La mthode propose met en vidence les noyaux les plus pertinents dans la
e
e
e
combinaison linaire de lapproche MKL.
e

3.4
3.4.1

Pondration de noyaux base sur les taux dape


e
prentissage SVM
Introduction

Les techniques de pondration proposes pour lapproche MKL sont souvent ecaces
e
e
et conduisent gnralement ` des rsultats de classication satisfaisants. Toutefois, des
e e
a
e
mthodes de pondration plus rapides, permettant en particulier damliorer les rsultats
e
e
e
e
de classication dans les probl`mes de grande chelle, sont toujours recherches. En outre,
e
e
e
la complexit du contenu des bases dimages htrog`nes rend la dtermination des poids
e
ee e
e
optimaux tr`s dicile (Cao et al., 2009). Dans ce cadre, une nouvelle pondration de
e
e
noyaux est dcrite dans cette section. Cette pondration est destine aux apprentissages
e
e
e
SVM ` noyaux multiples, que lon appelle MK SVM, acronyme anglais de Multiple Kernel
a
based SVM.

3.4.2

Principe de MK SVM

An damliorer lecacit de pondration des noyaux, nous exploitons des mthodes


e
e
e
e
similaires dans dautres applications spciques, en particulier les noyaux dits String Kere
nels. Ce type de noyaux se rv`le signicativement ecace pour le regroupement des
e e
donnes de type cha de caract`res, souvent employes en biologie. Plusieurs mthodes
e
ne
e
e
e
sont proposes en littrature, nous citons ` titre dexemple le locality-improved kernel (Zien
e
e
a
et al., 2000), le string subsequence kernel (Lodhi et al., 2001), le spectrum kernel (Leslie
et al., 2002) et le Weighted-Degree kernel (WD) (Rtsch et al., 2005). Dautres mthodes
a
e
sont cites dans le travail de (Kilho, 2007). Dans notre travail, nous nous intressons
e
e
particuli`rement ` la mthode WD (Rtsch et al., 2005). Cette mthode calcule ecae
a
e
a
e
cement les similitudes entre les squences tout en considrant la position de la longueur
e
e
des cha
nes de caract`res. Les auteurs dans (Rtsch et al., 2005) prsument que les poids
e
a
e
doivent satisfaire le crit`re suivant: m > m+1 , m {1,2,...,M 1}. Cette condition
e
est base sur le fait que la mise en correspondance des sous-cha
e
nes est pondre avec un
ee
score dpendant de la longueur de chacune de ces cha
e
nes et que les cha
nes de caract`res
e
a
` pondrer sont dj` organises selon leur longueur.
e
ea
e
70

3.4. PONDERATION DE NOYAUX BASEE SUR LES TAUX


DAPPRENTISSAGE SVM
Par analogie avec la mthode WD, les noyaux utiliss dans notre contexte, comme
e
e
les cha
nes de caract`res, peuvent tre pondrs linairement sans lutilisation daucune
e
e
ee
e
mthode doptimisation. Eectivement, en sinspirant du travail de (Rtsch et al., 2005),
e
a
les poids des noyaux sont calculs en considrant la pertinence de chaque noyaux par
e
e
rapport ` lensemble du reste des noyaux ` pondrer. La mthode MK SVM adapte ainsi
a
a
e
e
la pondration de noyaux au principe de la mthode WD. Ceci ncessite lvaluation du
e
e
e
e
degr de pertinence de chaque noyau selon une certaine mesure de qualit. En eet, les
e
e
noyaux sont pondrs avec des scores dpendant de leurs pertinences par rapport ` la
ee
e
a
base dimages considre.
ee

3.4.3

Apprentissage multiple

Rappelons lapprentissage multiple de la mthode de slection SAC qui a t prsent


e
e
ee e
e
dans le chapitre 2 (section 2.4.2). Cette approche value sparment les direntes cae
e e
e
ractristiques. Ce qui permet de dterminer le pouvoir discriminant de chacune dentre
e
e
elles. Dune mani`re similaire, nous prsentons dans cette section lutilisation dun ape
e
prentissage multiple pour la mesure du degr de pertinence de chaque noyau.
e
Soit K = [k1 ,k2 ,...,kM ] lensemble des M noyaux ` utiliser. Nous commenons par un
a
c
apprentissage multiple de la base BApp , selon les dirents noyaux dans K. En considrant
e
e
les images correctement classies conformment ` chaque noyau km , m [1,2,...,M ].
e
e
a
nous calculons les taux dapprentissage correspondants:
T R km =

NCorr (km )
, m {1,2,...,M }
NIm

(3.14)

o` NCorr (km ) est le nombre dimages correctement classies avec le noyau km . Soit
u
e
T R = [T Rk1 ,T Rk2 ,...,T RkM ] lensemble des taux dapprentissage obtenus, avec T Rkm le
taux correspondant au noyau km , m {1,2,...,M }. Lensemble T R permet de dterminer
e
lordre de pertinence des dirents noyaux. Dans ce contexte, un nouvel ensemble de
e
noyaux K = [k1 ,k2 ,...,kM ] est dni par lorganisation des noyaux de lensemble K selon
e
lordre des taux dapprentissage dcroissant. Le premier noyau k1 est ainsi le noyau le plus
e
pertinent, tandis que le dernier noyau dans K est le moins pertinent (kM ).

3.4.4

Calcul des dirents poids de noyaux


e

An de mettre en valeur les noyaux les plus pertinents, nous ralisons une pondration
e
e
selon lorganisation des noyaux eectue dans K :
e
m = 2

M m+1
, m {1,2,...,M }
M (M + 1)

tel que T Rkm T Rk

m+1

(3.15)

, m {1,2,...,M 1}

o` m {1,2,...,M }, m 0,
u

m = 1 et m {1,2,...,M 1}, m > m+1 .


m=1

Soit = [1 ,2 ,...,M ] lensemble des poids correspondants aux dirents noyaux km ,


e
m = [1,2,...,M ]. Selon cette nouvelle pondration (quation (3.15)), le noyau le plus pere
e
tinent, k1 , est mieux considr avec le coecient de pondration le plus lev 1 . Ainsi
ee
e
e e
71

3.4. PONDERATION DE NOYAUX BASEE SUR LES TAUX


DAPPRENTISSAGE SVM
de suite, les valeurs des coecients m dcroissent harmonieusement avec les taux dape
prentissage T Rkm , m = [1,2,...,M ]. Compte tenu de cette nouvelle pondration, que lon
e
appelle par lacronyme anglais KW-BTR (Kernel Weighting Based on Training Rates), la
combinaison linaire des dirents noyaux employs est alors donne par:
e
e
e
e
M

K(x,x ) =

2
m=1

M m+1
k (x,x )
M (M + 1) m

tel que T Rkm T Rk

m+1

(3.16)

, m {1,2,...,M 1}

Selon lquation (3.16), lapproche MKL est adresse par la rsolution dun probl`me
e
e
e
e
SVM standard ` noyau unique. La fonction de dcision MK SVM est formule par lquation
a
e
e
e
suivante:
NIm

f (x) =

i yi
i=1

avec T Rkm T Rk

m+1

2
m=1

M m+1
k (x,xi )
M (M + 1) m

+b

(3.17)

, m {1,2,...,M 1}.
Base dimages
dapprentissage
BApp

Extraction
dattributs

K:

k1

k2

k3

...

kM

Apprentissage multiple des noyaux SVM

TR : TRk1

TRk2

TRk 3

... TRk
M

Organisation des noyaux selon


les taux dapprentissage

K:

k
1

k2

k3

...

k
M

...

KWBTR

Classification SVM noyaux multiples

Fig. 3.4 Diagramme de la mthode de classication MK SVM utilisant la nouvelle


e
pondration KW-BTR.
e
e
La gure 3.4 illustre le diagramme de la mthode MK SVM. Ce diagramme prsente
e
lorganisation des noyaux utiliss en fonction de leurs taux dapprentissage SVM. En se
e
72

3.5. EVALUATION DE LA METHODE MK SVM


basant sur cette organisation des noyaux, les poids sont calculs ` laide de la pondration
e a
e
KW-BTR. Lalgorithme MK SVM est prsent dans la suite:
e
e

Algorithme MK SVM
MK SVM (Bapp ,K)
1: Pour chaque noyau km K, m = 1,2,...,M Faire
2:
Apprentissage SV M (X,km ); Eq. 3.3
3:
T Rkm = NCorr (km ) ; Eq. 3.14
NIm
4: Fin Pour
5: K = Organisation des taux dapprentissages des dirents noyaux (K,T R)
e
6: Pour chaque noyau km K , m = 1,2,...,M Faire
7:
m = KW-BTR (km ,T Rk m ); Eq. 3.15
8: Fin Pour
9: Calcul du noyau multiple (K ,); Eq. 3.16
10: Apprentissage SVM ` base de noyaux multiples (X,K); Eq. 3.17
a

3.4.5

Conclusion

Dans cette section, La mthode MK SVM a t prsente. Particuli`rement, lorigie


ee e
e
e
nalit de cette mthode rside dans sa nouvelle technique de pondration, que lon a
e
e
e
e
appele KW-BTR. En se basant sur le degr de pertinence de chaque noyau, KW-BTR
e
e
permet de mieux considrer les noyaux les plus pertinents. Au lieu dtre tirs du mme
e
e
e
e
probl`me doptimisation que les hyper-param`tres SVM, les poids de noyaux sont calculs
e
e
e
linairement en fonction des taux dapprentissage correspondants. Ainsi, les temps de cale
e
cul sont signicativement rduits. Une valuation de la mthode MK SVM est illustre et
e
e
e
discute dans la section suivante.
e

Evaluation de la mthode MK SVM


e

3.5

Lensemble K des noyaux utiliss pour les exprimentations est le suivant:


e
e

Le
Le
Le
Le

noyau
noyau
noyau
noyau

Linaire 2 .
e
Polynmial (quation (3.4)), avec les param`tres {ct = 1,u = 5}.
o
e
e
Sigmo
dal (quation (3.5)), avec le param`tre { = 1}.
e
e
Gaussien (quation (3.7)), avec le param`tre { = 10.5}.
e
e

Les param`tres des noyaux, ainsi que le terme de rgularisation de marge C 3 sont
e
e
dtermins empiriquement pour la base dimages COREL utilise.
e
e
e
2. Le noyau de type produit scalaire euclidien correspondant ` ne pas modier lespace dattributs
a
initial F.
3. La valeur du terme de rgularisation de marge est choisie de faon ` mieux contrler le phnom`ne
e
c a
o
e
e
de sur-apprentissage.

73

3.5. EVALUATION DE LA METHODE MK SVM

3.5.1

Rsultats de classication
e

En utilisant une concatnation des douze caractristiques prsentes dans le chapitre 1,


e
e
e
e
un apprentissage multiple des dirents noyaux km K, m {1,2,3,4} est eectu pour
e
e
quatre sous-bases COREL. Les poids des dirents noyaux sont alors calculs selon la
e
e
pondration KW-BTR propose (quation (3.15)). Un exemple des taux dapprentissage
e
e e
obtenus ainsi que les poids correspondants des dirents noyaux utiliss pour la sous-base
e
e
COREL avec 5 classes est fourni dans le tableau 3.1. En se basant sur cette pondration
e
e e
e
des noyaux, une classication MK SVM est ralise pour direntes sous-bases COREL.
Tab. 3.1 Exemple de pondration de noyaux KW-BTR pour la sous-base COREL avec
e
5 classes.
km
Gaussien Polynmial Linaire Sigmo
o
e
dal
T Rkm
1
1
0.9573
0.8964
m
0.4
0.3
0.2
0.1
Dans le mme contexte, une classication des mmes sous-bases COREL est galement
e
e
e
eectue ` laide de lalgorithme SimpleMKL 4 pour la comparaison des rsultats. Le
e a
e
tableau 3.2 prsente les performances de la classication MK SVM et SimpleMKL pour
e
quatre sous-bases COREL. Les meilleures performances sont aches en gras.
e
Tab. 3.2 Comparaison des rsultats de classication MK SVM et SimpleMKL pour
e
direntes sous-bases dimages COREL.
e
Sous-bases COREL SimpleMKL MK SVM
3 classes
Pmoy
0.9753
1.0000
Rmoy
0.9733
1.0000
5 classes
Pmoy
0.9028
0.9467
Rmoy
0.9801
0.9440
7 classes
Pmoy
0.8640
0.8901
Rmoy
0.8514
0.8857
10 classes
Pmoy
0.8118
0.8510
Rmoy
0.8360
0.8080
Dapr`s le tableau 3.2, MK SVM classie correctement toutes les images requtes avec
e
e
une prcision moyenne gale ` 100%, pour la sous-base COREL avec 3 classes. Alors que
e
e
a
la prcision moyenne de la classication SimpleMKL pour la mme sous-base est 97.53%.
e
e
De mme, pour les sous-bases COREL avec 5, 7 et 10 classes, MK SVM est toujours
e
plus ecace que SimpleMKL en terme de prcision. Les courbes de prcisions moyennes
e
e
correspondantes aux deux mthodes compares sont prsentes dans la gure 3.5.
e
e
e
e
(gure 4.3 (a))
Pour les quatre sous-bases COREL employes, les courbes prcision-rappel de MK SVM
e
e
et SimpleMKL sont illustres respectivement dans les gures 3.6 (a) et (b). Bien que la
e
dirence ne soit pas signicative, nous observons que MK SVM est toujours plus perfore
mante que SimpleMKL.
4. Une boite ` outil MatLab de lalgorithme SimpleMKL, dveloppe par Alain Rakotomamonjy, est
a
e
e
disponible ` ladresse suivante: http://asi.insa-rouen.fr/enseignants/arakotom/code/mklindex.html.
a

74

3.5. EVALUATION DE LA METHODE MK SVM

Fig. 3.5 Performances de classication moyenne des deux algorithmes MK SVM et


SimpleMKL pour direntes sous-bases dimages COREL.
e

a)

b)

Fig. 3.6 Courbes prcision-rappel de a) MK SVM et b) SimpleMKL pour direntes


e
e
sous-bases dimages COREL.
Pour la sous-base COREL avec 3 classes, la courbe prcision-rappel de MK SVM est
e
5
parfaite , mais celle de lalgorithme SimpleMKL dcro lg`rement. De mme, pour les
e t e e
e
trois autres sous-bases COREL, les courbes prcision-rappel de MK SVM sont meilleures
e
que celles de SimpleMKL. Par exemple, pour la sous-base COREL avec 7 classes, les
prcisions de MK SVM et SimpleMKL sont respectivement autour de 92% et 85%, pour
e
une valeur de rappel de 60%. Aussi, pour la sous-base COREL avec 10 classes, ` 40% de
a
rappel, leurs prcisions respectives sont autour de 88% et 78%. Les temps de calcul des
e
deux mthodes sont discutes dans la section suivante.
e
e

3.5.2

Temps dexcution
e

Le tableau 3.3 prsente les temps dapprentissage et de pondration des noyaux des
e
e
deux algorithmes pour direntes sous-bases COREL. Le temps dexcution le plus rae
e
pide pour chaque sous-base est ach en gras. Nous pouvons observer clairement que
e
5. Prcision gale ` 1.000 pour toutes valeurs de rappel.
e
e
a

75

3.6. CONCLUSION
lalgorithme MK SVM, utilisant la nouvelle pondration de noyaux KW-BTR, ncessite
e
e
signicativement moins de temps de calcul que lalgorithme SimpleMKL. Lalgorithme
MK SVM assure lapprentissage et la pondration des noyaux, pour la sous-base COREL
e
avec 3 classes, en moins dune minute, cependant SimpleMKL ncessite 2,7084 mn. De
e
mme, pour les sous-bases COREL avec 5, 7 et 10 classes, MK SVM est plus rapide que
e
SimpleMKL. Eectivement, par exemple MK SVM ncessite seulement 12.8102 mn pour
e
lapprentissage et la pondration des noyaux pour la sous-base COREL avec 10 classes,
e
alors que SimpleMKL requi`re dans ce cas 37.8110 mn. Ceci sexplique par le fait que
e
MK SVM, ` la dirence de SimpleMKL, ne rsout aucun probl`me doptimisation. La
a
e
e
e
pondration des noyaux dans MK SVM seectue une fois pour toute en se basant sur la
e
pertinence des taux dapprentissage correspondants. Par contre, SimpleMKL dtermine
e
les coecients de pondration des dirents noyaux itrativement selon une optimisation
e
e
e
de la descente du gradient. Do` ses besoins en temps de calcul.
u
Tab. 3.3 Comparaison des temps dapprentissage et de pondration (en Minutes) des
e
e
deux algorithmes MK SVM et SimpleMKL pour direntes sous-bases COREL.
Sous-bases
Temps dexcution
e
COREL
SimpleMKL MK SVM
3 classes
2.7084
0.8619
5 classes
7.7222
3.8038
7 classes
28.4550
8.5301
10 classes
37.8110
12.8102

3.6

Conclusion

Nous avons prsent dans ce chapitre un algorithme de classication SVM ecace


e
e
e
ee
e
a
` noyaux multiples (MK SVM). Une pondration originale des noyaux a t propose
pour cette nouvelle classication. Les poids des noyaux sont calculs en fonction des
e
taux dapprentissage correspondants. En plus de lamlioration des rsultats de classie
e
cation prouve par les exprimentations ralises, MK SVM assure signicativement un
e
e
e e
temps dexcution infrieur aux algorithmes MKL existants. Une comparaison avec un
e
e
algorithme rcent est galement fournie.
e
e
En considrant les mmes images et la mme formulation de noyaux, lapprentissage
e
e
e
MKL peut tre eectu selon des caractristiques direntes. Loptimisation des poids des
e
e
e
e
dirents noyaux reprsente ainsi une sorte de slection des caractristiques. Cependant
e
e
e
e
une telle pondration linaire des caractristiques prsente certaines limites. En particue
e
e
e
lier, elle sav`re incapable de dcrire les relations non-linaires des dirents types de dese
e
e
e
cription. De plus, la pondration calcule des noyaux est maintenue xe sur tous lensemble
e
e
des images considres. Nous proposons, dans le chapitre suivant, une nouvelle mthode
ee
e
de classication multi-mod`les permettant dassurer une combinaison de caractristiques
e
e
plus exible. Les caractristiques slectionnes sont employes hirarchiquement en se
e
e
e
e
e
basant sur leur pouvoir discriminant dans la base dimages considre.
ee

76

Chapitre

Mthode de classication hirarchique


e
e
multi-mod`les
e

Dans ce chapitre, une Mthode originale de Classication hirarchique Multi-Mod`les


e
e
e
que lon appelle MC-MM est propose. Cette classication permet dassurer la reconnaise
sance de chaque image requte itrativement selon un ordre hirarchique des direntes
e
e
e
e
caractristiques slectionnes.
e
e
e

78

4.1. INTRODUCTION

4.1

Introduction

Face aux limites rencontres dans les approches MKL, de nouvelles mthodes sont
e
e
proposes pour palier aux inconvnients de la combinaison linaire des caractristiques
e
e
e
e
de dirents types (Cao et al., 2009). Ces mthodes utilisent des poids variables qui
e
e
conduisent ` une fusion non-linaire et localement adaptative des caractristiques mula
e
e
tiples. Dans le mme contexte, nous proposons dans ce chapitre, une nouvelle Mthode
e
e
de Classication hirarchique Multi-Mod`les que lon appelle MC-MM (section 4.2). Une
e
e
valuation de MC-MM ` travers direntes mthodes de slection ainsi quune compae
a
e
e
e
raison avec dautres mthodes de classication sont prsentes dans la section 4.3. Les
e
e
e
rsultats exprimentaux obtenus montrent que la mthode de classication propose ase
e
e
e
sure toujours de tr`s bonne performances de classication.
e

4.2
4.2.1

Classication hirarchique multi-mod`les


e
e
Introduction

MC-MM permet de reconna


tre, itrativement, les images de test selon un ordre hie
e
rarchique retant le pouvoir discriminant des direntes caractristiques considres.
e
e
e
ee
Elle utilise en particulier un bloc appropri pour lever lambigu e de classication dans
e
t
chaque niveau hirarchique. Ainsi, selon limage requte traite, MC-MM permet dajuster
e
e
e
lorganisation des caractristiques en tant quune sorte de pondration dynamique. En
e
e
consquence, une grande souplesse dans la combinaison des caractristiques est assure.
e
e
e
`
A loppos de certaines mthodes qui valuent la pertinence des direntes images
e
e
e
e
contenues dans la base dapprentissage (Cao et al., 2009), MC-MM tient compte de toutes
les images pour la construction du mod`le complet de chaque caractristique. Absolue
e
ment, les images considres comme aberrantes appartiennent rellement ` la base de
ee
e
a
donnes dapprentissage. Elles reprsentent ainsi un complment dinformation permete
e
e
tant de modliser les direntes classes de la base htrog`ne utilise.
e
e
ee e
e

4.2.2

Principe de lapproche multi-mod`les


e

Prenant en compte lhtrognit du contenu des images, le syst`me de reconnaisee e e e


e
sance tudi peut tre considr comme un syst`me complexe. De tels syst`mes peuvent
e
e
e
ee
e
e
tre toujours modliser par plusieurs mod`les plus simples en aectant chaque mod`le
e
e
e
e
a
` un sous-ensemble du syst`me global. Dans ce contexte, nous prsentons une nouvelle
e
e
mthode de classication (MC-MM) destine pour les syst`mes de reconnaissance dimages
e
e
e
htrog`nes par le contenu. MC-MM combine hirarchiquement les rsultats de classicaee e
e
e
tion des dirents mod`les SVMs slectionns, do` son aspect hirarchique multi-mod`les.
e
e
e
e
u
e
e
Lordre hirarchique utilis est bas sur les degrs de pertinence des mod`les slectionns,
e
e
e
e
e
e
e
cest celui de leurs performances dapprentissage croissantes. Ceci permet dassurer une
amlioration progressive de la dcision de classication et par la suite une qualit de
e
e
e
reconnaissance ascendante.
Selon la taxonomie utilise pour les mthodes hirarchiques (Jain et al., 1999), MC-MM
e
e
e
peut tre considre comme une approche monothtique puisquelle utilise les direntes
e
ee
e
e
caractristiques dune mani`re squentielle. Par consquent, chaque image requte peut
e
e
e
e
e
tre classie diremment au cours du processus de reconnaissance (gure 4.2). Par
e
e
e
79


`
4.2. CLASSIFICATION HIERARCHIQUE MULTI-MODELES
ailleurs, MC-MM est aussi une approche dterministe (Jain et al., 1999). En eet, chaque
e
image requte nest attribue, ` la n du processus de classication, qu` une seule classe.
e
e a
a
Pour cela, si une image requte est classie diremment selon deux niveaux hirarchiques
e
e
e
e
conscutifs le classieur du plus proche centre de classe, que lon appelle NCC pour Nearest
e
Cluster Center, est employ.
e

4.2.3

Rsolution de conit de dcision par NCC


e
e

Rappelons que C = {C1 ,C2 ,...,CNC } est lensemble des NC classes contenues dans une
base dimages dapprentissage BApp . Le classieur NCC reprsente un processus simple
e
permettant dattribuer une image requte ` la classe la plus proche dans lensemble C
e a
selon un espace dattributs donn.
e

F
m
Ci
C
i

Iq
di

NCC
d j < di

Iq ==> C j

dj
C
j

Cj

Fig. 4.1 R`gle de dcision du classieur NCC: classication de limage requte Iq dans
e
e
e
lespace dattributs Fm , ` travers les deux classes values Ci et Cj .
a
e
e
Soit une image requte Iq attribue diremment aux classes Ci et Cj , 1 i = j NC ,
e
e
e
avec les mod`les considrs par deux niveaux hirarchiques conscutifs. On note ces deux
e
ee
e
e
niveaux par N ivl et N ivm . Supposant que le mod`le considr par N ivm est plus pertinent
e
ee
que celui utilis dans le niveau N ivl et que Fm est son espace dattributs correspondant.
e
Initialement, NCC calcule dans lespace Fm les centres Ci et Cj respectivement des deux
classes Ci et Cj . Les centres de classes sont reprsents par la caractristique moyenne des
e
e
e
images dapprentissage appartenant aux classes correspondantes. En fait, chaque centre
calcul est ctif et peut ne correspondre ` aucune image dans la classe considre. On note
e
a
ee
par Fm (Iq ) la projection de limage Iq dans lespace Fm . Comme le montre la gure 4.1,
la r`gle de dcision du classieur NCC consiste ` attribuer limage Iq ` la classe dont le
e
e
a
a
centre est le plus proche. Ceci se base principalement sur les deux distances di et dj , qui
correspondent aux mesures de similarit calcules entre Fm (Iq ), Ci et Fm (Iq ), Cj .
e
e
Pour cela, nous employons la distance Euclidienne (Wang et al., 2005). Cette distance est
la plus utilise pour les mesures de similarit dans les espaces dattributs. Toutefois, il est
e
e
toujours possible dutiliser dautres mtriques de ltat de lart (Dengsheng and Guojun,
e
e
2003).
Il est a signaler que lapport du classieur NCC nest requis quen cas de conit
`
entre les dcisions SVMs des niveaux hirarchiques conscutifs. Eectivement, les SVMs,
e
e
e
agissant par sparation, exploitent les relations de chaque classe avec les autres. Par
e
contre, le classieur NCC modlise chaque classe sparment. Dans ce qui suit, on dtaille
e
e e
e
le principe de la mthode de classication MC-MM.
e

80


`
4.2. CLASSIFICATION HIERARCHIQUE MULTI-MODELES

4.2.4

Classication hirarchique
e

Vu que les caractristiques extraites pour la description dimages dans les bases htroe
ee
g`nes, ne sont pas ncessairement toutes pertinentes et utiles pour la reconnaissance,
e
e
notre nouvelle mthode de classication hirarchique envisage une pr-slection des cae
e
e e
ractristiques les plus pertinentes. Ce sujet est abord dans le chapitre 2. Dans cette
e
e
section, nous considrons les rsultats de la mthode de slection adaptative, que lon a ape
e
e
e
` partir des n caractristiques, extraites initialement, la mthode SAC value
pele SAC. A
e
e
e
e
la pertinence des n mod`les correspondants (M = {M1 ,M2 ,...,Mn }). Une analyse discrie
minante des performances des dirents mod`les dans M, permet de slectionner un souse
e
e
ensemble de k mod`les (Ms = {Ms1 ,Ms2 ,...,Msk }, k n). Ces mod`les sont considrs
e
e
ee
comme les plus pertinents. En phase de gnralisation, seulement les caractristiques core e
e
respondantes aux mod`les contenus dans Ms sont extraites ` partir dune base dimages
e
a
de test BT est . Cela permet dacclrer davantage cette phase, puisquon vite dextraire
ee
e
les caractristiques correspondantes aux mod`les jugs non pertinents.
e
e
e
Pour une image requte Iq dans BT est , la nouvelle mthode de classication hirarchique
e
e
e
multi-mod`les MC-MM consid`re initialement le mod`le ayant la plus faible performance
e
e
e
dapprentissage dans Ms (Msk ). Notons le rsultat de classication de Iq avec ce mod`le
e
e
Msk
par C (Iq ) C. Cette classication est ane progressivement ` travers les dirents
e
a
e
niveaux hirarchiques utiliss. En fait, ` chaque niveau dans larchitecture MC-MM, Iq
e
e
a
est classie avec un mod`le subsquent dans Ms , jusqu` atteindre au dernier niveau le
e
e
e
a
mod`le le plus performant Ms1 (gure 4.2). La classication de Iq selon chaque niveau est
e
toujours compare ` celle obtenue avec le niveau prcdent dans lhirarchie de MC-MM.
e a
e e
e
Cette classication est principalement valide si les deux niveaux compars prsentent
e
e
e
une classication similaire de Iq . Lorsquil y a conit entre les dcisions prises par deux
e
niveaux conscutifs, lambigu e est leve grce ` lutilisation du classieur NCC prsent
e
t
e
a a
e
e
dans la section 4.2.3.
Au premier niveau hirarchique, le rsultat de classication de limage Iq avec le mod`le
e
e
e
Msk
Msk1
e
(Iq ) C, est compar avec C (Iq ). Si Iq est classie
e
Msk1 , que lon note par C
dune faon similaire avec les deux mod`les Msk et Msk1 , la classication de Iq dans ce
c
e
premier niveau est directement valide:
e
C Msk ,Msk1 (Iq ) = C Msk (Iq ) = C Msk1 (Iq )
Dans le cas contraire (C Msk (Iq ) = C Msk1 (Iq )), Iq est attribue ` la classe valide par
e a
e
le classieur NCC. La distance de la projection de Iq dans lespace dattributs F1 1 par
rapport aux deux classes C Msk (Iq ) et C Msk1 (Iq ) est examine. La classe C Msk ,Msk1 (Iq )
e
est donc celle ayant le centre le plus proche.
De la mme faon dans le deuxi`me niveau, les rsultats de classication C Msk ,Msk1 (Iq )
e
c
e
e
Msk2
et C
(Iq ) sont compars. Ainsi de suite jusqu` atteindre le dernier niveau hirarchique
e
a
e
considrant le mod`le le plus performant Ms1 . Notons par C(Iq ) = C Msk ,Msk1 ,...,Ms1 (Iq ) la
e
e
classication de Iq avec MC-MM. On peut formuler cette classication comme suit:
C(Iq ) = [ [ [C Msk (Iq ) C Msk1 (Iq )]... C Ms2 (Iq )] C Ms1 (Iq )],
1. F1 correspond au premier niveau N iv1 dans larchitecture hirarchique MC-MM.
e

81

(4.1)


`
4.2. CLASSIFICATION HIERARCHIQUE MULTI-MODELES
avec
C Msi (Iq )C Msj (Iq ) =

C Msj (Iq ),
N CC(Iq ,C Msi (Iq ),C Msj (Iq )),

si C Msi (Iq ) = C Msj (Iq )


sinon

Bien que base sur deux classieurs (SVM et NCC), la classication MC-MM propose
e
e
est principalement discriminante via la classication des SVMs. Les mesures de similarit
e
eectues en cas dutilisation du classieur NCC sont employes pour situer les images
e
e
candidates exclusivement par rapport aux deux classes proposes par les mod`les SVMs
e
e
considrs. La gure 4.2, illustre larchitecture de la classication multi-mod`les MC-MM.
ee
e
Pour chaque
image requte
Iq

M sk

(I q)
Oui
Si mme
classe

C Msk1(I q)

C Msk ,Msk1(I q)
Oui

Non

Si mme
classe

NCC

C Msk ,Msk1 ,Msk2(I q)

Non

C M sk2 (I q)

Oui

NCC

Si mme
classe

C M s1 (I q)

C (I q)

Non
NCC

Fig. 4.2 Diagramme illustrant larchitecture de la mthode de classication hirarchique


e
e
multi-mod`les MC-MM.
e
Pour rsumer la discussion prcdente en pseudo code, les algorithmes MC-MM et
e
e e
NCC sont fournis dans ce qui suit:

Algorithme MC-MM
MC-MM (BT est ,Ms ); Eq. 4.1
1: Pour chaque image test Iq BT est Faire
2:
C(Iq ) = C Msk (Iq )
3:
Pour chaque mod`le Msj Ms , j = k-1,...,2,1 Faire
e
Msj
4:
Si C(Iq ) = C (Iq ) Alors
5:
C(Iq ) = N CC(Iq ,C(Iq ),C Msj (Iq ))
6:
Fin si
7:
Fin pour
8: Fin pour

Algorithme NCC
NCC (Iq ,C Msi ,C Msj )
1:
F(Iq ) = FMsi (Iq )
2: Si N ivMsi < N ivMsj Alors
3:
F(Iq ) = FMsj (Iq )
82


4.3. EVALUATION ET COMPARAISON
4: Fin si
5: di = |F(Iq ) C Msi |; dj = |F(Iq ) C Msj |
6: Si di < dj Alors

C(Iq ) = C Msi
8: Sinon
9:
C(Iq ) = C Msj
10: Fin si
7:

4.2.5

Conclusion

Dans cette section, la mthode MC-MM a t prsente. Il sagit dune classication


e
ee e
e
hirarchique qui ne ncessite aucune rtroaction de lutilisateur ou bouclage de pertie
e
e
nence. Les rsultats de classication sont ans progressivement ` travers les dirents
e
e
a
e
niveaux hirarchiques utiliss. En se basant sur la mthode de slection SAC, prsente
e
e
e
e
e
e
dans le chapitre 2, MC-MM assure des performances de classication tr`s comptitives
e
e
grce ` lutilisation hirarchique de mod`les bien adapts au contenu de la base dimages
a a
e
e
e
considre. De plus, lordre dutilisation des dirents mod`les slectionns peut tre ajusee
e
e
e
e
e
ter selon une complmentarit de dcision de chaque deux niveaux conscutifs. Les perfore
e
e
e
mances de classication MC-MM sont prsentes, discutes et compares dans la section
e
e
e
e
suivante.

4.3

Evaluation et comparaison

Dans cette section, une valuation des performances de la nouvelle mthode de classie
e
cation hirarchique MC-MM est prsente. La section 4.3.1 est rserve ` lvaluation de
e
e
e
e
e a e
MC-MM ` travers direntes mthodes de slection. Les performances de MC-MM utia
e
e
e
lisant particuli`rement la mthode de slection SAC sont tudies dans la section 4.3.2.
e
e
e
e
e
Des comparaisons des rsultats de classication de MC-MM base SAC avec les rsultats
e
e
e
dautres mthodes connues dans la littrature sont enn discutes dans la section 4.3.3.
e
e
e

4.3.1

Evaluation de MC-MM ` travers direntes mthodes de


a
e
e
slection
e

Nous discutons dans cette section les rsultats de classication MC-MM ` travers la
e
a
mthode SAC et les direntes mthodes de slection AG prsentes dans le chapitre 2.
e
e
e
e
e
e
Le mme ensemble de caractristiques est employ (pour plus de dtails voir chapitre 1).
e
e
e
e
Une tude comparative entre les trois mthodes de slection AG (AG1 , AG2 et AG3 )
e
e
e
et la mthode SAC est eectue. La base COREL avec 10 classes est utilise pour les
e
e
e
exprimentations.
e
Le tableau 4.1 illustre les rsultats de classication MC-MM ` travers les direntes
e
a
e
mthodes de slection values. Les rsultats obtenus montrent que la mthode de slection
e
e
e
e
e
e
e
AG2 est la plus ecace parmi les trois algorithmes gntiques de slection utiliss. Ceci
e e
e
e
conrme que AG1 et AG3 convergent vers des optimums locaux comme il tait dj` voqu
e
eae
e
dans le chapitre 2. En consquence, ces deux mthodes de slection ne permettent pas
e
e
e
daboutir ` des performances de classication assez leves. Cependant, bien quelle assure
a
e e
83


4.3. EVALUATION ET COMPARAISON
Tab. 4.1 Classication MC-MM ` ravers direntes
a
e
sous-bases dimages COREL.
Sous-bases COREL
Mthodes
e
AG1
AG2
3 classes
Pmoy
0.9293 0.9540
Rmoy
0.9200 0.9467
5 classes
Pmoy
0.8467 0.9230
Rmoy
0.8240 0.9120
7 classes
Pmoy
0.7827 0.8554
Rmoy
0.6914 0.8229
10 classes
Pmoy
0.6877 0.8207
Rmoy
0.6200 0.7880

mthodes de slection pour quatre


e
e
de slection
e
AG3
SAC
0.8811 0.9879
0.8533 0.9333
0.8235 0.9750
0.8080 0.9120
0.7889 0.9123
0.7657 0.8229
0.7286 0.8371
0.7120 0.8160

avec MC-MM des rsultats de classication comptitifs, la mthode AG2 sav`re moins
e
e
e
e
performante que la mthode SAC. En eet, pour les direntes sous-bases COREL utilises
e
e
e
les rsultats de classication MC-MM base SAC sont toujours les plus performants. Ce
e
e
qui prouve lecacit de la combinaison de la slection adaptative avec la classication
e
e
hirarchique multi-mod`les. Dans le reste de ce chapitre les rsultats prsents sont tous
e
e
e
e
e
bass sur le couple SAC, MC-MM .
e

4.3.2

Performances de MC-MM utilisant la mthode de slection


e
e
SAC

En se basant sur la slection adaptative, on discute dans cette section les rsultats
e
e
de classication MC-MM. Comme il est dtaill dans la section 4.2.4, la gnralisation
e
e
e e
MC-MM proc`de hirarchiquement ` partir des mod`les les moins performants vers les
e
e
a
e
plus performants. Une valuation de cette procdure de gnralisation est propose. Dans
e
e
e e
e
ce cadre, nous comparons les performances de la gnralisation MC-MM avec deux autres
e e
procdures de gnralisation possibles. La premi`re adopte le mme principe propos
e
e e
e
e
e
sauf quelle proc`de de faon oppose, cest ` dire des mod`les les plus performants vers
e
c
e
a
e
les moins performants. La deuxi`me assigne les images requtes ` la classe considre
e
e
a
ee
par la majorit des mod`les slectionns. Dans ce qui suit, ces deux gnralisations sont
e
e
e
e
e e
e
indiques, respectivement, par gnralisation dcroissante et gnralisation max mod`les.
e
e e
e
e e
Le tableau 4.2 illustre ltude comparative des performances des direntes gnralisations
e
e
e e
tudies pour quatre sous-bases dimages COREL. Les meilleures et les pires performances
e
e
dans ce tableau sont aches en gras.
e
Dapr`s le tableau 4.2, on remarque que la procdure de gnralisation MC-MM est
e
e
e e
la plus performante parmi les trois procdures compares. Pour direntes sous-base COe
e
e
REL, MC-MM assure toujours des taux de classications prpondrants que les deux
e
e
autres procdures de gnralisation. Ceci est justi par la qualit ascendante de la
e
e e
e
e
gnralisation MC-MM. Les images requtes sont initialement classies selon le mod`le
e e
e
e
e
le moins performant et tout au long du processus de gnralisation MC-MM, la classie e
cation de ces images est ane davantage avec des mod`les plus pertinents. Do`, une
e
e
u
amlioration progressive de la classication des images ` travers les dirents niveaux
e
a
e
hirarchiques employs. La gnralisation dcroissante qui proc`de de faon oppose est
e
e
e e
e
e
c
e
la moins performante parmi les trois procdures values. Le principe mme de cette
e
e
e
e
84


4.3. EVALUATION ET COMPARAISON

Tab. 4.2 Evaluation de la gnralisation MC-MM. Etude comparative avec les deux
e e
e
e
procdures de gnralisation dcroissante et max mod`les pour direntes sous-bases COe
e e
e
REL.
Sous-bases
Performances de classication des trois
COREL
procdures de gnralisation
e
e e
dcroissante max mod`les MC-MM
e
e
3 classes
0.8248
0.9803
0.9879
5 classes
0.7555
0.8425
0.9750
7 classes
0.7512
0.7914
0.9123
10 classes
0.7096
0.7638
0.8371

gnralisation permet aux mod`les les moins performants de dgrader les rsultats de clase e
e
e
e
sication des images. En fait, lordre dutilisation des mod`les dans les deux procdures de
e
e
gnralisation MC-MM et dcroissante constitue une sorte de pondration de ces mod`les.
e e
e
e
e
Les premiers mod`les utiliss sont les moins inuents vu que la classication des images
e
e
avec ces mod`les risque dtre modie par les mod`les qui suivent. Par consquent, il est
e
e
e
e
e
vident que les mod`les les moins performants doivent tre employs en premiers lieu dans
e
e
e
e
une telle architecture. Ce qui explique la supriorit des taux de classications MC-MM
e
e
e
par rapport ` ceux de la gnralisation dcroissante. La gnralisation max mod`les assure
a
e e
e
e e
aussi des rsultats meilleurs que ceux de la gnralisation dcroissante, mais bien quelle
e
e e
e
soit parfois assez comptitive (sous-base COREL avec 3 classes par exemple), MC-MM
e
e
reste toujours la plus performante. De plus, la gnralisation max mod`les ne prend pas
e e
en compte les degrs de pertinence des dirents mod`les slectionns. Elle peut classier
e
e
e
e
e
ainsi les images requtes selon des mod`les moins performants.
e
e
Tab. 4.3 Matrice
avec 10 classes.
Cl. 0
Cl. 0
84
Cl. 1
0
Cl. 2
0
Cl. 3
0
Cl. 4
9
Cl. 5
8
Cl. 6
4
Cl. 7
8
Cl. 8
6
Cl. 9
0

de confusion de la classication MC-MM pour la sous-base COREL


Cl. 1
0
96
0
0
12
0
0
0
0
0

Cl. 2
0
0
100
0
0
0
0
0
0
0

Cl. 3
0
0
0
73
0
0
12
8
17
0

Cl. 4
0
0
0
0
71
0
0
0
0
0

Cl. 5
0
0
0
0
4
92
0
0
0
0

Cl. 6
8
0
0
0
0
0
72
0
4
0

Cl. 7
8
0
0
0
4
0
0
76
0
0

Cl. 8
0
0
0
27
0
0
12
8
73
0

Cl. 9
0
4
0
0
0
0
0
0
0
100

On prsente dans le tableau 4.3 la matrice de confusion obtenue suite ` la classication


e
a
2
MC-MM de la base COREL avec 10 classes . Les colonnes de cette matrice reprsentent
e
les classes estimes, tandis que les lignes reprsentent les classes relles (ou de rfrence).
e
e
e
ee
Ainsi, le pourcentage des images correctement classies est illustr par la diagonale de
e
e
cette matrice, ces valeurs sont achs en gras dans le tableau 4.3. En eet, un syst`me de
e
e
2. Les valeurs aches sont en pourcentage.
e

85


4.3. EVALUATION ET COMPARAISON
classication est dautant meilleur que sa matrice de confusion sapproche dune matrice
diagonale. Un des intrts de cette matrice est quelle montre rapidement si le syst`me
ee
e
parvient ` classier correctement. Dapr`s le tableau 4.3, on peut voir que la classication
a
e
est russie ` 100% pour les classes didentiants 2 et 9, correspondant respectivement
e
a
aux classes Dinosaurs et Cars 3 . Pour le reste des classes les taux de classication varient
entre 71% et 96%. Ce qui prouve lecacit de la classication MC-MM qui sav`re aussi
e
e
performante face ` la complexit du contenu de la base dimages htrog`ne COREL.
a
e
ee e
`
A titre indicatif, on prsente dans la gure 4.3 un exemple dimages-requtes de la
e
e
4
classe African peoples and villages , les images-candidates qui ont t correctement clasee
sies et celles mal classies.
e
e

a)

b)

Fig. 4.3 a) Les images correctement classies et b) celles mal classies de la classe
e
e
African peoples and villages pour la sous-base dimages COREL utilise (10 classes).
e
On constate que 18 images-requtes parmi 25 sont correctement classies (gure 4.3 (a))
e
e
et seulement 7 sont mal classies (gure 4.3 (b)). Nous tenons ` signaler que les cae
a
ractristiques slectionnes pour la base COREL avec 10 classes sav`rent pertinentes
e
e
e
e
pour la classication de 72% des images-requtes de la classe African peoples and villages.
e
Cependant, nous prcisons que la faiblesse de description des images mal classies est
e
e
due principalement au contenu mme de ces images. Dapr`s la gure 4.3, nous pouvons
e
e
bien remarqu quau contraire des images correctement classies, la plupart des images
e
e
mal classies contiennent une majorit de rgions communes avec dautres classes dans la
e
e
e
base. Ces rgions (dherbes ou de ciel) semblent tre caractrisantes pour certaines classes
e
e
e
autre que la classe African peoples and villages. Ceci explique bien les invitables erreurs
e
de reconnaissance prsentes, par exemple, par la classication errone de six parmi les
e
e
e
sept images illustr par la gure 4.3 (b) dans les classes Dinosaurs et Mountains and
e
glaciers, didentiants respectives 3 et 8 (tableaux 1.1 et 4.3).

4.3.3

Comparaison des rsultats MC-MM base SAC avec des


e
e
mthodes de classication connues
e

4.3.3.1

Mthode simultane classique


e
e

Le tableau 4.4 prsente les performances de classication de la mthode propose


e
e
e
pour direntes sous-bases COREL. Nous fournissons galement dans ce tableau les pere
e
3. Se rfrer au tableau 1.1 pour consulter les noms des direntes classes de la base COREL utilise.
ee
e
e
4. La classe African peoples and villages correspond ` lidentiant 6.
a

86


4.3. EVALUATION ET COMPARAISON
formances de classication de la mthode classique, dite aussi mthode simultane (Kae
e
e
chouri et al., 2008b). La mthode de classication classique utilise est base sur un mod`le
e
e
e
e
SVM unique o` lensemble des caractristiques extraites est employ simultanment. Les
u
e
e
e
meilleures performances sont aches en gras dans le tableau 4.4.
e

Tab. 4.4 Evaluation des deux mthodes de classication MC-MM et classique pour
e
direntes sous-bases dimages COREL.
e
Sous-bases COREL Performances de classication
Classique
MC-MM
3 classes
Pmoy
0.7222
0.9879
Rmoy
0.4933
0.9333
5 classes
Pmoy
0.7760
0.9750
Rmoy
0.3920
0.9120
7 classes
Pmoy
0.7711
0.9123
Rmoy
0.3771
0.8229
10 classes
Pmoy
0.7065
0.8371
Rmoy
0.3960
0.8160

Fig. 4.4 Comparaison des prcisions moyennes de MC-MM et de la mthode de classie


e
cation classique pour direntes sous-bases dimages COREL.
e
Dapr`s les rsultats prsents, il est clair que la classication MC-MM est beaucoup
e
e
e
e
plus performante. Cette valuation montre bien lapport de la slection adaptative des
e
e
mod`les pertinents ainsi que celui de lemploi hirarchique des mod`les slectionns ` trae
e
e
e
e a
vers la mthode MC-MM. Les prcisions moyennes des deux mthodes de classication
e
e
e
pour direntes sous-bases COREL sont prsentes dans la gure 4.4. La performance de
e
e
e
reconnaissance MC-MM dcro quand le nombre de classes augmente. On obtient par
e t
exemple des prcision moyennes de 0.9879 pour 3 classes et 0.8371 pour 10 classes. Ceci
e
est bien vident, en tenant compte de laccroissement de la complexit du contenu des
e
e
bases utilises en fonction du nombre de classes. Par ailleurs, on remarque bien que lutie
lisation hirarchique des mod`les SVMs ainsi que leur complmentarit avec les dcisions
e
e
e
e
e
du clasieur NCC aboutissent toujours ` des prcisions de classication suprieurs ` ceux
a
e
e
a
87


4.3. EVALUATION ET COMPARAISON
obtenus avec chaque mod`le utilis sparment (tableaux 4.4, 1.2 et 1.3). Par consquent,
e
e e e
e
lutilisation hirarchique des mod`les slectionns par le classieur MC-MM permet toue
e
e
e
jours damliorer la caractrisation des images et dassurer par la suite une meilleure
e
e
reconnaissance.
4.3.3.2

Approche des Multiple Instance Learning

Les mthodes connues par lacronyme anglais MIL (Multiple Instance Learning) pere
mettent dapprendre un concept ` partir dune srie densemble dexemples positifs et
a
e
ngatifs. Chaque ensemble peut contenir de nombreux cas, mais un ensemble est dsign
e
e
e
positif si au moins lun des exemples y contenu se situe dans le concept envisag. Un ene
semble est considr comme ngatif si tous ses exemples sont ngatifs. Lapproche MIL a
ee
e
e
t tr`s bien adapte aux contexte de la classication dimages. Dans ce cas, les ensembles
ee e
e
sont les images de la base considre et les exemples sont les direntes sous-rgions de
ee
e
e
ces images.
Nous comparons les performances de classication MC-MM avec celles de direntes
e
mthodes MIL prsentes dans la littrature, ` savoir les mthodes MILES 5 (Chen et al.,
e
e
e
a
e
2006), DD-SVM 6 (Chen and Wang, 2004), MI-SVM (Andrews et al., 2003), et K-meansSVM (Csurka et al., 2004a). La mthode K-means-SVM construit des groupes de rgions
e
e
dimages en utilisant lalgorithme K-means. Dans cette mthode, les SVMs sont construites
e
en utilisant comme attributs le nombre de rgions dsignant chaque classe. La mthode
e
e
e
DD-SVM entra dans lespace des attributs un classieur SVM construit ` partir dune
ne
a
projection dnie par les maximums et les minimums locaux de la fonction de Densit
e
e
Diverse (DD). Sachant que la fonction DD mesure les co-occurrences des rgions simie
laires dans les direntes images de mme classe (Maron and prez, 1998). La mthode
e
e
e
e
MILES a t propose comme une amlioration de DD-SVM, par lemploi dune slection
ee
e
e
e
enveloppante des attributs performants. Eectivement, les SVMs sont appliqus simule
tanment pour la slection ainsi que pour la construction du classieur dans la mthode
e
e
e
MILES. La mthode MI-SVM est base sur la slection des rgions considres comme poe
e
e
e
ee
sitives pour la classication des images. Elle utilise le mme ensemble dattributs rgions
e
e
que DD-SVM. Le noyau gaussien est utilis pour les SVMs dans toutes les mthodes
e
e
compares.
e
Tab. 4.5 Comparaison de la la prcision moyenne de classication de la mthode
e
e
MC-MM avec celles de direntes mthodes MIL de ltat de lart pour la sous-base COe
e
e
REL avec 10 classes.
Mthodes compares
e
e
Performances
MC-MM
83.7
MILES (Chen et al., 2006)
82.6
DD-SVM (Chen and Wang, 2004)
81.5
MI-SVM (Andrews et al., 2003)
74.7
K-means-SVM (Csurka et al., 2004a)
69.8
5. Une implmentation MatLab de la mthode MILES est disponible en ligne ` ladresse suivante:
e
e
a
http://www.cs.olemiss.edu/ychen/MILES.html.
6. Une implmentation MatLab de la mthode DD-SVM est disponible en ligne ` ladresse suivante:
e
e
a
http://www.cs.uno.edu/yixin/ddsvm.html.

88


4.3. EVALUATION ET COMPARAISON
Les performances de classication de ces mthodes pour la base COREL avec 10 classes
e
7
sont fournies dans le tableau 4.5 . La meilleure et la pire performances dans ce tableau
sont aches en gras. Cette analyse met en vidence la supriorit de la performance de
e
e
e
e
notre mthode par rapport ` celles des direntes mthodes compares. MC-MM foure
a
e
e
e
nit une prcision moyenne de classication de lordre de 83.7%. Par contre, la meilleure
e
performance obtenue, parmi toutes les autres mthodes values, est celle de la mthode
e
e
e
e
MILES qui aboutit seulement ` 82.6% comme prcision moyenne de classication.
a
e
4.3.3.3

Approche des sacs de mots-visuels

Une comparaison de MC-MM avec la mthode sac des descripteurs (Csurka et al.,
e
2004b), (Willamowski et al., 2004), (Zhang et al., 2007) dsigne souvent par lacronyme
e
e
BoF (Bag of Features) est aussi eectue. Lapproche BoF consiste ` valuer un jeu de
e
ae
descripteurs visuels locaux sur un ensemble de points dintrt extraits de limage. Elle
ee
permet ensuite de caractriser les statistiques de ces descripteurs locaux par le biais de leur
e
histogramme de valeurs quanties (gure 4.5). Ceci permet de caractriser globalement
e
e
le contenu de limage.

Fig. 4.5 Les dix histogrammes de mots-visuels qui reprsentent lensemble des classes
e
de la sous-base dimages COREL avec 10 classes. Chaque histogramme illustre le nombre
doccurrence des dirents mots-visuels extraits ` partir des images de la classe correse
a
pondante.
Une large valuation dans ltat de lart a bien prouv les performances de la mthode
e
e
e
e
sac des descripteurs pour la classication dimages par le contenu (Zhang et al., 2007).
Le processus de la mthode BoF 8 employe dans ce travail est constitu essentiellement
e
e
e
par trois tapes. La premi`re est la dtection et la description des points dintrt dans
e
e
e
ee
lensemble des images de la base via lutilisation du descripteur SIFT (Lowe, 2004). La
deuxi`me est le regroupement de tous les descripteurs extraits en direntes catgories ape
e
e
peles mots-visuels ` laide de lalgorithme k -means. Do`, il est galement possible dape
a
u
e
peler la mthode sac des descripteurs par sac de mots-visuels. Chaque catgorie trouve
e
e
e
reprsente une rgion typique des images. Lors de notre experimentation, le nombre toe
e
tale de mots-visuels extraits de la sous-base COREL avec 10 classes est autour de 11000
7. Les valeurs aches sont les prcisions moyennes de classication (en pourcentage).
e
e
8. Une implmentation MatLab de la mthode sac des descripteurs (Bag of Features) est disponible
e
e
en ligne ` ladresse suivante: http://www.vlfeat.org/ vedaldi/code/bag/bag.html.
a

89


4.3. EVALUATION ET COMPARAISON
mots-visuels. La gure 4.5 illustre les dix histogrammes de mots-visuels qui reprsentent
e
lensemble des direntes classes de la base dimages COREL utilise. Les images peuvent
e
e
tre alors dcrites dans une troisi`me tape comme un sac de mots-visuels. Les occurrences
e
e
e e
de chaque mot-visuel dans une image reprsente la caractristique de cette image.
e
e
Nous achons dans la gure 4.6 (a) les caractristiques histogramme de mots-visuels
e
de toutes les images de la sous-base COREL utilise. Une valuation de la robustesse de
e
e
description de ces caractristiques est fournie dans la gure 4.6 (b). Cette gure illustre
e
la distribution de distances par paires dimages qui prsente lorganisation des distances
e
entre les histogrammes de mots-visuels des direntes images dans la base. Le pouvoir
e
discriminant de ces caractristiques sav`re assez performant pour caractriser une forte
e
e
e
similarit entre chaque image et elle-mme (voir la diagonale de la matrice de distance
e
e
illustre par la gure 4.6 (b)). Le degr de similarit entre les images appartenant ` une
e
e
e
a
mme classe est beaucoup moins signicatif.
e

a)

b)

Fig. 4.6 a) Sac de mots-visuels qui reprsente lensemble des images appartenant aux
e
10 classes de la sous-base COREL utilise, b) Distances entre les caractristiques histoe
e
grammes de mots-visuels des direntes paires dimages de la sous-bases COREL utilise
e
e
(10 classes).
En utilisant cette description dimages base sur les sacs de mots-visuels, on obtient
e
une prcision moyenne de classication de lordre de 74.0% avec la mthode BoF pour la
e
e
sous-base COREL avec 10 classes. Par consquent, en se basant sur la slection adaptative
e
e
des caractristiques globales les plus pertinentes, la mthode de classication MC-MM proe
e
pose dans ce chapitre est beaucoup plus performante (prcision moyenne de classication
e
e
de lordre de 83.7% pour la mme base).
e
Pour une meilleure illustration de la comparaison MC-MM et BoF, nous prsentons
e
dans la gure 4.7 les graphes des matrices de confusions correspondantes ` ces deux
a
mthodes. Il est clair dapr`s le graphe situ dans la partie gauche 9 de cette gure que
e
e
e
la mthode de classication MC-MM est aussi performante pour toute les classes de la
e
sous-base dimages COREL avec 10 classes. Alors que le graphe situ dans la partie droite
e
de la mme gure, dcrivant la matrice de confusion de la mthode BoF, montre que
e
e
e
cette mthode ne permet pas dassurer des taux de classication homog`nes pour les
e
e
direntes classes de la sous-base. En eet, bien quelle se montre assez comptitive pour
e
e
9. La matrice de confusion correspondante au graphe situ dans la partie gauche de la gure 4.7 est
e
fournie dans le tableau 4.3.

90


4.3. EVALUATION ET COMPARAISON

Fig. 4.7 Graphes des deux matrices de confusion respectives de MC-MM (` gauche) et
a
BoF (` droite) pour la sous-base dimages COREL avec 10 classes.
a

la classication des images appartenant aux sept premi`res classes de la sous-base COe
REL utilises, la mthode BoF fournit des taux de classication nettement dgrads pour
e
e
e
e
les trois classes didentiants 7, 8 et 9. Ceci est vident vu que les images htrog`nes
e
ee e
appartenant smantiquement au mme concept ne prsentent pas forcment une majorit
e
e
e
e
e
de points dintrt communs. On ache dans la gure 4.8 les courbes prcision-rappel de
ee
e
MC-MM et BoF pour la mme sous-base dimages COREL (10-classes).
e

Fig. 4.8 Courbes prcision-rappel de MC-MM et BoF pour la sous-base dimages COREL
e
avec 10 classes.
La gure 4.8 montre que la courbe prcision-rappel de la mthode MC-MM est meilleure
e
e
que celle de la mthode BoF. Les prcisions de MC-MM sont toujours suprieures pour
e
e
e
toutes les valeurs de rappel. On cite par exemple que pour un rappel de 100%, la prcision
e
de la mthode MC-MM est de lordre de 80%, alors que celle de BoF est de lordre de
e
67%.
91


4.3. EVALUATION ET COMPARAISON
4.3.3.4

Approche dapprentissage par noyaux multiples

Nous avons galement ralis une comparaison des performances de la mthode MC-MM
e
e e
e
avec lapproche dapprentissage par noyaux multiples (MKL). Dans ce contexte, MC-MM
est compare avec lalgorithme SimpleMKL 10 (Rakotomamonjy et al., 2008). Une valuation
e
e
des deux mthodes est eectue pour neuf sous-bases dimages avec dirents nombres
e
e
e
de classes (3, 5, 7, 10, 13, 15, 17, 20 et 23) tires des deux bases standards COREL et
e
CALTECH-256. Plus de dtails concernant ces deux bases dimages sont fournis dans le
e
chapitre 1.

Tab. 4.6 Etude comparative des deux mthodes MC-MM et SimpleMKL pour direntes
e
e
sous-bases dimages COREL et CALTECH-256.
Sous-bases
COREL
CALTECH-256
SimpleMKL MC-MM SimpleMKL MC-MM
3 classes
0.9753
0.9879
0.9467
0.9487
5 classes
0.9028
0.9750
0.8596
0.8648
7 classes
0.8640
0.9123
0.6600
0.7370
10 classes
0.8118
0.8371
0.6557
0.6934
13 classes
0.6750
0.7380
0.6423
0.6743
15 classes
0.6258
0.7007
0.5605
0.6360
17 classes
0.5974
0.6629
0.5360
0.6018
20 classes
0.5573
0.5906
0.4367
0.5525
23 classes
0.5157
0.5590
0.3773
0.5392
Le tableau 4.6 illustre les performances des deux mthodes compares pour les direne
e
e
tes sous-bases dimages employes. Les meilleures performances dans ce tableau sont afe
ches en gras. Dapr`s les rsultats prsents, nous prouvons que la mthode de clase
e
e
e
e
e
sication MC-MM propose est toujours plus performante que SimpleMKL pour toutes
e
les sous-bases dimages COREL et CALTECH-256 utilises. Les courbes de prcisions
e
e
moyennes correspondantes sont prsentes dans les gures 4.9 (a) et (b).
e
e
Pour les direntes sous-bases COREL utilises, les courbes prcision-rappel de MC-MM
e
e
e
et SimpleMKL sont illustres respectivement dans les gures 4.10 (a) et (b). Bien quelles
e
aient presque les mmes allures pour les sous-bases avec 3, 5, 7 et 10 classes, les courbes
e
de prcision-rappel de MC-MM pour ces sous-bases restent meilleures que celles de Sime
pleMKL. Pour les sous-bases restantes qui correspondent ` 13, 15, 17, 20 et 23 classes,
a
nous pouvons remarquer que la classication MC-MM est nettement plus pertinente que
SimpleMKL.
Dune mani`re similaire, les gures 4.11(a) et (b) illustrent respectivement les courbes
e
prcision-rappel de MC-MM et SimpleMKL pour direntes sous-bases dimages CALe
e
TECH-256. Il est clair que la qualit de classication des deux mthodes se dgrade
e
e
e
proportionnellement par rapport au cas des sous-bases COREL. Ceci est principalement
d ` la variation de la complexit du contenu des deux bases. Cependant, MC-MM est
ua
e
toujours plus performante que SimpleMKL pour toutes les sous-bases CALTECH-256
employes.
e
10. Lalgorithme SimpleMKL est dj` prsent dans le chapitre 3.
ea e
e

92


4.3. EVALUATION ET COMPARAISON

a)

b)

Fig. 4.9 Comparaison des prcisions moyennes de MC-MM et SimpleMKL pour


e
direntes sous-bases dimages a) COREL et b) CALTECH-256.
e

a)

b)

Fig. 4.10 Courbes prcision-rappel de a) MC-MM et b) SimpleMKL pour direntes


e
e
sous-bases dimages COREL.

a)

b)

Fig. 4.11 Courbes prcision-rappel de a) MC-MM et b) SimpleMKL pour direntes


e
e
sous-bases dimages CALTECH-256.
93


4.3. EVALUATION ET COMPARAISON

Images malclassifies avec


MCMM

25 images requtes de la
classe Sunset scenes de la base
COREL
Images malclassifies avec
SimpleMKL

Fig. 4.12 Les images requtes de la classe Sunset scenes de la base COREL (` gauche) et
e
a
les images mal-classies (` droite) avec respectivement MC-MM et SimpleMKL. Toutes
e
a
les images requtes restantes (non illustres ` droite) sont correctement classies ` trae
e a
e a
vers chaque mthode.
e

Images malclassifies avec


MCMM

25 images requtes de la
classe Chimp de la base
CALTECH256

Images malclassifies avec


SimpleMKL

Fig. 4.13 Les images requtes de la classe Chimp de la base CALTECH-256 (` gauche) et
e
a
les images mal-classies (` droite) avec respectivement MC-MM et SimpleMKL. Toutes
e
a
les images requtes restantes (non illustres ` droite) sont correctement classies ` trae
e a
e a
vers chaque mthode.
e
Deux exemples dimages requtes mal-classies et correctement classies avec les
e
e
e
deux mthodes MC-MM et SimpleMKL sont prsents dans les gures 4.12 et 4.13. Pour
e
e
e
chaque gure, les 25 images requtes utilises sont aches ` gauche. Les images illustres
e
e
e a
e
a
` droite sont les images mal-classies respectivement avec MC-MM et SimpleMKL. Dans
e
chaque cas, toutes les images restantes, parmi les 25 requtes de dpart, sont correctement
e
e
94


4.3. EVALUATION ET COMPARAISON
classies ` travers la mthode correspondante. La gure 4.12 montre que SimpleMKL
e a
e
narrive pas ` classier correctement 16 images ` partir des 25 requtes de la classe Sunset
a
a
e
scenes de la base COREL (23 classes). Cependant, les images mal-classies de la mme
e
e
classe avec MC-MM sont uniquement 9. De la mme faon, la gure 4.13 montre que les
e
c
images mal-classies de la classe Chimp de la base CALTECH-256 sont respectivement
e
8 et 13 ` travers les deux mthodes MC-MM et SimpleMKL.
a
e
Tab. 4.7 Comparaison des temps dapprentissage (en Minutes) de MC-MM et
SimpleMKL pour direntes sous-bases COREL et CALTECH-256.
e
Sous-bases
COREL
CALTECH-256
SimpleMKL MC-MM SimpleMKL MC-MM
3 classes
2.7084
0.1985
0.4350
0.2819
5 classes
7.7222
0.7825
0.7891
0.7276
7 classes
28.4550
1.6156
1.1431
1.7754
10 classes
37.8110
3.7262
5.0934
4.0073
13 classes
11.5164
8.8968
16.1382
8.1480
15 classes
26.1216
12.1298
125.4888
11.7506
17 classes
22.7951
15.1858
487.9302
15.8950
20 classes
37.1055
22.7309
612.0108
24.2861
23 classes
47.8590
31.5707
828.9810
32.5798
Par ailleurs, la mthode MC-MM est aussi plus ecace que SimpleMKL en terme de
e
temps dexcution. Le tableau 4.7 illustre les temps de calcul correspondants des apprene
tissages MC-MM et SimpleMKL pour les direntes sous-bases COREL et CALTECH-256
e
utilises. Les meilleures performances sont aches en gras dans ce tableau. On constate
e
e
que le processus dapprentissage MC-MM est beaucoup plus rapide que celui de SimpleMKL. De plus, pour les deux bases dimages COREL et CALTECH-256, le temps
dapprentissage MC-MM est linairement proportionnel aux nombres dimages dans la
e
base dapprentissage. En eet, le temps dapprentissage MC-MM est autour de 0.2 mn
dans le cas des sous-bases avec 3 classes et autour de 32 mn dans le cas des sous-bases
avec 23 classes. Cependant, le temps dapprentissage SimpleMKL est alatoire. En fait
e
pour la mme base COREL, le temps de calcul ncessaire pour lapprentissage de la souse
e
base avec 10 classes est plus lev que celui ncessaire pour lapprentissage de la sous-base
e e
e
avec 17 classes. Dans le mme contexte, SimpleMKL assure lapprentissage de la sous-base
e
CALTECH-256 avec 15 classes pendant 125.4888 mn. Par contre, il ncessite 26.1216 mn
e
seulement pour lapprentissage de la sous-base COREL avec 15 classes. En outre, SimpleMKL est base sur un programme doptimisation pour dterminer les poids de chaque
e
e
noyaux. Par consquent, il soure gnralement dun temps de calcul important pour
e
e e
converger vers des coecients optimaux. Ainsi, vu la complexit du traitement et de la
e
classication des images dans les bases htrog`nes, il est gnralement dicile de dnir
ee e
e e
e
des contraintes adaptes permettant de dterminer les dirents poids de chaque noyau.
e
e
e
Eectivement, il sav`re que, pour les sous-bases CALTECH-256 avec 15, 17, 20 et 23
e
classes, SimpleMKL ncessite un grand nombre ditrations pour converger vers des solue
e
tions raisonnables. Il a besoin, par exemple, de plus de treize heures pour lapprentissage
de la sous-base CALTECH-256 avec 23 classes.

95

4.4. CONCLUSION

4.4

Conclusion

Une nouvelle Mthode de Classication hirarchique Multi-Mod`les, intitule MC-MM,


e
e
e
e
est prsente dans ce chapitre. Cette mthode est essentiellement destine pour les syst`mes
e
e
e
e
e
de reconnaissance dimages par le contenu dans les bases htrog`nes. MC-MM consid`re
ee e
e
particuli`rement les mod`les correspondants aux caractristiques slectionnes par la
e
e
e
e
e
mthode de slection adaptative SAC, prsente dans le chapitre 2. Ces mod`les sont eme
e
e
e
e
ploys hirarchiquement selon lordre de leurs performances dapprentissage dune faon
e
e
c
automatique et sans aucune rtroaction de lutilisateur ou bouclage de pertinence. Pour
e
toute image requte, le rsultat de classication est an progressivement tout au long
e
e
e
des niveaux hirarchiques de la mthode MC-MM. Des rsultats de classication similaires
e
e
e
apportent une conrmation de dcision des niveaux conscutifs. Par contre, lambigu e
e
e
t
de tout conit de dcision est leve grce ` lutilisation du clasieur NCC.
e
e
a a
Une large valuation de la mthode de classication MC-MM est assure grce aux exe
e
e
a
perimentations eectues pour les deux bases dimages de rfrence COREL et CALTECHe
ee
256. En comparaison avec des mthodes existantes dans la littrature, MC-MM prsente
e
e
e
de tr`s bonnes performances de classication et gn`re des rsultats meilleurs pour la
e
e e
e
classication de 23 classes thmatiques.
e

96

Conclusion gnrale et perspectives


e e
Dans ce travail de th`se, nous nous sommes intresss ` la reconnaissance dimages
e
e
e a
par le contenu dans les bases htrog`nes. Nous avons tout dabord tudi de mani`re
ee e
e
e
e
approfondie les lments fondamentaux des syst`mes CBIR, en rservant une attention
ee
e
e
particuli`re aux spcicits des bases dimages htrog`nes. La description des images,
e
e
e
ee e
appartenant ` ces bases, par des caractristiques multiples est principalement prise en
a
e
compte. Ainsi, une varit de caractristiques bas niveaux de dirents types a t utilise.
ee
e
e
ee
e
Pour amliorer les performances de ces caractristiques, quelques optimisations ont t
e
e
ee
apportes. Nous avons prouv, ` laide dune large valuation pour des bases de rfrence,
e
e a
e
ee
que le pouvoir discriminant de chaque caractristique nest gu`re absolu et que les perfore
e
mances de classication des direntes caractristiques dpendent fortement du contenu
e
e
e
de la base dimages considre.
ee
En se basant sur cette tude, nous avons dcid de nous placer dans le contexte de
e
e e
classication supervise. Ceci permet dassurer le contrle des caractristiques employes
e
o
e
e
a
` travers la phase dapprentissage associe. Dans ce travail, les classieurs SVMs ont t
e
ee
choisis pour leur ecacit assez prouve. Cependant, nous nous sommes xs principalee
e
e
e
ment quatre crit`res que doit satisfaire lapproche de reconnaissance dimages htrog`nes
e
ee e
dveloppe. Ces crit`res sont les suivantes:
e
e
e
Les caractristiques retenues doivent tre bien adaptes au contenu de la base
e
e
e
dimages considre.
ee
Ltape de reconnaissance doit tre totalement automatique et ninclure aucune
e
e
rtroaction ou bouclage de pertinence.
e
La mthode de classication doit assurer une meilleure souplesse dans la combinaison
e
des caractristiques htrog`nes.
e
ee e
Le temps de rponse de la mthode doit tre fortement rduit.
e
e
e
e
La nouvelle approche de reconnaissance dimages htrog`nes par le contenu, prsente
ee e
e
e
dans ce travail de th`se, satisfait lensemble de ces crit`res. Elle permet de slectionner
e
e
e
un sous-ensemble des caractristiques les plus pertinentes pour une base dimages donne.
e
e
Pendant la phase de gnralisation, ces caractristiques sont exploites individuellement
e e
e
e
dune faon hirarchique et assez complmentaire. Les rsultats de la classication c
e
e
e
nale des images ne se basent sur aucune rtroaction de lutilisateur ou bouclage de pere
tinence. Dans ce cadre, deux originalits ont t proposes, ` savoir une mthode de
e
ee
e
a
e
Slection Adaptative des Caractristiques les plus pertinentes, que lon a appele SAC et
e
e
e
une Mthode de Classication hirarchique Multi-Mod`les, intitule MC-MM.
e
e
e
e
En se basant sur le pouvoir discriminant de chaque caractristique par rapport ` une
e
a
base base dimages donne, une mthode originale et ecace pour la slection adaptae
e
e
tive des caractristiques est dveloppe. Suite ` un apprentissage multiples bas sur lene
e
e
a
e
semble des caractristiques htrog`nes, la mthode de slection SAC dtermine un souse
ee e
e
e
e
ensemble des caractristiques les plus pertinentes. Les caractristiques sont slectionnes
e
e
e
e


CONCLUSION GENERALE ET PERSPECTIVES
en se basant sur une discrimination Fisher de leurs taux dapprentissage individuels. Cette
slection est totalement adapte ` la base dimages, les caractristiques et le classieur
e
e a
e
utiliss. Do`, elle permet damliorer considrablement les performances de description.
e
u
e
e
Les mthodes dapprentissage par noyaux multiples, dsignes par MKL, ont t ape
e
e
ee
pliques avec sucs ` la reconnaissance dimages. Cependant, elles sourent gnralement
e
e a
e e
dun temps de calcul tr`s important. Dans ce contexte, nous avons propos une noue
e
velle mthode de pondration (KW-BTR) destine pour la classication SVM ` noyaux
e
e
e
a
multiples (MK SVM). En se basant sur le degr de pertinence de chaque noyau, la noue
velle pondration permet de mieux considrer les noyaux les plus pertinents. Outre que
e
e
lamlioration des rsultats de classication prouve par les exprimentations ralises,
e
e
e
e
e e
e
e
e
MK SVM base KW-BTR assure signicativement des temps dexcution infrieurs aux
algorithmes MKL existants. Par ailleurs, face aux limites des mthodes MKL ` travers
e
a
la combinaison linaire des caractristiques htrog`nes, nous avons propos la mthode de
e
e
ee e
e
e
classication MC-MM. Avec cette classication, uniquement les mod`les des caractristiques
e
e
slectionnes via la mthode SAC sont considrs. Ces mod`les sont employs hirarchiquee
e
e
ee
e
e e
ment suivant un ordre retant les performances dapprentissage des caractristiques core
e
respondantes. Pour toute image requte le rsultat de classication est an progressivee
e
e
ment tout au long des dirents niveaux hirarchiques de la mthode. Lordre dutilisation
e
e
e
des caractristiques peut tre ajust selon une complmen-tarit de dcision entre chaque
e
e
e
e
e
e
deux niveaux conscutifs.
e
Pour valuer lapproche de reconnaissance propose, une large tude exprimentale
e
e
e
e
de la mthode de slection SAC ainsi que de la classication MC-MM est eectue pour
e
e
e
des base dimages de rfrence. Une tude comparative avec un ensemble de mthodes
ee
e
e
existantes dans la littrature est galement ralise. Cette tude a montr une tr`s bonne
e
e
e e
e
e
e
abilit de notre approche. Eectivement, MC-MM base SAC permet daboutir ` des
e
e
a
rsultats de reconnaissance tr`s ecaces. De plus, elle est beaucoup plus performante que
e
e
les mthodes compares. En terme de temps dexcution, notre approche prsente un tr`s
e
e
e
e
e
bon compromis entre la prcision et la rapidit. Elle permet par exemple dobtenir, pour
e
e
direntes sous-bases CALTECH-256, des facteurs dacclration allant de 1.5 jusqu` 25
e
ee
a
par rapport ` lalgorithme SimpleMKL tout en assurant des prcisions meilleures.
a
e
Il convient ` noter que MC-MM ne peut pas tre employe avec des syst`mes monoa
e
e
e
mod`le bass sur la description dune caractristique unique. Ceci est d essentiellement
e
e
e
u
a
` lhypoth`se principale de la mthode (classication multi-mod`les). En ralit, MC-MM
e
e
e
e e
est destine aux syst`mes bass sur une large description construite par un ensemble de
e
e
e
caractristiques multiples.
e
Les perspectives que nous envisageons dans le prolongement de ce travail de th`se
e
sarticulent autour des points suivants.
Description des images:
Dans ce travail, nous avons pris en compte les proprits visuelles de bas niveau
ee
pour la description des images. Comme nous lavons dj` voqu, le contenu assez
eae
e
complexe des images dans les bases htrog`nes engendre souvent des structures
ee e
dissemblables pour des images du mme concept. Comme perspective, nous poue
vons intgrer de nouvelles caractristiques an denrichir davantage la description
e
e
des images. La conception dune nouvelle caractristique assurant une description
e
adapte aux contenu des images htrog`nes pourrait tre aussi envisageable. Ceci
e
ee e
e

99


CONCLUSION GENERALE ET PERSPECTIVES
permet damliorer encore les performances de la classication et de la reconnaise
sance.
Par ailleurs, pour enrichir davantage cette description bas niveau dans les bases
htro-g`nes, nous pensons ` une stratgie ` double niveaux de caractrisation des
ee
e
a
e
a
e
images. Ainsi, on peut amliorer les performances du syst`me de reconnaissance proe
e

pos en utilisant une deuxi`me description daspect smantique. Egalement, lutilie


e
e
sation dune combinaison de descriptions locales et globales peut tre envisage.
e
e

Evaluation des caractristiques:


e
Dans lapproche propose, le pouvoir discriminant constituant le crit`re dvaluation
e
e
e
des direntes caractristiques employes est calcul ` travers le processus dape
e
e
e a
prentissage. En eet, la slection adaptative propose ainsi que lhirarchie du clase
e
e
sieur MC-MM dpendent essentiellement des taux dapprentissage de chaque cae
ractristique. Nous pensons que les performances calcules pour les direntes cae
e
e
ractristiques re`tent certainement une prcision de la qualit de description de ces
e
e
e
e
caractristiques, mais elles comprennent aussi un certain eet du classieur utilis.
e
e
Lide est alors de reconsidrer lvaluation des caractristiques tout en rduisant la
e
e
e
e
e
spcicit du classieur voire mme en lliminant. Une solution pour rduire lime
e
e
e
e
pact du classieur consiste ` eectuer plusieurs apprentissage pour lvaluation de
a
e
chaque caractristique. Dirents classieurs seront employs pour lapprentissage
e
e
e
(lvaluation). Le pouvoir discriminant de chaque caractristique sera la moyenne
e
e
de lensemble des direntes performances dapprentissage calcules. Toutefois, la
e
e
dtermination dune nouvelle mthode permettant de mesurer la qualit de la dese
e
e
cription des direntes caractristiques indpendamment des mthodes de classie
e
e
e
cation reste une piste ` explorer.
a
Passage ` lchelle:
a e
Les exprimentations eectues dans ce travail ont montr lecacit de notre ape
e
e
e
proche de reconnaissance dimages htrog`nes par le contenu. Cependant faute de
ee e
ressources mmoire, ces exprimentation ont t ralises sur des bases dimages
e
e
ee e e
de taille relativement modeste (jusqu` 2300 images) comparativement aux bases
a
relles dont le nombre dimages se chire ` plusieurs millions. Nous envisageons,
e
a
par consquent, dtendre ces exprimentations ` des bases dimages de plus grande
e
e
e
a
taille. Dans un tel contexte, de nouveaux probl`mes en termes de reconnaissance et
e
de temps dexcution risquent dappara
e
tre.

100

Liste des publications


Articles dans des revues internationales avec comits de lecture (2)
e
- Rostom Kachouri, Khalifa Djemal et Hichem Maaref, Multi-Model Classication Method in Heterogeneous Image Databases, Pattern Recognition 43 (2010) pp. 40774088.
- Rostom Kachouri, Khalifa Djemal et Hichem Maaref, Multiple Kernel based SVM
for heterogeneous image recognition system, En cours de rvision au journal international
e
Signal and Imaging Systems Engineering, INDERSCIENCE ENTERPRISES.

Article dans des revues nationales avec comits de lecture (1)


e
- Rostom Kachouri, Khalifa Djemal et Hichem Maaref, Slection adaptative de cae
ractristiques pertinentes et classication hirarchique multi-mod`les pour la reconnaise
e
e
sance dimages dans les bases htrog`nes, En cours de rvision ` la revue scientique
ee e
e
a
francophone TRAITEMENT DU SIGNAL.

Chapitre de livre (1)


- Khalifa Djemal, Hichem Maaref et Rostom Kachouri (2009). Image Retrieval System
in Heterogeneous Database, AUTOMATION CONTROL-Theory and Practice, A D Rodic
(Ed.), ISBN: 978-953-307-039-1, INTECH, disponible ` ladresse suivante: http://sciyo.com/
a
articles/show/title/image-retrieval-system-in-heterogeneous-database.

Communications internationales avec actes (7)


- Rostom Kachouri, Khalifa Djemal et Hichem Maaref, Adaptive Feature Selection
for Heterogeneous Image Databases, dans le Proceedings du Second IEEE International
Conference on Image Processing Theory, Tools & Applications, IPTA10, 07-10 July 2010,
Paris, France .
- Rostom Kachouri, Khalifa Djemal, Hichem Maaref, Dorra Sellami Masmoudi et Nabil Derbel, Feature extraction and relevance evaluation for heterogeneous image database
recognition, dans le Proceedings du First IEEE International Workshops on Image Processing Theory, Tools & Applications, IPTA08, 24-26 November, 2008, Sousse, Tunisia.

LISTE DES PUBLICATIONS


- Rostom Kachouri, Khalifa Djemal, Dorra Sellami Masmoudi et Nabil Derbel, Content
based Image Recognition based on QUIP-tree Model , dans le Proceedings du Fifthh IEEE
International Multi-Conference on Systems, Signals & Devices, SSDO8, 20-23 July 2008,
Amman, Jordan.
- Rostom Kachouri, Khalifa Djemal, Hichem Maaref, Dorra Sellami Masmoudi et Nabil Derbel, Heterogeneous image retrieval system based on features extraction and SVM
classier , dans le Proceedings du Fifthh IEEE International Conference on Informatics
in Control, Automation and Robotics, ICINCO08, 11-15 May 2008, Funchal, Madeira,
Portugal.
- Rostom Kachouri, Khalifa Djemal, Hichem Maaref, Dorra Sellami Masmoudi et Nabil Derbel, Content description and classication for Image recognition system, dans le
Proceedings du Third IEEE International Conference on Information and Communication
Technologies: from theory to applications, ICTTA08, 07-11 April 2008, Damascus, Syria.
- Rostom Kachouri, Khalifa Djemal, Dorra Sellami Masmoudi, Hichem Maaref et Nabil Derbel, On the heterogeneous image retrieval with QUIP-tree, dans le Proceedings
du Fourth IEEE International Multi-Conference on Systems, Signals & Devices, SSD07,
19-22 March 2007, Hammamet, Tunisia.
- Im`ne Cheikhrouhou, Rostom Kachouri, Khalifa Djemal, Dorra Sellami Masmoudi,
e
Emna Daoud, Zeineb Mnif, Hichem Maaref et Nabil Derbel, MLP Neural Network Classier for breast cancer diagnostic, dans le Proceedings du Fourth IEEE International
Multi-Conference on Systems, Signals & Devices, SSD07, 19-22 March 2007, Hammamet, Tunisia.

103

Bibliographie

Addison, J. and Macintyre, J. (2003). Intelligent techniques: A review. Springer Verlag.


Aly, M., Welinder, P., Munich, M., and Perona, P. (2009). Automatic discovery of image
families: Global vs. local features. In International Conference on Image Processing
ICIP09.
Anderberg, M. (1973). Cluster Analysis for Applications (Probability & Mathematical
Statistics Monograph). 0120576503. Academic Press Inc., New York.
Andrews, S., Tsochantaridis, I., and Hofmann, T. (2003). Support vector machines for
multiple-instance learning. In Advances in Neural Information Processing Systems,
pages 561568.
Androutsos, P., Kushki, A., Plataniotis, K., and Venetsanopoulos, A. (2005). Aggregation of color and shape features for hybrid query generation in content based visual
information retrieval. In Signal Processing, volume 7, pages 385393.
Bach, F., Lanckriet, G., and Jordan, M. (2004). Multiple kernel learning, conic duality,
and the smo algorithm. In Brodley, C., editor, Twenty-rst International Conference
on Machine learning, ACM.
Bach, J., Fuller, C., Gupta, A., Hampapur, A., Horowitz, B., Humphrey, R., Jain, R.,
and Shu, C. (1996). The Virage image search engine : an open framework for image
management. Number 2670. Storage and Retrieval for Image and Video Databases.
Ben-Ismail, M., Frigui, H., and Caudill, J. (2008). Empirical comparison of automatic
image annotation systems. In First International Workshops on Image Processing
Theory, Tools & Applications IPTA08.
Berry, M. (2003). Survey of Text Mining: Clustering, Classication, and Retrieval.
0387955631. Springer-Verlag, New York.
Bi, J., Bennett, K., Embrechts, M., Breneman, C., and Song, M. (2003). Dimensionality
reduction via sparse support vector machines. Journal of Machine Learning Research,
3:12291243.
Biederman, I. (1982). Do background depth gradients facilitate object identication?
Perception, 10:573578.

Bimbo, A. (2001). Visual information retrieval. Morgan Kaufmann Publishers, San Francisco, USA.
Bimbo, A. and Vicario, E. (1998). Using weighted spatial relationships in retrieval by
visual contents. In IEEE Workshop on Image and Video Libraries.
Boujemaa, N., Fauqueur, J., Ferecatu, M., Fleuret, F., Gouet, V., Saux, B., and Sahbi,
H. (2001). Ikona : Interactive generic and specic image retrieval. In International
Workshop on Multimedia Content-Based Indexing and Retrieval MMCBIR01.
Brunelli, R. and Mich, O. (2000). Compass : an image retrieval system for distributed
databases. In IEEE International Conference on Multimedia and Expo ICME00.
Cao, L., Luo, J., Liang, F., and Huang, T. (2009). Heterogeneous feature machines for
visual recognition. In IEEE International Conference on Computer Vision ICCV09.
Carson, C., Thomas, M., Belongie, S., Hellerstein, J., and Malik, J. (1999). Blobworld :
A system for region-based image indexing and retrieval. In International Conference
on Visual Information System VIS99.
Cheikhrouhou, I., Djemal, K., Masmoudi, D., Maaref, H., and Derbel, N. (2009). Empirical descriptors evaluation for mass malignity recognition. In The First International Workshop on Medical Image Analysis and Description for Diagnosis Systems
MIAD09.
Chen, V. and Ruan, S. (2010). Graph cut based segmentation of brain tumor from mri
images. International Journal on Sciences and Techniques of Automatic control &
computer engineering, to appear.
Chen, Y., Bi, J., and Wang, J. (2006). Miles: Multiple-instance learning via embedded
instance selection. IEEE Transactions on Pattern Analysis and Machine Intelligence,
28(12):19311947.
Chen, Y. and Wang, J. (2004). Image categorization by learning and reasoning with
regions. Journal of Machine Learning Research, 5:913939.
Csurka, G., Bray, C., Dance, C., and Fan, L. (2004a). Visual categorization with bags
of keypoints. In Proceedings Workshop Statistical Learning in Computer Vision
ECCV04, pages 5974.
Csurka, G., Dance, C., Fan, L., Willamowski, J., and Bray, C. (2004b). Visual categorization with bags of keypoints. In ECCV Workshop on Statistical Learning in Computer
Vision.
Datta, R., Joshi, D., Li, J., and Wang, J. (2008). Image retrieval: Ideas, inuences, and
trends of the new age. ACM Computing Surveys, 2(40).
Delingette, H. and Montagnat, J. (2001). Shape and topology constraints on parametric
active contours. Computer Vision and Image Understanding, 83(2):140171.
Dengsheng, Z. and Guojun, L. (2003). Evaluation of similarity measurement for image
retrieval. Neural Networks and Signal Processing, 2:928931.
Duan, K., Sathiya, S., and Poo, A. (2003). Evaluation of simple performance measures
for tuning the svm hyperparameters. Neurocomputing, 51:4159.
Ester, M., Kriegel, H., Sander, J., and Xu, X. (1996). A density-based algorithm for
discovering clusters in large spatial databases with noise. In Han, J., editor, Second
International Conference on Knowledge Discovery and Data Mining.
Faloutsos, C., Equitz, W., Flickner, M., Niblack, W., Petkovic, D., and Barber, R. (1994).
Ecient and eective querying by image content. Journal of Intelligent Information
Systems, 3(4):231262.

Fei-Fei, L., Fergus, R., and Perona, P. (2006). One-shot learning of object categories.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 28:594611.
Fisher, R. (1936). The use of multiple measurements in taxonomic problems. Annals of
Eugenics, 7:179188.
Flickner, M., Sawhney, H., Niblack, W., Ashley, J., Huang, Q., Dom, B., Gorkani, M.,
Hafner, J., Lee, D., Petkovic, D., Steele, D., and Yanker, P. (1995). Query by image
and video content : the qbic system. IEEE Computer, 28(9):2332.
Freeman, J. and Skapura, D. (1991). Neural networks algorithms, applications, and programming techniques. Reading, MA: Addison-Wesley.
Friedman, J. (1997). Another approach to polychotomous classication. Technical report,
Department of Statistics, Stanford University.
Fukunaga, K. (1972). Introduction to Statistical Pattern Recognition. 0122698509. USSR,
Russian, Nauka, Moscow.
Fukunaga, K. (1990). Introduction to Statistical Pattern Recognition. second ed. Academic
Press.
Gehler, P. and Nowozin, S. (2009). On feature combination for multiclass object classication. In Twelfth IEEE International Conference on Computer Vision, pages
18.
Gevers, T. and Smeulders, A. (1999). The pictoseek www image search system. In
International Conference on Mathematics and Computer Science, volume 1, pages
264269.
Gevers, T. and Smeulders, A. (2004). Content-based image retrieval: An overview. In
Medioni, G. and Kang, S., editors, Emerging Topics in Computer Vision, Prentice
Hall.
Glasho, K. and Gustafson, S. (1983). Linear optimization and approximation. SpringerVerlag.
Goldberg, D. (1991). Algorithmes Gntiques. Addison-Wesley.
e e
Gouet, V. and Boujemaa, N. (2001). Object-based queries using color points of interest. In
IEEE Workshop on Content-Based Access of Image and Video Libraries CBAIVL01.
Grin, G., Holub, A., and Perona, P. (2007). Caltech 256 object category dataset. Technical Report UCB/CSD 04-1366, California Institute of Technology.
Guyon, I. and Elissee, A. (2003). An introduction to feature and variable selection.
Journal of Machine Learning Research, 3:11571182.
Hafner, J., Sawhney, H., Equitz, W., Flickner, M., and Niblack, W. (1995). Ecient
color histogram indexing for quadratic form distance function. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 7(17):729736.
Han, J. and Kamber, M. (2006). Data Mining: Concepts and Techniques. 1558609016.
Morgan Kaufmann, second revised edition.
Haralick, R., Dinstein, I., and Shanmugam, K. (1973). Textural features for image classication. IEEE Transactions on Systems, Man and Cybernetics, 3(6):610621.
Hare, J., Sinclair, P., Lewis, P., Martinez, K., Enser, P., and Sandom, C. (2006). Bridging the semantic gap in multimedia information retrieval: Top-down and bottom-up
approaches. In Proceedings of Mastering the Gap: From Information Extraction to
Semantic Representation, 3rd European Semantic Web Conference.
He, D. and Cercone, N. (2009). Local triplet pattern for content-based image retrieval.
Springer Verlag, (5627):229238.

Hotelling, H. (1933). Analysis of complex statistical variables into principal components.


Journal of Educational Psychologiy, 24:417441.
Hu, M. (1962). Visual pattern recognition by moment invariants. IEEE Transactions on
information Theory, 8:179187.
Huang, J., Kumar, S., Mitra, M., and Zhu, W. (1999). Spatial color indexing and applications. In International Conference on Computer Vision, volume 3, pages 245268.
Huang, J., Kumar, S., Mitra, M., Zhu, W., and Zabih, R. (1997). Image indexing using
color correlograms. In Computer Vision and Pattern Recognition, pages 762768.
IEEE-Press, editor (1990). IEEE Standard Glossary of image Processing and Pattern
Recognition Terminology, New York.
Jain, A., Murty, M., and Flynn, P. (1999). Data clustering: a review. ACM Computing
Surveys, 31(3):264323.
Jeon, J., Lavrenko, V., and Manmatha, R. (2003). Automatic image annotation and
retrieval using crossmedia relevance models. In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information
retrieval SIGIR03.
Jlassi, H. and Hamrouni, K. (2010). Detection of blood vessels in retinal images. International Journal on Image Graphics, 10(1):5772.
John, G., Kohavi, R., and Peger, K. (2000). Irrelevant features and the subset selection
problem. In International Conference on Machine Learning.
Jollie, I. (1986). Principal component analysis. Springer Verlag.
Jurgen, F. (2004). Spatial Modeling in Natural Sciences and Engineering: Software Development and Implementation. 3540208771. Springer-Verlag Berlin and Heidelberg
GmbH. and Co. K., Germany, rst edition.
Kachouri, R., Djemal, K., Maaref, H., Masmoudi, D., and Derbel, N. (2008a). Feature
extraction and relevance evaluation for heterogeneous image database recognition.
In First International Workshops on Image Processing Theory, Tools & Applications
IPTA08.
Kachouri, R., Djemal, K., Maaref, H., Masmoudi, D., and Derbel, N. (2008b). Heterogeneous image retrieval system based on features extraction and svm classier. In
International Conference on Informatics in Control, Automation and Robotics ICINCO08, pages 137142.
Kilho, S. (2007). Position-Aware String Kernels with Weighted Shifts and a General
Framework to Apply String Kernels to Other Structured Data, chapter Intelligent
Data Engineering and Automated Learning, pages 316325. Springer-Verlag Berlin
Heidelberg.
Kim, T. and Cipolla, R. (2008). Mcboost: Multiple classier boosting for perceptual coclustering of images and visual features. In Twenty-Second Annual Conference on
Neural Information Processing Systems NIPS08, pages 841856.
Kimura, F., Wakabayashi, T., Tsuruoka, S., and Miyake, Y. (1997). Improvement of
handwritten japanese character recognition using weighted direction code histogram.
Journal of the Pattern Recognition Society.
Kohavi, R. and John, G. (1997). Wrappers for features subset selection. Articial Intelligence, 97:273324.
Kudo, M. and Sklansky, J. (2000). Comparison of algorithms that select features for
pattern classiers. Pattern Recognition, 33(1):2541.

Lanckriet, G., Bie, T., Cristianini, N., Jordan, M., and Noble, W. (2004a). A statistical
framework for genomic data fusion. Bioinformatics, 20:26262635.
Lanckriet, G., Cristianini, N., Bartlett, P., El-Ghaoui, L., and Jordan, M. (2004b). Learning the kernel matrix with semidenite programming. Journal of Machine Learning
Research, 5:2772.
Langley, P. and Sage, S. (1999). Tractable average-case analusis of naive bayesian classiers. In Kaufman, M., editor, Sixteenth International Conference on Machine Learning, pages 220228.
Leslie, C., Eskin, E., and Noble, W. (2002). The spectrum kernel: a string kernel for svm
protein classication. In 7th Pacic Symposium of Biocomputing.
Li, X., Wu, C., Zach, C., Lazebnik, S., and Frahm, J. (2008). Modeling and recognition
of landmark image collections using iconic scene graphs. In European Conference on
Computer Vision ECCV08.
Livens, S., Scheunders, P., Van-Wouwer, G., and Van-Dyck, D. (1997). Wavelets for
texture analysis, an overview. In Image Processing and Its Applications, volume 2,
pages 581585.
Lodhi, H., Shawe-Taylor, J., Cristianini, N., and Watkins, C. (2001). Text classication
using string kernels. In Advances in Neural Information Processing Systems NIPS01,
volume 13.
Lo`ve, M. (1948). Fonctions alatoires du second ordre. Supplement to P. Levy.
e
e
Lowe, D. (2004). Distinctive image features from scale-invariant keypoints. International
Journal of Computer Vision, 2(60):91110.
Ma, W. and Manjunath, B. (1999). Netra : A toolbox for navigating large image databases.
In Multimedia Systems, volume 7, pages 184198.
Malki, J., Boujemaa, N., Nastar, C., and Winter, A. (1999). Region queries without
segmentation for image retrieval by content. In International Conference on Visual
Information System VIS99, pages 115122.
Manjunath, B., Ohm, J., Vasudevan, V., and Yamada, A. (2001). Color and texture
descriptors. In IEEE Transactions on circuits and systems for video technology,
volume 11, pages 703715.
Maren, A. (1990). Handbook of Neural Computing Applications. 0125460902. Academic
Press, Inc.
Maron, O. and prez, T. (1998). A framework for multiple-instance learning. In Advances
e
in Neural Information Processing Systems NIPS98, volume 10, pages 570576.
McQueen, J. (1967). Some methods for classication and analysis of multivariate observations. In Cam, L. and Neyman, J., editors, Proceedings of the Fifth Berkeley
Symposium on Mathematical Statistics and Probability.
Mikolajczyk, K. and Schmid, C. (2004). Scale and ane invariant interest point detectors.
International Journal of Computer Vision, (60):6386.
Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaalitzky, F.,
Kadir, T., and Gool, L. (2005). A comparison of anene region detectors. International Journal of Computer Vision, 2(65):4372.
Moghaddam, B., Biermann, H., and Margaritis, D. (1999). Dening image content with
multiple regions of interest. In IEEE Workshop on Content-Based Access of Image
and Video Libraries CBAIVL99.

Muller, H., Michoux, N., Bandon, D., and Geissabuhler, A. (2004). A review of contentbased image retrieval systems in medical applications-clinical benets and future
directions. International Journal of Medical Informatics, 73(1):123.
Oliva, A. and Torralba, A. (2001). Modeling the shape of the scene: a holistic representation of the spatial envelope. International Journal of Computer Vision, 42(3):145
175.
Oyang, Y., Hwang, S., Ou, Y., Chen, C., and Chen, Z. (2005). Data classication with
radial basis function networks based on a novel kernel density estimation algorithm.
IEEE Transactions on Neural Networks, 16:225236.
Pascale, D. (2003). A review of rgb color spaces...from xyy to rgb. The BabelColor
company.
Pentland, A., Picard, R., and Sclaro, S. (1994). Photobook : Content-based Manipulation
of Image Databases, volume 2. Storage and Retrieval for Image and Video Databases.
Platt, J., Cristianini, N., and Shawe-Taylor, J. (2000). Large margin dagsvms for multiclass classication. In Advances in Neural Information Processing System NIPS00,
volume 12, pages 547553.
Portnoy, D., Bellaachia, A., Chen, Y., and Elkhahloun, A. (2002). E-cast: A data mining
algorithm for gene expression data. In Zaki, M., Wang, J., and Toivonen, H., editors,
Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining KDD02, Workshop on Data Mining in Bioinformatics (BIOKDD).
Potter, M. (1975). Meaning in visual search. Science, 187(4180):965966.
Press, W., Flannery, B., Teukolsky, S., and Vetterling, W. (1987). Numerical Recipes.
The Art of Scientic Computing.
Quinlan, J. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo,
CA.
Quinlan, J. and Rivest, R. (1989). Inferring decision trees using the minimum description
length principle. Inform. Comput., 80(3):227248. An early version appeared as MIT
LCS Technical report MIT/LCS/TM-339 (September 1987).
Rakotomamonjy, A., Bach, F., Canu, S., and Grandvalet, Y. (2007). More eciency
in multiple kernel learning. In International Conference on Machine Learning, volume 27, pages 775782.
Rakotomamonjy, A., Bach, F., Canu, S., and Grandvalet, Y. (2008). Simplemkl. Journal
of Machine Learning Research, 2:24912521.
Rtsch, G., Sonnenburg, S., and Schlkopf, B. (2005). Rase: recognition of alternatively
a
o
spliced exons in c.elegans. In Bioinformatics.
Rebaine, D. (2005). Methode de branch and bound. Universit du Quebec ` Chicoutimi.
e
a
Renniger, L. and Malik, J. (2004). When is scene identication just texture recognition?
Journal of Vision Research, 44:23012311.
Ritendra, D., Dhiraj, J., Jia, L., and Wang, J. (2006). Studying aesthetics in photographic
images using a computational approach. In Lecture Notes in Computer Science,
Proceedings of the European Conference on Computer Vision, volume 3, pages 288
301.
Rowshan, B., Bin-Khalid, M., and Yusof, R. (2008). Multi-level fuzzy score fusion for
client specic linear discriminant analysis based face authentication system. In IEEE
International Conference Signal Image Technology and Internet Based Systems, SITIS08, pages 213220.

Schmid, C., Mohr, R., and Bauckhage, C. (1998). Comparing and evaluating interest
points. In International Conference on Computer Vision ICCV98.
Sclaro, S., Taycher, L., and Cascia, M. (1997). Imagerover : A content-based image
browser for the world wide web. In IEEE Workshop on Content-based Access of
Image and Video Libraries CBAIVL97.
Serrano, N., Savakisb, A., and Luoc, J. (2004). Improved scene classication using ecient
low-level features and semantic cues. Pattern Recognition, 37:17731784.
Shamir, R. and Sharan, R. (2002). Algorithmic approaches to clustering gene expression
data. Current Topics in Computational Molecular Biology MIT Press.
Siagian, C. and Itti, L. (2007). Rapid biologically-inspired scene classication using features shared with visual attention. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 29(2):300312.
Siedlecki, W. and Sklansky, J. (1989). A note on genetic algorithms for large-scale feature
selection. Pattern Recognition Letters, pages 335347.
Sonnenburg, S., Rtsch, G., and Schfer, C. (2005). A general and ecient algorithm
a
a
for multiple kernel learning. In Advances in Neural Information Processing Systems
NIPS05, volume 17, pages 18.
Sonnenburg, S., Rtsch, G., Schfer, C., and Schlkopf, B. (2006). Large scale multiple
a
a
o
kernel learning. Journal of Machine Learning Research, 7:15311565.
Sridhar, V., Nascimento, M., and Li, X. (2002). Region-based image retrieval using
multiple-features. In International Conference on Visual Information System VIS02.
Stanll, C. (1987). Memory-based reasoning applied to english pronunciation. Association
for the Advancement of Articial Intelligence AAAI, pages 577581.
Stehling, R., Nascimento, M., and Falcao, A. (2002). Microm : A metric distance to compare segmented images. In International Conference on Visual Information System
VIS02.
Stork, D., Duda, R., and Hart, P. (2001). Pattern Classication. 9755031030. John Wiley
and Sons Inc., New York, second edition.
Stricker, M. and Swain, M. (1994). The capacity of color histogram indexing. In Conference on Computer Vision and Pattern Recognition.
Suard, F., Rakotomamonjy, A., and Bensrhair, A. (2007). Model selection in pedestrian
detection using multiple kernel learning. In Intelligent Vehicle Symposium, pages
1314.
Teague, M. (1980). Image analysis via the general theory of moments. Optical Society of
America, 70:920930.
Thomas, P. (2000). Automatic choice of dimensionality for pca. Technical report, Advances in Neural Information Processing System NIPS00.
Tieu, K. and Viola, P. (2004). Boosting image retrieval. International Journal on Computer Vision, 56(2):1736.
Torralba, A., Murphy, K., Freeman, W., and Rubin, M. (2003). Context-based vision system for place and object recognition. In IEEE International Conference on Computer
Vision ICCV03, pages 10231029.
Tversky, B. and Hemenway, K. (1983). Categories of the environmental scenes. Cognitive
Psychology, 15:121149.
Vapnik, V. (1999). An overview of statistical learning theory. IEEE Transactions on
Neural Networks, 10:988999.

BIBLIOGRAPHIE
Varma, M. and Ray, D. (2007). Learning the discriminative powerinvariance trade-o. In
IEEE International Conference on Computer Vision.
Vriesenga, M. (1995). Genetic Selection and Neureal Modeling for Designing Pattern
Classier. PhD thesis, University of California, Irvine.
Wang, J., Li, J., and Wiederhold, G. (2001). Simplicity : Semantics-sensitive integrated
matching for picture libraries. IEEE Transactions on Pattern Analysis and Machine
Intelligence.
Wang, L., Zhang, Y., and Feng, J. (2005). On the euclidean distance of images. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 27(8):13341339.
Weiss, S. (1991). Small sample error rate estimation for k-nn classiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(3):285289.
Weston, J., Mukherjee, S., Chapelle, O., Pontil, M., Poggio, T., and Vapnik, V. (2000).
Feature selection for svms. In Advances in Neural Information Processing Systems
NIPS00.
Weston, J. and Watkins, C. (1999). Multi-class support vector machines. In European
Symposium on Articial Neural Networks ESANN99.
Willamowski, J., Arregui, D., Csurka, G., Dance, C., and Fan, L. (2004). Categorizing nine
visual classes using local appearance descriptors. In ICPR Workshop on Learning for
Adaptable Visual Systems.
Xu, P. and Chan, A. (2003). Support vector machine for multi-class signal classication
with unbalanced samples. In International Joint Conference on Neural Networks,
pages 11161119.
Yu, L. and Liu, H. (2004). Ecient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 5:12051224.
Zhang, J., Marszalek, M., Lazebnik, S., and Schmid, C. (2007). Local features and kernels
for classication of texture and object categories: A comprehensive study. International Journal of Computer Vision.
Zhu, J., Rosset, S., Hastie, T., and Tibshirani, R. (2004). 1-norm support vector machines.
In Advances in Neural Information Processing Systems NIPS04, volume 16, pages
4956.
Zhuo, L., Zheng, J., Wang, F., Li, X., Ai, B., and Qian, J. (2008). A genetic algorithm
based wrapper feature selection method for classication of hyperspectral images
using support vector machine. The International Archives of the Photogrammetry,
Remote Sensing and Spatial Information Sciences, XXXVII(B7):397402.
Zien, A., Rtsch, G., Mika, S., Schlkopf, B., Lengauer, T., and Mller, K. (2000). Leara
o
u
ning the kernel matrix with semidenite programming. Engineering support vector
machine kernels that recognize translation initiation sites, 16:799807.

112

Vous aimerez peut-être aussi