Académique Documents
Professionnel Documents
Culture Documents
`
THESE
Prsente par
e
e
Rostom KACHOURI
Pour lobtention du titre de
S. Ruan
W. Puech
K. Hamrouni
A. Ben Hamida
D. S-Masmoudi
K. Djemal
N. Derbel
H. Maaref
:
:
:
:
:
:
:
:
Rapporteur
Rapporteur
Rapporteur
Examinateur
Examinateur
Encadrant
Co-directeur
Directeur
Ddicaces
e
` a
A lme de mon p`re Sadok
e
` ma m`re Monia
A
e
Auxquels, je dois ce que je suis
`
A Imen
`
A notre lle Rahma
`
A notre futur garon Rayan
c
Remerciements
Jaimerais avant tout exprimer ma gratitude et mes remerciements ` mon encadrant
a
scientique de th`se, M. Khalifa Djemal, ma de confrences de luniversit dEvry. Jai
e
tre
e
e
normment appris ` ses cts. Il a su minitier ` la recherche, me pousser ` toujours
e
e
a
oe
a
a
faire mieux et il ma souvent aid ` surmonter les dicults de ce cheminement quest
ea
e
le doctorat. Encore plus que ses grandes qualits scientiques, jai beaucoup apprci ses
e
e e
qualits humaines, en particulier lcoute, le partage et la comprhension, qui men ont
e
e
e
fait un ami.
Jadresse galement ` mon directeur de th`se, M. Hichem Maaref, professeur de lunie
a
e
versit dEvry, mes plus sinc`res remerciements. Cest un homme dune grande patience,
e
e
tr`s ` lcoute et tr`s comprhensif et qui est directement responsable du bon droulement
e a e
e
e
e
de mes travaux. Je le remercie chaleureusement pour ses attentions et les nombreuses discussions professionnelles et personnelles que nous avons eues.
Je veux absolument remercier M. Nabil Derbel, professeur de luniversit de Sfax et
e
Rsum
e
e
Abstract
Image recognition is widely studied by the scientic community. The proposed research
in this eld is addressed to various applications of computer vision systems and multiple
source image categorization. This PhD dissertation deals particularly with content based
image recognition systems in heterogeneous databases. Images in this kind of databases
belong to dierent concepts and represent a heterogeneous content. In this case and to
ensure a reliable representation, a broad description is often required. However, the extracted features are not necessarily always suitable for the considered image database.
Hence, the need of selecting relevant features based on the content of each database. In
this work, an adaptive selection method is proposed. It considers only the most adapted
features according to the used image database content. Moreover, selected features do
not have generally the same performance degrees. Consequently, a specic classication
algorithm which considers the discrimination powers of the dierent selected features is
strongly recommended. In this context, the multiple kernel learning approach is studied
and an improved kernel weighting method is presented. It proved that this approach is
unable to describe the nonlinear relationships of dierent description kinds. Thus, we propose a new hierarchical multi-model classication method able to ensure a more exible
combination of multiple features. Experimental results conrm the eectiveness and the
robustness of this new classication approach. In addition, the proposed method is very
competitive in comparison with a set of approaches cited in the recent literature.
Key words: Content based image recognition, Heterogeneous image databases, Feature extraction, Adaptive feature selection, Multiple kernel learning, Multi-model classication.
Ddicaces
e
Remerciements
Rsum
e
e
Abstract
Index des symboles
Introduction gnrale
e e
1.5
1.6
1.7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
41
42
42
42
44
45
45
45
46
49
49
49
52
55
57
59
61
62
62
62
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.2.2
3.2.3
3.2.4
3.2.5
Notions de base . . . . . . . . . . . . . . . . . . .
Cas linairement sparable . . . . . . . . . . . . .
e
e
Cas non-linairement sparable . . . . . . . . . .
e
e
Extension aux probl`mes multi-classes . . . . . .
e
3.2.5.1 Algorithme SVM: Un contre tous . . . .
3.2.5.2 Algorithme SVM: Un contre un . . . . .
3.2.5.3 Algorithme DAG-SVM . . . . . . . . . .
3.2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . .
3.3 Approche dapprentissage par noyaux multiples . . . . .
3.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Techniques de pondration de noyaux . . . . . . .
e
3.4 Pondration de noyaux base sur les taux dapprentissage
e
e
3.4.1 Introduction . . . . . . . . . . . . . . . . . . . . .
3.4.2 Principe de MK SVM . . . . . . . . . . . . . . .
3.4.3 Apprentissage multiple . . . . . . . . . . . . . . .
3.4.4 Calcul des dirents poids de noyaux . . . . . . .
e
3.4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
SVM
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
65
66
66
67
67
67
67
68
70
70
70
71
71
73
73
74
75
76
78
79
79
79
79
80
81
83
83
83
84
86
86
88
89
92
96
98
102
Bibliographie
105
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14
1.15
2.1
2.2
2.3
11
13
14
15
16
18
19
20
20
25
27
31
32
35
38
2.4
2.5
2.6
3.1
3.2
3.3
3.4
3.5
3.6
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
50
51
58
64
65
66
72
75
75
4.10
4.11
4.12
4.13
93
93
94
94
1.1
1.2
1.3
1.4
1.5
Noms et identiants des 23 classes utilises ` partir des deux bases dimages
e a
COREL et CALTECH-256. . . . . . . . . . . . . . . . . . . . . . . . . .
21
36
36
37
37
2.1
50
51
53
53
53
53
54
54
54
55
56
56
57
57
58
3.1
4.1
74
74
76
4.6 Etude comparative des deux mthodes MC-MM et SimpleMKL pour direntes
e
e
sous-bases dimages COREL et CALTECH-256. . . . . . . . . . . . . . .
92
4.7 Comparaison des temps dapprentissage (en Minutes) de MC-MM et SimpleMKL
pour direntes sous-bases COREL et CALTECH-256. . . . . . . . . . .
e
95
Moy
Etype
Var
FOS
Dir
SGLD
SGLD
Signications
Nombre total des images pertinentes dans une base.
Taux des vrai positifs, i.e. nombre dimages pertinentes retrou
ves.
e
Taux des faux positifs, i.e. nombre dimages non-pertinentes
retrouves.
e
Image couleur.
Matrice couleur Rouge de I dans lespace couleur RV B.
Matrice couleur Verte de I dans lespace couleur RV B.
Matrice couleur Bleue de I dans lespace couleur RV B.
Pixel de limage I.
Nombre de pixels p dans limage I.
Couleur dun pixel p dans limage I.
Nombre de couleurs dans limage I.
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur RV B.
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur HSV .
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur HM M D.
Caractristique couleur moyenne de limage I, extraite ` partir
e
a
de lespace couleur Y CrCb.
Caractristique histogrammes couleurs de limage I, extraite `
e
a
partir de lespace couleur RV B.
Norme innie.
Distance inter-pixel dans une image.
Matrice corrlogramme de limage I.
e
Caractristique auto-correlogramme de limage I.
e
Image niveau de gris correspondante ` limage I.
a
Nombre de niveaux de gris dans limage N G.
Moyenne de la distribution des niveaux de gris de limage N G.
cl
ij
hi ; hj
hLAP
el
ij
Daub
GIST
GX ; GY
hX ; hY
G
PX
PY
G-norm
i=1,2,...,7
Hu
Bapp
NIm
xi
n
Fi = Rd
Xi = [xi ,xi ,...,xi Im ]
1 2
N
X
C
dxj
i
p
bi
B
NC
SGLD de limage I: {M oyenne, Energie, V ariance, Contraste, Entropie, Homogeneite & Correlation}.
Coecients dondelettes de Daubeshie de limage I pour un
niveau de dcomposition l, i,j [0,1].
e
Filtres de Daubeshie selon les lignes et les colones.
Matrice de convolution du ltre Laplacien.
Coecient condens de la transformation dondelette de
e
Daubeshie de limage I pour un niveau de dcomposition l,
e
i,j [0,1].
Caractristique coecients condenss de la transformation
e
e
dondelette de Daubeshie de limage I ` deux niveaux de
a
dcomposition.
e
Descripteur GIST de limage I.
Gradients directionnels selon x et y (approximations des
drives horizontale et verticale) de limage N G.
e e
Masques de Sobel, i.e. matrices de convolution horizontale
et verticale.
Matrice normes du gradient correspondante ` GX et GY .
a
Projection de G selon X.
Projection de G selon Y .
Caractristique projection de la matrice normes du grae
dient de limage I selon X et Y .
Moments invariants de Hu, calculs ` partir de limage I.
e a
Caractristique des moments de Hu de limage I.
e
Base dapprentissage.
Nombre dimages dapprentissage dans la base Bapp .
Vecteur caractristique de dimension d, i = [1,2,...,n].
e
Nombre de caractristiques xi , i = [1,2,...,n].
e
Espace dattributs de la caractristique xi , i = [1,2,...,n].
e
Nuage des NIm points, dits aussi individus ou observations
dans lespace dattribut Fi , i = [1,2,...,n].
Caractristique moyenne dun nuage dobservations X.
e
Matrice de covariance dun nuage dobservations X.
Dformation principales de lobservation xj par rapport ` la
e
a
forme moyenne X.
Base modale, correspond ` la diagonalisation de la matrice
a
de covariance C.
Vecteur propre de la matrice de covariance C, i = [1,2,...,d].
Sous-matrice de contenant les p premiers vecteurs propres
de la matrice de covariance C.
Composante principale dun nuage dobservations X, i = [1,2,
...,p].
Vecteur des amplitudes modales de deformations, reprsente
e
une forme dans lespace p-dimensionnel dni par les compoe
santes principales retenues.
Inertie totale correspondante ` la matrice de covariance C.
a
Pourcentage de variance relatif aux p premiers modes, i.e. le
taux dinertie total correspondant.
Nombre de classes contenues dans BApp .
2
...,M ].
Ensemble des taux dapprentissage T Rkm , m = [1,2,...,M ].
Organisation des noyaux de lensemble K selon lordre des taux dapprentissage dcroissant.
e
Ensemble des poids correspondants aux noyaux km , m = [1,2,
...,M ].
Centres de la classe Ci dans un espace dattributs F, i = [1,2,
...,NC ].
Niveau hirarchique l de la mthode MC-MM, l = [1,2,...,k-1];
e
e
k est le nombre de mod`les slectionns par la mthode SAC.
e
e
e
e
Image requte.
e
Projection de Iq dans lespace Fm .
Distance Euclidienne entre Ci et F(Iq ), i = [1,2,...,NC ].
Base dimages de test.
Classication de limage Iq avec le mod`le Msk .
e
Classication de limage Iq avec les mod`les Msk , Msk1 .
e
Classication de limage Iq selon la mthode MC-MM.
e
Introduction gnrale
e e
Contexte et motivations
La classication dimages dans les bases htrog`nes suscite de plus en plus dintrt
ee e
ee
dans le domaine de reconnaissance dimages. En eet, de nombreuses applications des
syst`mes de vision par ordinateur, comme les interactions Homme-Machine, la dtection
e
e
des vnements, le contrle des processus et dautres applications spciques ` un domaine
e e
o
e
a
donn, ont fait na
e
tre, conjointement au dveloppement croissant des images numriques
e
e
issues du Web, un grand besoin pour mettre au point des techniques de classication
dimages plus ecaces. Toutefois, les performances de classication des images dans les
bases htrog`nes dpendent principalement de la qualit de description de ces images.
ee e
e
e
Au dbut, les techniques de description utilises taient, gnralement, textuelles. Dans
e
e e
e e
ce cas, un ensemble de mots-cls est associ manuellement ` chaque image. Ce procd de
e
e
a
e e
description utilise beaucoup de smantique de par la description des images par un hue
main. Une expertise humaine, permettant dassurer une certaine corrlation entre le texte
e
et les images, est exige. Il est cependant subjectif ` cause du tr`s grand nombre dine
a
e
terprtations pouvant tre attribues au contenu dune mme image. Ainsi, le probl`me
e
e
e
e
e
majeur est que les rsultats de reconnaissance dimages base sur une description par
e
e
mots-cls peuvent tre compl`tement hors sujet. Dautant plus, lorsquil sagit de base
e
e
e
htrog`nes, o` le contenu des images est assez vari et dicile ` dcrire. Par ailleurs, lasee e
u
e
a e
sociation de mots-cls ` limage est une dmarche raliste pour des petites bases dimages,
e a
e
e
mais elle est compl`tement impensable et impraticable pour des grandes bases. En raison
e
de ces limitations inhrentes aux techniques de description textuelle, leur utilisation dee
vient de plus en plus dicile dans les bases htrog`nes, grant une tr`s grande collection
ee e
e
e
dimages.
De nouvelles techniques de description bases sur le contenu mme des images sont
e
e
apparues et prsentent de nos jours un intrt croissant. Contrairement aux mthodes
e
ee
e
dannotation textuelle, ces nouvelles techniques permettent lacc`s aux images via leurs
e
proprits visuelles: informations qui peuvent tre tires de limage elle-mme telles que
ee
e
e
e
la couleur, la texture, la forme, etc... Ces proprits visuelles sont extraites sous formes
ee
densembles dattributs appels souvent caractristiques. Par consquent, larchitecture
e
e
e
type dun syst`me de reconnaissance dimages par le contenu, dsign gnralement par
e
e
e e e
lacronyme anglais CBIR (Content Based Image Recognition), repose principalement sur
deux tapes primordiales: lExtraction dattributs visuels pour la description des images
e
et la Classication qui m`ne ` la reconnaissance de ces images. Dans ce cadre, plusieurs
e a
approches ont t proposes pour dvelopper soit des techniques dextraction dattributs
ee
e
e
soit des mthodes de classication supervises ou non supervises.
e
e
e
Dans le cas des bases htrog`nes, dites aussi gnralistes, les images sont de divers
ee e
e e
types et leur contenu est assez vari. De ce fait, les caractristiques pertinentes pour la
e
e
description dune catgorie dimages ne sont pas ncessairement ecaces pour dautres.
e
e
INTRODUCTION GENERALE
Gnralement face ` ce probl`me, des caractristiques de dirents types (dites aussi
e e
a
e
e
e
htrog`nes) sont employes pour assurer une description robuste des images. Cette large
ee e
e
description couvre, gnralement, la majorit des caractristiques visuelles des images
e e
e
e
dans les bases htrog`nes. Cependant, elle soure essentiellement dune grande dimenee e
sionnalit. De plus, selon la base dimage considre, une partie de cette description est
e
ee
souvent non adapte au contenu de la base et par consquent inecace lors de la phase
e
e
de reconnaissance. Do`, la ncessit de slection des caractristiques pertinentes selon
u
e
e
e
e
le contenu de la base dimages considre. En outre, gnralement les caractristiques
ee
e e
e
slectionnes ne disposent pas des mmes performances de discrimination. Considrant
e
e
e
e
leet ngatif des caractristiques les moins performantes, une simple concatnation de
e
e
e
toutes les caractristiques slectionnes ne m`ne pas toujours ` des rsultats de clase
e
e
e
a
e
sication optimaux. En consquence, lutilisation dun algorithme de classication, qui
e
sadapte aux pouvoirs discriminants des direntes caractristiques slectionnes ainsi que
e
e
e
e
le contenu de la base dimages utilise, est bien recommande. Cela permet damliorer
e
e
e
davantage les taux de reconnaissance naux.
Dans ce travail nous nous intressons ` la reconnaissance dimages par le contenu dans
e
a
les bases dimages htrog`nes. La phase de reconnaissance est totalement automatique
ee e
et adapte au contenu de la base considre. Aucune rtroaction de lutilisateur pour
e
ee
e
indiquer un bouclage de pertinence nest envisage. Le syst`me tudi se base ainsi sur
e
e
e
e
une construction hors ligne dune large description dimages, qui repose sur une varit
ee
de caractristiques htrog`nes. Ce sujet de recherche tait et reste un probl`me oue
ee e
e
e
vert et dicile ` cause de la grande dicult de description des images dans ce type
a
e
de bases et la complexit de combinaison des caractristiques htrog`nes. Dans cette
e
e
ee e
th`se, nous contribuons ` la rsolution de quelques problmatiques lies aux syst`mes de
e
a
e
e
e
e
reconnaissance dimages htrog`nes par le contenu. Une mthode de slection adaptaee e
e
e
tive des caractristiques les plus pertinentes et une mthode de classication hirarchique
e
e
e
multi-mod`les sont proposes.
e
e
INTRODUCTION GENERALE
timisation de certaines dentres elles est galement introduite. Une large valuation de
e
e
ces caractristiques, apr`s optimisation, est fournie ` la n de ce chapitre. Cette tude
e
e
a
e
montre que le pouvoir discriminant de chaque caractristique dpend du contenu de la
e
e
base dimages considre.
ee
Le deuxi`me chapitre est consacre ` la slection des caractristiques les plus pertie
e a
e
e
nentes. Initialement, les proprits des deux catgories de slection: Filtres et Envelopee
e
e
pantes sont rappeles. Les mthodes de slection les plus utilises, en particulier la teche
e
e
e
nique linaire danalyse en composantes principales et la slection base sur les algorithmes
e
e
e
gntiques sont dcrites. Une tude singuli`re des fonctions de slectivit employes par
e e
e
e
e
e
e
e
ces algorithmes est aussi eectue. Ensuite, une nouvelle mthode de slection adaptative
e
e
e
des caractristiques les plus pertinentes est propose. Lvaluation des performances de
e
e
e
cette mthode de slection est ensuite prsente. Une comparaison avec les direntes
e
e
e
e
e
mthodes de slection traites, dans ce chapitre, est galement fournie.
e
e
e
e
Dans le troisi`me chapitre, lapproche dapprentissage par noyaux multiples connue
e
par lacronyme anglais MKL (Multiple Kernel Learning) applique ` la reconnaissance
e a
des images htrog`nes par le contenu est aborde. Dans cette th`se, lapproche MKL
ee e
e
e
est considre en particulier pour les Machines ` Vecteurs Supports (SVM). Suite ` une
ee
a
a
br`ve exposition des notions de bases des SVMs, lapproche MKL est prsente. En tenant
e
e
e
compte de limportance de ltape de calcul des poids de noyaux dans cette approche,
e
une nouvelle mthode de pondration des noyaux est propose. Une valuation de la
e
e
e
e
classication SVM ` noyaux multiples base sur la nouvelle pondration, ainsi quune
a
e
e
comparaison avec un algorithme rcent, sont fournies ` la n de ce chapitre.
e
a
Le quatri`me chapitre est consacr ` la proposition dune nouvelle mthode de clase
ea
e
sication hirarchique multi-mod`les. Une valuation de cette nouvelle mthode de clase
e
e
e
sication en se basant sur la slection adaptative des caractristiques, propose dans
e
e
e
le chapitre 2 est eectue. Des comparaisons avec la mthode de classication classique
e
e
(employant un mod`le unique), lapproche des Multiple Instance Learning ainsi que lape
proche des sacs de mots-visuels et lapproche MKL sont fournies. Les performances de
notre proposition en terme de temps de calcul sont aussi mises en vidence.
e
Enn, la conclusion gnrale prsente une synth`se des contributions apportes ainsi
e e
e
e
e
que les pistes dnissant des perspectives possibles pour des travaux futurs.
e
Chapitre
10
1.1. INTRODUCTION
1.1
Introduction
1.2
Base
dimages
dapprentissage
Extraction
dattributs
Classification
Supervise
Oui
Apprentissage
Non
Rsultas
de classification
Classifieur
Oui
Base
dimages
de test
Extraction
dattributs
Boucle de
pertinence
Classification
Fig. 1.1 Architecture dun syst`me de reconnaissance dimages par le contenu bas sur
e
e
la classication.
Larchitecture type des syst`mes CBIR est illustre par la gure 1.1. Cette architecture
e
e
est compose principalement par deux tapes importantes, ` savoir lextraction dattributs
e
e
a
visuels pour la description des images et la classication qui m`ne ` la reconnaissance de
e a
ces images. Dans ce cadre, plusieurs approches ont t proposes pour dvelopper soit des
ee
e
e
techniques dextraction dattributs, soit des mthodes de classication. Par ailleurs, les
e
11
1.2.1
Types dattributs
Les images sont des objets numriques tr`s riches en terme dinformations. En plus
e
e
de lespace mmoire gigantesque exig, la manipulation directe de ces images dans un
e
e
syst`me de reconnaissance dimages par le contenu ne permet pas dobtenir des temps
e
de rponse ralistes. Il convient donc dutiliser une reprsentation de dimension rduite
e
e
e
e
pour caractriser le contenu de ces images. Lobjectif principal de lextraction dattrie
buts est de dterminer pour chaque image, une reprsentation (signature) qui soit, dune
e
e
part compacte, pour tre rapidement accessible et facilement comparable, et dautre
e
part susamment compl`te pour bien caractriser limage. Il est recommand deme
e
e
ployer des attributs invariants aux transformations colorimtriques telle que le changement
e
dclairage et aux transformations gomtriques telle que le changement dchelle. Ceci
e
e e
e
permet de palier aux direntes transformations que peut subir une image. Cependant,
e
12
La couleur
Le physicien James Clerk Maxwell (Pascale, 2003) a prouv que toute couleur, tant
e
e
initialement une sensation provoque par la lumi`re avec lil, le cerveau et notre exprience,
e
e
e
`
est une synth`se de trois couleurs seulement: le rouge, le vert et le bleu. A partir de cette
e
dcouverte en 1865, la colorimtrie (la science qui tudie la couleur) a vu le jour.
e
e
e
Les attributs couleurs sont les premiers utiliss dans les syst`mes de reconnaissance
e
e
dimages par le contenu et ils sont toujours les plus utiliss grce ` leur simplicit dexe
a a
e
traction, leur richesse de description et leur ecacit de reconnaissance. Les auteurs dans
e
(Bimbo, 2001) ont fourni une tude tendue des direntes mthodes employes pour lexe
e
e
e
e
traction dattributs couleurs. Un ensemble dattributs couleurs a t test pour tre inclus
ee
e
e
dans le standard MPEG-7 (Manjunath et al., 2001). Ces attributs couleurs dpendent die
rectement de lespace couleur utilis pour la reprsentation couleur de limage. Dans la
e
e
littrature, plusieurs espaces couleurs sont tudis.
e
e
e
Dni en 1931 par la compagnie internationale de lclairage (C.I.E.), lespace couleur
e
e
RVB (Rouge Vert et Bleu) reprsente les couleurs par synth`se soustractive. Chaque
e
e
couleur est reprsente par trois composantes: rouge, vert et bleu. Lespace RVB est
e
e
gnralement lespace couleur de base dans lequel sont captures les images. La gure 1.2
e e
e
illustre la dcomposition dune image couleur en trois sous-images monochromes selon
e
lespace couleur RVB.
Fig. 1.2 Image couleur RVB: association de trois sous-images monochromes, correspondant respectivement au direntes composantes Rouge, Vert et Bleu.
e
Les autres espaces couleurs reprsentent des transformations directes de lespace RVB.
e
Ces transformations ont pour objectif damliorer la reprsentativit colorimtrique de
e
e
e
e
limage et dassurer des mesure de distance plus linaires.
e
Les espaces couleurs HSI, HSV, HSB et HLS (appels communment HSx ) sont plus
e
e
proches de la perception humaine de couleur que lespace couleur RVB, mais ils ne sont pas
encore perceptuellement uniformes. Nous citons aussi les espaces couleurs YUV et YIQ
o` la composante Y reprsente la luminance du pixel et les pairs de composantes UV et IQ
u
e
13
La texture
La texture est lie aux apparences de surface des images ce qui est dune grande
e
importance dans tout domaine relatif ` la perception visuelle. Dans la littrature, nous
a
e
trouvons plusieurs dnitions de la texture. Nous citons parmi lesquelles: la texture
e
est lattribut qui reprsente la distribution spatiale des niveaux de gris des pixels dune
e
rgion (IEEE-Press, 1990). Ou encore: la texture est lensemble des proprits de
e
ee
voisinage locales des niveaux de gris dune rgion de limage (Livens et al., 1997). Bien
e
quil ny ait pas jusqu` prsent une dnition prcise de la texture, toutes les dnitions
a e
e
e
e
possibles arment que la texture est linformation gnre par les variations des niveaux
e ee
de gris entre des pixels voisins au sein dune image. Dirents mod`les de texture sont
e
e
illustrs dans la gure 1.3.
e
La forme
Fig. 1.4 Direntes transformations gomtriques que peut subir une image.
e
e e
1.2.2
Catgories dattributs
e
Les attributs visuels sont extraits ` partir de limage selon trois niveaux dabstractions:
a
le niveau global, le niveau rgions et le niveau points dintrt. Le premier niveau re`te
e
ee
e
une description globale des images, tandis que les deux derniers permettent dassurer une
description locale. De ce fait, les dirents types dattributs, dcrits dans la section 1.2.1,
e
e
peuvent tre considrs pour limage enti`re ou pour une partie spcique de limage.
e
ee
e
e
Dans la littrature, il est dusage de distinguer deux catgories dattributs: les attributs
e
e
globaux et les attributs locaux (Aly et al., 2009).
1.2.2.1
Attributs globaux
Attributs locaux
1.2.3
1.2.3.1
Classication
17
TP
,
TP + FP
Rappel =
TP
P
(1.1)
1.3
Pour valuer et valider les direntes approches tudies et dveloppes dans ce travail,
e
e
e
e
e
e
trois bases dimages htrog`nes sont utilises, ` savoir, la base COLUMBIA, la base
ee e
e
a
18
1.3.1
La base dimages COLUMBIA contient des images tires dobjets 3D pris en direntes
e
e
1
positions. Dans cette th`se, la collection utilise de cette base est COIL-100 . La collece
e
tion COIL-100 est utilise surtout dans le domaine de reconnaissance dobjets. Elle est
e
constitue par des images en couleurs prises ` partir de 100 objets dirents. Lensemble
e
a
e
de ces objets est ach dans la gure 1.7.
e
Fig. 1.7 Echantillons des 100 objets de la base dimages COIL-100 de COLUMBIA.
`
A laide dun plateau motoris (tourne-disques) et un fond noir, chaque objet est
e
captur selon direntes positions pour constituer une classe de la base. Le plateau est
e
e
tourn de 360 pour changer la position de lobjet par rapport ` une camra couleur xe.
e
a
e
Une image de lobjet est prise ` chaque intervalle de 5 . Ceci correspond ` 72 positions
a
a
direntes pour chaque objet. COIL-100 contient donc 7200 images de taille 128 128
e
pixels.
1.3.2
La base COREL 2 est tire de dirents CD-ROMs publies, strictement pour des raie
e
e
sons de recherche, par COREL corporation. Cette base comprend 2300 images catgorises
e
e
par le concepteur en une vrit-terrain de 23 classes thmatiques (personnes, animaux,
e e
e
eurs, montagnes, etc.), contenant 100 images chacune. Chaque image est de taille 384
256 pixels ou 256 384 pixels. Cette base est considre comme une rfrence pour les
ee
ee
spcialistes travaillant sur la reconnaissance dimages dans les bases htrog`nes. Des
e
ee e
chantillons de direntes classes dimages contenues dans la base COREL utilise sont
e
e
e
reprsents dans la gure 1.8.
e
e
1. La base COIL-100 (Columbia Object Image Library) est accessible en ligne ` ladresse suivante:
a
http://www.cs.columbia.edu/CAVE/databases.
2. La base COREL peut tre tlcharge du site web de James Z. Wangs Research Group, disponible
e
ee
e
en ligne ` ladresse suivante: http://wang.ist.psu.edu/docs/home.shtml.
a
19
1.3.3
20
1.4
1.4.1
1.4.2
prentissage sont toujours indpendantes. Si les images ne suivent pas une loi de distribue
tion connue, les conditions de probabilit employes seront errones et la r`gle de Bayes
e
e
e
e
ne peut tre applique. Les arbres de dcision, quand ` elles, reprsentent des processus
e
e
e
a
e
rcursifs (Quinlan and Rivest, 1989), (Quinlan, 1993). Les images requtes sont examines
e
e
e
par larbre de dcision de chaque classe dans la base. Concr`tement, chaque noeud dans
e
e
larbre de dcision contient un test (de type Si ... Alors ) correspondant ` la valeur
e
a
24
a)
b)
dun attribut donn. Les feuilles de larbre reprsentent les dcisions tires ` partir des
e
e
e
e a
rsultats de ces tests. Les arbres de dcision fonctionnent mieux si le nombre de valeurs
e
e
possible pour chaque attribut est faible. Par contre, pour un grand jeu de donnes, larbre
e
devient illisible. Dans le mme contexte, les rseaux de neurones articiels, connus par
e
e
lacronyme anglais ANN (Articial Neural Networks), reposent sur la thorie des percepe
trons (Maren, 1990). Un ANN est compos de plusieurs neurones rpartis sur une couche
e
e
dentre, une couche de sortie et un nombre de couches caches. Par ailleurs, il nexiste
e
e
pas de r`gle pour choisir le nombre de couches du rseau. Les MLP pour Multi Layer
e
e
Perceptron sont constitus par une ou plusieurs couches caches (Freeman and Skapura,
e
e
1991). Par contre, les rseaux ` fonctions radiales de base, connus par lacronyme anglais
e
a
RBF (Radial Basis Functions), sont constitus par une seule couche cache (Oyang et al.,
e
e
2005). Gnralement, les ANNs sont robustes aux erreurs et sont donc bien adapts aux
e e
e
probl`mes dapprentissage dimages bruites. Cependant, ils ont une pauvre possibilit
e
e
e
dinterprtation et un choix de param`tres tr`s dlicats.
e
e
e e
Par ailleurs, les mthodes discriminantes reprsentent souvent des techniques de clase
e
sication linaires. Deux types de classication linaire sont utiliss: les fonctions dise
e
e
criminantes et les machines ` vecteurs supports. Les fonctions discriminantes sont des
a
mthodes de classication simples qui sparent les images appartenant aux direntes
e
e
e
classes en se basant sur une analyse linaire. Ces fonctions peuvent tre performantes
e
e
dans le cas o` les direntes classes de la base sont linairement sparables. Cependant,
u
e
e
e
dans la plus part des cas, elles ne permettent pas datteindre des prcisions considrables.
e
e
An damliorer les performances de ces fonctions, de nouvelles variantes sont prsentes
e
e
e
dans la littrature (Kimura et al., 1997). Face aux fonctions linaires, les machines ` vece
e
a
teurs supports, connues par lacronyme anglais SVMs (Support Vector Machines), sont
initialement conues pour les probl`mes de classication binaires. Elles permettent de
c
e
sparer linairement les exemples positifs des exemples ngatifs dans lensemble des images
e
e
e
dapprentissage par un hyper-plan qui garantisse un maximum de marge (Vapnik, 1999).
Lecacit des SVMs est souvent suprieure ` celle de toutes les autres mthodes de
e
e
a
e
classication supervises. Pour les probl`mes de non-sparabilit, les SVMs permettent
e
e
e
e
deectuer une transformation non-linaire des observations dentre dans un espace de
e
e
dimension suprieure pour se ramener au cas linaire. En outre, les SVMs peuvent sadrese
e
25
1.5
1.5.1
Comme il a t dj` signal prcdemment et face au contenu assez variable des images
ee ea
e e e
htrog`nes, la description adopte dans ce travail est base sur lextraction dattributs
ee e
e
e
globaux. Une image dcrite globalement, contrairement ` lutilisation des caractristiques
e
a
e
locales, est reprsente gnralement par un seul vecteur dattributs pour chaque cae
e e e
ractristique extraite. Ceci permet de rendre plus rapide la reconnaissance des images.
e
Les caractristiques globales couramment utilises re`tent principalement des proprits
e
e
e
ee
visuelles de bas niveau dans limage telles que la couleur, la texture, la forme, etc... Une
littrature abondante constitue ltat de lart de ce type de description. Plusieurs contrie
e
butions rcentes sont aussi proposes (Datta et al., 2008), (He and Cercone, 2009). An
e
e
dassurer une riche description ncessaire pour la nature htrog`ne des images traites, un
e
ee e
e
ensemble de douze caractristiques globales de dirents types (dites aussi htrog`nes)
e
e
ee e
est utilis. Nous choisissons essentiellement des caractristiques classiques et prouves
e
e
e
e
pour une meilleure valuation des direntes mthodes proposes dans cette th`se. Toue
e
e
e
e
26
a)
b)
c)
Fig. 1.11 Echantillons des caractristiques extraites respectivement des images Dinoe
saure et Rose: a) Histogramme, b) Matrice des normes du gradient, et c) GIST.
Soit I une image couleur quantie sur cl couleurs {c1 ,c2 ,...,ccl }. Chaque pixel pi ,
e
i = [1,2,...,N ], de coordonns (x,y) est dot dune couleur I(pi ): pi Icj I(pi ) = cj ,
e
e
j {1,2,...,cl}. Dans lespace couleur RV B, les trois matrices couleur (Rouge, Vert et
Bleu) de I sont notes respectivement par R, V et B. Les direntes caractristiques
e
e
e
utilises dans ce travail sont prsentes ci apr`s.
e
e
e
e
1.5.2
27
(1.2)
Sachant que:
N
R(p),
Rmoy =
N p=1
(1.3)
Vmoy =
V (p),
N p=1
(1.4)
B(p).
Bmoy =
N p=1
1.5.3
(1.5)
Les histogrammes couleur (Hafner et al., 1995) sont des indicateurs de rpartition de
e
` partir dun espace discret de couleur dni par les
niveaux de couleurs dans une image. A
e
axes couleurs correspondants (par exemple Rouge, Vert et Bleu), lhistogramme couleur
est dtermin par la discrtisation de limage couleur et le calcul du nombre doccurrence
e
e
e
de chaque couleur dans cette image. Les histogrammes couleur dans lespace RV B sont
calculs comme suit, i {1,2,...,cl}:
e
N
1
R(p) == ci ,
histR (ci ) =
N p=1
(1.6)
1
V (p) == ci ,
histV (ci ) =
N p=1
(1.7)
1
histB (ci ) =
B(p) == ci .
N p=1
1.5.4
(1.8)
La matrice corrlogramme
e
(1.9)
28
/|p1 p2 | = Dist].
(1.10)
1.5.5
1
hist(i) =
N G(p) == i
N p=1
(1.11)
Etant donn quune image peut tre considre comme une distribution statistique de
e
e
ee
niveaux de gris. Les statistiques de premier ordre (Press et al., 1987), calcules ` partir de
e a
lhistogramme de cette image, permettent deectuer une tude des textures y contenues
e
(analyse texturelle). Les attributs extraits sont respectivement la moyenne, lcart type
e
et la variance de la distribution des niveaux de gris dans limage. La caractristique
e
correspondante est alors:
(1.12)
Sachant que:
ng
i hist(i),
Moy =
ng i=1
(1.13)
ng
Etype =
1
(i M oy)2 hist(i),
ng i=1
(1.14)
Var =
(N G(p) M oy)2 .
N p=1
1.5.6
(1.15)
La matrice de co-occurrences
SGLDi,j
= prob [p2 N Gj
(1.16)
p1 N Gi
Il est possible de calculer sur cette matrice des attributs statistiques classiques comme
la moyenne et la variance, ainsi que dautres attributs telles que lentropie, linertie, la
5. Cette probabilit correspond au nombre doccurrences des pixels p2 de couleur cj dans le voisinage
e
du pixel p1 (p1 Ici ). Le voisinage considr est x par la distance Dist.
ee
e
29
ng
ng
(Dist,Dir)
SGLDi,j
(1.17)
i=1 j=1
ng
ng
(Dist,Dir) 2
[SGLDi,j
Energie =
(1.18)
i=1 j=1
ng
ng
(Dist,Dir)
(i M oyenne)2 SGLDi,j
V ariance =
(1.19)
i=1 j=1
ng
ng
(Dist,Dir)
(i j)2 SGLDi,j
Contraste =
(1.20)
i=1 j=1
ng
ng
(Dist,Dir)
Entropie =
SGLDi,j
(Dist,Dir)
Log[SGLDi,j
(1.21)
i=1 j=1
ng
ng
Homogeneite =
i=1 j=1
ng
1
(Dist,Dir)
SGLDi,j
1 + (i j)2
(1.22)
ng
(Dist,Dir)
(i x )(j y )SGLDi,j
Correlation =
/ (x y )
(1.23)
i=1 j=1
avec x , y et x , y sont les moyennes et les variances respectives des deux distributions
marginales px (i) et py (j):
ng
ng
x =
i px (i),
2
x
(i x )2 px (i)
i=1
ng
(j y )2 py (j)
(1.25)
i=1
ng
2
j py (j), y =
y =
(1.24)
j=1
j=1
(1.26)
sachant que px (i) et py (j) sont calcules comme suit:
e
ng
ng
(Dist,Dir)
SGLDi,j
,
px (i) =
(Dist,Dir)
py (j) =
j=1
SGLDi,j
i=1
30
(1.27)
1.5.7
(1.28)
sachant que hi (k) et hj (k) reprsentent les ltres de Daubeshie respectivement selon les
e
lignes et les colonnes.
Les attributs textures considrs, dans notre cas, sont les coecients dondelettes de
ee
Daubechie correspondants ` deux niveaux de dcomposition. La gure 1.12 illustre le
a
e
principe de base de la rpartition de ces coecients pour chaque image.
e
Image
originale
Niveau 1
C1
C1
C1
2
2
C00 C01
C1
00
01
10
Niveau 2
11
2
2
C10 C11
C1
10
C1
01
C1
11
1.5.8
Le descripteur GIST
Le descripteur GIST est une caractristique globale qui tente dimiter le syst`me de
e
e
perception humain, (Potter, 1975), (Biederman, 1982), (Tversky and Hemenway, 1983),
pour identier rapidement les principales rgions de couleur et de texture dans une image.
e
Il a t propos initialement pour dvelopper des reprsentations de sc`nes ` faible dimenee
e
e
e
e
a
sion (Oliva and Torralba, 2001). GIST a montr rcemment de tr`s bon rsultats pour la
e e
e
e
recherche et la reconnaissance dimages (Li et al., 2008).
Plusieurs mod`les GIST utilisant dirents types de caractristiques de bas niveau ont
e
e
e
t rcemment proposs (Oliva and Torralba, 2001), (Renniger and Malik, 2004), (Siagian
ee e
e
and Itti, 2007), (Torralba et al., 2003). Le mod`le dOliva et Torralba (Oliva and Torralba,
e
2001) est adopt pour lextraction du descripteur GIST. Initialement, limage est pre
e
ltre, ensuite elle est segmente systmatiquement en carrs selon une grille 4 4. Enn,
e
e
e
e
les histogrammes des orientations du gradient sont extraits en se basant sur les transformes de Fourrier calcules ` partir de plusieurs chelles de limage. Limplmentation
e
e a
e
e
GIST 6 utilise, consid`re ` lentre les images de taille carre xe et produit un vecteur de
e
e a
e
e
dimension 960 attributs, respectivement au trois chrominances R, V et B de limage. Un
ensemble dchantillons des descripteurs GIST extraits de direntes images de la base
e
e
COREL est prsent dans la gure 1.13.
e
e
1.5.9
31
a)
b)
c)
d)
Fig. 1.13 Echantillons des descripteurs GIST extraits pour direntes images de la base
e
COREL.
qui permet de distinguer les direntes rgions et les dirents objets dans cette image.
e
e
e
La norme du gradient dune image peut tre calcule ` laide de dirents ltres, ` savoir
e
e a
e
a
le ltre de Sobel, le ltre de Prewitt, le ltre Laplacien, etc... Le ltre de Sobel, considr
ee
dans notre cas, suppose que le contenu des direntes sous rgions de limage est hoe
e
mog`ne, ainsi le contour peut tre dtect en se basant sur les discontinuits des niveaux
e
e
e
e
e
de gris dans limage. Initialement, limage niveau de gris N G subit une convolution avec
les masques de Sobel, hX et hY , pour le calcul des gradients directionnels selon x et y
(approximations des drives horizontale et verticale). Deux images, appeles GX et GY ,
e e
e
sont obtenues suite ` ces convolutions. GX et GY contiennent, respectivement, en chaque
a
point des approximations de la drive horizontale et verticale de chaque pixel de limage.
e e
Ces images sont calcules comme suit:
e
GX = hX N G,
GY = hY N G
(1.29)
1 2 1
0 ,
hX = 0 0
1 2
1
32
1
2
hY =
1
0
0
0
1
2
1
1.5.10
G2 + G2
X
Y
(1.30)
Les moments de Hu
Les Moments sont des attributs de forme tr`s puissants. Un moment est une somme
e
pondre de tous les pixels en fonction de leurs positions dans limage (plus de dtails
ee
e
sont fournis dans (Teague, 1980)). En 1962, les sept moments de Hu ont t proposs (Hu,
ee
e
1962):
= 20 + 02
= (20 02 )2 + 42
11
2
= (30 312 ) + (321 03 )2
= (30 + 12 )2 + (21 + 03 )2
= (30 312 )(30 + 12 )[(30 + 12 )2 3(21 + 03 )2 ] + (321 03 )
(21 + 03 )[3(30 + 12 )2 (21 + 03 )2 ]
= (20 02 )[(30 + 12 )2 (21 + 03 )2 ] + 411 (30 + 12 )(21 + 03 )
= (321 03 )(3,0 + 12 )[(30 + 12 )2 3(21 + 0,3 )2 ] (3,0 312 )
(21 + 03 )[3(30 + 12 )2 (21 + 03 )2 ]
(1.31)
1.5.11
Optimisation
c2 (, ) hLAP (x , y ),
00
(1.32)
1 1
1 8
hLAP =
1 1
du ltre Laplacien:
1
1
1
Les attributs textures extraits des dirents dtails ainsi que du ltrage Laplacian
e
e
de lapproximation sont calculs comme suit:
e
el =
ij
1
KZ
|cl (k,z)|2 ,
ij
(1.33)
k=1 z=1
avec K et Z sont les deux dimensions respectives de lensemble des coecients dondelettes cl (plus de dtails sont fournis dans (Serrano et al., 2004)).
e
ij
La matrice norme du gradient (section 1.5.9): Gnralement, les images sont
e e
caractrises ` laide dun histogramme de la norme du gradient. Il est galement
e e a
e
possible dutiliser des histobins de 8, 16 ou 32, ... bins. Un histobin est une forme
rduite de lhistogramme, o` chaque bin reprsente la somme dun ensemble dlments
e
u
e
ee
voisins de lhistogramme. Le nombre de voisins est dtermin par le nombre de bin
e
e
dans lhistobin. Ces mthodes dcrivent linformation texture dans limage. Pour
e
e
mettre en valeur laspect contour, la description norme du gradient est exploite
e
autrement dans notre travail. Une projection selon les deux axes de cette matrice
est eectue:
e
PX (x) =
1
max G
G(x,y), et PY (y) =
y
1
max G
G(x,y)
(1.34)
1.5.12
Conclusion
Dans cette section, lensemble des caractristiques de dirents types, extrait pour la
e
e
description dimages dans les bases htrog`nes, a t prsent. Une valuation de cet
ee e
ee e
e
e
ensemble est eectue (Kachouri et al., 2008a). Les rsultats de cette valuation, pour
e
e
e
direntes bases dimages htrog`nes, sont illustrs et discuts dans la section suivante.
e
ee e
e
e
34
a)
b)
Fig. 1.14 Nouvelle forme de la caractristique des normes du gradient des image Dinoe
saure et Rose: a) la projection selon x et b) la projection selon y.
Dans le reste de ce manuscrit, les direntes caractristiques couleur moyennes sont
e
e
notes, respectivement aux espaces couleurs correspondants, par RVB, HSV, HMMD et
e
YCrCb, lhistogramme couleur par Hist, lauto-correlo-gramme par A-Cor, les statistiques
de premiers ordres par FOS, lensemble des attributs extraits de la matrice de co-occurence
par SGLD, les coecients condenss de la transformation dondelette de Daubeshie ` deux
e
a
niveaux de dcomposition par Daub, le descripteur GIST par GIST, les deux projections
e
de la matrice normes du gradient par G-norm et les moments invariants par Hu.
1.6
Nous avons implment sous MatLab les direntes caractristiques dcrites dans la
e
e
e
e
e
section 1.5. Ensuite, an dvaluer le pouvoir discriminant individuel de chacune de ces
e
caractristiques, nous avons entra e lensemble des mod`les SVMs correspondants sur les
e
n
e
bases dimages htrog`nes utilises (section 1.3). Dans un premier temps, quatre sousee e
e
bases dimages, constitues respectivement par 3, 5, 7 et 10 classes sont utilises ` partir
e
e a
de la base COREL et la base COLUMBIA. Les performances de classication correspondantes ` chaque mod`le, pour les direntes sous-bases employes, sont mesures ` travers
a
e
e
e
e a
les deux crit`res de qualit: prcision et rappel (plus de dtails ont t fournis dans la
e
e
e
e
ee
section 1.2.3.3).
Les valeurs moyennes de la prcision (Pmoy ) et du rappel (Rmoy ) des mod`les valus,
e
e e
e
pour les quatre sous-bases COREL, sont prsentes par les tableaux 1.2 et 1.3. Les
e
e
meilleures et les pires performances dans ces tableaux sont aches en gras pour les
e
direntes sous-bases dimages utilises. Similairement, les tableaux 1.4 et 1.5 prsentent
e
e
e
les performances de classication des dirents mod`les SVMs correspondants ` lensemble
e
e
a
des caractristiques extrait, pour les quatre sous-bases COLUMBIA. Idem, les meilleures
e
et les pires performances dans ces tableaux sont aches en gras.
e
Les tableaux 1.2, 1.3, 1.4 et 1.5 montrent que les performances de classication illustres
e
varient bien videment en fonction des direntes caractristiques employes. Les pere
e
e
e
formances de classication dun mod`le dune caractristique donne varient encore en
e
e
e
fonction des direntes sous-bases dimages utilises. Ce qui prouve que le pouvoir discrie
e
minant de chaque caractristique nest pas absolu, mais il varie sensiblement en fonction
e
du contenu de la base dimage considre.
ee
35
A-Cor
0.9643
0.9600
0.9338
0.9280
0.8549
0.8343
0.7996
0.7840
associs aux
e
Hu
0.7351
0.7333
0.6451
0.6480
0.5147
0.5200
0.4336
0.4520
Dapr`s le tableau 1.2, la caractristique Hist est la plus performante parmi les direntes
e
e
e
caractristiques couleurs employes, pour la classication des sous-bases COREL avec 3,
e
e
7 et 10 classes. Cependant, la caractristique A-Cor est plus pertinente pour la classie
cation de la sous-base COREL avec 5 classes. De mme, les caractristiques couleurs
e
e
les moins performantes pour la classications des sous-bases COREL avec 3, 5, 7 et 10
classes sont respectivement YCrCb, RVB, HMMD et HSV. Dapr`s le tableau 1.3, parmi
e
les direntes caractristiques textures et formes employes, GIST aboutit aux meilleures
e
e
e
performances de classication, pour les sous-bases COREL avec 5, 7 et 10 classes. Pour
la classication de la sous-base 3 classes, cest la caractristique SGLD qui sav`re la plus
e
e
pertinente. Dapr`s les tableaux 1.4 et 1.5, les performances de classication des direntes
e
e
caractristiques sont nettement meilleures. Ceci est d essentiellement au contenu moins
e
u
complexe des images de la base COLUMBIA par rapport au contenu des images de la
base COREL (plus de dtails sont fournis dans la section 1.3). Cependant, le pouvoir
e
discriminant de chaque caractristique dpend toujours de la base dimage considre. On
e
e
ee
constate, par exemple, que la caractristique YCrCb est la plus pertinente, conjointement
e
avec la caractristique RVB, pour la classication des sous-bases COLUMBIA avec 3,
e
5 et 7 classes. Mais elle ne lest pas pour la classication de la sous-base COLUMBIA
10 classes (tableau 1.4). De plus, les caractristiques textures et formes les moins perfore
mantes pour la classication des sous-bases COLUMBIA sont FOS pour la classication
de la sous-base 3 classes, Hu pour la classication de la sous-base 7 classes, et Daub pour
la classication des sous-bases 5 et 10 classes (tableau 1.5).
36
Tab. 1.4 Evaluation de lecacit de classication des mod`les individuels associs aux
e
e
e
caractristiques couleurs pour direntes sous-bases COLUMBIA.
e
e
Sous-bases COLUMBIA
RVB
HSV
HMMD YCrCb
Hist
A-Cor
3 classes
Pmoy
1.0000 1.0000 0.7444 1.0000 0.9733 0.9506
Rmoy
1.0000 1.0000 0.7391 1.0000 0.9710 0.9420
5 classes
Pmoy
1.0000 0.9840 0.8109 1.0000 0.9840 0.9704
Rmoy
1.0000 0.9826 0.8000 1.0000 0.9826 0.9652
7 classes
Pmoy
0.9835 0.9330 0.7012 0.9835 0.8919 0.8664
Rmoy
0.9814 0.9317 0.6832 0.9814 0.8820 0.8571
10 classes
Pmoy
0.9582 0.9454 0.7888 0.9439 0.9075 0.8623
Rmoy
0.9435 0.9435 0.7783 0.9217 0.9000 0.8565
Tab. 1.5 Evaluation de lecacit de classication des mod`les individuels associs aux
e
e
e
caractristiques textures et formes pour direntes sous-bases COLUMBIA.
e
e
Sous-bases COLUMBIA
FOS
SGLD
Daub
GIST G-norm
Hu
3 classes
Pmoy
0.8275 1.0000 0.8537 0.9310
0.9367
0.8632
Rmoy
0.7971 1.0000 0.7391 0.9130
0.9275
0.7681
5 classes
Pmoy
0.8882 0.9437 0.6902 0.9314
0.9007
0.8766
Rmoy
0.8696 0.9217 0.7565 0.8957
0.8783
0.8087
7 classes
Pmoy
0.8333 0.8478 0.5813 0.9069 0.8163 0.5214
Rmoy
0.7950 0.7950 0.5528 0.7329
0.7702 0.5466
10 classes
Pmoy
0.6896 0.8376 0.4691 0.9271 0.8277
0.4971
Rmoy
0.7435 0.8000 0.5783 0.7304
0.7391 0.5304
Une valuation plus large des direntes caractristiques a t eectue sur 23 classes
e
e
e
ee
e
des bases COREL et CALTECH-256. La gure 1.15 illustre respectivement les taux de
classication correspondants ` lensemble des caractristiques employes pour direntes
a
e
e
e
sous-bases dimages COREL et CALTECH-256. Les sous-bases utilises sont respectivee
ment constitues avec 3, 5, 7, 10, 13, 15, 17, 20 et 23 classes pour chacune des deux bases
e
dimages.
Dapr`s cette valuation, nous pouvons constater que parmi lensemble des caractristie
e
e
ques extraites, Hist, A-Cor, GIST et G-norme sont souvent les plus pertinentes et la
caractristique Daub est pratiquement celle la moins performante. Cependant, les courbes
e
aches par la gure 1.15 prouvent davantage que les performances de classication dun
e
mod`le de caractristique donn dpendent essentiellement du contenu de la base dimages
e
e
e e
considre. Nous constatons par exemple que HMMD sav`re plus performante que Hu
ee
e
pour la classication de toutes les sous-bases dimages COREL. Pour la classication de la
base CALTECH-256, Hu devient lg`rement plus ecace que HMMD. Par ailleurs, pour la
e e
mme base dimages COREL, les taux de classication des caractristiques FOS et SGLD
e
e
varient en fonction des direntes sous-bases utilises. Eectivement, pour les sous-bases
e
e
3, 5, 7 et 10 classes, SGLD est plus pertinente que FOS. Cependant, pour le reste des sousbases COREL, les taux de classication de la caractristique FOS deviennent meilleurs
e
que ceux de la caractristique SGLD.
e
37
1.7. CONCLUSION
Fig. 1.15 Taux de classication des mod`les individuels associs ` lensemble des
e
e a
caractristiques employes pour direntes sous-bases dimages COREL (` gauche) et
e
e
e
a
CALTECH-256 (` droite).
a
1.7
Conclusion
38
Chapitre
40
2.1. INTRODUCTION
2.1
Introduction
2.2
Mthodes de slection
e
e
2.2.1
Les mthodes ltres, connues en anglais par Filters, sont tr`s rapides. Elles reposent
e
e
sur des considrations thoriques, qui permettent gnralement de mieux comprendre
e
e
e e
les relations de dpendance entre les attributs (Yu and Liu, 2004). Le principe est de
e
slectionner un sous-ensemble dattributs selon un certain crit`re, comme la corrlation
e
e
e
par exemple. Le sous-ensemble permettant doptimiser ce crit`re sera ainsi retenu (Kohavi
e
and John, 1997). On cite parmi les mthodes de slection appartenant ` ce type lAnalyse
e
e
a
en Composantes Principales (ACP) (Jollie, 1986) et lAnalyse Linaire Discriminante
e
(ALD)(Fukunaga, 1990). Cependant, comme elles ne prennent pas en compte le classieur utilis en phase de gnralisation, les mthodes ltres restent souvent incapables de
e
e e
e
garantir des taux de reconnaissance considrables (Addison and Macintyre, 2003).
e
41
2.2.2
Bien que conceptuellement plus simples que les ltres, les mthodes de slection ene
e
veloppantes, connues en anglais par Wrappers, ont t introduites plus rcemment (John
ee
e
et al., 2000). Ce type de slection fait appel ` un algorithme de classication. Il sagit,
e
a
en fait, dune approche qui teste dirents sous-ensembles de jeux de caractristiques et
e
e
qui choisit le sous-ensemble donnant les meilleures performances. Ainsi, le sous-ensemble
de caractristiques slectionn est bien adapt au classieur utilis. Les taux de recone
e
e
e
e
naissance sont gnralement levs car la slection prend en compte le biais intrins`que
e e
e e
e
e
de lalgorithme de classication (Bi et al., 2003), (Zhu et al., 2004), (Chen et al., 2006).
Linconvnient majeur de cette technique de slection est son besoin coteux en temps
e
e
u
de calcul, surtout quand le nombre dimages cro Gnralement, le syst`me doit tre
t. e e
e
e
relanc plusieurs fois avec direntes combinaisons de caractristiques pour conserver au
e
e
e
nal la meilleure solution (Kohavi and John, 1997).
2.3
Travaux connexes
Plusieurs comparaisons entre les direntes mthodes de slection, qui existent dans
e
e
e
la littrature, ont t eectues. Un rcapitulatif des mthodes les plus populaires est
e
ee
e
e
e
prsent dans (Kudo and Sklansky, 2000). Dans cette section, une valuation de deux
e
e
e
mthodes de slection assez connues et tr`s utilises est prsente. Ces deux mthodes
e
e
e
e
e
e
e
sont lACP comme technique ltre et la slection base sur les Algorithmes Gntiques
e
e
e e
(AGs) comme technique enveloppante.
2.3.1
Lanalyse en composantes principales (ACP) est sans doute celle la plus connue et la
plus utilise dans le domaine de lanalyse de donnes. Introduite par les travaux de Hotele
e
ling et Lo`ve (Hotelling, 1933), (Lo`ve, 1948), lACP est une mthode factorielle danalyse
e
e
e
de donnes multi-dimensionnelles. Elle dtermine une dcomposition dun vecteur dattrie
e
e
but en composantes dcorrles et orthogonales tout en ajustant au mieux sa distribution.
e
ee
Les composantes numres sont dites principales et sont ordonnes par ordre dcroissant
e
ee
e
e
selon leur degr dajustement. Ces nouvelles variables (les composantes principales, quon
e
note en ce qui suit CPs) sont en fait des combinaisons linaires des attributs de dpart.
e
e
Elles correspondent essentiellement aux directions de la plus grande variance (gure 2.1).
LACP a t expose en dtails dans plusieurs travaux, nous en rappelons ici les points
ee
e
e
fondamentaux.
Soit NIm le nombre dimages dapprentissage, chaque image est reprsente par une
e
e
d
caractristique x de dimension d, dans un espace dattributs F = R . Le nuage correspone
dant des NIm points, dits aussi individus ou observations, est not par X = [x1 ,x2 ,...,xNIm ].
e
Lobjectif de lACP est de dterminer la base orthogonale ajustant au mieux ce nuage de
e
points selon un crit`re gomtrique. Elle dtermine pour cela les directions successives
e
e e
e
de variance maximale qui correspondent galement ` cet optimum (voir gure 2.1, o` la
e
a
u
premi`re composante correspond ` la droite dallongement maximum b1 ). Lordre fourni
e
a
sur les CPs obtenues est utile dune part ` la caractrisation et menant dautre part `
a
e
a
une approximation modale permettant une reprsentation compacte de la distribution
e
des observations. LACP caractrise ainsi la variabilit inhrente des attributs dapprene
e
e
tissage en rvlant leurs dformations principales relativement ` une forme de rfrence,
e e
e
a
ee
42
X=
C=
1
NIm
1
NIm
NIm
xj ,
(2.1)
j=1
NIm
dxj dt j ,
x
(2.2)
j=1
(2.3)
Les composantes principales slectionnes sont en fait les p premiers vecteurs propres
e
e
i , i = [1,2,...,p], avec p < d. Une approximation modale peut tre ralise en conservant
e
e e
uniquement les p premieres composantes. Une forme approche scrit alors:
e e
X = X + p bp ,
avec bp = t (X X),
p
(2.4)
p
i=1
100,
o` T =
u
i .
(2.5)
i=1
Fig. 2.1 Les deux premi`res directions principales (b1 et b2 ) dun nuage de NIm obsere
d
vations dans R .
43
2.3.2
Les algorithmes gntiques (AGs), ont t dvelopps dans les annes 1970, comme
e e
ee e
e
e
une mthode doptimisation ecace. Il existe un grand nombre de varits dAG, mais
e
ee
les principes de base restent inchangs. Dans un AG (Kudo and Sklansky, 2000), on a
e
une population de base qui est souvent compose de cha
e
nes de caract`res correspondant
e
chacune ` un chromosome. Souvent chaque chromosome est une cha binaire de taille
a
ne
n. Les mcanismes dun AG de base sont assez simples (Goldberg, 1991), il sagit de faire
e
des copies de cha
nes et des changes de morceaux de cha
e
nes. Essentiellement, un AG
est compos de trois oprateurs gntiques: la slection, le croisement et la mutation. La
e
e
e e
e
slection correspond ` la copie de chaque cha en fonction des valeurs dune fonction
e
a
ne
de slectivit ` optimiser. Apr`s la slection, le croisement est appliqu. Il correspond `
e
ea
e
e
e
a
un croisement des direntes cha
e
nes tires lors de la slection. Le croisement se fait en
e
e
deux tapes. Initialement, les nouveaux lments slectionns sont apparis au hasard, puis
e
ee
e
e
e
chaque paire de cha
nes subit un croisement. Cest-`-dire que lon change alatoirement k
a
e
e
lments entre les direntes paires de cha
ee
e
nes. Pour nir la derni`re tape est la mutation.
e e
Elle permet de modier alatoirement un lment de cha
e
ee
ne. Cest une modication qui
nappara quoccasionnellement. Ces tapes sont eectues jusqu` ce que lon obtienne
t
e
e
a
des rsultats qui nvoluent plus, (Rebaine, 2005). La gure 2.2 prsente les direntes
e
e
e
e
tapes dun AG.
e
Population
de base
Slection
Croisement
Mutation
Non
Satisfaction du
critre darrt
Oui
Rsultats
2.4
2.4.1
2.4.2
Apprentissage multiple
Face ` une large description constitues par n caractristiques direntes, les perfora
e
e
e
mances dun apprentissage unique, considrant ` la fois toutes les n caractristiques, ne
e
a
e
peuvent pas reprsenter le pouvoir discriminant de chacune des caractristiques utilises.
e
e
e
De ce fait, un apprentissage multiple, permettant dvaluer sparment les direntes cae
e e
e
ractristiques, est adopt. Pour chaque apprentissage, les images de la base sont classies
e
e
e
45
NErr (Mi )
,
NIm
P er(Mi ) =
NCorr (Mi )
, i = [1,2,...,n]
NIm
(2.6)
2.4.3
P er(Msj ),
j=1
1
m2 (i) =
P er(Msj ), i = [1,2,...,n]
n i j=i+1
(2.7)
En second lieu, en fonction de ces deux valeurs moyennes m1 (i) et m2 (i), on calcule
2
2
les deux variances respectives v1 (i) et v2 (i):
i
2
v1 (i)
|P er(Msj ) m1 (i)|2 ,
=
j=1
2
v2 (i) =
(2.8)
j=i+1
Maximiser la marge de sparation entre les mod`les pertinents et non pertinents revient
e
e
essentiellement ` maximiser le discriminant de Fisher P (i):
a
P (i) =
(2.9)
Ainsi, le seuil adaptatif de slection des mod`les pertinents FS est dtermin comme
e
e
e
e
suit:
1 FS n = arg max P (i)
i
1 FS n :
FS = n
FS < n
(2.10)
Base dimages
dapprentissage
Extraction
des
caractristiques
X1
X2
X 3
...
Xn
M:
M1
M2
M3
...
Mn
Ms:
Ms1
Ms2
...
Msk
Fig. 2.3 Diagramme de la mthode de Slection Adaptative des Caractristiques les plus
e
e
e
pertinentes qui correspondent aux mod`les slectionns dans Ms .
e
e
e
La gure 2.3, illustre le diagramme de la mthode de slection adaptative des cae
e
ractristiques les plus pertinentes. Lalgorithme SAC est fourni dans ce qui suit:
e
Algorithme SAC
SAC (Bapp ,Fi ), i = 1,2,...,n
1: Pour chaque caractristiques xi , i = 1,2,...,n Faire
e
2:
Mi = Apprentissage SV M (Xi ); Eq. 3.3
3:
P er(Mi ) = NCorr (Mi ) ; Eq. 2.6
NIm
4: Fin Pour
5: T = Organisation des performances dapprentissages des dirents mod`les (P er(Mi ));
e
e
i {1,2,...,n}
6: k = FLD (T ); Eq. 2.10
7: Ms = {Ms1 ,Ms2 ,...,Msk }
48
2.4.4
Conclusion
Dans cette section, la mthode de slection SAC a t prsente. Cette slection pere
e
ee e
e
e
met didentier un sous-ensemble des caractristiques les plus pertinentes, en se basant
e
principalement sur le pouvoir discriminant individuel de ces caractristiques. Apr`s un
e
e
apprentissage multiple, les caractristiques sont slectionnes en se basant sur une discrie
e
e
mination Fisher de leurs taux dapprentissage. Cette slection est totalement adapte a la
e
e `
base dimages, les caractristiques et le classieur utiliss. Une valuation de la mthode
e
e
e
e
de slection propose est illustre et discute dans la section suivante.
e
e
e
e
2.5
Dans cette section, nous prsentons les param`tres de slection obtenus, pour direntes
e
e
e
e
sous-bases dimages COREL et COLUMBIA, avec les mthodes de slection ACP, AG
e
e
et SAC, dcrites prcdemment. Lensemble des douze caractristiques prsentes dans le
e
e e
e
e
e
chapitre 1 est employ pour la ralisation de cette valuation.
e
e
e
Comme technique de rduction de dimension, lvaluation de la mthode ACP est efe
e
e
fectue selon une mesure du nombre des composantes principales slectionnes ` partir
e
e
e a
du vecteur dattributs initial. La dimension de ce dernier correspond ` la concatnation
a
e
de la totalit des caractristiques extraites, 3295 attributs dans notre cas. Cependant,
e
e
les mthodes de slection enveloppantes AG et SAC, employant conjointement le clase
e
sieur SVM pour lvaluation de caractristiques, sont expertises selon la pertinence
e
e
e
des caractristiques slectionnes. Pour cela, le seuil de slection (cest-`-dire le nombre
e
e
e
e
a
de caractristiques slectionnes), ainsi que la liste de ces caractristiques et leurs taux
e
e
e
e
dapprentissage correspondants sont fournis.
2.5.1
ACP
Pour les direntes sous-bases COREL utilises, lallure des valeurs propres, ranges
e
e
e
par ordre dcroissant en fonction des vecteurs propres correspondants, est illustr par la
e
e
gure 2.4. On constate, dans les quatre cas, que les valeurs propres ne sont signicatives
que pour les premiers vecteurs propres. Eectivement, elles se dgradent rapidement quand
e
le nombre de vecteurs propres croit. Do`, le principe de rduction de dimension de la
u
e
mthode ACP. Seulement, les premiers vecteurs propres sont considrs. Ceci permet de
e
ee
retenir uniquement les composantes dites principales ` partir de la distribution initiale des
a
images dapprentissage. Le nombre de composantes principales slectionnes (CPs) dpend
e
e
e
dun taux dinrtie x par lutilisateur. Bien que sa dtermination reste empirique, la
e
e
e
valeur de ce taux est dune extrme importance. Le tableau 2.1 montre que selon une
e
faible variation des taux dinertie maintenus, le nombre des vecteurs propres retant le
e
nombre de CPs retenues diminue sensiblement. Do` la forte rduction de dimensionnalit
u
e
e
qui peut tre apporte par la mthode ACP.
e
e
e
De mme, la gure 2.5 et le tableau 2.2 prsentent respectivement lallure des valeurs
e
e
propres, ranges par ordre dcroissant en fonction des vecteurs propres correspondants,
e
e
et la variation du nombre de composantes principales ` travers les direntes sous-bases
a
e
COLUMBIA utilises.
e
49
a)
b)
c)
d)
Fig. 2.4 Allure des valeurs propres ranges par ordre dcroissant respectivement pour
e
e
les sous-bases COREL avec : a) 3 classes, b) 5 classes, c) 7 classes et d) 10 classes.
50
a)
b)
c)
d)
Fig. 2.5 Allure des valeurs propres ranges par ordre dcroissant respectivement pour
e
e
les sous-bases COLUMBIA avec : a) 3 classes, b) 5 classes, c) 7 classes et d) 10 classes.
51
2.5.2
AG
(2.11)
1
, i = [1,2,...,n]
Log(Dimi )
(2.12)
i min
, i = [1,2,...,n]
max i + 1
(2.13)
52
Tab. 2.3 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 3 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.9422, 1 }
AG2 7
{ HMMD, YCrCb, Hist, A-Cor,
{ 0.9955, 0.9244, 1, 1,
FOS, SGLD, G-norm }
0.8577, 0.9777, 1 }
AG3 2
{ RVB, Hist }
{ 0.9422, 1 }
Tab. 2.4 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 5 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.9173, 1 }
AG2 8
{ RVB, HSV, HMMD, Hist,
{ 0.9173, 0.9013, 0.9013, 1,
A-Cor, FOS, SGLD, G-norm } 1, 0.7200, 0.8693, 1 }
AG3 2
{ RVB, Hist }
{ 0.9173, 1 }
Tab. 2.5 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 7 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.8285, 1 }
AG2 9
{ RVB, HSV, HMMD, YCrCb, { 0.8285, 0.7485, 0.7409,
A-Cor, FOS, SGLD, Daub, Hu } 0.8000, 0.9942, 0.5847,
0.8095, 0.4609, 0.5600 }
AG3 2
{ RVB, Hist }
{ 0.8285, 1 }
Tab. 2.6 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COREL avec 10 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, G-norm }
{ 0.7600, 1 }
AG2 9
{ RVB, HSV, HMMD, YCrCb,
{ 0.760, 0.660, 0.6666,
A-Cor, FOS, SGLD, G-norm, Hu } 0.7253, 0.9530, 0.4920,
0.6906, 1, 0.4493 }
AG3 2
{ RVB, Hist }
{ 0.7600, 1 }
53
Tab. 2.8 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 5 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, YCrCb }
{ 1, 1 }
AG2 2
{ RVB, YCrCb }
{ 1, 1 }
AG3 1
{ RVB }
{1}
Tab. 2.9 Variation des param`tres des direntes slections AGs pour la sous-base
e
e
e
COLUMBIA avec 7 classes.
Param`tres de slection
e
e
Seuil de Caractristiques
e
Taux dapprentissage
slection slectionnes
e
e
e
correspondants
AG1 2
{ RVB, YCrCb }
{ 1, 1 }
AG2 2
{ RVB, YCrCb }
{ 1, 1 }
AG3 1
{ RVB }
{1}
trois mthodes de slection AG ne sont pas ecaces. Eectivement, elles slectionnent
e
e
e
presque les mme caractristiques indpendamment de la sous-base dimages utilise. En
e
e
e
e
fait, AG1 , AG2 et AG3 convergent quasiment vers les mmes optimums locaux, pour les
e
trois premi`res sous-bases dimages COLUMBIA avec 3, 5 et 7 classes. Par exemple, AG1
e
54
2.5.3
SAC
Les rsultats de slection des caractristiques les plus pertinentes, obtenus avec la
e
e
e
mthode SAC pour direntes sous-bases dimages COREL et COLUMBIA, sont prsents
e
e
e
e
dans les tableaux 2.11 et 2.12.
Dapr`s le tableau 2.11, on observe que neuf caractristiques sont slectionnes pour
e
e
e
e
les trois premi`res sous-bases COREL avec 3, 5 et 7 classes et seulement quatre pour
e
la derni`re sous-base avec 10 classes. Ceci rsulte de laccroissement de la complexit
e
e
e
du contenu des images en fonction du nombre de classes dimages dans la base. Absolument, laugmentation du nombre de classes implique plus de complexit dans le contenu
e
de la base dimages, ce qui restreint de mani`re vidente le nombre de caractristiques
e e
e
pertinentes qui permettent dassurer des performances dapprentissage considrables. Par
e
ailleurs, les caractristiques pertinentes slectionnes dans chaque cas ne dpendent pas
e
e
e
e
uniquement du nombre de classes dans la sous-base considre, mais aussi du contenu
ee
mme de cette base. Eectivement, bien que les neuf caractristiques slectionnes sont
e
e
e
e
les mmes pour les trois premi`res sous-bases (3, 5 et 7 classes), lordre de pertinence
e
e
de ces caractristiques di`rent dune sous-base ` lautre (tableau 2.11). Ce qui prouve
e
e
a
55
7 classes
10 classes
sous-bases COREL.
Taux dapprentissage
correspondants
{1, 1, 1, 1, 0.9955,
0.9866, 0.9777,
0.9422, 0.9244}
{1, 1, 1, 1, 0.9173,
0.9013, 0.9013,
0.8933, 0.8693}
{1, 1, 1, 0.9942,
0.8285, 0.8095, 0.80,
0.7485, 0.7409}
{1, 1, 1, 0.9533}
2.5.4
Rsultats de classication
e
Les tableaux 2.13 et 2.14 illustrent respectivement les rsultats de classication SVM
e
obtenus en se basant sur la slection ACP pour les direntes sous-bases dimages COREL
e
e
et COLUMBIA. Les meilleures et les pires performances dans ces tableaux sont aches
e
en gras.
Tab. 2.13 Rsultats de classication
e
sous-bases dimages COREL.
Sous-bases
COREL
3 classes
Pmoy
Rmoy
5 classes
Pmoy
Rmoy
7 classes
Pmoy
Rmoy
10 classes Pmoy
Rmoy
La classication base sur la slection ACP sav`re meilleure dans la base COLUMe
e
e
BIA. Ceci est d principalement ` la complexit du contenu de la base COREL (plus de
u
a
e
57
58
2.6. CONCLUSION
Dune part, il est clair dapr`s la gure 2.6 que les deux mthodes de slection AG2 et
e
e
e
SAC sont plus performantes que la mthode ACP. Evidemment, en tant que techniques
e
enveloppantes, AG2 et SAC permettent dassurer une slection des caractristiques beaue
e
coup mieux adapte au classieur SVM employ en phase de gnralisation. Dautre part,
e
e
e e
on observe que les caractristiques slectionnes par la mthode SAC m`nent toujours `
e
e
e
e
e
a
des rsultats de classication meilleurs par rapport aux rsultats de celles slectionnes
e
e
e
e
par la mthode AG2 . Ce qui prouve davantage la robustesse et lecacit de la mthode
e
e
e
de slection propose.
e
e
2.6
Conclusion
Nous avons prsent dans ce chapitre une nouvelle mthode de Slection Adaptative
e
e
e
e
des Caractristiques les plus pertinentes, intitule SAC. Cette mthode est essentiellee
e
e
ment destine pour les syst`mes de reconnaissance dimages htrog`nes par le contenu.
e
e
ee e
Suite ` un apprentissage multiples des classieurs SVMs, la mthode de slection propose
a
e
e
e
dtermine un sous-ensemble des caractristiques les plus pertinentes. Les caractristiques
e
e
e
sont slectionnes en se basant sur une discrimination Fisher de leurs taux dapprentise
e
sage individuels. Cette slection est parfaitement adapte au contenu de la base dimages
e
e
utilise et aux caractristiques employes. Une large valuation de la mthode SAC, ainsi
e
e
e
e
e
que deux autres mthodes de slections assez populaires a t eectue ` travers deux
e
e
ee
e a
bases dimages de rfrence. Cette valuation conrme laspect adaptatif de notre propoee
e
sition. De plus, il a t bien vri que la mthode SAC ne ncessite aucune intervention
ee
e e
e
e
de la part de lutilisateur pour un rglage de param`tres. Eectivement, contrairement
e
e
aux mthodes ACP et AG, les caractristiques les plus pertinentes sont slectionnes par
e
e
e
e
la mthode SAC dune mani`re automatique.
e
e
Une comparaison des performances de classication base sur les direntes mthodes
e
e
e
de slection, prouve la pertinence et la supriorit de la slection SAC.
e
e
e
e
59
Chapitre
Lapproche dapprentissage par noyaux multiples, appele souvent par lacronyme ane
glais MKL (Multiple Kernel Learning) est prsente dans ce chapitre. Rcemment proe
e
e
pose, MKL est destine ` amliorer les performances des mthodes de classication
e
e a
e
e
a
` noyaux, en particulier les machines ` vecteurs supports (SVM). La pertinence des
a
rsultats de classication MKL dpend essentiellement de la qualit des poids aects
e
e
e
e
a
` chaque noyau. Apr`s avoir prsent les direntes mthodes de pondration utilises
e
e
e
e
e
e
e
dans la littrature, une nouvelle pondration destine pour lapprentissage SVM ` noyaux
e
e
e
a
multiples est propose.
e
61
3.1. INTRODUCTION
3.1
Introduction
3.2
3.2.1
Depuis les annes quatre vingt dix, les SVMs nont cess de susciter lintrt de plue
e
ee
sieurs communauts de chercheurs de dirents domaines dexpertise. La performance
e
e
de ces classieurs dpasse celle des mthodes supervises traditionnelles dans plusieurs
e
e
e
applications (Bi et al., 2003), (Zhu et al., 2004), (Ritendra et al., 2006), (Chen et al.,
2006). Dans cette section, le principe de fonctionnement gnral des SVMs est prsent.
e e
e
e
La linarit et la non-linarit ainsi que lextension aux probl`mes multi-classes de la
e
e
e
e
e
mthode SVM sont galement exposes.
e
e
e
62
`
3.2. MACHINES A VECTEURS SUPPORTS
3.2.2
Notions de base
Pour deux classes dimages donnes, le but des SVMs est de trouver un classieur
e
linaire qui spare les images tout en maximisant la distance entre ces deux classes. Il
e
e
sagit dun hyper-plan de sparation. Les images les plus proches de cet hyper-plan, cest
e
a
` dire les plus diciles ` classier, sont appeles vecteurs supports. Les SVMs assurent une
a
e
modlisation discriminante qui sappuie sur la dtermination des dirents vecteurs supe
e
e
ports dans les deux classes. Il est vident quil existe une multitude dhyper-plans valides
e
mais la proprit remarquable des SVMs est que cet hyper-plan doit tre optimal. Foree
e
mellement, cela revient ` chercher un hyper-plan dont la distance minimale aux dirents
a
e
vecteurs supports est maximale. Ainsi, les SVMs sont souvent appels des Sparateurs `
e
e
a
Vaste Marge. Intuitivement, le fait davoir une marge plus large procure plus de scurit
e
e
lorsque lon classie de nouvelles images en phase de gnralisation. En gnral, la classie e
e e
cation dune image requte est donne par sa position par rapport ` lhyper-plan optimal
e
e
a
trouv en phase dapprentissage.
e
Il existe deux cas de mod`les SVMs: les cas linairement sparables et les cas none
e
e
linairement sparables. Les premiers sont les plus simples, car ils permettent de trouver
e
e
facilement le classieur linaire (gure 3.1). Dans les cas non-linairement sparables, le
e
e
e
classieur de marge maximale ne peut pas tre utilis car ceci ne fonctionne que dans les
e
e
cas linairement sparables. Un syst`me de marges lastiques est alors mis en place pour
e
e
e
e
tolrer des erreurs de classication et donc tolrer des vecteurs supports ` lintrieur de
e
e
a
e
la marge (gure 3.2). Ce compromis entre erreurs et taille de la marge est contrl par
oe
un hyper-param`tre dapprentissage, que lon note par C. Dans la plupart des probl`mes
e
e
de classication rels, il ny a pas de sparation linaire possible entre les donnes. Pare
e
e
e
ticuli`rement, pour la reconnaissance dimages par le contenu dans les bases htrog`nes,
e
ee e
les images appartenant aux direntes classes sont souvent non-linairement sparables.
e
e
e
Nous rappelons ici les deux cas de sparation linaire et non-linaire.
e
e
e
3.2.3
f (x) =
i yi x.xi + b
(3.1)
i=1
avec, x est un vecteur support et les xi sont les observations des direntes images dape
prentissage. Les multiplicateurs de Lagrange i et le biais b sont des hyper-param`tres
e
dapprentissage dtermins par la rsolution du Lagragien du probl`me doptimisation
e
e
e
e
initial. La gure 3.1 illustre un exemple de classication binaire linairement sparable.
e
e
63
`
3.2. MACHINES A VECTEURS SUPPORTS
3.2.4
avec
: F H;
x (x)
H,
i = [1,2,...,NIm ].
(3.2)
f (x) =
i yi K(x,xi ) + b
i=1
64
(3.3)
`
3.2. MACHINES A VECTEURS SUPPORTS
Les fonctions noyaux peuvent avoir plusieurs formes. Quelques familles de fonctions
noyaux paramtrables sont connues et il revient ` lutilisateur de les tester pour dterminer
e
a
e
celle qui convient le mieux pour son application. Pour un vecteur support x et une observation x , les noyaux combinant x et x les plus utiliss sont les suivant:
e
Polynmial:
o
Sigmo
dal:
Laplacien:
Gaussien:
(3.4)
K(x,x ) = tanh(x.x + )
(3.5)
K(x,x ) = e
K(x,x ) = e
xx
(3.6)
xx 2
2 2
(3.7)
3.2.5
Bien quils soient conus comme des classieurs binaires, les SVMs peuvent sadresser
c
galement aux probl`mes de classication multi-classes. Un exemple de classication SVM
e
e
a
` trois classes (NC = 3) est illustr par la gure 3.3.
e
Des approches permettant de considrer la classication multi-classes comme un seul
e
probl`me doptimisation existent en littrature (Weston and Watkins, 1999). Linconvnient
e
e
e
de ces mthodes est quelles sont beaucoup plus gourmandes en terme de calcul que
e
la rsolution de plusieurs probl`mes de classication binaires. Dans la littrature, il est
e
e
e
65
`
3.2. MACHINES A VECTEURS SUPPORTS
La technique un contre un, quand ` elle, construit NC (NC 1)/2 classieurs SVMs
a
binaires, en utilisant toutes les paires de combinaisons binaires des NC classes. Lapprentissage de chaque classieur SVM est ralis en considrant les images de la premi`re
e e
e
e
classe comme des exemples positifs et les images de la seconde classe comme des exemples
ngatifs. Pour combiner les dirents classieurs SVM, lalgorithme de vote majoritaire
e
e
pour max-wins voting est adopt. Cet algorithme permet de trouver la classe rsultante
e
e
en choisissant la classe vote par la majorit des classieurs (Friedman, 1997). Le nombre
e
e
dimages utilises pour lapprentissage de chaque classieur SVM est tr`s rduit, car seuls
e
e e
les images appartenant ` deux classes parmi les NC classes sont prises en consideration.
a
Do`, un temps dapprentissage plus court. Linconvnient de cette mthode rside dans
u
e
e
e
le fait que chaque image requte doit tre prsente ` un grand nombre de classieurs
e
e
e
e a
66
Algorithme DAG-SVM
3.2.6
Conclusion
Dans cette section, nous avons prsent le principe de fonctionnement des SVMs. Cest
e
e
une mthode de classication tr`s performante, qui sadresse ` la fois aux cas linaire et
e
e
a
e
non-linaire ainsi quaux probl`mes de classication binaires et multi-classes. Cependant,
e
e
linconvnient majeur des SVMs est le choix du noyau appropri et la dtermination eme
e
e
pirique de ses param`tres en fonction de la distribution des images dapprentissage (Duan
e
et al., 2003). En consquence, des mod`les plus exibles sont fortement recherchs. Dans
e
e
e
ce cadre, lapproche dapprentissage par noyaux multiples est initialement propose en
e
2004 (Lanckriet et al., 2004a). Cette proposition est base principalement sur lutilisation
e
de noyaux multiples dans le mme processus dapprentissage ce qui sav`re une solution
e
e
tr`s intressante pour palier aux limites des fonctions de dcision ` noyau unique.
e
e
e
a
3.3
3.3.1
67
K(x,x ) =
m km (x,x )
(3.8)
m=1
f (x) =
i yi
m km (x,xi )
+b
(3.9)
m=1
i=1
3.3.2
Une faon simple pour respecter les crit`res de pondration MKL, prsents ` la suite
c
e
e
e
e a
de lquation (3.8), est dutiliser un poids xe et commun pour tous les M noyaux:
e
m =
1
, m {1,2,...,M }
M
(3.10)
m
m=1
NIm
i yi km (x,xi ) + b
i=1
NIm
+C
i
i=1
68
(3.11)
yi f (xi ) 1 i , i {1,2,...,NIm }
i 0, i {1,2,...,NIm }
et
m = 1
m=1
o` les direntes variables i sont appeles des variables molles (slack variables en anglais),
u
e
e
elles sont introduites pour considrer les erreurs de classication qui peuvent tre associes
e
e
e
a
` chaque point dapprentissage. Lhyper-param`tre doptimisation C, appel aussi terme
e
e
de rgularisation de marge, permet de pondrer ces erreurs de classication pour optie
e
miser la fonction sparatrice nale. Cette mthode permet de dterminer itrativement
e
e
e
e
les hyper-param`tres dapprentissage ainsi que les coecients de pondration MKL en
e
e
mme temps. Initialement, les auteurs dans (Lanckriet et al., 2004b) ont introduit lape
proche des noyaux multiples pour les classications binaires. Linconvnient majeur de
e
cette proposition est quelle est base sur un probl`me de programmation quadratiquee
e
ment contraint. Eventuellement, elle devient rapidement intraitable d`s que le nombre
e
dimages dapprentissage ou le nombre de noyaux est grand. De plus, le probl`me de mie
nimisation dans lapproche de (Lanckriet et al., 2004b) est rellement un probl`me dual
e
e
dans lequel les coecients de pondration sont rgulariss selon les deux normes mixtes
e
e
e
(L2 , L1 ) ` la place de la norme quadratique L2 . En consquence, la formulation MKL de
a
e
Lanckriet et al. nest pas un probl`me de minimisation rgulier. Bach et al. ont propos
e
e
e
une version plus rguli`re de ce probl`me pour traiter des probl`mes ` moyenne chelle
e
e
e
e
a
e
(Bach et al., 2004). An de pouvoir supporter les probl`mes ` grande chelle, les auteurs
e
a
e
dans (Sonnenburg et al., 2005), (Sonnenburg et al., 2006) ont adress lapproche MKL
e
en rsolvant un probl`me de programmation linaire semi-innie, connu par lacronyme
e
e
e
anglais SILP (Semi-Innite Linear Program):
max
,
tel que
m = 1, m 0, m {1,2,...,M }
m=1
(3.12)
et
S ()
m=1 m m
avec 0 C, et
i yi = 0, i {1,2,...,NIm }
i=1
1
2
NIm NIm
NIm
i j yi yj km (xi ,xj )
i=1 j=1
(3.13)
i=1
3.4
3.4.1
Les techniques de pondration proposes pour lapproche MKL sont souvent ecaces
e
e
et conduisent gnralement ` des rsultats de classication satisfaisants. Toutefois, des
e e
a
e
mthodes de pondration plus rapides, permettant en particulier damliorer les rsultats
e
e
e
e
de classication dans les probl`mes de grande chelle, sont toujours recherches. En outre,
e
e
e
la complexit du contenu des bases dimages htrog`nes rend la dtermination des poids
e
ee e
e
optimaux tr`s dicile (Cao et al., 2009). Dans ce cadre, une nouvelle pondration de
e
e
noyaux est dcrite dans cette section. Cette pondration est destine aux apprentissages
e
e
e
SVM ` noyaux multiples, que lon appelle MK SVM, acronyme anglais de Multiple Kernel
a
based SVM.
3.4.2
Principe de MK SVM
3.4.3
Apprentissage multiple
NCorr (km )
, m {1,2,...,M }
NIm
(3.14)
o` NCorr (km ) est le nombre dimages correctement classies avec le noyau km . Soit
u
e
T R = [T Rk1 ,T Rk2 ,...,T RkM ] lensemble des taux dapprentissage obtenus, avec T Rkm le
taux correspondant au noyau km , m {1,2,...,M }. Lensemble T R permet de dterminer
e
lordre de pertinence des dirents noyaux. Dans ce contexte, un nouvel ensemble de
e
noyaux K = [k1 ,k2 ,...,kM ] est dni par lorganisation des noyaux de lensemble K selon
e
lordre des taux dapprentissage dcroissant. Le premier noyau k1 est ainsi le noyau le plus
e
pertinent, tandis que le dernier noyau dans K est le moins pertinent (kM ).
3.4.4
An de mettre en valeur les noyaux les plus pertinents, nous ralisons une pondration
e
e
selon lorganisation des noyaux eectue dans K :
e
m = 2
M m+1
, m {1,2,...,M }
M (M + 1)
m+1
(3.15)
, m {1,2,...,M 1}
o` m {1,2,...,M }, m 0,
u
K(x,x ) =
2
m=1
M m+1
k (x,x )
M (M + 1) m
m+1
(3.16)
, m {1,2,...,M 1}
Selon lquation (3.16), lapproche MKL est adresse par la rsolution dun probl`me
e
e
e
e
SVM standard ` noyau unique. La fonction de dcision MK SVM est formule par lquation
a
e
e
e
suivante:
NIm
f (x) =
i yi
i=1
avec T Rkm T Rk
m+1
2
m=1
M m+1
k (x,xi )
M (M + 1) m
+b
(3.17)
, m {1,2,...,M 1}.
Base dimages
dapprentissage
BApp
Extraction
dattributs
K:
k1
k2
k3
...
kM
TR : TRk1
TRk2
TRk 3
... TRk
M
K:
k
1
k2
k3
...
k
M
...
KWBTR
Algorithme MK SVM
MK SVM (Bapp ,K)
1: Pour chaque noyau km K, m = 1,2,...,M Faire
2:
Apprentissage SV M (X,km ); Eq. 3.3
3:
T Rkm = NCorr (km ) ; Eq. 3.14
NIm
4: Fin Pour
5: K = Organisation des taux dapprentissages des dirents noyaux (K,T R)
e
6: Pour chaque noyau km K , m = 1,2,...,M Faire
7:
m = KW-BTR (km ,T Rk m ); Eq. 3.15
8: Fin Pour
9: Calcul du noyau multiple (K ,); Eq. 3.16
10: Apprentissage SVM ` base de noyaux multiples (X,K); Eq. 3.17
a
3.4.5
Conclusion
3.5
Le
Le
Le
Le
noyau
noyau
noyau
noyau
Linaire 2 .
e
Polynmial (quation (3.4)), avec les param`tres {ct = 1,u = 5}.
o
e
e
Sigmo
dal (quation (3.5)), avec le param`tre { = 1}.
e
e
Gaussien (quation (3.7)), avec le param`tre { = 10.5}.
e
e
Les param`tres des noyaux, ainsi que le terme de rgularisation de marge C 3 sont
e
e
dtermins empiriquement pour la base dimages COREL utilise.
e
e
e
2. Le noyau de type produit scalaire euclidien correspondant ` ne pas modier lespace dattributs
a
initial F.
3. La valeur du terme de rgularisation de marge est choisie de faon ` mieux contrler le phnom`ne
e
c a
o
e
e
de sur-apprentissage.
73
3.5.1
Rsultats de classication
e
74
a)
b)
3.5.2
Temps dexcution
e
Le tableau 3.3 prsente les temps dapprentissage et de pondration des noyaux des
e
e
deux algorithmes pour direntes sous-bases COREL. Le temps dexcution le plus rae
e
pide pour chaque sous-base est ach en gras. Nous pouvons observer clairement que
e
5. Prcision gale ` 1.000 pour toutes valeurs de rappel.
e
e
a
75
3.6. CONCLUSION
lalgorithme MK SVM, utilisant la nouvelle pondration de noyaux KW-BTR, ncessite
e
e
signicativement moins de temps de calcul que lalgorithme SimpleMKL. Lalgorithme
MK SVM assure lapprentissage et la pondration des noyaux, pour la sous-base COREL
e
avec 3 classes, en moins dune minute, cependant SimpleMKL ncessite 2,7084 mn. De
e
mme, pour les sous-bases COREL avec 5, 7 et 10 classes, MK SVM est plus rapide que
e
SimpleMKL. Eectivement, par exemple MK SVM ncessite seulement 12.8102 mn pour
e
lapprentissage et la pondration des noyaux pour la sous-base COREL avec 10 classes,
e
alors que SimpleMKL requi`re dans ce cas 37.8110 mn. Ceci sexplique par le fait que
e
MK SVM, ` la dirence de SimpleMKL, ne rsout aucun probl`me doptimisation. La
a
e
e
e
pondration des noyaux dans MK SVM seectue une fois pour toute en se basant sur la
e
pertinence des taux dapprentissage correspondants. Par contre, SimpleMKL dtermine
e
les coecients de pondration des dirents noyaux itrativement selon une optimisation
e
e
e
de la descente du gradient. Do` ses besoins en temps de calcul.
u
Tab. 3.3 Comparaison des temps dapprentissage et de pondration (en Minutes) des
e
e
deux algorithmes MK SVM et SimpleMKL pour direntes sous-bases COREL.
Sous-bases
Temps dexcution
e
COREL
SimpleMKL MK SVM
3 classes
2.7084
0.8619
5 classes
7.7222
3.8038
7 classes
28.4550
8.5301
10 classes
37.8110
12.8102
3.6
Conclusion
76
Chapitre
78
4.1. INTRODUCTION
4.1
Introduction
Face aux limites rencontres dans les approches MKL, de nouvelles mthodes sont
e
e
proposes pour palier aux inconvnients de la combinaison linaire des caractristiques
e
e
e
e
de dirents types (Cao et al., 2009). Ces mthodes utilisent des poids variables qui
e
e
conduisent ` une fusion non-linaire et localement adaptative des caractristiques mula
e
e
tiples. Dans le mme contexte, nous proposons dans ce chapitre, une nouvelle Mthode
e
e
de Classication hirarchique Multi-Mod`les que lon appelle MC-MM (section 4.2). Une
e
e
valuation de MC-MM ` travers direntes mthodes de slection ainsi quune compae
a
e
e
e
raison avec dautres mthodes de classication sont prsentes dans la section 4.3. Les
e
e
e
rsultats exprimentaux obtenus montrent que la mthode de classication propose ase
e
e
e
sure toujours de tr`s bonne performances de classication.
e
4.2
4.2.1
4.2.2
`
4.2. CLASSIFICATION HIERARCHIQUE MULTI-MODELES
ailleurs, MC-MM est aussi une approche dterministe (Jain et al., 1999). En eet, chaque
e
image requte nest attribue, ` la n du processus de classication, qu` une seule classe.
e
e a
a
Pour cela, si une image requte est classie diremment selon deux niveaux hirarchiques
e
e
e
e
conscutifs le classieur du plus proche centre de classe, que lon appelle NCC pour Nearest
e
Cluster Center, est employ.
e
4.2.3
Rappelons que C = {C1 ,C2 ,...,CNC } est lensemble des NC classes contenues dans une
base dimages dapprentissage BApp . Le classieur NCC reprsente un processus simple
e
permettant dattribuer une image requte ` la classe la plus proche dans lensemble C
e a
selon un espace dattributs donn.
e
F
m
Ci
C
i
Iq
di
NCC
d j < di
Iq ==> C j
dj
C
j
Cj
Fig. 4.1 R`gle de dcision du classieur NCC: classication de limage requte Iq dans
e
e
e
lespace dattributs Fm , ` travers les deux classes values Ci et Cj .
a
e
e
Soit une image requte Iq attribue diremment aux classes Ci et Cj , 1 i = j NC ,
e
e
e
avec les mod`les considrs par deux niveaux hirarchiques conscutifs. On note ces deux
e
ee
e
e
niveaux par N ivl et N ivm . Supposant que le mod`le considr par N ivm est plus pertinent
e
ee
que celui utilis dans le niveau N ivl et que Fm est son espace dattributs correspondant.
e
Initialement, NCC calcule dans lespace Fm les centres Ci et Cj respectivement des deux
classes Ci et Cj . Les centres de classes sont reprsents par la caractristique moyenne des
e
e
e
images dapprentissage appartenant aux classes correspondantes. En fait, chaque centre
calcul est ctif et peut ne correspondre ` aucune image dans la classe considre. On note
e
a
ee
par Fm (Iq ) la projection de limage Iq dans lespace Fm . Comme le montre la gure 4.1,
la r`gle de dcision du classieur NCC consiste ` attribuer limage Iq ` la classe dont le
e
e
a
a
centre est le plus proche. Ceci se base principalement sur les deux distances di et dj , qui
correspondent aux mesures de similarit calcules entre Fm (Iq ), Ci et Fm (Iq ), Cj .
e
e
Pour cela, nous employons la distance Euclidienne (Wang et al., 2005). Cette distance est
la plus utilise pour les mesures de similarit dans les espaces dattributs. Toutefois, il est
e
e
toujours possible dutiliser dautres mtriques de ltat de lart (Dengsheng and Guojun,
e
e
2003).
Il est a signaler que lapport du classieur NCC nest requis quen cas de conit
`
entre les dcisions SVMs des niveaux hirarchiques conscutifs. Eectivement, les SVMs,
e
e
e
agissant par sparation, exploitent les relations de chaque classe avec les autres. Par
e
contre, le classieur NCC modlise chaque classe sparment. Dans ce qui suit, on dtaille
e
e e
e
le principe de la mthode de classication MC-MM.
e
80
`
4.2. CLASSIFICATION HIERARCHIQUE MULTI-MODELES
4.2.4
Classication hirarchique
e
Vu que les caractristiques extraites pour la description dimages dans les bases htroe
ee
g`nes, ne sont pas ncessairement toutes pertinentes et utiles pour la reconnaissance,
e
e
notre nouvelle mthode de classication hirarchique envisage une pr-slection des cae
e
e e
ractristiques les plus pertinentes. Ce sujet est abord dans le chapitre 2. Dans cette
e
e
section, nous considrons les rsultats de la mthode de slection adaptative, que lon a ape
e
e
e
` partir des n caractristiques, extraites initialement, la mthode SAC value
pele SAC. A
e
e
e
e
la pertinence des n mod`les correspondants (M = {M1 ,M2 ,...,Mn }). Une analyse discrie
minante des performances des dirents mod`les dans M, permet de slectionner un souse
e
e
ensemble de k mod`les (Ms = {Ms1 ,Ms2 ,...,Msk }, k n). Ces mod`les sont considrs
e
e
ee
comme les plus pertinents. En phase de gnralisation, seulement les caractristiques core e
e
respondantes aux mod`les contenus dans Ms sont extraites ` partir dune base dimages
e
a
de test BT est . Cela permet dacclrer davantage cette phase, puisquon vite dextraire
ee
e
les caractristiques correspondantes aux mod`les jugs non pertinents.
e
e
e
Pour une image requte Iq dans BT est , la nouvelle mthode de classication hirarchique
e
e
e
multi-mod`les MC-MM consid`re initialement le mod`le ayant la plus faible performance
e
e
e
dapprentissage dans Ms (Msk ). Notons le rsultat de classication de Iq avec ce mod`le
e
e
Msk
par C (Iq ) C. Cette classication est ane progressivement ` travers les dirents
e
a
e
niveaux hirarchiques utiliss. En fait, ` chaque niveau dans larchitecture MC-MM, Iq
e
e
a
est classie avec un mod`le subsquent dans Ms , jusqu` atteindre au dernier niveau le
e
e
e
a
mod`le le plus performant Ms1 (gure 4.2). La classication de Iq selon chaque niveau est
e
toujours compare ` celle obtenue avec le niveau prcdent dans lhirarchie de MC-MM.
e a
e e
e
Cette classication est principalement valide si les deux niveaux compars prsentent
e
e
e
une classication similaire de Iq . Lorsquil y a conit entre les dcisions prises par deux
e
niveaux conscutifs, lambigu e est leve grce ` lutilisation du classieur NCC prsent
e
t
e
a a
e
e
dans la section 4.2.3.
Au premier niveau hirarchique, le rsultat de classication de limage Iq avec le mod`le
e
e
e
Msk
Msk1
e
(Iq ) C, est compar avec C (Iq ). Si Iq est classie
e
Msk1 , que lon note par C
dune faon similaire avec les deux mod`les Msk et Msk1 , la classication de Iq dans ce
c
e
premier niveau est directement valide:
e
C Msk ,Msk1 (Iq ) = C Msk (Iq ) = C Msk1 (Iq )
Dans le cas contraire (C Msk (Iq ) = C Msk1 (Iq )), Iq est attribue ` la classe valide par
e a
e
le classieur NCC. La distance de la projection de Iq dans lespace dattributs F1 1 par
rapport aux deux classes C Msk (Iq ) et C Msk1 (Iq ) est examine. La classe C Msk ,Msk1 (Iq )
e
est donc celle ayant le centre le plus proche.
De la mme faon dans le deuxi`me niveau, les rsultats de classication C Msk ,Msk1 (Iq )
e
c
e
e
Msk2
et C
(Iq ) sont compars. Ainsi de suite jusqu` atteindre le dernier niveau hirarchique
e
a
e
considrant le mod`le le plus performant Ms1 . Notons par C(Iq ) = C Msk ,Msk1 ,...,Ms1 (Iq ) la
e
e
classication de Iq avec MC-MM. On peut formuler cette classication comme suit:
C(Iq ) = [ [ [C Msk (Iq ) C Msk1 (Iq )]... C Ms2 (Iq )] C Ms1 (Iq )],
1. F1 correspond au premier niveau N iv1 dans larchitecture hirarchique MC-MM.
e
81
(4.1)
`
4.2. CLASSIFICATION HIERARCHIQUE MULTI-MODELES
avec
C Msi (Iq )C Msj (Iq ) =
C Msj (Iq ),
N CC(Iq ,C Msi (Iq ),C Msj (Iq )),
Bien que base sur deux classieurs (SVM et NCC), la classication MC-MM propose
e
e
est principalement discriminante via la classication des SVMs. Les mesures de similarit
e
eectues en cas dutilisation du classieur NCC sont employes pour situer les images
e
e
candidates exclusivement par rapport aux deux classes proposes par les mod`les SVMs
e
e
considrs. La gure 4.2, illustre larchitecture de la classication multi-mod`les MC-MM.
ee
e
Pour chaque
image requte
Iq
M sk
(I q)
Oui
Si mme
classe
C Msk1(I q)
C Msk ,Msk1(I q)
Oui
Non
Si mme
classe
NCC
Non
C M sk2 (I q)
Oui
NCC
Si mme
classe
C M s1 (I q)
C (I q)
Non
NCC
Algorithme MC-MM
MC-MM (BT est ,Ms ); Eq. 4.1
1: Pour chaque image test Iq BT est Faire
2:
C(Iq ) = C Msk (Iq )
3:
Pour chaque mod`le Msj Ms , j = k-1,...,2,1 Faire
e
Msj
4:
Si C(Iq ) = C (Iq ) Alors
5:
C(Iq ) = N CC(Iq ,C(Iq ),C Msj (Iq ))
6:
Fin si
7:
Fin pour
8: Fin pour
Algorithme NCC
NCC (Iq ,C Msi ,C Msj )
1:
F(Iq ) = FMsi (Iq )
2: Si N ivMsi < N ivMsj Alors
3:
F(Iq ) = FMsj (Iq )
82
4.3. EVALUATION ET COMPARAISON
4: Fin si
5: di = |F(Iq ) C Msi |; dj = |F(Iq ) C Msj |
6: Si di < dj Alors
C(Iq ) = C Msi
8: Sinon
9:
C(Iq ) = C Msj
10: Fin si
7:
4.2.5
Conclusion
4.3
Evaluation et comparaison
Dans cette section, une valuation des performances de la nouvelle mthode de classie
e
cation hirarchique MC-MM est prsente. La section 4.3.1 est rserve ` lvaluation de
e
e
e
e
e a e
MC-MM ` travers direntes mthodes de slection. Les performances de MC-MM utia
e
e
e
lisant particuli`rement la mthode de slection SAC sont tudies dans la section 4.3.2.
e
e
e
e
e
Des comparaisons des rsultats de classication de MC-MM base SAC avec les rsultats
e
e
e
dautres mthodes connues dans la littrature sont enn discutes dans la section 4.3.3.
e
e
e
4.3.1
Nous discutons dans cette section les rsultats de classication MC-MM ` travers la
e
a
mthode SAC et les direntes mthodes de slection AG prsentes dans le chapitre 2.
e
e
e
e
e
e
Le mme ensemble de caractristiques est employ (pour plus de dtails voir chapitre 1).
e
e
e
e
Une tude comparative entre les trois mthodes de slection AG (AG1 , AG2 et AG3 )
e
e
e
et la mthode SAC est eectue. La base COREL avec 10 classes est utilise pour les
e
e
e
exprimentations.
e
Le tableau 4.1 illustre les rsultats de classication MC-MM ` travers les direntes
e
a
e
mthodes de slection values. Les rsultats obtenus montrent que la mthode de slection
e
e
e
e
e
e
e
AG2 est la plus ecace parmi les trois algorithmes gntiques de slection utiliss. Ceci
e e
e
e
conrme que AG1 et AG3 convergent vers des optimums locaux comme il tait dj` voqu
e
eae
e
dans le chapitre 2. En consquence, ces deux mthodes de slection ne permettent pas
e
e
e
daboutir ` des performances de classication assez leves. Cependant, bien quelle assure
a
e e
83
4.3. EVALUATION ET COMPARAISON
Tab. 4.1 Classication MC-MM ` ravers direntes
a
e
sous-bases dimages COREL.
Sous-bases COREL
Mthodes
e
AG1
AG2
3 classes
Pmoy
0.9293 0.9540
Rmoy
0.9200 0.9467
5 classes
Pmoy
0.8467 0.9230
Rmoy
0.8240 0.9120
7 classes
Pmoy
0.7827 0.8554
Rmoy
0.6914 0.8229
10 classes
Pmoy
0.6877 0.8207
Rmoy
0.6200 0.7880
avec MC-MM des rsultats de classication comptitifs, la mthode AG2 sav`re moins
e
e
e
e
performante que la mthode SAC. En eet, pour les direntes sous-bases COREL utilises
e
e
e
les rsultats de classication MC-MM base SAC sont toujours les plus performants. Ce
e
e
qui prouve lecacit de la combinaison de la slection adaptative avec la classication
e
e
hirarchique multi-mod`les. Dans le reste de ce chapitre les rsultats prsents sont tous
e
e
e
e
e
bass sur le couple SAC, MC-MM .
e
4.3.2
En se basant sur la slection adaptative, on discute dans cette section les rsultats
e
e
de classication MC-MM. Comme il est dtaill dans la section 4.2.4, la gnralisation
e
e
e e
MC-MM proc`de hirarchiquement ` partir des mod`les les moins performants vers les
e
e
a
e
plus performants. Une valuation de cette procdure de gnralisation est propose. Dans
e
e
e e
e
ce cadre, nous comparons les performances de la gnralisation MC-MM avec deux autres
e e
procdures de gnralisation possibles. La premi`re adopte le mme principe propos
e
e e
e
e
e
sauf quelle proc`de de faon oppose, cest ` dire des mod`les les plus performants vers
e
c
e
a
e
les moins performants. La deuxi`me assigne les images requtes ` la classe considre
e
e
a
ee
par la majorit des mod`les slectionns. Dans ce qui suit, ces deux gnralisations sont
e
e
e
e
e e
e
indiques, respectivement, par gnralisation dcroissante et gnralisation max mod`les.
e
e e
e
e e
Le tableau 4.2 illustre ltude comparative des performances des direntes gnralisations
e
e
e e
tudies pour quatre sous-bases dimages COREL. Les meilleures et les pires performances
e
e
dans ce tableau sont aches en gras.
e
Dapr`s le tableau 4.2, on remarque que la procdure de gnralisation MC-MM est
e
e
e e
la plus performante parmi les trois procdures compares. Pour direntes sous-base COe
e
e
REL, MC-MM assure toujours des taux de classications prpondrants que les deux
e
e
autres procdures de gnralisation. Ceci est justi par la qualit ascendante de la
e
e e
e
e
gnralisation MC-MM. Les images requtes sont initialement classies selon le mod`le
e e
e
e
e
le moins performant et tout au long du processus de gnralisation MC-MM, la classie e
cation de ces images est ane davantage avec des mod`les plus pertinents. Do`, une
e
e
u
amlioration progressive de la classication des images ` travers les dirents niveaux
e
a
e
hirarchiques employs. La gnralisation dcroissante qui proc`de de faon oppose est
e
e
e e
e
e
c
e
la moins performante parmi les trois procdures values. Le principe mme de cette
e
e
e
e
84
4.3. EVALUATION ET COMPARAISON
Tab. 4.2 Evaluation de la gnralisation MC-MM. Etude comparative avec les deux
e e
e
e
procdures de gnralisation dcroissante et max mod`les pour direntes sous-bases COe
e e
e
REL.
Sous-bases
Performances de classication des trois
COREL
procdures de gnralisation
e
e e
dcroissante max mod`les MC-MM
e
e
3 classes
0.8248
0.9803
0.9879
5 classes
0.7555
0.8425
0.9750
7 classes
0.7512
0.7914
0.9123
10 classes
0.7096
0.7638
0.8371
gnralisation permet aux mod`les les moins performants de dgrader les rsultats de clase e
e
e
e
sication des images. En fait, lordre dutilisation des mod`les dans les deux procdures de
e
e
gnralisation MC-MM et dcroissante constitue une sorte de pondration de ces mod`les.
e e
e
e
e
Les premiers mod`les utiliss sont les moins inuents vu que la classication des images
e
e
avec ces mod`les risque dtre modie par les mod`les qui suivent. Par consquent, il est
e
e
e
e
e
vident que les mod`les les moins performants doivent tre employs en premiers lieu dans
e
e
e
e
une telle architecture. Ce qui explique la supriorit des taux de classications MC-MM
e
e
e
par rapport ` ceux de la gnralisation dcroissante. La gnralisation max mod`les assure
a
e e
e
e e
aussi des rsultats meilleurs que ceux de la gnralisation dcroissante, mais bien quelle
e
e e
e
soit parfois assez comptitive (sous-base COREL avec 3 classes par exemple), MC-MM
e
e
reste toujours la plus performante. De plus, la gnralisation max mod`les ne prend pas
e e
en compte les degrs de pertinence des dirents mod`les slectionns. Elle peut classier
e
e
e
e
e
ainsi les images requtes selon des mod`les moins performants.
e
e
Tab. 4.3 Matrice
avec 10 classes.
Cl. 0
Cl. 0
84
Cl. 1
0
Cl. 2
0
Cl. 3
0
Cl. 4
9
Cl. 5
8
Cl. 6
4
Cl. 7
8
Cl. 8
6
Cl. 9
0
Cl. 2
0
0
100
0
0
0
0
0
0
0
Cl. 3
0
0
0
73
0
0
12
8
17
0
Cl. 4
0
0
0
0
71
0
0
0
0
0
Cl. 5
0
0
0
0
4
92
0
0
0
0
Cl. 6
8
0
0
0
0
0
72
0
4
0
Cl. 7
8
0
0
0
4
0
0
76
0
0
Cl. 8
0
0
0
27
0
0
12
8
73
0
Cl. 9
0
4
0
0
0
0
0
0
0
100
85
4.3. EVALUATION ET COMPARAISON
classication est dautant meilleur que sa matrice de confusion sapproche dune matrice
diagonale. Un des intrts de cette matrice est quelle montre rapidement si le syst`me
ee
e
parvient ` classier correctement. Dapr`s le tableau 4.3, on peut voir que la classication
a
e
est russie ` 100% pour les classes didentiants 2 et 9, correspondant respectivement
e
a
aux classes Dinosaurs et Cars 3 . Pour le reste des classes les taux de classication varient
entre 71% et 96%. Ce qui prouve lecacit de la classication MC-MM qui sav`re aussi
e
e
performante face ` la complexit du contenu de la base dimages htrog`ne COREL.
a
e
ee e
`
A titre indicatif, on prsente dans la gure 4.3 un exemple dimages-requtes de la
e
e
4
classe African peoples and villages , les images-candidates qui ont t correctement clasee
sies et celles mal classies.
e
e
a)
b)
Fig. 4.3 a) Les images correctement classies et b) celles mal classies de la classe
e
e
African peoples and villages pour la sous-base dimages COREL utilise (10 classes).
e
On constate que 18 images-requtes parmi 25 sont correctement classies (gure 4.3 (a))
e
e
et seulement 7 sont mal classies (gure 4.3 (b)). Nous tenons ` signaler que les cae
a
ractristiques slectionnes pour la base COREL avec 10 classes sav`rent pertinentes
e
e
e
e
pour la classication de 72% des images-requtes de la classe African peoples and villages.
e
Cependant, nous prcisons que la faiblesse de description des images mal classies est
e
e
due principalement au contenu mme de ces images. Dapr`s la gure 4.3, nous pouvons
e
e
bien remarqu quau contraire des images correctement classies, la plupart des images
e
e
mal classies contiennent une majorit de rgions communes avec dautres classes dans la
e
e
e
base. Ces rgions (dherbes ou de ciel) semblent tre caractrisantes pour certaines classes
e
e
e
autre que la classe African peoples and villages. Ceci explique bien les invitables erreurs
e
de reconnaissance prsentes, par exemple, par la classication errone de six parmi les
e
e
e
sept images illustr par la gure 4.3 (b) dans les classes Dinosaurs et Mountains and
e
glaciers, didentiants respectives 3 et 8 (tableaux 1.1 et 4.3).
4.3.3
4.3.3.1
86
4.3. EVALUATION ET COMPARAISON
formances de classication de la mthode classique, dite aussi mthode simultane (Kae
e
e
chouri et al., 2008b). La mthode de classication classique utilise est base sur un mod`le
e
e
e
e
SVM unique o` lensemble des caractristiques extraites est employ simultanment. Les
u
e
e
e
meilleures performances sont aches en gras dans le tableau 4.4.
e
Tab. 4.4 Evaluation des deux mthodes de classication MC-MM et classique pour
e
direntes sous-bases dimages COREL.
e
Sous-bases COREL Performances de classication
Classique
MC-MM
3 classes
Pmoy
0.7222
0.9879
Rmoy
0.4933
0.9333
5 classes
Pmoy
0.7760
0.9750
Rmoy
0.3920
0.9120
7 classes
Pmoy
0.7711
0.9123
Rmoy
0.3771
0.8229
10 classes
Pmoy
0.7065
0.8371
Rmoy
0.3960
0.8160
4.3. EVALUATION ET COMPARAISON
obtenus avec chaque mod`le utilis sparment (tableaux 4.4, 1.2 et 1.3). Par consquent,
e
e e e
e
lutilisation hirarchique des mod`les slectionns par le classieur MC-MM permet toue
e
e
e
jours damliorer la caractrisation des images et dassurer par la suite une meilleure
e
e
reconnaissance.
4.3.3.2
Les mthodes connues par lacronyme anglais MIL (Multiple Instance Learning) pere
mettent dapprendre un concept ` partir dune srie densemble dexemples positifs et
a
e
ngatifs. Chaque ensemble peut contenir de nombreux cas, mais un ensemble est dsign
e
e
e
positif si au moins lun des exemples y contenu se situe dans le concept envisag. Un ene
semble est considr comme ngatif si tous ses exemples sont ngatifs. Lapproche MIL a
ee
e
e
t tr`s bien adapte aux contexte de la classication dimages. Dans ce cas, les ensembles
ee e
e
sont les images de la base considre et les exemples sont les direntes sous-rgions de
ee
e
e
ces images.
Nous comparons les performances de classication MC-MM avec celles de direntes
e
mthodes MIL prsentes dans la littrature, ` savoir les mthodes MILES 5 (Chen et al.,
e
e
e
a
e
2006), DD-SVM 6 (Chen and Wang, 2004), MI-SVM (Andrews et al., 2003), et K-meansSVM (Csurka et al., 2004a). La mthode K-means-SVM construit des groupes de rgions
e
e
dimages en utilisant lalgorithme K-means. Dans cette mthode, les SVMs sont construites
e
en utilisant comme attributs le nombre de rgions dsignant chaque classe. La mthode
e
e
e
DD-SVM entra dans lespace des attributs un classieur SVM construit ` partir dune
ne
a
projection dnie par les maximums et les minimums locaux de la fonction de Densit
e
e
Diverse (DD). Sachant que la fonction DD mesure les co-occurrences des rgions simie
laires dans les direntes images de mme classe (Maron and prez, 1998). La mthode
e
e
e
e
MILES a t propose comme une amlioration de DD-SVM, par lemploi dune slection
ee
e
e
e
enveloppante des attributs performants. Eectivement, les SVMs sont appliqus simule
tanment pour la slection ainsi que pour la construction du classieur dans la mthode
e
e
e
MILES. La mthode MI-SVM est base sur la slection des rgions considres comme poe
e
e
e
ee
sitives pour la classication des images. Elle utilise le mme ensemble dattributs rgions
e
e
que DD-SVM. Le noyau gaussien est utilis pour les SVMs dans toutes les mthodes
e
e
compares.
e
Tab. 4.5 Comparaison de la la prcision moyenne de classication de la mthode
e
e
MC-MM avec celles de direntes mthodes MIL de ltat de lart pour la sous-base COe
e
e
REL avec 10 classes.
Mthodes compares
e
e
Performances
MC-MM
83.7
MILES (Chen et al., 2006)
82.6
DD-SVM (Chen and Wang, 2004)
81.5
MI-SVM (Andrews et al., 2003)
74.7
K-means-SVM (Csurka et al., 2004a)
69.8
5. Une implmentation MatLab de la mthode MILES est disponible en ligne ` ladresse suivante:
e
e
a
http://www.cs.olemiss.edu/ychen/MILES.html.
6. Une implmentation MatLab de la mthode DD-SVM est disponible en ligne ` ladresse suivante:
e
e
a
http://www.cs.uno.edu/yixin/ddsvm.html.
88
4.3. EVALUATION ET COMPARAISON
Les performances de classication de ces mthodes pour la base COREL avec 10 classes
e
7
sont fournies dans le tableau 4.5 . La meilleure et la pire performances dans ce tableau
sont aches en gras. Cette analyse met en vidence la supriorit de la performance de
e
e
e
e
notre mthode par rapport ` celles des direntes mthodes compares. MC-MM foure
a
e
e
e
nit une prcision moyenne de classication de lordre de 83.7%. Par contre, la meilleure
e
performance obtenue, parmi toutes les autres mthodes values, est celle de la mthode
e
e
e
e
MILES qui aboutit seulement ` 82.6% comme prcision moyenne de classication.
a
e
4.3.3.3
Une comparaison de MC-MM avec la mthode sac des descripteurs (Csurka et al.,
e
2004b), (Willamowski et al., 2004), (Zhang et al., 2007) dsigne souvent par lacronyme
e
e
BoF (Bag of Features) est aussi eectue. Lapproche BoF consiste ` valuer un jeu de
e
ae
descripteurs visuels locaux sur un ensemble de points dintrt extraits de limage. Elle
ee
permet ensuite de caractriser les statistiques de ces descripteurs locaux par le biais de leur
e
histogramme de valeurs quanties (gure 4.5). Ceci permet de caractriser globalement
e
e
le contenu de limage.
Fig. 4.5 Les dix histogrammes de mots-visuels qui reprsentent lensemble des classes
e
de la sous-base dimages COREL avec 10 classes. Chaque histogramme illustre le nombre
doccurrence des dirents mots-visuels extraits ` partir des images de la classe correse
a
pondante.
Une large valuation dans ltat de lart a bien prouv les performances de la mthode
e
e
e
e
sac des descripteurs pour la classication dimages par le contenu (Zhang et al., 2007).
Le processus de la mthode BoF 8 employe dans ce travail est constitu essentiellement
e
e
e
par trois tapes. La premi`re est la dtection et la description des points dintrt dans
e
e
e
ee
lensemble des images de la base via lutilisation du descripteur SIFT (Lowe, 2004). La
deuxi`me est le regroupement de tous les descripteurs extraits en direntes catgories ape
e
e
peles mots-visuels ` laide de lalgorithme k -means. Do`, il est galement possible dape
a
u
e
peler la mthode sac des descripteurs par sac de mots-visuels. Chaque catgorie trouve
e
e
e
reprsente une rgion typique des images. Lors de notre experimentation, le nombre toe
e
tale de mots-visuels extraits de la sous-base COREL avec 10 classes est autour de 11000
7. Les valeurs aches sont les prcisions moyennes de classication (en pourcentage).
e
e
8. Une implmentation MatLab de la mthode sac des descripteurs (Bag of Features) est disponible
e
e
en ligne ` ladresse suivante: http://www.vlfeat.org/ vedaldi/code/bag/bag.html.
a
89
4.3. EVALUATION ET COMPARAISON
mots-visuels. La gure 4.5 illustre les dix histogrammes de mots-visuels qui reprsentent
e
lensemble des direntes classes de la base dimages COREL utilise. Les images peuvent
e
e
tre alors dcrites dans une troisi`me tape comme un sac de mots-visuels. Les occurrences
e
e
e e
de chaque mot-visuel dans une image reprsente la caractristique de cette image.
e
e
Nous achons dans la gure 4.6 (a) les caractristiques histogramme de mots-visuels
e
de toutes les images de la sous-base COREL utilise. Une valuation de la robustesse de
e
e
description de ces caractristiques est fournie dans la gure 4.6 (b). Cette gure illustre
e
la distribution de distances par paires dimages qui prsente lorganisation des distances
e
entre les histogrammes de mots-visuels des direntes images dans la base. Le pouvoir
e
discriminant de ces caractristiques sav`re assez performant pour caractriser une forte
e
e
e
similarit entre chaque image et elle-mme (voir la diagonale de la matrice de distance
e
e
illustre par la gure 4.6 (b)). Le degr de similarit entre les images appartenant ` une
e
e
e
a
mme classe est beaucoup moins signicatif.
e
a)
b)
Fig. 4.6 a) Sac de mots-visuels qui reprsente lensemble des images appartenant aux
e
10 classes de la sous-base COREL utilise, b) Distances entre les caractristiques histoe
e
grammes de mots-visuels des direntes paires dimages de la sous-bases COREL utilise
e
e
(10 classes).
En utilisant cette description dimages base sur les sacs de mots-visuels, on obtient
e
une prcision moyenne de classication de lordre de 74.0% avec la mthode BoF pour la
e
e
sous-base COREL avec 10 classes. Par consquent, en se basant sur la slection adaptative
e
e
des caractristiques globales les plus pertinentes, la mthode de classication MC-MM proe
e
pose dans ce chapitre est beaucoup plus performante (prcision moyenne de classication
e
e
de lordre de 83.7% pour la mme base).
e
Pour une meilleure illustration de la comparaison MC-MM et BoF, nous prsentons
e
dans la gure 4.7 les graphes des matrices de confusions correspondantes ` ces deux
a
mthodes. Il est clair dapr`s le graphe situ dans la partie gauche 9 de cette gure que
e
e
e
la mthode de classication MC-MM est aussi performante pour toute les classes de la
e
sous-base dimages COREL avec 10 classes. Alors que le graphe situ dans la partie droite
e
de la mme gure, dcrivant la matrice de confusion de la mthode BoF, montre que
e
e
e
cette mthode ne permet pas dassurer des taux de classication homog`nes pour les
e
e
direntes classes de la sous-base. En eet, bien quelle se montre assez comptitive pour
e
e
9. La matrice de confusion correspondante au graphe situ dans la partie gauche de la gure 4.7 est
e
fournie dans le tableau 4.3.
90
4.3. EVALUATION ET COMPARAISON
Fig. 4.7 Graphes des deux matrices de confusion respectives de MC-MM (` gauche) et
a
BoF (` droite) pour la sous-base dimages COREL avec 10 classes.
a
la classication des images appartenant aux sept premi`res classes de la sous-base COe
REL utilises, la mthode BoF fournit des taux de classication nettement dgrads pour
e
e
e
e
les trois classes didentiants 7, 8 et 9. Ceci est vident vu que les images htrog`nes
e
ee e
appartenant smantiquement au mme concept ne prsentent pas forcment une majorit
e
e
e
e
e
de points dintrt communs. On ache dans la gure 4.8 les courbes prcision-rappel de
ee
e
MC-MM et BoF pour la mme sous-base dimages COREL (10-classes).
e
Fig. 4.8 Courbes prcision-rappel de MC-MM et BoF pour la sous-base dimages COREL
e
avec 10 classes.
La gure 4.8 montre que la courbe prcision-rappel de la mthode MC-MM est meilleure
e
e
que celle de la mthode BoF. Les prcisions de MC-MM sont toujours suprieures pour
e
e
e
toutes les valeurs de rappel. On cite par exemple que pour un rappel de 100%, la prcision
e
de la mthode MC-MM est de lordre de 80%, alors que celle de BoF est de lordre de
e
67%.
91
4.3. EVALUATION ET COMPARAISON
4.3.3.4
Nous avons galement ralis une comparaison des performances de la mthode MC-MM
e
e e
e
avec lapproche dapprentissage par noyaux multiples (MKL). Dans ce contexte, MC-MM
est compare avec lalgorithme SimpleMKL 10 (Rakotomamonjy et al., 2008). Une valuation
e
e
des deux mthodes est eectue pour neuf sous-bases dimages avec dirents nombres
e
e
e
de classes (3, 5, 7, 10, 13, 15, 17, 20 et 23) tires des deux bases standards COREL et
e
CALTECH-256. Plus de dtails concernant ces deux bases dimages sont fournis dans le
e
chapitre 1.
Tab. 4.6 Etude comparative des deux mthodes MC-MM et SimpleMKL pour direntes
e
e
sous-bases dimages COREL et CALTECH-256.
Sous-bases
COREL
CALTECH-256
SimpleMKL MC-MM SimpleMKL MC-MM
3 classes
0.9753
0.9879
0.9467
0.9487
5 classes
0.9028
0.9750
0.8596
0.8648
7 classes
0.8640
0.9123
0.6600
0.7370
10 classes
0.8118
0.8371
0.6557
0.6934
13 classes
0.6750
0.7380
0.6423
0.6743
15 classes
0.6258
0.7007
0.5605
0.6360
17 classes
0.5974
0.6629
0.5360
0.6018
20 classes
0.5573
0.5906
0.4367
0.5525
23 classes
0.5157
0.5590
0.3773
0.5392
Le tableau 4.6 illustre les performances des deux mthodes compares pour les direne
e
e
tes sous-bases dimages employes. Les meilleures performances dans ce tableau sont afe
ches en gras. Dapr`s les rsultats prsents, nous prouvons que la mthode de clase
e
e
e
e
e
sication MC-MM propose est toujours plus performante que SimpleMKL pour toutes
e
les sous-bases dimages COREL et CALTECH-256 utilises. Les courbes de prcisions
e
e
moyennes correspondantes sont prsentes dans les gures 4.9 (a) et (b).
e
e
Pour les direntes sous-bases COREL utilises, les courbes prcision-rappel de MC-MM
e
e
e
et SimpleMKL sont illustres respectivement dans les gures 4.10 (a) et (b). Bien quelles
e
aient presque les mmes allures pour les sous-bases avec 3, 5, 7 et 10 classes, les courbes
e
de prcision-rappel de MC-MM pour ces sous-bases restent meilleures que celles de Sime
pleMKL. Pour les sous-bases restantes qui correspondent ` 13, 15, 17, 20 et 23 classes,
a
nous pouvons remarquer que la classication MC-MM est nettement plus pertinente que
SimpleMKL.
Dune mani`re similaire, les gures 4.11(a) et (b) illustrent respectivement les courbes
e
prcision-rappel de MC-MM et SimpleMKL pour direntes sous-bases dimages CALe
e
TECH-256. Il est clair que la qualit de classication des deux mthodes se dgrade
e
e
e
proportionnellement par rapport au cas des sous-bases COREL. Ceci est principalement
d ` la variation de la complexit du contenu des deux bases. Cependant, MC-MM est
ua
e
toujours plus performante que SimpleMKL pour toutes les sous-bases CALTECH-256
employes.
e
10. Lalgorithme SimpleMKL est dj` prsent dans le chapitre 3.
ea e
e
92
4.3. EVALUATION ET COMPARAISON
a)
b)
a)
b)
a)
b)
4.3. EVALUATION ET COMPARAISON
25 images requtes de la
classe Sunset scenes de la base
COREL
Images malclassifies avec
SimpleMKL
Fig. 4.12 Les images requtes de la classe Sunset scenes de la base COREL (` gauche) et
e
a
les images mal-classies (` droite) avec respectivement MC-MM et SimpleMKL. Toutes
e
a
les images requtes restantes (non illustres ` droite) sont correctement classies ` trae
e a
e a
vers chaque mthode.
e
25 images requtes de la
classe Chimp de la base
CALTECH256
Fig. 4.13 Les images requtes de la classe Chimp de la base CALTECH-256 (` gauche) et
e
a
les images mal-classies (` droite) avec respectivement MC-MM et SimpleMKL. Toutes
e
a
les images requtes restantes (non illustres ` droite) sont correctement classies ` trae
e a
e a
vers chaque mthode.
e
Deux exemples dimages requtes mal-classies et correctement classies avec les
e
e
e
deux mthodes MC-MM et SimpleMKL sont prsents dans les gures 4.12 et 4.13. Pour
e
e
e
chaque gure, les 25 images requtes utilises sont aches ` gauche. Les images illustres
e
e
e a
e
a
` droite sont les images mal-classies respectivement avec MC-MM et SimpleMKL. Dans
e
chaque cas, toutes les images restantes, parmi les 25 requtes de dpart, sont correctement
e
e
94
4.3. EVALUATION ET COMPARAISON
classies ` travers la mthode correspondante. La gure 4.12 montre que SimpleMKL
e a
e
narrive pas ` classier correctement 16 images ` partir des 25 requtes de la classe Sunset
a
a
e
scenes de la base COREL (23 classes). Cependant, les images mal-classies de la mme
e
e
classe avec MC-MM sont uniquement 9. De la mme faon, la gure 4.13 montre que les
e
c
images mal-classies de la classe Chimp de la base CALTECH-256 sont respectivement
e
8 et 13 ` travers les deux mthodes MC-MM et SimpleMKL.
a
e
Tab. 4.7 Comparaison des temps dapprentissage (en Minutes) de MC-MM et
SimpleMKL pour direntes sous-bases COREL et CALTECH-256.
e
Sous-bases
COREL
CALTECH-256
SimpleMKL MC-MM SimpleMKL MC-MM
3 classes
2.7084
0.1985
0.4350
0.2819
5 classes
7.7222
0.7825
0.7891
0.7276
7 classes
28.4550
1.6156
1.1431
1.7754
10 classes
37.8110
3.7262
5.0934
4.0073
13 classes
11.5164
8.8968
16.1382
8.1480
15 classes
26.1216
12.1298
125.4888
11.7506
17 classes
22.7951
15.1858
487.9302
15.8950
20 classes
37.1055
22.7309
612.0108
24.2861
23 classes
47.8590
31.5707
828.9810
32.5798
Par ailleurs, la mthode MC-MM est aussi plus ecace que SimpleMKL en terme de
e
temps dexcution. Le tableau 4.7 illustre les temps de calcul correspondants des apprene
tissages MC-MM et SimpleMKL pour les direntes sous-bases COREL et CALTECH-256
e
utilises. Les meilleures performances sont aches en gras dans ce tableau. On constate
e
e
que le processus dapprentissage MC-MM est beaucoup plus rapide que celui de SimpleMKL. De plus, pour les deux bases dimages COREL et CALTECH-256, le temps
dapprentissage MC-MM est linairement proportionnel aux nombres dimages dans la
e
base dapprentissage. En eet, le temps dapprentissage MC-MM est autour de 0.2 mn
dans le cas des sous-bases avec 3 classes et autour de 32 mn dans le cas des sous-bases
avec 23 classes. Cependant, le temps dapprentissage SimpleMKL est alatoire. En fait
e
pour la mme base COREL, le temps de calcul ncessaire pour lapprentissage de la souse
e
base avec 10 classes est plus lev que celui ncessaire pour lapprentissage de la sous-base
e e
e
avec 17 classes. Dans le mme contexte, SimpleMKL assure lapprentissage de la sous-base
e
CALTECH-256 avec 15 classes pendant 125.4888 mn. Par contre, il ncessite 26.1216 mn
e
seulement pour lapprentissage de la sous-base COREL avec 15 classes. En outre, SimpleMKL est base sur un programme doptimisation pour dterminer les poids de chaque
e
e
noyaux. Par consquent, il soure gnralement dun temps de calcul important pour
e
e e
converger vers des coecients optimaux. Ainsi, vu la complexit du traitement et de la
e
classication des images dans les bases htrog`nes, il est gnralement dicile de dnir
ee e
e e
e
des contraintes adaptes permettant de dterminer les dirents poids de chaque noyau.
e
e
e
Eectivement, il sav`re que, pour les sous-bases CALTECH-256 avec 15, 17, 20 et 23
e
classes, SimpleMKL ncessite un grand nombre ditrations pour converger vers des solue
e
tions raisonnables. Il a besoin, par exemple, de plus de treize heures pour lapprentissage
de la sous-base CALTECH-256 avec 23 classes.
95
4.4. CONCLUSION
4.4
Conclusion
96
CONCLUSION GENERALE ET PERSPECTIVES
en se basant sur une discrimination Fisher de leurs taux dapprentissage individuels. Cette
slection est totalement adapte ` la base dimages, les caractristiques et le classieur
e
e a
e
utiliss. Do`, elle permet damliorer considrablement les performances de description.
e
u
e
e
Les mthodes dapprentissage par noyaux multiples, dsignes par MKL, ont t ape
e
e
ee
pliques avec sucs ` la reconnaissance dimages. Cependant, elles sourent gnralement
e
e a
e e
dun temps de calcul tr`s important. Dans ce contexte, nous avons propos une noue
e
velle mthode de pondration (KW-BTR) destine pour la classication SVM ` noyaux
e
e
e
a
multiples (MK SVM). En se basant sur le degr de pertinence de chaque noyau, la noue
velle pondration permet de mieux considrer les noyaux les plus pertinents. Outre que
e
e
lamlioration des rsultats de classication prouve par les exprimentations ralises,
e
e
e
e
e e
e
e
e
MK SVM base KW-BTR assure signicativement des temps dexcution infrieurs aux
algorithmes MKL existants. Par ailleurs, face aux limites des mthodes MKL ` travers
e
a
la combinaison linaire des caractristiques htrog`nes, nous avons propos la mthode de
e
e
ee e
e
e
classication MC-MM. Avec cette classication, uniquement les mod`les des caractristiques
e
e
slectionnes via la mthode SAC sont considrs. Ces mod`les sont employs hirarchiquee
e
e
ee
e
e e
ment suivant un ordre retant les performances dapprentissage des caractristiques core
e
respondantes. Pour toute image requte le rsultat de classication est an progressivee
e
e
ment tout au long des dirents niveaux hirarchiques de la mthode. Lordre dutilisation
e
e
e
des caractristiques peut tre ajust selon une complmen-tarit de dcision entre chaque
e
e
e
e
e
e
deux niveaux conscutifs.
e
Pour valuer lapproche de reconnaissance propose, une large tude exprimentale
e
e
e
e
de la mthode de slection SAC ainsi que de la classication MC-MM est eectue pour
e
e
e
des base dimages de rfrence. Une tude comparative avec un ensemble de mthodes
ee
e
e
existantes dans la littrature est galement ralise. Cette tude a montr une tr`s bonne
e
e
e e
e
e
e
abilit de notre approche. Eectivement, MC-MM base SAC permet daboutir ` des
e
e
a
rsultats de reconnaissance tr`s ecaces. De plus, elle est beaucoup plus performante que
e
e
les mthodes compares. En terme de temps dexcution, notre approche prsente un tr`s
e
e
e
e
e
bon compromis entre la prcision et la rapidit. Elle permet par exemple dobtenir, pour
e
e
direntes sous-bases CALTECH-256, des facteurs dacclration allant de 1.5 jusqu` 25
e
ee
a
par rapport ` lalgorithme SimpleMKL tout en assurant des prcisions meilleures.
a
e
Il convient ` noter que MC-MM ne peut pas tre employe avec des syst`mes monoa
e
e
e
mod`le bass sur la description dune caractristique unique. Ceci est d essentiellement
e
e
e
u
a
` lhypoth`se principale de la mthode (classication multi-mod`les). En ralit, MC-MM
e
e
e
e e
est destine aux syst`mes bass sur une large description construite par un ensemble de
e
e
e
caractristiques multiples.
e
Les perspectives que nous envisageons dans le prolongement de ce travail de th`se
e
sarticulent autour des points suivants.
Description des images:
Dans ce travail, nous avons pris en compte les proprits visuelles de bas niveau
ee
pour la description des images. Comme nous lavons dj` voqu, le contenu assez
eae
e
complexe des images dans les bases htrog`nes engendre souvent des structures
ee e
dissemblables pour des images du mme concept. Comme perspective, nous poue
vons intgrer de nouvelles caractristiques an denrichir davantage la description
e
e
des images. La conception dune nouvelle caractristique assurant une description
e
adapte aux contenu des images htrog`nes pourrait tre aussi envisageable. Ceci
e
ee e
e
99
CONCLUSION GENERALE ET PERSPECTIVES
permet damliorer encore les performances de la classication et de la reconnaise
sance.
Par ailleurs, pour enrichir davantage cette description bas niveau dans les bases
htro-g`nes, nous pensons ` une stratgie ` double niveaux de caractrisation des
ee
e
a
e
a
e
images. Ainsi, on peut amliorer les performances du syst`me de reconnaissance proe
e
100
103
Bibliographie
Bimbo, A. (2001). Visual information retrieval. Morgan Kaufmann Publishers, San Francisco, USA.
Bimbo, A. and Vicario, E. (1998). Using weighted spatial relationships in retrieval by
visual contents. In IEEE Workshop on Image and Video Libraries.
Boujemaa, N., Fauqueur, J., Ferecatu, M., Fleuret, F., Gouet, V., Saux, B., and Sahbi,
H. (2001). Ikona : Interactive generic and specic image retrieval. In International
Workshop on Multimedia Content-Based Indexing and Retrieval MMCBIR01.
Brunelli, R. and Mich, O. (2000). Compass : an image retrieval system for distributed
databases. In IEEE International Conference on Multimedia and Expo ICME00.
Cao, L., Luo, J., Liang, F., and Huang, T. (2009). Heterogeneous feature machines for
visual recognition. In IEEE International Conference on Computer Vision ICCV09.
Carson, C., Thomas, M., Belongie, S., Hellerstein, J., and Malik, J. (1999). Blobworld :
A system for region-based image indexing and retrieval. In International Conference
on Visual Information System VIS99.
Cheikhrouhou, I., Djemal, K., Masmoudi, D., Maaref, H., and Derbel, N. (2009). Empirical descriptors evaluation for mass malignity recognition. In The First International Workshop on Medical Image Analysis and Description for Diagnosis Systems
MIAD09.
Chen, V. and Ruan, S. (2010). Graph cut based segmentation of brain tumor from mri
images. International Journal on Sciences and Techniques of Automatic control &
computer engineering, to appear.
Chen, Y., Bi, J., and Wang, J. (2006). Miles: Multiple-instance learning via embedded
instance selection. IEEE Transactions on Pattern Analysis and Machine Intelligence,
28(12):19311947.
Chen, Y. and Wang, J. (2004). Image categorization by learning and reasoning with
regions. Journal of Machine Learning Research, 5:913939.
Csurka, G., Bray, C., Dance, C., and Fan, L. (2004a). Visual categorization with bags
of keypoints. In Proceedings Workshop Statistical Learning in Computer Vision
ECCV04, pages 5974.
Csurka, G., Dance, C., Fan, L., Willamowski, J., and Bray, C. (2004b). Visual categorization with bags of keypoints. In ECCV Workshop on Statistical Learning in Computer
Vision.
Datta, R., Joshi, D., Li, J., and Wang, J. (2008). Image retrieval: Ideas, inuences, and
trends of the new age. ACM Computing Surveys, 2(40).
Delingette, H. and Montagnat, J. (2001). Shape and topology constraints on parametric
active contours. Computer Vision and Image Understanding, 83(2):140171.
Dengsheng, Z. and Guojun, L. (2003). Evaluation of similarity measurement for image
retrieval. Neural Networks and Signal Processing, 2:928931.
Duan, K., Sathiya, S., and Poo, A. (2003). Evaluation of simple performance measures
for tuning the svm hyperparameters. Neurocomputing, 51:4159.
Ester, M., Kriegel, H., Sander, J., and Xu, X. (1996). A density-based algorithm for
discovering clusters in large spatial databases with noise. In Han, J., editor, Second
International Conference on Knowledge Discovery and Data Mining.
Faloutsos, C., Equitz, W., Flickner, M., Niblack, W., Petkovic, D., and Barber, R. (1994).
Ecient and eective querying by image content. Journal of Intelligent Information
Systems, 3(4):231262.
Fei-Fei, L., Fergus, R., and Perona, P. (2006). One-shot learning of object categories.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 28:594611.
Fisher, R. (1936). The use of multiple measurements in taxonomic problems. Annals of
Eugenics, 7:179188.
Flickner, M., Sawhney, H., Niblack, W., Ashley, J., Huang, Q., Dom, B., Gorkani, M.,
Hafner, J., Lee, D., Petkovic, D., Steele, D., and Yanker, P. (1995). Query by image
and video content : the qbic system. IEEE Computer, 28(9):2332.
Freeman, J. and Skapura, D. (1991). Neural networks algorithms, applications, and programming techniques. Reading, MA: Addison-Wesley.
Friedman, J. (1997). Another approach to polychotomous classication. Technical report,
Department of Statistics, Stanford University.
Fukunaga, K. (1972). Introduction to Statistical Pattern Recognition. 0122698509. USSR,
Russian, Nauka, Moscow.
Fukunaga, K. (1990). Introduction to Statistical Pattern Recognition. second ed. Academic
Press.
Gehler, P. and Nowozin, S. (2009). On feature combination for multiclass object classication. In Twelfth IEEE International Conference on Computer Vision, pages
18.
Gevers, T. and Smeulders, A. (1999). The pictoseek www image search system. In
International Conference on Mathematics and Computer Science, volume 1, pages
264269.
Gevers, T. and Smeulders, A. (2004). Content-based image retrieval: An overview. In
Medioni, G. and Kang, S., editors, Emerging Topics in Computer Vision, Prentice
Hall.
Glasho, K. and Gustafson, S. (1983). Linear optimization and approximation. SpringerVerlag.
Goldberg, D. (1991). Algorithmes Gntiques. Addison-Wesley.
e e
Gouet, V. and Boujemaa, N. (2001). Object-based queries using color points of interest. In
IEEE Workshop on Content-Based Access of Image and Video Libraries CBAIVL01.
Grin, G., Holub, A., and Perona, P. (2007). Caltech 256 object category dataset. Technical Report UCB/CSD 04-1366, California Institute of Technology.
Guyon, I. and Elissee, A. (2003). An introduction to feature and variable selection.
Journal of Machine Learning Research, 3:11571182.
Hafner, J., Sawhney, H., Equitz, W., Flickner, M., and Niblack, W. (1995). Ecient
color histogram indexing for quadratic form distance function. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 7(17):729736.
Han, J. and Kamber, M. (2006). Data Mining: Concepts and Techniques. 1558609016.
Morgan Kaufmann, second revised edition.
Haralick, R., Dinstein, I., and Shanmugam, K. (1973). Textural features for image classication. IEEE Transactions on Systems, Man and Cybernetics, 3(6):610621.
Hare, J., Sinclair, P., Lewis, P., Martinez, K., Enser, P., and Sandom, C. (2006). Bridging the semantic gap in multimedia information retrieval: Top-down and bottom-up
approaches. In Proceedings of Mastering the Gap: From Information Extraction to
Semantic Representation, 3rd European Semantic Web Conference.
He, D. and Cercone, N. (2009). Local triplet pattern for content-based image retrieval.
Springer Verlag, (5627):229238.
Lanckriet, G., Bie, T., Cristianini, N., Jordan, M., and Noble, W. (2004a). A statistical
framework for genomic data fusion. Bioinformatics, 20:26262635.
Lanckriet, G., Cristianini, N., Bartlett, P., El-Ghaoui, L., and Jordan, M. (2004b). Learning the kernel matrix with semidenite programming. Journal of Machine Learning
Research, 5:2772.
Langley, P. and Sage, S. (1999). Tractable average-case analusis of naive bayesian classiers. In Kaufman, M., editor, Sixteenth International Conference on Machine Learning, pages 220228.
Leslie, C., Eskin, E., and Noble, W. (2002). The spectrum kernel: a string kernel for svm
protein classication. In 7th Pacic Symposium of Biocomputing.
Li, X., Wu, C., Zach, C., Lazebnik, S., and Frahm, J. (2008). Modeling and recognition
of landmark image collections using iconic scene graphs. In European Conference on
Computer Vision ECCV08.
Livens, S., Scheunders, P., Van-Wouwer, G., and Van-Dyck, D. (1997). Wavelets for
texture analysis, an overview. In Image Processing and Its Applications, volume 2,
pages 581585.
Lodhi, H., Shawe-Taylor, J., Cristianini, N., and Watkins, C. (2001). Text classication
using string kernels. In Advances in Neural Information Processing Systems NIPS01,
volume 13.
Lo`ve, M. (1948). Fonctions alatoires du second ordre. Supplement to P. Levy.
e
e
Lowe, D. (2004). Distinctive image features from scale-invariant keypoints. International
Journal of Computer Vision, 2(60):91110.
Ma, W. and Manjunath, B. (1999). Netra : A toolbox for navigating large image databases.
In Multimedia Systems, volume 7, pages 184198.
Malki, J., Boujemaa, N., Nastar, C., and Winter, A. (1999). Region queries without
segmentation for image retrieval by content. In International Conference on Visual
Information System VIS99, pages 115122.
Manjunath, B., Ohm, J., Vasudevan, V., and Yamada, A. (2001). Color and texture
descriptors. In IEEE Transactions on circuits and systems for video technology,
volume 11, pages 703715.
Maren, A. (1990). Handbook of Neural Computing Applications. 0125460902. Academic
Press, Inc.
Maron, O. and prez, T. (1998). A framework for multiple-instance learning. In Advances
e
in Neural Information Processing Systems NIPS98, volume 10, pages 570576.
McQueen, J. (1967). Some methods for classication and analysis of multivariate observations. In Cam, L. and Neyman, J., editors, Proceedings of the Fifth Berkeley
Symposium on Mathematical Statistics and Probability.
Mikolajczyk, K. and Schmid, C. (2004). Scale and ane invariant interest point detectors.
International Journal of Computer Vision, (60):6386.
Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaalitzky, F.,
Kadir, T., and Gool, L. (2005). A comparison of anene region detectors. International Journal of Computer Vision, 2(65):4372.
Moghaddam, B., Biermann, H., and Margaritis, D. (1999). Dening image content with
multiple regions of interest. In IEEE Workshop on Content-Based Access of Image
and Video Libraries CBAIVL99.
Muller, H., Michoux, N., Bandon, D., and Geissabuhler, A. (2004). A review of contentbased image retrieval systems in medical applications-clinical benets and future
directions. International Journal of Medical Informatics, 73(1):123.
Oliva, A. and Torralba, A. (2001). Modeling the shape of the scene: a holistic representation of the spatial envelope. International Journal of Computer Vision, 42(3):145
175.
Oyang, Y., Hwang, S., Ou, Y., Chen, C., and Chen, Z. (2005). Data classication with
radial basis function networks based on a novel kernel density estimation algorithm.
IEEE Transactions on Neural Networks, 16:225236.
Pascale, D. (2003). A review of rgb color spaces...from xyy to rgb. The BabelColor
company.
Pentland, A., Picard, R., and Sclaro, S. (1994). Photobook : Content-based Manipulation
of Image Databases, volume 2. Storage and Retrieval for Image and Video Databases.
Platt, J., Cristianini, N., and Shawe-Taylor, J. (2000). Large margin dagsvms for multiclass classication. In Advances in Neural Information Processing System NIPS00,
volume 12, pages 547553.
Portnoy, D., Bellaachia, A., Chen, Y., and Elkhahloun, A. (2002). E-cast: A data mining
algorithm for gene expression data. In Zaki, M., Wang, J., and Toivonen, H., editors,
Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining KDD02, Workshop on Data Mining in Bioinformatics (BIOKDD).
Potter, M. (1975). Meaning in visual search. Science, 187(4180):965966.
Press, W., Flannery, B., Teukolsky, S., and Vetterling, W. (1987). Numerical Recipes.
The Art of Scientic Computing.
Quinlan, J. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo,
CA.
Quinlan, J. and Rivest, R. (1989). Inferring decision trees using the minimum description
length principle. Inform. Comput., 80(3):227248. An early version appeared as MIT
LCS Technical report MIT/LCS/TM-339 (September 1987).
Rakotomamonjy, A., Bach, F., Canu, S., and Grandvalet, Y. (2007). More eciency
in multiple kernel learning. In International Conference on Machine Learning, volume 27, pages 775782.
Rakotomamonjy, A., Bach, F., Canu, S., and Grandvalet, Y. (2008). Simplemkl. Journal
of Machine Learning Research, 2:24912521.
Rtsch, G., Sonnenburg, S., and Schlkopf, B. (2005). Rase: recognition of alternatively
a
o
spliced exons in c.elegans. In Bioinformatics.
Rebaine, D. (2005). Methode de branch and bound. Universit du Quebec ` Chicoutimi.
e
a
Renniger, L. and Malik, J. (2004). When is scene identication just texture recognition?
Journal of Vision Research, 44:23012311.
Ritendra, D., Dhiraj, J., Jia, L., and Wang, J. (2006). Studying aesthetics in photographic
images using a computational approach. In Lecture Notes in Computer Science,
Proceedings of the European Conference on Computer Vision, volume 3, pages 288
301.
Rowshan, B., Bin-Khalid, M., and Yusof, R. (2008). Multi-level fuzzy score fusion for
client specic linear discriminant analysis based face authentication system. In IEEE
International Conference Signal Image Technology and Internet Based Systems, SITIS08, pages 213220.
Schmid, C., Mohr, R., and Bauckhage, C. (1998). Comparing and evaluating interest
points. In International Conference on Computer Vision ICCV98.
Sclaro, S., Taycher, L., and Cascia, M. (1997). Imagerover : A content-based image
browser for the world wide web. In IEEE Workshop on Content-based Access of
Image and Video Libraries CBAIVL97.
Serrano, N., Savakisb, A., and Luoc, J. (2004). Improved scene classication using ecient
low-level features and semantic cues. Pattern Recognition, 37:17731784.
Shamir, R. and Sharan, R. (2002). Algorithmic approaches to clustering gene expression
data. Current Topics in Computational Molecular Biology MIT Press.
Siagian, C. and Itti, L. (2007). Rapid biologically-inspired scene classication using features shared with visual attention. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 29(2):300312.
Siedlecki, W. and Sklansky, J. (1989). A note on genetic algorithms for large-scale feature
selection. Pattern Recognition Letters, pages 335347.
Sonnenburg, S., Rtsch, G., and Schfer, C. (2005). A general and ecient algorithm
a
a
for multiple kernel learning. In Advances in Neural Information Processing Systems
NIPS05, volume 17, pages 18.
Sonnenburg, S., Rtsch, G., Schfer, C., and Schlkopf, B. (2006). Large scale multiple
a
a
o
kernel learning. Journal of Machine Learning Research, 7:15311565.
Sridhar, V., Nascimento, M., and Li, X. (2002). Region-based image retrieval using
multiple-features. In International Conference on Visual Information System VIS02.
Stanll, C. (1987). Memory-based reasoning applied to english pronunciation. Association
for the Advancement of Articial Intelligence AAAI, pages 577581.
Stehling, R., Nascimento, M., and Falcao, A. (2002). Microm : A metric distance to compare segmented images. In International Conference on Visual Information System
VIS02.
Stork, D., Duda, R., and Hart, P. (2001). Pattern Classication. 9755031030. John Wiley
and Sons Inc., New York, second edition.
Stricker, M. and Swain, M. (1994). The capacity of color histogram indexing. In Conference on Computer Vision and Pattern Recognition.
Suard, F., Rakotomamonjy, A., and Bensrhair, A. (2007). Model selection in pedestrian
detection using multiple kernel learning. In Intelligent Vehicle Symposium, pages
1314.
Teague, M. (1980). Image analysis via the general theory of moments. Optical Society of
America, 70:920930.
Thomas, P. (2000). Automatic choice of dimensionality for pca. Technical report, Advances in Neural Information Processing System NIPS00.
Tieu, K. and Viola, P. (2004). Boosting image retrieval. International Journal on Computer Vision, 56(2):1736.
Torralba, A., Murphy, K., Freeman, W., and Rubin, M. (2003). Context-based vision system for place and object recognition. In IEEE International Conference on Computer
Vision ICCV03, pages 10231029.
Tversky, B. and Hemenway, K. (1983). Categories of the environmental scenes. Cognitive
Psychology, 15:121149.
Vapnik, V. (1999). An overview of statistical learning theory. IEEE Transactions on
Neural Networks, 10:988999.
BIBLIOGRAPHIE
Varma, M. and Ray, D. (2007). Learning the discriminative powerinvariance trade-o. In
IEEE International Conference on Computer Vision.
Vriesenga, M. (1995). Genetic Selection and Neureal Modeling for Designing Pattern
Classier. PhD thesis, University of California, Irvine.
Wang, J., Li, J., and Wiederhold, G. (2001). Simplicity : Semantics-sensitive integrated
matching for picture libraries. IEEE Transactions on Pattern Analysis and Machine
Intelligence.
Wang, L., Zhang, Y., and Feng, J. (2005). On the euclidean distance of images. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 27(8):13341339.
Weiss, S. (1991). Small sample error rate estimation for k-nn classiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(3):285289.
Weston, J., Mukherjee, S., Chapelle, O., Pontil, M., Poggio, T., and Vapnik, V. (2000).
Feature selection for svms. In Advances in Neural Information Processing Systems
NIPS00.
Weston, J. and Watkins, C. (1999). Multi-class support vector machines. In European
Symposium on Articial Neural Networks ESANN99.
Willamowski, J., Arregui, D., Csurka, G., Dance, C., and Fan, L. (2004). Categorizing nine
visual classes using local appearance descriptors. In ICPR Workshop on Learning for
Adaptable Visual Systems.
Xu, P. and Chan, A. (2003). Support vector machine for multi-class signal classication
with unbalanced samples. In International Joint Conference on Neural Networks,
pages 11161119.
Yu, L. and Liu, H. (2004). Ecient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 5:12051224.
Zhang, J., Marszalek, M., Lazebnik, S., and Schmid, C. (2007). Local features and kernels
for classication of texture and object categories: A comprehensive study. International Journal of Computer Vision.
Zhu, J., Rosset, S., Hastie, T., and Tibshirani, R. (2004). 1-norm support vector machines.
In Advances in Neural Information Processing Systems NIPS04, volume 16, pages
4956.
Zhuo, L., Zheng, J., Wang, F., Li, X., Ai, B., and Qian, J. (2008). A genetic algorithm
based wrapper feature selection method for classication of hyperspectral images
using support vector machine. The International Archives of the Photogrammetry,
Remote Sensing and Spatial Information Sciences, XXXVII(B7):397402.
Zien, A., Rtsch, G., Mika, S., Schlkopf, B., Lengauer, T., and Mller, K. (2000). Leara
o
u
ning the kernel matrix with semidenite programming. Engineering support vector
machine kernels that recognize translation initiation sites, 16:799807.
112