Vous êtes sur la page 1sur 196

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

Nattribu par la bibliothque


|__|__|__|__|__|__|__|__|__|__|



T H E S E

pour obtenir le grade de

DOCTEUR DE LINPG

Spcialit : Signal, Image, Parole, Tlcoms

prpare au Laboratoire des Images et Signaux
dans le cadre de lEcole Doctorale Electronique, Electrotechnique, Automatique et Traitement du Signal

prsente et soutenue publiquement



par

Herv LE BORGNE


le 30 Janvier 2004



Analyse de Scnes Naturelles
par Composantes Indpendantes



Directrice de thse :

Anne GUERIN-DUGUE



JURY



Pr. Jeanny HERAULT UJF / INPG Prsident
Dr. Patrick LAMBERT Univ. de Savoie Rapporteur
Pr. Eric MOREAU Univ. de Toulon et du Var Rapporteur
Pr. Anestis ANTONIADIS UJF Examinateur
Dr. Abderrahim LABBI IBM, Zurich Examinateur
Pr. Anne GUERIN DUGUE UJF / INPG Directeur de thse


Remerciements





Si la thse marque la fin des tudes , il serait logique, et surtout tentant, de remercier
lensemble des personnes ayant particip mon instruction depuis mademoiselle Chapuis (qui ma
appris lire !). Pour des raisons pratiques nanmoins, je me limiterai voquer les personnes qui
ont contribu le plus directement au travail prsent dans ce manuscrit.

En premier lieu je remercie Anne Gurin-Dugu avec qui je travaille depuis mon stage de
seconde anne dcole dingnieur et jespre pour longtemps encore. Exemplaire de part sa force
de travail et sa rigueur scientifique, elle fut un modle qui a largement contribu lachvement de
ma formation scolaire . Je lui suis surtout reconnaissant pour ces heures passes parler de
science sans compter qui ont dvelopp mon got, dsormais immodr, pour la recherche.

Qui pouvait, mieux que Jeanny Hrault, prsider mon jury ? Chacun des chapitres de ce
manuscrit peut tre mis en relations avec ses travaux de recherche, et lensemble sinscrit dans la
thmatique gnrale qui anime lquipe dans laquelle jai volu ces trois annes : faire converger
traitement des images, biologie et perception humaine. Au-del de ces aspects scientifiques
passionnants et motivants, cest surtout pour ses qualits humaines et lambiance quil sait insuffler
au quotidien que jai apprci de travailler avec lui.

Je remercie Eric Moreau et Patrick Lambert davoir accept de relire avec tant dattention
les quelques deux cent pages qui suivent. Leurs commentaires ont t particulirement utiles pour la
prparation de la soutenance. Associs aux discussions que lon a eues lors de cette dernire, ce
seront de prcieux guide pour mes recherches futures.

Je remercie Abderrahim Labbi pour lintrt quil a port mon travail et de stre dplac
depuis Zurich pour participer mon jury. Mon sujet de thse a t largement initi par ses travaux
et ses commentaires lors de la soutenance avaient dautant plus dimportance.

Je remercie Anestis Antoniadis, non seulement davoir particip mon jury, mais surtout
pour laide prcieuse quil ma apport dans mon travail. Jai apprci la sympathie et la
convivialit constante dont il a fait preuve lors des runions qui mont permis de mieux
mimprgner des statistiques.

Je remercie Pascal Mamassian qui a t le premier chercheur maccueillir hors du LIS et
qui trs tt ma permis de mieux apprhender le milieu de la recherche. Je le remercie aussi pour
mavoir initi la thmatique de la perception, qui est aujourdhui lun des sujets qui me passionne
le plus.

Je remercie Jorma Laaksonen, Erkii Oja et toute lquipe finlandaise de mavoir accueilli au
laboratoire dinformatique et des sciences de linformation dEspoo. Cest certainement suite ce
sjour et la lecture de un tout petit monde de David Lodge que jai eu envie dintgrer le
campus mondial . Merci particulier Patrick Hoyer, dont les travaux mont passionn.

Lambiance quotidienne du laboratoire a grandement particip au plaisir que jai prouv
mener ma thse bien et je remercie toutes celles et ceux qui y ont pris part. En tte je pense bien
entendu mes compagnons de thse, Nathalie, NiKo et Mathias, bien que lessentiel de nos
relations dpassent largement le cadre du laboratoire ! Jai aussi une pense particulire pour mes
compagnons thsards du soir et du week-end Corentin et Zakia, ainsi que Aurlien plus
rcemment, mais aussi pour les autres doctorants que jai ctoy ces dernires annes : Alexandre,
Cdric, Pierre, Mickal, Barbara, Alan, Carole, Sophie, Franck, Guillaume, Antoine, Cyril, Eric et
cux que joublie. Je remercie Grard, Pierre-Yves, ( nouveau ) Jeanny, Marino, Michel, Stphane
et plus rcemment Vincent V. de participer si activement lanimation quotidienne de la cafet
lheure du repas et du caf. Je remercie galement les autres membres du labo, dont la prsence est
plus rare en ce lieu de haute convivialit, mais que jai apprcie tout autant. Je pense en particulier
Alice, Christian, Denis, Jean-Marc, Michle, Patricia et Vincent F. Merci aux permanent cits de
mavoir expliqu comment fonctionne notre tout petit monde . Je tiens aussi dcerner une
mention spciale Marino pour avoir si souvent facilit mes dmarches administratives et
autres remplissage de paperasse qui me rebutent, Mathias pour la correction Latex du
manuscrit, et surtout Nath pour mavoir support sans broncher ces trois annes.

Je remercie mes parents pour mavoir permis de vivre tout a, non seulement par leur amour
et leur soutient depuis toujours, mais aussi en mayant mis labri du moindre dnuement matriel
en toute circonstance. Merci Aymeric, dtre l et dtre toi, tout simplement.

Enfin, je terminerai par remercier mes amis de Grenoble et dailleurs. Une simple citation de
leurs prnoms est bien drisoire en rapport de ce quils mont apport, mais lexpliciter serait plus
long et compliqu que les propos tenus dans les pages suivantes de ce manuscrit. Merci Vro, Tony,
Yann, Laura, Jean, Elsa, Benjamin, Christophe, Aline, Hlne, Olivier, Pierre, Nath, Damien, NiKo,
Servane (coucou Nils !), Mathias, Marie-Thrse, Alexis, Ccile, Bud, Sandrine, Dude, Erwan,
Vanessa, Jean-Mi, Milie, Tiphaine, Raoul davoir rendu mon quotidien grenoblois si agrable
pendant la thse. Merci aux non Grenoblois Ben, Mariane, Fred G., Clo, Jrme L., Lan, Jacob,
JB, Fred R., Guigui, Aude, Guillaume, Ingrid, Olivier, Agata, Luisa, Fabienne, pour les coups de
fils, lettres, mails, visites ou accueils. Merci Myriam, Luc, Emeric, Jennifer, Fred, Mehdi, Etienne et
aussi Virginie, Jrme D., Fred, Jonathan, Jrme C., Sophie, Galle, Valou, Jeff, Steph, pour cette
longue amiti si rconfortante.


Merci B&M, de mavoir permis de me trouver, et de me permettre de me retrouver.











Socrates











La seule certitude que j'ai, c'est d'tre dans le doute

Pierre Desproges


- 1 -
1 Introduction 7
2 Reprsenter et reconnatre les images naturelles 11
2.1 Reprsentation physique des images naturelles . . . . . . . . . . . . . . . 11
2.1.1 Les images numriques . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Les images naturelles . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.3 Reconnaissance des images et des scnes . . . . . . . . . . . . . 13
2.2 La reconnaissance perceptive des objets et des scnes . . . . . . . . . . . 14
2.2.1 Premires approches . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.2 La psychologie de la forme (Gestalt) . . . . . . . . . . . . . . . 16
2.2.3 Lapproche directe de Gibson . . . . . . . . . . . . . . . . . . . 17
2.2.4 Reconnaissance par primitives et approche mixte. . . . . . . . . 17
2.2.5 Approche calculatoire de Marr . . . . . . . . . . . . . . . . . . 18
2.2.6 Prsentation structurelle des objets . . . . . . . . . . . . . . . . 19
2.2.7 Reprsentation base sur lapparence . . . . . . . . . . . . . . . 20
2.2.8 Reconnaissance de scnes . . . . . . . . . . . . . . . . . . . . . 21
2.2.9 Conclusion sur la reconnaissance perceptive . . . . . . . . . . . 22
2.3 Reconnaissance des formes . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Principes gnraux. . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.2 Prise de dcision, taxonomie des mthodes discriminantes . . . . 25
2.3.3 Description des images par le contenu. . . . . . . . . . . . . . . 26
2.3.4 Au del des descriptions classiques . . . . . . . . . . . . . . 28
2.4 Vers un codage effcace des images naturelles . . . . . . . . . . . . . . . 30
2.4.1 Analyse harmonique des images. . . . . . . . . . . . . . . . . . 30
2.4.2 Statistiques des images naturelles . . . . . . . . . . . . . . . . . 34
2.4.3 Redondance dans les images naturelles . . . . . . . . . . . . . . 37
2.4.4 Caractrisation des codes . . . . . . . . . . . . . . . . . . . . . 39
2.4.5 Rduction de redondance et principe infomax. . . . . . . . . . . 40
Table des matires
- 2 -
Table des matires
- 3 -
Table des matires
3 Analyse en Composantes Indpendantes 43
3.1 Reprsenter les donnes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1.1 Illustration : la soire cocktail . . . . . . . . . . . . . . . . . . . 43
3.1.2 Formulation gnrale . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.3 Notations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.2 Rduire la dimension des donnes . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Analyse en Composantes Principales . . . . . . . . . . . . . . . 46
3.2.2 Blanchiment de donnes . . . . . . . . . . . . . . . . . . . . . . 47
3.2.3 Poursuite de projection . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Dfnition de lAnalyse en Composantes Indpendantes . . . . . . . . . . . . . 48
3.3.1 Cadre pris en compte . . . . . . . . . . . . . . . . . . . . . . . 48
3.3.2 Dfnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.3 Reformulation et conditions didentifabilit . . . . . . . . . . . 50
3.3.4 Fonction de contraste . . . . . . . . . . . . . . . . . . . . . . . 51
3.4 Etat de lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.1 Traitement du signal et statistiques . . . . . . . . . . . . . . . . 52
3.4.2 Approche PCA non linaire . . . . . . . . . . . . . . . . . . . . 56
3.4.3 Thorie de linformation. . . . . . . . . . . . . . . . . . . . . . 58
3.4.4 Eloignement la gaussianit. . . . . . . . . . . . . . . . . . . . 59
3.4.5 Liens entre les mthodes. . . . . . . . . . . . . . . . . . . . . . 61
3.5 Utilisations de lAnalyse en Composantes Indpendantes . . . . . . . . . . . . 62
3.5.1 Sparation de signaux de parole . . . . . . . . . . . . . . . . . . 62
3.5.2 Imagerie mdicale . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.5.3 Donnes fnancires . . . . . . . . . . . . . . . . . . . . . . . . 63
3.5.4 Classifcation et reconnaissance dimages. . . . . . . . . . . . . 65
3.5.5 Autres applications de lACI . . . . . . . . . . . . . . . . . . . 67
4 Dfnition de catgories smantiques 69
4.1 Smantique et similarit des images naturelles . . . . . . . . . . . . . . . . . . 69
4.2 Exprience psychophysique. . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2.1 Choix des images et des sujets. . . . . . . . . . . . . . . . . . . 71
4.2.2 Organisation interne des stimuli et super-sujets. . . . . . . . . 72
4.2.3 Droulement de lexprience . . . . . . . . . . . . . . . . . . . 73
4.3 Traitement des donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.3.1 Contrle de lexprience. . . . . . . . . . . . . . . . . . . . . . 75
4.3.2 Matrice de similarit et distance intra . . . . . . . . . . . . . 75
4.3.3 Distance inter . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3.4 Images non-cliques . . . . . . . . . . . . . . . . . . . . . . 78
4.3.5 Symtrisation globale des distances . . . . . . . . . . . . . . . . 78
4.4 Rsultats qualiatatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.4.1 Deux mthodes danalyse . . . . . . . . . . . . . . . . . . . . . 81
4.4.2 Vue gnrale des classes dimages . . . . . . . . . . . . . . . . 82
4.4.3 Infuence de la couleur . . . . . . . . . . . . . . . . . . . . . . . 84
4.4.4 Asymtries de la perception humaine . . . . . . . . . . . . . . . 85
4.4.5 Synthse de lanalyse qualitative . . . . . . . . . . . . . . . . . 87
- 2 -
Table des matires
- 3 -
Table des matires
4.5 Rsultats quantitatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.5.1 Force des liaisons inter-images . . . . . . . . . . . . . . . . . . 88
4.5.2 Hirarchie des classes smantiques . . . . . . . . . . . . . . . . 89
4.5.3 Infuence de la couleur . . . . . . . . . . . . . . . . . . . . . . . 91
4.5.4 Synthse de ltude quantitative . . . . . . . . . . . . . . . . . . 92
4.6 Contribution de ces travaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.7 Rendre Csar... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5 Extraction et caractrisation de descripteurs adapts aux images naturelles 97
5.1 Motivation et modle dimage (rappel) . . . . . . . . . . . . . . . . . . . . . . 97
5.2 Extraction des descripteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.2.1 Chane dobtention des descripteurs (vue gnrale) . . . . . . . . 98
5.2.2 Prtraitement des images . . . . . . . . . . . . . . . . . . . . . 98
5.2.3 Extraction et prtraitement des imagettes . . . . . . . . . . . . 101
5.2.4 Extraction des fltres par ACI . . . . . . . . . . . . . . . . . . 108
5.3 Caractrisation des fltres ACI . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.1 Lien entre fltres et fonctions de bases. . . . . . . . . . . . . . 111
5.3.2 Paramtrisation des fltres . . . . . . . . . . . . . . . . . . . . 112
5.3.3 Images prises en compte . . . . . . . . . . . . . . . . . . . . . 114
5.3.4 Critres bivaris caractrisant les fltres . . . . . . . . . . . . . 116
5.3.5 Etude en fonction de la classe des images . . . . . . . . . . . . 117
5.3.6 Effet de la pyramide dimage . . . . . . . . . . . . . . . . . . 120
5.3.7 Conclusion sur la caractrisation des fltres . . . . . . . . . . . 122
5.4 Caractrisation du codage des images naturelles . . . . . . . . . . . . . . . . 124
5.4.1 Codage dune image . . . . . . . . . . . . . . . . . . . . . . . 124
5.4.2 Code dispers et parcimonieux . . . . . . . . . . . . . . . . . 125
5.4.3 Prtraitement et dispersion. . . . . . . . . . . . . . . . . . . . 127
5.5 Synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6 Classifcation des images naturelles par ACI 131
6.1 Introduction : dfnition de la base dimages . . . . . . . . . . . . . . . . . . 131
6.1.1 Diffcults du choix . . . . . . . . . . . . . . . . . . . . . . . 131
6.1.2 Choix des images . . . . . . . . . . . . . . . . . . . . . . . . 132
6.2 Modlisation des activits des fltres ACI. . . . . . . . . . . . . . . . . . . . 133
6.2.1 La divergence de Kullback-Leibler . . . . . . . . . . . . . . . 135
6.2.2 Modles un ou deux paramtres . . . . . . . . . . . . . . . . 136
6.2.3 Modles base dhistogrammes . . . . . . . . . . . . . . . . . 138
6.2.4 Estimation logspline . . . . . . . . . . . . . . . . . . . . . . . 139
6.2.4.1 Densits logspline bases sur les fonctions B-spline . . . . . . 139
6.2.4.2 Implantation . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
6.2.5 Conclusion sur les modles dactivit . . . . . . . . . . . . . . 142
6.3 Signatures des images par activit maximale . . . . . . . . . . . . . . . . . . 142
6.4 Classifcation supervise . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6.4.1 Evaluation des performances . . . . . . . . . . . . . . . . . . 144
6.4.2 Slection des fltres . . . . . . . . . . . . . . . . . . . . . . . 145
6.4.3 Infuence des prtraitements . . . . . . . . . . . . . . . . . . . 148
- 4 -
Table des matires
- 5 -
Table des matires
6.4.4 Classifcation avec les rponses compltes . . . . . . . . . . . 148
6.4.5 Gnralisation de lextraction . . . . . . . . . . . . . . . . . . 150
6.4.6 Comparaison dautres techniques . . . . . . . . . . . . . . . 151
6.5 Organisation pour la recherche dimages par le contenu . . . . . . . . . . . . 155
6.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
6.5.2 Organisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
7 Voies prospectives et Conclusion 159
7.1 Information spatiale et carte de saillance . . . . . . . . . . . . . . . . . . . . 159
7.1.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.1.2 Cartes de saillance . . . . . . . . . . . . . . . . . . . . . . . . 160
7.1.3 Modle dattention visuelle . . . . . . . . . . . . . . . . . . . 161
7.2 Conclusion et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Bibliographie 169
Publications en rapport avec le manuscrit 183
Annexe A: Divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . 185
Annexe B: Analyse en Composantes Curvilignes . . . . . . . . . . . . . . . . . . 187
Annexe C: Indexation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
- 4 -
Table des matires
- 5 -
Table des matires
ACC ................................... Analyse en Composantes Curvilignes.
ACI..................................... Analyse en Composantes Indpendantes.
ACP.................................... Analyse en Composantes Principales.
AMR................................... Analyse Multi-rsolution.
B&S ................................... Algorithme de Bell et Sejnowsky [BEL95].
CIE..................................... Commission Internationale de lEclairage.
CCD................................... Charge Coupled Device.
DCT.................................... Transforme en cosinus discret (discret cosinus transform).
GSD ................................... Description structurelle en gons.
HJ ....................................... Algorithme de Hrault et Jutten [JUT91].
HSV.................................... Espace colorimtrique teinte (hue), saturation, luminosit (value) .
KL...................................... Kullback-Leibler (divergence de).
K
ppv
..................................... Algorithme aux K plus proches voisins.
JND.................................... Just Noticeable Difference
LDO................................... Orientation locale dominante.
MDS................................... Multidimensional Scaling.
MV..................................... Maximum de Vraisemblance
NLM................................... Non Linear Mapping.
RBC ................................... Recognition by components (thorie de Biederman [BIE87]).
RGB................................... Espace colorimtrique rouge, vert bleu .
SOM................................... cartes auto-organisatrices (self organising maps)
SRI ..................................... Systme de recherche dinformation.
TSL..................................... Espace colorimtrique teinte (hue), saturation, luminosit (value) .
2D....................................... Bidimensionnel.
3D....................................... Tridimensionnel.
.......................................... Rfrence un paragraphe.
Glossaire
- 6 -
Table des matires
- 7 -
mas de pixels ou reprsentation mentale similaire la perception visuelle, une image est apprhende
bien diffremment par un homme et une machine. L'objet de cette thse est de participer la convergence de ces
deux conceptions, ce qui prsente un intrt en reconnaissance des formes et analyse d'images, mais peut aussi
permettre de faire avancer les connaissances dans des domaines connexes.
La minorit la plus favorise de l'humanit profte aujourd'hui d'une multitude d'applications utilisant des
images sous forme numrique, mais la matrise des moyens informatiques semble invitable si l'on souhaite en
conserver un effet bienfaiteur. Ainsi, la description des images et la recherche du meilleur moyen de les reprsenter
apparat comme un df majeur dans ce contexte, mais peuvent prendre diffrentes formes selon le but recherch.
Dans cette thse, nous cherchons extraire des informations pertinentes au niveau le plus bas des images,
afn de prendre une dcision susceptible de rendre compte de leur smantique un niveau aval dun systme de
reconnaissance. Les images considres sont des images naturelles et plus particulirement des scnes qui sont des
entits porteuses dinformations diverses et complexes. Il est troublant de constater le contraste entre les capacits
combinatoires des machines et leur incapacit rendre correctement compte de la smantique des images, alors
que rciproquement cette tche est aise pour un tre humain, en dpit de la relative lenteur de ses neurones. Cette
aisance nest pas pour autant clairement explique, que ce soit au niveau biologique ou psychologique. Ces deux
domaines sont donc naturellement des sources dinspiration trs fertiles pour imaginer de nouveaux systmes de
reconnaissance et notre approche adhre cette philosophie.
Le chapitre 2 commence par une prsentation des approches en psychologie de la vision, dont nous retenons
certains principes fondamentaux. En particulier, il semble judicieux quun systme de reconnaissance extraie
Chapitre 1
Introduction
Ce chapitre est un guide de lecture du manuscrit. Nous prsentons le contexte amont (sources d'inspirations)
et aval (applications) des recherches, puis une vue gnrale de notre approche, ainsi que les travaux dvelopps
dans les chapitres suivants.
Chapitre 1
- 8 -
Introduction
- 9 -
une collection de caractristiques pertinentes pour la reconnaissance [TRE80] et quun principe algorithmique
soit dfni pour expliquer comment les entres visuelles sont transformes [MAR82]. De plus, certains travaux
corroborent lhypothse que lenvironnement visuel contient intrinsquement les informations suffsantes sa re-
connaissance [GIB66]. Nous poursuivons par un tat de lart en reconnaissance des formes qui passe en revue des
approches pertinentes par rapport la ntre.
En dfendant lhypothse que les informations utiles la discrimination sont lies aux statistiques des images
naturelles, nous nous inscrivons dans une voie de recherche qui sinspire des principes du codage visuel pour
concevoir des systmes de vision par ordinateur. Le principe algorithmique sous-jacent de ce codage suggre que
le but du systme visuel est de procder une rduction de la redondance [BAR61] contenue dans les images. Ce
principe optimal de reprsentation de linformation est quivalent au principe infomax [LIN88] qui est optimal au
sens de la transmission dinformation [NAD94]. Lapplication de ces principes permet dobtenir un code effcace,
dit factoriel, par application des descripteurs statistiquement indpendants.
Nous avons choisi une approche directe dans la voie prcdemment dcrite, que lon peut aussi qualifer
dcologique. Elle ne pose aucun a priori sur lorigine de la redondance dans les images, et cherche seulement
lexploiter pour dfnir les meilleurs descripteurs dimages. La qualit de ces derniers est gnralement juge
en fonction de certaines proprits intrinsques deffcacit. Dans cette thse nous avanons quils peuvent aussi
informer sur la smantique des images. Cette dmarche est originale dans le contexte de la vision par ordinateur,
puisque les approches traditionnelles partent gnralement dune smantique pr-tablie et cherchent dfnir a
posteriori des descripteurs pouvant en rendre compte. Ici nous cherchons extraire les descripteurs directement
du signal-image, au niveau de description le plus bas. Nous montrerons quil sont capable de faciliter une prise de
dcision quand la smantique des images un niveau plus amont dun systme de reconnaissance.
Parmi les approches existantes pour obtenir de tels descripteurs, nous avons choisi dutiliser lAnalyse en Com-
posantes Indpendantes [JUT91, COM94] qui permet de les extraire directement des images. Ceux-ci analysent
les images naturelles et permettent de retrouver une estimation des sources supposes du modle, en fournissant
un code factoriel optimal au sens de la thorie de linformation. Le chapitre 3 est consacr ltat de lart de ce
domaine, ayant merg il y a une vingtaine dannes la suite de recherches en neurosciences [HER85]. Nous
passons en revue les principales approches thoriques, ainsi que des applications.
Le chapitre 4 prsente les premiers rsultats de nos travaux, qui sont logiquement lis la dfnition des clas-
ses smantiques dimages. Ils sont bass sur une exprience psychophysique o des sujets humains jugent de la
similarit de 105 images naturelles. Diffrents traitements des rsultats de ces expriences permettent d'identifer
les catgories recherches, mais aussi d'apprcier l'utilit de l'information de chrominance, et de mettre en vidence
des asymtries perceptives. La robustesse de ces analyses qualitatives est teste au moyen d'un critre quantitatif
driv de leur tude statistique. Par suite nous dfnissons une force de liaison inter-image qui permet de mettre
en vidence une hirarchie entre classes smantiques.
Dans le chapitre 5 nous prsentons les principes dextraction des descripteurs laide de lAnalyse en Com-
posantes Indpendantes. Chaque tape de la chane dobtention des fltres est dtaille, ainsi que le choix des
paramtres. La caractrisation des descripteurs est ralise selon trois modalits, ce qui permet danalyser leurs
Chapitre 1
- 8 -
Introduction
- 9 -
capacits dadaptation aux caractristiques spectrales des scnes naturelles. Enfn, nous tudions les proprits du
codage des images qui en rsulte et faisons apparatre lintrt potentiel de certains prtraitements par rapport aux
qualits souhaites pour les descripteurs.
Le chapitre 6 est consacr la validation de notre approche en terme de classifcation et dorganisation des
scnes naturelles. Naturellement, les rsultats des deux chapitres prcdents sont exploits, commencer par
ceux rsultant de lexprience psychophysique qui permettent de discuter des labels de la base dimage. Nous
dfnissons ensuite plusieurs signatures des images naturelles qui utilisent les descripteurs ACI extraits selon le
protocole expliqu au chapitre 5, ainsi que les distances qui y sont associes. Ces diffrents modles tendent vers
une approche totalement non paramtrique, cohrente avec l'ide de moindre contrainte dveloppe dans cette
thse. Nous prsentons ensuite divers rsultats de classifcation supervise qui servent comparer les modles et
les confronter d'autres mthodes. Enfn, les rsultats d'organisation continue des images naturelles donnent lieu
une vision plus propice la recherche d'images par le contenu, en rvlant la structure de l'espace image cod
par les fltres ACI.
Le septime et dernier chapitre est consacr la prsentation des perspectives et une discussion sur la
porte de ces travaux. En particulier, la premire partie traite de l'intgration de l'information spatiale. Pour cela,
nous proposons d'utiliser un modle de cartes de saillance cohrent avec les travaux prcdents et prsentons les
dveloppements effectus dans cette direction ainsi que les premiers rsultats
Chapitre 1
- 10 -
- 11 -
Chapitre 2
Reprsenter et reconnatre les images
naturelles
Le mot image dsigne la reprsentation physique d'un tre, d'une chose, ou d'un ensemble de plusieurs tres
et choses, sur un support quelconque (peinture, sculpture, dessin, photographie, flm...). Cest le rsultat de la r-
fexion de rayons lumineux issus d'une source quelconque sur les surfaces des objets perus, puis de leur capture
par un systme de vision (2.1). Mais nous utilisons le mme mot pour parler de la reprsentation mentale qu'un
tre humain gnre partir de ce qu'il voit. Si voir tait simplement l'action de percevoir par les yeux comme
cela est dfni dans le dictionnaire (Larousse), il serait simple de fabriquer des systmes artifciels qui soient plus
performants que nos yeux biologiques, puisque la performance pourrait tre mesure en terme de largeur de
spectre lumineux peru, de capacit de distinction de points loigns ou extrmement proches, etc... Or, depuis
linvention de la lunette la Renaissance, on a construit de nombreux systmes artifciels nous permettant d'am-
liorer nos capacits naturelles. Mais la vision est un phnomne qui implique une interprtation de l'information
vhicule par les rayons lumineux, ce qui pose le problme de la reconnaissance des images. Il existe de nombreu-
ses thories tentant d'expliquer la rapidit et l'aisance avec laquelle les tres humains accomplissent une telle op-
ration (2.2). En comparaison, les tentatives pour reproduire le phnomne artifciellement sont balbutiantes, bien
que des progrs aient t effectus ces vingt dernires annes dans le domaine de la vision par ordinateur (2.3).
Une voie de recherche propose de reprsenter les images plus effcacement que les approches traditionnelles, en
exploitant la thorie de l'information et les connaissances relatives aux statistiques des images naturelles (2.4).
Ces travaux ont inspir l'approche qui sera adopte dans cette thse.
2.1 Reprsentation physique des images
2.1.1 Les images numriques
Un systme de vision artifcielle manipule des images, qui rsultent de l'acquisition des rayons lumineux rf-
chis sur les surfaces d'lments composant le monde rel. L'intensit lumineuse est mesure en un nombre discret
Chapitre 2
- 12 -
Reprsenter et reconnatre les images naturelles
- 13 -
de points gnralement disposs sur une surface. Par exemple si l'acquisition a t ralise au moyen d'un flm
photographique, ces points sont les molcules de bromure d'argent. S'il s'agit de la rtine biologique, le procd
d'acquisition est aussi discret puisque la lumire est capte par les photorcepteurs. Dans la suite, nous considre-
rons uniquement les images numriques telles que celles acquises par une camra CCD. Dans ce cas, la discrti-
sation a l'avantage d'tre trs rgulire puisque les cellules photolectriques qui captent la lumire sont agences
selon une grille (gnralement rectangulaire). La numrisation permet de modliser une image par une matrice I en
deux dimensions, dont chaque lment I(x,y) est la mesure de l'intensit lumineuse en chaque lieu. Le couple (x,y)
prend des valeurs entires qui dsignent le numro de ligne et de colonne du pixel correspondant. La luminance de
l'image, c'est--dire la partie achromatique, est aussi dnomme description en niveau de gris .
Young, Helmholtz, Maxwell et Grassman ont montr au XIX
ime
sicle que la couleur pouvait tre exprime
dans un espace vectoriel tridimensionnel, ou encore que toute couleur pouvait tre visuellement quivalente la
combinaison de trois couleurs dites primaires. Bien qu'une couleur pure corresponde une longueur d'onde
unique, sa perception est due la prsence de trois types de photorcepteurs chez lhomme. Les images numri-
ques en couleur seront donc modlises par trois matrices bidimensionnelles, chacune donnant la valeur de l'inten-
sit lumineuse de la couleur primaire correspondante. Dans la suite nous considrerons essentiellement des images
de luminance. On pourra se reporter aux travaux de Alleysson [ALL99] pour plus de dtails sur la perception des
couleurs et les diffrents espaces colorimtriques existants.
Dans le contexte de nos travaux, les images sont destines tre vues. La discrtisation spatiale des images
n'est donc pas gnante tant que celle-ci reste suffsamment fne pour ne pas tre perue visuellement. Cela dpend
du nombre de pixels utiliss et de la distance laquelle limage est vue. La reprsentation numrique implique
aussi une reprsentation discrte des niveaux de gris des pixels des images. Il a t constat que le codage de ceux-
ci sur un octet (donc en 2
8
= 256 niveaux) permet un rendu assez continu de la luminance, au sens o un codage
plus fn (i.e avec plus de niveaux de gris) nimplique pas une perception trs diffrente de limage.
2.1.2 Les images naturelles
Combien existe-t-il dimages ? Selon le formalisme prcdemment dcrit, il en existe une infnit, dont on peut
imaginer quelles constituent une mdiathque de Babel . Dans la clbre bibliothque imagine par Borgs, la
plupart des livres contiennent une suite de caractres sans aucune signifcation et les ouvrages crits depuis lin-
vention de lcriture (ou ceux qui seront crits dans le futur) napparaissent que trs exceptionnellement au milieu
des rayonnages
1
. De la mme faon, dans une mdiathque rassemblant toutes les images numriques possibles, la
plupart dentre elles nauraient pas beaucoup de sens pour un observateur. Afn de rendre les choses un peu moins
vertigineuses, considrons seulement le rayonnage contenant les images de taille 256 par 256 pixels. Chacune
de ces images est donc forme de 256 256 = 65536 pixels et peut rciproquement tre considre comme un point
dun espace 65536 dimensions. Pris au hasard, il y a de grandes chances quun point de cet espace corresponde
1
La bibliothque de Babel est un conte de Jorge Luis Borges, o il est dcrit une bibliothque totale qui contiendrait tous
l
renseignement exact, il y a des lieues et des lieues de cacophonies insenses .
Chapitre 2
- 12 -
Reprsenter et reconnatre les images naturelles
- 13 -
une image du type de celle de la fgure 2.1(a), qui est la reprsentation dun bruit uniforme. Parmi toutes les ima-
ges possibles, certaines dentre elles exhibent une structure telle que lagencement particulier des niveaux de gris
donne une signifcation limage. Au sein de ces images nous allons nous intresser au cas des images naturelles,
qui sont les images susceptibles davoir contribu la structuration de notre systme visuel et auxquelles celui-ci
est donc naturellement adapt [ATT54, BAR61, FIE87, SIM01]. De telles images sont typiquement des images
reprsentant des paysages (fgure 2.1(g)), mais nous y incluons aussi des images de paysages modernes suscepti-
bles de contenir des constructions humaines (fgure 2.1(e)) et toute image reprsentant un environnement possible
pour un homme aujourdhui (fgure 2.1(f)). Nous excluons des images naturelles toutes les images fabriques par
lhomme telles que les tableaux (fgure 2.1(b)), les images de synthse (fgure 2.1(c)), les dessins (fgure 2.1(d))
2
,
ou obtenues laide dun procd non naturel (images astronomiques, imagerie mdicale...). Nous excluons aussi
les images la smantique impossible ou incohrente, telles les illusions doptique (fgure 2.1(d)). Dans le cadre
de cette thse, nous considrons prcisment lensemble des scnes naturelles, qui dsignent des images naturelles
compltes , sopposant aux images reprsentant une partie seulement dun environnement naturel, comme un
objet seul, ou la photo dun visage du type photomaton (fgure 2.1(h)) o le fond a t t.
2.1.3 Reconnaissance des images et des scnes
La reconnaissance des formes dsigne une discipline qui regroupe toutes les activits lies la reproduction ou
limitation de la perception humaine par un systme artifciel, principalement en vue de lautomatiser [KUN00].
La comprhension des images par un systme de vision artifcielle et la reconnaissance de la parole automatique,
2
Nous ne soutenons pas pour autant que le systme visuel humain soit inadapt toute forme dart, comme une proposition
antinomique de la dfnition pourrait le suggrer! Nous considrons simplement quune image artistique est une image de
seconde gnration , une reproduction dune reprsentation interne de la ralit (subjective) dun tre humain.
(a) (d) (b)
(e)
(c)
(f)
Figure 2.1: Images 256x256 (a) distribution alatoire uniforme des niveaux de gris - (b) Guernica, P. Picasso
(fragment) - (c) image de synthse - (d) La cascade, M.C Escher. - (e, f, g) exemples de scnes
naturelles - (h) image de visage.
(g) (h)
Chapitre 2
- 14 -
Reprsenter et reconnatre les images naturelles
- 15 -
constituent la plus grande part de la discipline, qui rentre dans le cadre plus gnral de lintelligence artifcielle.
Quantitativement, ces deux domaines reprsentent aujourdhui la plus grande part des stimuli utiliss par les hu-
mains pour communiquer entre eux, ce qui explique partiellement notre intrt tenter de les reproduire artifciel-
lement [KUN93].
Dans le cas de la vision artifcielle, les premiers systmes senquirent avec succs de tches simples, permettant
un gain de temps par rapport une reconnaissance humaine. Un code barre par exemple, est une faon pratique (i.e
un environnement visuel contrl et adapt un systme artifciel) pour rpertorier automatiquement et souvent
rapidement, une srie dinformations qui pourrait ltre par un humain, pour peu que ces informations soient ex-
primes dans une langue quil connaisse. Mais lorsque nous comparons les systmes artifciels au systme visuel
humain, la capacit de rptition et la rapidit sont peu prs leurs seuls avantages et ils sont largement dpasss
en terme de reconnaissance proprement dite. Notons nanmoins que ce problme peut tre considr comme biais
puisque dans la problmatique de la reconnaissance, lhomme est gnralement pris en rfrence ! Nanmoins,
nous pouvons considrer que selon nos critres, les systmes artifciels sont actuellement trs loin datteindre des
performances suffsantes pour commencer sinterroger sur la validit de lestimation humaine, en comparaison
de leurs rsultats (ce ne serait pas forcment le cas si nous comparions par exemple ltre humain un systme
GPS en terme de capacits se situer gographiquement...). La principale diffrence entre les deux ne rside pas
tant dans les capacits dtecter une forme en tant que telle, mais plutt dans la capacit de rellement reconnatre
cette forme, cest--dire lassocier un concept, pouvant gnralement tre nomm. La conceptualisation dune
forme perue permet de la catgoriser, mais malheureusement cette catgorisation nest gnralement pas univo-
que (fgure 2.2 et [ROS75, TOR03b]).
La diffrence de performance est particulirement criante dans le cas de la reconnaissance de scnes. Le sys-
tme visuel humain est donc logiquement devenu une source dinspiration pour concevoir des systmes artifciels
destins rsoudre ce problme. Lorsque lon aborde le champs vertigineux de la modlisation du cerveau, il
existe plusieurs sources dinspiration, dont la biologie [HER01] et la psychologie. Considrant le problme plus
modeste mais dj considrablement vaste de la reconnaissance des scnes, cest la seconde de ces deux voies qui
nous a initialement interpells
3
. Le paragraphe suivant prsente les principales approches.
2.2 La reconnaissance perceptive des objets et des scnes
Dans les paragraphes suivants, nous prsentons diffrentes thories ayant cherch expliquer la comprhen-
sion de scne d'un point de vue cognitif ou, comme on l'a appell ds le XIX
ime
sicle, psychologique. Nous
commenons par passer en revue les approches successives depuis l'antiquit jusqu'au dbut du XX
ime
sicle, puis
expliquons les apports majeurs de la psychologie de la forme. Nous abordons ensuite les principales approches
psychologiques expliquant la comprhension visuelle dveloppes depuis 1950 et particulirement la reconnais-
3
Patrick Hoyer prsente dans sa thse [HOY02] des modles calculatoires dinspiration biologique imitant la structure neuro-
nale du cerveau et dont le plus simple est proche de lalgorithme danalyse en composantes indpendantes que nous utiliserons
par la suite.
Chapitre 2
- 14 -
Reprsenter et reconnatre les images naturelles
- 15 -
sance par primitive, la reconnaissance structurale et la reconnaissance base sur l'apparence. Une grande partie
des travaux rcents s'est concentre sur la reconnaissance de formes particulires (en vue de comprendre la recon-
naissance de l'criture notamment), ou sur la reconnaissance d'objets. Les travaux expliquant l'interprtation des
scnes sont moins nombreux, en partie cause de la diffcult qu'impliquent la diversit et la complexit apparente
de ces dernires. Or, un tre humain interprte la plupart des scnes aussi facilement que des objets isols, mme
quand un grand nombre de ces derniers sont prsents. Nous avons donc consacr un dernier paragraphe traitant
spcifquement de ce problme.
2.2.1 Premires approches
La question de savoir comment lon voit, ou mme de savoir pourquoi on peut voir, a t pose ds lantiquit
par plusieurs philosophes grecs. De trs nombreuses thories ont t avances, telle celle dEmpdocle qui pro-
posait que lil mette un feu rencontrant des lments des objets. Plus en accord avec les thories actuelles,
Aristote soutint l'ide que la lumire est ncessaire la vision, Euclide introduisit le concept de rayon visuel rec-
tiligne et Archimde posa les bases de loptique gomtrique. Sextux dEmpiricus sinterrogea sur limage vue
par rapport lobjet vu , ce qui revient se demander comment lon peut reconnatre un objet quand on le voit, si
on ne la jamais vu. En ces termes, la vision dpasse la simple sensation et fait intervenir la notion de perception
qui renvoie elle-mme celle d'interprtation.
Erudit en astronomie mais aussi en optique, Kepler (1571-1630) fut le premier avancer que la vision
rsulte de la projection de lhmisphre du monde qui est devant les yeux se fxant sur () la rtine . Sachant
que limage vue au travers dune lentille est inverse, il pensait que ce problme est corrig par le tribunal de
la facult visuelle . Cette ide fut essentiellement dveloppe par Descartes (1596-1650) et renvoie la question
de la relation quil peut exister entre le corps et lesprit, entre la sensation qui rfre au transport dun message
sous forme biolectrique et la perception qui est le traitement de ce message aboutissant une interprtation.
S'inscrivant dans la mouvance des courants philosophiques nativiste et rationaliste, Descartes dfendait l'ide que
la connaissance est inne et que cest la rfexion intellectuelle seule qui permet daccder la vrit du monde.
Catgorisation sous-ordonne:
cest la voiture de monsieur J.H.
Figure 2.2: L'image de gauche peut tre catgorise trois niveaux. Le niveau de base indique celui qui est
gnralement utilis.
Niveau de base: cest une voiture
Catgorisation sur-ordonne:
cest un moyen de transport
Chapitre 2
- 16 -
Reprsenter et reconnatre les images naturelles
- 17 -
A loppos, les philosophes empiristes, tels Locke (1632-1704), Berckeley (1685-1753), ou Hume (1711-1776),
avanaient que lesprit est vierge la naissance (Tabula rasa) et que celui-ci ne cre pas les ides mais les drive
de lexprience sensorielle.
Johannes Mller (1801-1858) dcouvrit que les fbres nerveuses lies la fonction moteur sont diffrencies
de celles portant les informations sensorielles. Il en dduisit que les organes rpondent spcifquement aux stimuli
du monde extrieur et que celui-ci est connu en agissant sur les organes sensoriels. Ces avances physiologiques
couples linfuence des philosophies empiristes aboutirent llaboration du structuralisme. Ce courant, repr-
sent notamment par Wundt, reposait sur llmentarisme qui affrmait que des sensations complexes peuvent tre
rduites des expriences sensorielles locales, lmentaires et indivisibles. Fechner (1801-1887) labora des lois
mettant en correspondance lampleur dune exprience sensorielle et lintensit du stimulus correspondant et for-
malisa le concept de JND (just-noticeable difference) qui est la plus petite diffrence entre deux stimuli qui puisse
tre dtecte (Loi de Weber). On parla aussi datomisme (ou associationnisme) pour dsigner cette conception trs
rpandue la fn du XIX
ime
et au dbut du XX
ime
sicle, puisquelle entendait expliquer la perception (visuelle en
particulier) comme une synthse de composantes sensorielles simples. Elle a aussi t dsigne par lexpression
chimie mentale (rappelons que atome signife indivisible en grec et dsignait des particules considres comme
telles ce moment l).
2.2.2 La psychologie de la forme (Gestalt)
Si la mcanique Newtonienne triomphante avait infuenc les sciences du XIX
ime
sicle, sa remise en question
au dbut du XX
ime
sicle nen fut que plus libratrice. De mme, cest en raction au structuralisme que Werthei-
mer, Kofka et Klher laborrent la thorie de la forme (gestalttheorie) en sappuyant notamment sur les travaux
de Von Ehrenfels [KOF35]. Celui-ci avait remarqu quune mlodie tait reconnaissable en dpit dun changement
de cl qui modifait toutes ses parties lmentaires constitutives (les notes de musique) et avait alors prdit lexis-
tence dun attribut de forme globale (Gestaltqualitt). Selon Wertheimer, celui-ci est peru immdiatement,
cest--dire avant toute intervention dun processus de sommation des parties . Les psychologues de la Gestalt
rejettent radicalement la notion datomisme (ou lmentarisme) et proposent celle dholisme qui affrme que le
tout est plus que la somme de ses parties , ainsi que celle d organisation perceptive qui voit les objets comme
des globalits organises plutt que des combinaisons dlments indpendants. Dans cette thorie, cest la
forme qui devient lunit fondamentale de la perception et plusieurs lois permettent dexpliquer lorganisation
perceptive. Les plus importantes dentre elles sont donnes la table 2.1.
Ces lois sont en fait des heuristiques qui expliquent a posteriori le phnomne de la perception, plutt que
des algorithmes ayant un pouvoir de prdiction. Dautre part, le principe mme de la thorie rend diffcile la mise
en valeur dobjets singuliers dans un environnement complexe, telle une scne dont les parties constitutives sont
des objets. Elle eut nanmoins une infuence considrable sur les thories ultrieures et connat depuis peu un
nouveau regain de popularit dans la vision par ordinateur.
Chapitre 2
- 16 -
Reprsenter et reconnatre les images naturelles
- 17 -
2.2.3 Lapproche directe de Gibson
Lapproche directe (appele aussi cologique) de J.J. Gibson [GIB66] suppose que les rayons lumineux
contiennent directement les informations ncessaires la reconnaissance du monde. Cest lenvironnement du
systme visuel qui est principalement analys et Gibson propose que celui-ci contienne des invariants qui sont les
seules informations prises en compte. Selon cette approche, cest le mouvement de lobservateur qui, provoquant
une modifcation du fot optique, permet de percevoir le monde. Par exemple, la profondeur peut tre perue par
le fait que les objets proches bougent davantage que les objets loigns. En concevant la perception des surfaces
comme tant essentiellement dtermine par leur profondeur et leur orientation, il ouvra la voie aux recherches sur
la dtermination des surfaces partir de la variation des textures ou du shading (shape from X), ce dernier terme
dsignant la variation de luminosit provoque par lorientation dune surface par rapport la source lumineuse.
Concernant les objets, il avance que la smantique qui leur est associe est relative leur fonction (affordance).
Il rfute la ncessit dune connaissance a priori sur ce qui est observ et minimise mme limportance des
traitements de linformation ou des reprsentations internes. Ainsi, il propose une approche purement ascendante
(bottom-up) de la perception visuelle.
2.2.4 Reconnaissance par primitives et approche mixte
En 1959 Selfdge proposa le modle du Pandemonium afn de rendre compte de la reconnaissance de lcri-
ture. Cest un systme hirarchique qui comprend trois tapes. Dans un premier temps, un dmon des caract-
ristiques (feature daemon) permet lextraction des composantes de limage tels leurs traits, leur courbure et la
continuit de celle-ci et langle de leurs jonctions. Ensuite, un dmon cognitif traite les informations reues de
ltape prcdente, en activant diverses confgurations apprises correspondant aux lettres connues par le lecteur.
Enfn, au plus haut niveau un dmon de la dcision slectionne lunit cognitive la plus active correspondant
la lettre la plus probable. Ce modle tait confort par les travaux de Hubel et Wiesel qui dcouvrirent au dbut
des annes soixante lexistence de cellules spcialises dans la dtection de traits orients dans le cortex visuel des
Proximit Les lments proches les uns des autres (spatialement ou temporellement) ont tendance tre groups
Similarit Toutes choses tant gales, si plusieurs stimuli sont prsents ensemble, nous auront tendance voir une
forme telle que les stimuli semblables soient groups ensemble
Fermeture Parmi plusieurs organisations perceptives possibles, nous prfrons celles qui produisent une fgure
ferme
Bonne
Continuation
Lorganisation perceptive a tendance conserver une continuit douce plutt que provoquer dabruptes
variations
Orientation Il y a une prfrence voir les rgions orientes verticalement ou horizontalement comme des fgures
Loi de
Pragnanz
Parmi plusieurs organisations gomtriques possibles, nous prfrerons celle qui possde la forme la
plus simple et la plus rgulire. En particulier nous favorisons les formes symtriques.
Symtrie Les zones symtriques ont tendance tre perues comme des formes sur des fonds asymtriques
Taille relative Toutes choses tant gales, la plus petite de deux aires sera perue comme un objet sur un fond plus
large
Table 2.1: Principales lois de la psychologie de la Gestalt
Chapitre 2
- 18 -
Reprsenter et reconnatre les images naturelles
- 19 -
chats et des singes [HUB68].
A loppos de lapproche ascendante, la thorie constructiviste propose que la vision soit un processus actif et
que la perception utilise les donnes sensorielles pour mettre puis tester des hypothses [GRE66]. Cette approche
descendante (top-down) permet en particulier dexpliquer lexistence de certaines illusions doptiques, qui rsul-
tent dhypothses entrant en confit avec lexprience.
La thorie des caractristiques propose par le Pandemonium (feature theory) fait ressortir laspect ascendant
de la perception visuelle et permet de reconnatre des lettres mme partiellement effaces. Mais les travaux de
Neisser soulignent limportance de la frquence spatiale pour lidentifcation de lcriture, ce dont le Pandemonium
ne rend pas compte. [NEI67] propose dajouter une tape descendante rendant compte de la recherche visuelle.
Treisman introduisit la thorie de lintgration des caractristiques (integration feature theory) [TRE80,
TRE88] qui comporte deux tapes. La premire gnralise ltape perceptive du Pandemonium et propose que di-
verses caractristiques telles que les traits, mais aussi la couleur, lintensit lumineuse ou la symtrie, soient codes
au sein de plusieurs cartes conservant lagencement spatial. Les diffrentes caractristiques sont extraites en paral-
lle, alors que la deuxime tape consistant intgrer toutes ces caractristiques est effectue squentiellement et
permet de modliser lattention visuelle. Ces travaux ont permis llaboration des cartes de saillance et ont suscit
de nombreux travaux dans ce domaine tels ceux concernant la recherche guide [WOL89].
2.2.5 Approche calculatoire de Marr
Dans le livre posthume rendant compte de ses travaux [MAR82], David Marr propose de considrer principa-
lement la vision comme une tche de traitement de linformation. Il prsente trois points de vue qui permettent de
dfnir le systme de traitement de linformation. Le niveau conceptuel (ou calculatoire : computational theory)
sintresse au but du traitement. Il permet de dfnir la stratgie globale du processus en fonction des entres que
lon considre (les images du monde rel par exemple) et les sorties que lon dsire (un codage permettant de r-
duire la redondance de linformation Par exemple !). Le second niveau caractrise la mise en uvre du systme
de traitement de linformation, cest--dire ses principes algorithmiques. Il correspond ltape o est dfni le
codage des entres et des sorties (comment les donnes sont reprsentes ?), ainsi que lalgorithme permettant le
passage des unes aux autres (comment les donnes sont transformes ?). Enfn, le troisime niveau est celui de
limplantation, o lon se proccupe de la ralisation physique du systme prcdemment dfni. Ce niveau de
limplantation doit montrer que le cadre thorique dfni par les deux premiers niveaux est compatible avec les
contraintes physiologiques du systme visuel. En rsum, une thorie satisfaisante rpond trois questions :
- Quest-ce qui est calcul et pourquoi ?
- Comment est-ce calcul ?
- Comment est-ce ralis neurophysiologiquement ?
Ce cadre thorique est applicable tous les systmes sensoriels. Pour la vision humaine, Marr distingue trois
tapes permettant une description des parties composant un objet et de leur agencement spatial relatif. Ces tapes
doivent notamment expliquer comment un tre humain russit gnrer une reprsentation 3D des objets et du
Chapitre 2
- 18 -
Reprsenter et reconnatre les images naturelles
- 19 -
monde rel partir de la projection 2D de celui-ci sur sa rtine. Tout dabord, lbauche primaire (primal sketch)
est une description de limage 2D partir des variations de lintensit lumineuse. Elle consiste dcrire la scne
en terme de tches (blobs), de bords, de traits, de coins, dintersections. Cette bauche brute, qui correspond une
description locale, est suivie dun regroupement des descripteurs conduisant une composition plus globale. Elle
dfnit des rgions dtermines par leur texture, ou selon des contours qui regroupent plusieurs des lments pr-
cdents (tches, bords, traits...). La seconde tape qui est centre sur lobservateur est appele reprsentation
2
1/2
D car elle rend compte de la profondeur et de lorientation des surfaces visibles sans dcrire leur agencement
spatial relatif. Cette tape exploite les informations lies la stroscopie, au gradient des textures ou au shading
(intraduisible, ce terme dsigne les variations dillumination rendant compte de la profondeur !Voir 2.2.3).
La troisime tape correspond la reprsentation volumtrique (3D) des lments prcdents. Marr et Nishihara
avancent que cette description peut tre ralise uniquement partir de cnes, de cylindres gnraliss (i.e des
cylindres pouvant avoir un axe de symtrie tordu ) et des relations spatiales qui les lient [MAR78]. Cela permet
de saffranchir du point de vue de lobservateur et ce troisime niveau est qualif de vue centre objet . Cest
une diffrence essentielle avec ltape prcdente : un objet est peru relativement ses propres axes et non pas
ceux de lobservateur.
Ce schma est purement ascendant jusqu la formation de la reprsentation 2
1/2
D, mais devient la fois ascen-
dant et descendant pour la dernire tape. Marr a propos des solutions algorithmiques pour dterminer lbauche
primaire et quelques aspects de la reprsentation 2
1/2
D, mais les propositions restent assez qualitatives en ce qui
concerne les tapes de plus haut niveau.
2.2.6 Prsentation structurelle des objets
Le modle RBC (recognition by components) a t propos par Biederman. Il est largement inspir de la propo-
sition de Marr et Nishihara qui reprsentent les objets partir de cylindres orients. Partant de lide que les mots
sont tous forms partir dun alphabet contenant un nombre assez restreint dentits
4
, Biederman a dfni un alpha-
bet visuel de 36 primitives volumtriques dobjets [BIE87] quil appelle gons (geometrical ions), probablement
en rfrence aux textons dfnis par Julesz comme les lments lmentaires constitutifs des textures. Les gons
(fgure 2.3) sont identifs et dfnis essentiellement par le fait quils possdent un certain nombre de proprits
non-accidentelles leur permettant dtre invariants au point de vue. Biedemean a identif cinq proprits qui as-
surent une reprsentation univoque des gons dans lespace :
- Colinarit : des points aligns sur une ligne droite dans une image le sont aussi dans le monde rel.
- Curvilinarit : des points aligns sur une ligne courbe dans une image le sont aussi dans le monde rel.
- Symtrie : les symtries des images sont dues la symtrie des objets.
- Paralllisme : les lignes parallles dans les images sont parallles dans le monde rel.
- Co-terminaison : les intersections de lignes en 2D proviennent dintersections en 3D.
4
26 lettres et le trait dunion pour lalphabet latin. Pour former les phrases, on ajoute lespace et moins de 10 signes de ponc-
tuation
Chapitre 2
- 20 -
Reprsenter et reconnatre les images naturelles
- 21 -
Bien que semblable au modle de Marr, la RBC ne prend pas en compte ltape 2
1/2
D et suppose que les gons
sont directement drivs partir de lbauche primaire et des proprits prcdentes. Cela permet dlaborer une
thorie de la reconnaissance des objets en deux tapes. La premire avance que le systme visuel analyse les objets
en les dcomposant selon plusieurs gons, puis spcife les relations spatiales qui les lient. Cela forme la descrip-
tion structurelle en gon (GSD). La seconde tape permet la reconnaissance de lobjet observ partir de sa GSD
qui est compare aux descriptions GSD des objets connus. Cette thorie possde plusieurs qualits semblables au
systme visuel humain qui en font lune des plus reconnues en psychologie cognitive. Son premier avantage est
quelle est trs robuste certaines formes de dgradations telles que loccultation dune partie des objets. Bie-
derman explique ce phnomne en montrant que quelques gons (trois ou quatre gnralement) suffsent dans la
plupart des cas pour reconnatre un objet. La dgradation des contours nest pas gnante pour la reconnaissance
tant quelle nempche pas de retrouver les composantes volumtriques des objets. Dautre part, puisque les gons
sont directement extraits de lbauche primaire, cela permet thoriquement un traitement rapide de la reconnais-
sance. La logique de reconnaissance laide de volumes et des relations qui les lient confre au modle une bonne
robustesse aux variations gomtriques telles que le zoom, la symtrie et certaines rotations, conformment aux
proprits de la vision humaine.
La thorie RBC est mise en dfaut sur trois points essentiellement. Tout dabord, elle permet de reconnatre les
objets indpendamment du contexte dans lequel il se trouve, alors que ce point semble tre primordial [MIN75]
(mais voir 2.2.8 pour lextension de la RBC aux scnes). Dautre part, certaines expriences psychologiques et
surtout physiologiques ont montr que linvariance du point de vue pour la reconnaissance tait discutable, allant
dans le sens de la thorie concurrente prsente au paragraphe suivant. Enfn, la RBC nest pas adapte pour recon-
natre un exemplaire particulier dune classe dobjet : elle peut expliquer que lon reconnaisse une voiture, mais
pas que lon reconnaisse la voiture de monsieur X en particulier (fgure 2.2).
2.2.7 Reprsentation base sur lapparence
La dfnition mme des gons dans la thorie RBC implique quils possdent une grande robustesse une
Figure 2.3: Quelques exemples de gons, d'aprs [KIR01] et [BIE87]
cube cale pyramide cylindre baril
arche cone cylindre dilat poigne poigne dilate
Chapitre 2
- 20 -
Reprsenter et reconnatre les images naturelles
- 21 -
variation de point de vue et en consquence la reconnaissance des objets est aussi invariante au point de vue de
lobservateur, tout comme dans ltape 3D du modle de Marr. Mais de nombreuses expriences psychologiques
et physiologiques ont montr que la reconnaissance de certains stimuli est sensible au point de vue de lobser-
vateur (par exemple Logothtis le montre pour des singes [LOG95]). Afn de rendre compte de ces faits, il a t
propos un mode de reprsentation des objets bas sur lapparence (view-based theory) [POG90, TAR95, ULL96,
TAR00]. Celui-ci suggre que les objets sont stocks dans la mmoire long terme sous forme dune collection
de vues bidimensionnelles prises sous plusieurs angles. Par suite, la reconnaissance est ralise par une mise en
correspondance entre limage dentre et chacun des patrons (templates) stocks en mmoire. Au contraire de
la thorie de Biederman, la reconnaissance ne se fait donc pas via la segmentation des objets en parties simples,
mais de faon globale (holistique).
Ainsi, la reprsentation est plus simple que pour la RBC, mais les oprations dassortiment ncessitent des
prtraitement plus complexes afn de tenir compte des transformations ventuelles (zoom, rotation, translation).
Nanmoins, on vrife exprimentalement que de telles transformations gomtriques rendent une tche de recon-
naissance plus diffcile pour des sujets humains galement. Par contre, la thorie rend bien compte dobservations
psychologiques et physiologiques montrant quil existe des points de vue canoniques des objets qui sont des
points de vue sous lesquels la reconnaissance est plus aise que pour dautres. La thorie prvoit de pouvoir inter-
poler entre deux vues apprises afn de prendre en considration tous les angles de vue possibles, ce qui permet de
limiter le nombre de vues stoker en mmoire.
Une controverse assez vigoureuse existe encore aujourdhui entre les partisans de la reprsentation structurelle
et ceux de la reprsentation par vue. Si les partisans de la premire ne semblent pas vouloir changer leurs positions
[HUM00, BIE01], ceux de la seconde font des tentatives de rconciliation. Tarr et Blthoff ont notamment montr
que la thorie structurelle pouvait tre considre au niveau de la catgorisation et que la reprsentation par vue
expliquait mieux la reconnaissance des exemplaires particuliers au sein des catgories [TAR95, TAR00].
2.2.8 Reconnaissance de scnes
La plupart des tudes prcdentes se focalisent sur la reconnaissance dobjets, en supposant que ceux-ci sont
pralablement isols de leur environnement et que la perception dune scne nest que la rsultante des perceptions
individuelles de ses composantes. Mais plusieurs expriences amnent remettre en cause ces assertions.
Potter a montr que lidentifcation des scnes est ralise en moins de 100ms [POT76], ce qui est incompati-
ble avec lhypothse dune identifcation pralable des lments la composant et plaide plutt pour un traitement
essentiellement ascendant de linformation. Dautre part, il a t constat que lenvironnement a une infuence sur
la facilit avec laquelle on reconnat un objet. Lexemple classique est celui de Biederman qui a mesur quune
lampe de bureau est reconnue plus facilement quand elle est prsente dans un contexte plausible (un bureau par
exemple) que dans un contexte improbable (une cuisine) [BIE82]. Cela montre non seulement linfuence du con-
texte sur la reconnaissance particulire de lobjet, mais plus important encore, cela montre que ce contexte doit tre
reconnu pralablement lidentifcation de lobjet, donc dans son ensemble (identifcation holistique). Cela amne
Chapitre 2
- 22 -
Reprsenter et reconnatre les images naturelles
- 23 -
donc sinterroger sur le type dinformation utile et ncessaire lidentifcation des scnes. Les considrations
prcdentes tendent montrer que leur reconnaissance implique des schmas spcifques [HEN99].
Biederman a entrepris de concilier sa thorie avec ces faits. Il propose que la comprhension dune scne puisse
tre explique via la perception de grappes de gons (geon clusters) [BIE88]. Selon cette extension de la tho-
rie RBC, un arrangement spatial particulier de quelques gons permet de rendre compte rapidement du contexte
dune scne.
Schyns et Oliva ont montr que la reconnaissance de scne est essentiellement porte par les basses frquen-
ces spatiales, qui permettent la conservation des relations spatiales globales, mais nautorisent gnralement pas
lidentifcation prcise des objets composant la scne [SCH94, OLI97]. Torralba soutient mme que le contexte est
primordial pour lidentifcation des objets dans une scne [TOR03a]. Cela conforte lexprience [BIE82] montrant
la dualit entre un contexte scnique cohrent pour un objet et la facilit avec laquelle il est reconnu.
2.2.9 Conclusion sur la reconnaissance perceptive
Cette revue des diffrentes thories expliquant la perception humaine d'un point de vue psychologique doit
maintenant nous permettre d'en extraire des lments potentiellement exploitables pour la conception de systmes
de vision artifcielle capable de reconnatre les scnes naturelles. En pratique, cela est d'autant plus diffcile que
d'une part les tudes ont surtout port sur la reconnaissance d'objets et que d'autre part plusieurs thories s'affron-
tent prement aujourd'hui.
Concernant le second point, nous pourrions faire un choix arbitraire et suivre entirement les principes dicts
par l'une d'entre elles, mais cela ne nous semble pas judicieux puisque certains travaux rcents semblent montrer
que les diffrentes thories expliquent la perception des niveaux diffrents. Nous osons faire un parallle avec
une clbre polmique du dbut du XX
ime
sicle, o il a t montr qu'il n'tait pas judicieux de trancher bruta-
lement entre la mcanique relativiste et la mcanique quantique pour expliquer l'ensemble du fonctionnement de
l'univers. Puisque la psychologie est pour nous une source d'inspiration, nous prfrons donc retenir les principes
unifcateurs et particulirement deux directions de recherche.
Premirement, toutes les thories s'accordent pour dire qu'au niveau le plus lmentaire, le systme visuel
humain fait une analyse des caractristiques de la scne (feature analysis). Les informations locales extraites sont
par exemple les orientations des artes prsentes dans l'image, ou les couleurs prsentes dans une partie de l'image
[TAR00]. Par contre les thories divergent fortement ds le moment o il s'agit d'expliquer la faon dont ces carac-
tristiques sont combines plus haut niveau. A ce niveau nous remarquons que les principes de la psychologie de
Gestalt
5
sont un ferment fertile non seulement pour les thories psychologiques, mais aussi pour la conception de
systmes artifciels
6
. Ces principes dfnissent des heuristiques trs gnrales propos de la perception humaine et
elles peuvent tre appliques concrtement selon de nombreuses modalits en reconnaissance des formes (et des
scnes en particulier).
5
qui, rappellons-le, peuvent joliment se rsumer par la formulation Le tout est plus que la somme des parties.
6
Les numros de Avril et Juin 2003 dune revue de rfrence en reconnaissance des formes (IEEE TPAMI) taient entire-
ment consacrs lorganition perceptuelle, qui est un principe issu de la Gestalt. Voir par exemple [ZHU03].
Chapitre 2
- 22 -
Reprsenter et reconnatre les images naturelles
- 23 -
Deuximement, notre dmarche sera guide par certains principes soutenus dans l'approche cologique de
Gibson [GIB66], qui soutient que c'est l'environnement visuel qui contient intrinsquement l'essentiel de l'informa-
tion ncessaire la reconnaissance. Nous ne prsumons pas de la validit de cette proposition pour l'ensemble du
processus de reconnaissance, mais nous pensons qu'elle est trs pertinente pour expliquer les premires tapes cor-
respondant l'extraction de caractristiques des images naturelles. Cette hypothse est cohrente avec les travaux
de Attneave [ATT54], Barlow [BAR61, BAR01a] et Watanabe [WAT60] qui ont conjectur que le but du systme
visuel est d'extraire l'information utile le plus effcacement possible, au sens de la thorie labore par Shan-
non quelques annes auparavant [SHA49]. Ainsi linformation utile considre est fortement lie aux statistiques
de lenvironnement visuel. Cette hypothse a t interprte et applique de diffrentes faons pour l'laboration
de systmes de reconnaissance artifciels, comme cela sera expliqu au paragraphe 2.4. Ce ne fut pas le cas de la
majorit des approches traditionnelles, comme nous allons le voir dans le paragraphe suivant.
La perception visuelle est traite en dtails dans louvrage de Palmer [PAL99] par exemple.
2.3 Reconnaissance des formes
2.3.1 Principes gnraux
La reconnaissance des formes (visuelles) ne peut tre dfnie que par une tautologie ou une priphrase, prci-
sant que l'ensemble des techniques concernent les systmes artifciels. On y distingue quatre approches principales
[JAI00, KUN00]: la mise en correspondance de formes, l'analyse syntaxique, l'approche statistique et les rseaux
de neurones.
Dans la mise en correspondance de formes (template matching), nous disposons d'un prototype de la forme
reconnatre et on essaie d'accorder la forme teste au prototype l'aide de transformations gomtriques (zoom,
rotation, translation). Les mthodes les plus rcentes utilisent des prototypes dformables. Ces techniques peuvent
tre trs effcaces dans le contrle de processus, pour trier des pices usines par exemple. Cette dmarche est uti-
lise pour la reconnaissance d'objets dans un environnement naturel (par exemple [DEB97]), mais ne nous semble
pas adapte la reconnaissance d'une scne naturelle dans son ensemble. En effet, l'approche sous-entend qu'une
image peut tre reconnue partir des objets qu'elle contient, ce qui est en totale contradiction avec les principes
que nous avons noncs et justifs prcdemment et nous ne nous y intresserons donc pas dans le cadre de cette
thse.
Lapproche syntaxique [BUN00] consiste considrer quune image est construite comme une phrase dont
des formes lmentaires seraient les mots et dont des graphes formeraient la grammaire en indiquant les relations
entre les formes lmentaires. Cela permet notamment de dfnir une structure hirarchique dans la formation de
limage. Si ces techniques rencontrent un succs certain dans de nombreuses applications, telles que lanalyse de
signaux encphalographiques, la reconnaissance dobjets 3D ou dcriture, elle nous semble plus proche de la lo-
gique dune machine que de la psychologie humaine. Par ailleurs, elle nintervient que rarement au niveau le plus
Chapitre 2
- 24 -
Reprsenter et reconnatre les images naturelles
- 25 -
lmentaire de limage, qui est celui qui nous intresse (mais voir [SAN02] qui segmente les images).
Les deux dernires approches, qui sont aussi les plus rpandues, sont lapproche statistique et les rseaux de
neurones. Si certains statisticiens voient ces derniers comme statistics for amateurs (Anderson, 1990, cit
dans [JAI00]), de nombreux liens ont t tablis entre les deux disciplines et Tibshirani
7
a mme propos les cor-
respondances indiques dans la table 2.2. Nous ne rentrerons bien entendu pas dans une quelconque polmique
et constatons simplement que le formalisme et le vocabulaire utiliss dans notre thse sont plus volontiers em-
prunts au monde des statistiques, alors que notre hrdit scientifque vient incontestablement du monde des
rseaux de neurones. Ainsi le problme de la reconnaissance des formes est pos en terme de classifcation ou de
discrimination entre des images. Dans lintroduction de ce chapitre, nous avons expliqu pourquoi la description
des images ne peut tre ralise compltement avec des mots. Le problme revient donc en dcrire le contenu
laide de caractristiques invariantes pour certaines catgories
8
. Celles-ci sont labores partir des deux grandes
composantes dune image, qui sont sa luminance et sa chrominance. A partir de ces caractristiques, il faut ensuite
dcider de quelle faon les images peuvent tre regroupes, ce qui revient dterminer des frontires dans lespace
des caractristiques entre les diffrentes classes possibles.
Dans la suite de ce chapitre, nous allons prsenter les rgles qui permettent la prise de dcision quand au pro-
cessus de classifcation et nous passerons ensuite en revue quelques approches classiques permettant de dfnir des
caractristiques.
Rseaux de neurones Statistiques
apprentissage estimation
poids paramtres
connaissance valeur des paramtres
apprentissage supervis rgression / classifcation
classifcation discrimination / classement
apprentissage non supervis estimation de densit / clustering
clustering classifcation / taxonomie
rseau de neurone modle
grand: 100.000 poids grand: 50 paramtres
ensemble dapprentissage chantillon
grand: 50.000 exemples grand: 200 cas
Table 2.2: Glossaire rseau de neurones / statistiques tabli par Tibshirani reproduit de [THI97]. [JAI00] donne aussi une
table d'quivalence entre la reconnaissance des formes statistique et les rseaux de neuronne.
7
q
quils taient timides sur la taille des problmes attaqus [THI97].
8
Une alternative possible pour la reconnaissance dobjets, qui serait alors basiquement inspire des modles psychologiques
ba
pas ralisable pour reconnatre une grande varit de scnes si on ne dispose que dune seule reprsentation [SME00].
Chapitre 2
- 24 -
Reprsenter et reconnatre les images naturelles
- 25 -
2.3.2 Prise de dcision, taxonomie des mthodes discriminantes
Prendre une dcision peut tre une preuve diffcile, voire pnible, pour certaines personnes. Quils se rassu-
rent, le problme ne semble gure simple, puisqu'il est loin d'tre modlis de manire univoque par les mathma-
tiques. Il existe notre connaissance trois approches principales pour modliser la prise de dcision : les ensembles
fous [ZAD78], la thorie de Dempster-Shafer [SHA76] et l'approche probabiliste. Dans cette thse, nous ne con-
sidrerons que ce dernier cas et plus particulirement le cadre baysien que nous allons dcrire ci-aprs. Il s'agit
du formalisme le plus rpandu pour la reconnaissance des formes statistique et nous renvoyons [SAP90] qui
donne des prcisions plus avant sur dautres approches tels les tests statistiques (mthode de Neyman et Pearson
en particulier). Malgr ces restrictions , nous allons voir que le formalisme baysien est riche et peut conduire
une multitude de mthodes discriminantes.
Dans un cas idal, une image ou une partie d'image est dcrite par d caractristiques x = (x
1
,..., x
d
) (on assimi-
lera dsormais l'image et sa description) et doit tre affecte une classe W* parmi C classes existantes W
1
, ..., W
C
.
Le formalisme statistique consiste exprimer ce problme en terme de densits de probabilits. x appartient la
classe W
i
est traduit par un tirage alatoire partir de la loi de densit conditionnelle P(x|W
i
) encore appele loi
a priori. La rpartition des diffrentes classes d'images dans le monde rel est donne par P(W
i
). On dsigne par
L(W
i
, W
j
) le cot qu'implique l'attribution d'une image la classe W
i
, alors qu'elle devrait tre dans la classe W
j
.
Le risque R(W
i
|x) dattribuer x une classe W
i
est alors dfni par:

R W x L W W P W x
i i j j
j
C
| , . | ( ) = ( ) ( )
=

1
(2.1)
La rgle de dcision de Bayes consiste choisir la classe W* qui minimise ce risque. Dans le cas particulier o
la fonction de cot vaut 1 en cas d'erreur (ij) et 0 si l'attribution est correcte (i=j), la rgle se simplife et devient le
maximum a posteriori (MAP), qui consiste choisir la classe W* telle que P(W*|x) soit maximale. Le qualifcatif
baysien est justif par le fait dans ce cas, ou dans le cas de l'quation (2.1), cette probabilit est dtermine
l'aide de la rgle de Bayes:

P W x
P W P x W
P W P x W
i
i i
j j
j
C
|
. |
. |
( ) =
( ) ( )
( ) ( )
=

1
(2.2)
Le dnominateur est le mme pour toutes les classes W
i
, donc il n'intervient pas dans la dtermination de la pro-
babilit a posteriori maximale. Il se peut que l'on dispose d'informations sur la rpartition des classes d'images qui
permettent de dterminer P(W
i
). Dans le cas contraire, on supposera les classes quiprobables et donc P(W
i
) = 1/C
pour tous les i. Cette quantit n'interviendra donc pas pour dterminer le maximum a posteriori. Dterminer la
classe d'une image par la rgle de Bayes dpend donc essentiellement des informations dont on dispose sur les
densits conditionnelles a priori des diffrentes classes (fgure 2.4).
Si nous connaissons ces dernires, nous pouvons appliquer directement la rgle de Bayes. Cependant, les den-
sits des descriptions des images naturelles sont rarement connues, notamment parce que l'tude des statistiques
des images naturelles est elle-mme un domaine de recherche trs actif et non abouti. Nous devons donc estimer
Chapitre 2
- 26 -
Reprsenter et reconnatre les images naturelles
- 27 -
les densits a priori des classes. Les mthodes sont caractrises suivant deux dimensions, selon que l'apprentis-
sage est supervis ou non et que l'estimation est paramtrique ou pas.
L'apprentissage consiste utiliser un ensemble d'exemples permettant d'estimer les densits a priori des classes
(ou le poids des neurones dans le cas de rseaux de neurones). On parle d'apprentissage supervis quand les exem-
ples sont tiquets, c'est--dire quand leur classe est connue. Dans le cas contraire, l'apprentissage non supervis
ncessite d'estimer le nombre de classes pouvant exister, par exemple en analysant les grappes (cluster analysis)
potentiellement identifables.
Lestimation paramtrique est licite quand on connat la forme des densits a priori des classes. Les densits
sont dtermines analytiquement suite lestimation des paramtres ncessaires. Quand on ne fait pas d'hypothse
spcifque sur la famille de loi de probabilit, l'estimation non paramtrique des densits peut se faire l'aide des
mthodes noyaux [SIL86], appeles fentres de Parzen en reconnaissance des formes. Cette dernire comprend
toutes les techniques d'affectation gomtriques des classes, consistant dterminer des frontires dans l'espace
des caractristiques, ou affecter un exemplaire la classe majoritairement reprsente parmi ses plus proches
voisins dans cet espace (K
ppv
).
2.3.3 Description des images par le contenu
Nous distinguons deux approches gnrales pour dcrire les images. Dun ct, des modles mathmatiques
ont t plus ou moins directement inspirs de la connaissance que lon a des premires tapes du traitement visuel.
Densit a priori des
classes dimages
Connue Inconnues
Rgle de Bayes
(dont MAP)
Apprentissage
supervis
Apprentissage non
supervis
Estimation
paramtrique
Estimation non
paramtrique
Figure 2.4: Taxonomie de rgles de dcision en vue de discriminer des images, en fonction de l'information disponible sur
les densits a priori des classes d'images. D'aprs [JAI00].
- Estimation de densits
- K plus proches voisins
- Affectations gomtriques
(surfaces de dcision)
- Rgle de bayes sur modles
- Rgression logistique
- Nues dynamiques
- Classifcation hirarchique
(ascendante, descendante)
- Dendrogrammes
- Mlanges de densits
Chapitre 2
- 26 -
Reprsenter et reconnatre les images naturelles
- 27 -
Ce codage, que nous pensons plus adapt aux images naturelles, sera dvelopp plus avant dans le paragraphe 2.4.
Dautre part, certains auteurs utilisent toute une batterie de descripteurs poss a priori comme pertinents et qui ne
sont justifs que par le constat a posteriori de leur relative effcacit pour rsoudre un problme donn. Passer en
revue lensemble de ces descripteurs reviendrait passer en revue une grande part de la vision par ordinateur, ce
qui nest pas lambition de ce manuscrit. Des revues rcentes des systmes dindexation par le contenu [RUI97,
SME00], ou des ouvrages ddis [DEB99, SAN01] sont plus indiqus pour cela. En plus des revues de descrip-
teurs et la faon de les regrouper pour former des caractristiques dimages, ils sattardent sur les problmes de
dfnition des dissimalirits entre images congrment la perception humaine et posent les dfs davenir.
Nous avons choisi de nous restreindre la revue de trois types d'informations qui sont traditionnellement uti-
liss pour dcrire les images: la couleur, la forme locale (c'est--dire l'ensemble des directions et des orientations
prsentes dans les images) et la texture. Ces donnes sont regroupes pour former des descripteurs accumulatifs,
tels les histogrammes, les corrlogrammes, ou les moments qui permettent une utilisation effective des informa-
tions [SWA91, PUZ99]. Il est trs courant de procder une segmentation des images, qui consiste dfnir plu-
sieurs rgions o les descripteurs sont calculs indpendamment. Cette segmentation est dite forte quand elle tente
d'isoler des rgions correspondant des objets. Cette pratique peut tre effcace si on connat lavance le type de
rgion recherch (imagerie mdicale par exemple). Son utilisation semble diffcile pour la classifcation de scnes,
puisque du point de vue perceptif ce sont des entits qui ne se dfnissent pas univoquement partir de lunion de
leurs parties. On prfre utiliser une segmentation faible qui isole des rgions homognes pouvant ventuellement
se recouvrir, ou une segmentation fge qui divise artifciellement une image en des rgions identiques pour toute
une collection. Par exemple, dans [TOR02] les images sont divises en 16 carrs de taille gale, mais la segmen-
tation en une zone centrale et quatre zones priphriques peut tre suffsante [LAA00].
La couleur est dcrite dans des espaces trois dimensions qui sont lis entre eux par des formules de passage
[ALL99]. L'espace le plus commun apprcie une couleur par la quantit de rouge, de vert et de bleu (RGB) qu'elle
contient. On peut aussi citer l'espace de Munsell qui distingue la teinte (hue), la saturation et la luminosit (va-
lue) des couleurs (espace HSV ou TSL). La distinction de la teinte peut par exemple tre utile pour caractriser la
couleur de la peau. Il existe aussi toute une famille d'espaces colorimtriques qui sont proches de la perception
humaine des couleurs, o la luminance est code indpendamment de la chrominance, celle-ci tant reprsente
par des oppositions de couleur semblables lanalyse des cnes dans la rtine humaine. C'est par exemple le cas
de l'espace La*b* ( L est la luminance, a* l'opposition rouge-vert, b* l'opposition jaune-bleu) dfni par la Com-
mission Internationale de l'Eclairage (CIE) de faon ce que la perception humaine des couleurs corresponde
une distance euclidienne dans cet espace [PUZ99, SME00]. Dun point de vue perceptif cependant, cette corres-
pondance ne peut tre valable que pour des distances faibles ([SAN99] et chapitre 4). Le choix d'un espace ou d'un
autre sera essentiellement guid par l'application dsire et les proprits d'invariance souhaites. Les histogram-
mes de couleurs ont t introduit par [SWA91] qui ont propos d'en estimer la similarit en calculant leur intersec-
tion. Cela a t appliqu par [SZU98] pour diffrencier des images d'intrieur ou d'extrieur. Stricker et Orengo
ont compar les trois distances de Minkowski classiques et ont montr que L

est robuste pour rendre compte des


dissimilarits entre histogrammes, mais que L
1
et L
2
peuvent aussi tre utilises. L'utilisation des trois premiers
Chapitre 2
- 28 -
Reprsenter et reconnatre les images naturelles
- 29 -
moments (moyenne, cart-type et asymtrie) donne aussi des rsultats signifcatifs [STR95].
Il existe de nombreux descripteurs pour rendre compte de traits orients prsents dans les images. Brandt dis-
tingue les descriptions externes (boundary-based) et internes (region-based), selon que ce soit la frontire ou la
rgion contenue dans la frontire qui est dcrite [BRA99]. Ces deux descriptions peuvent elles-mmes tre dcrites
dans le domaine spatial ou dans un domaine dual, tel l'espace des frquences accessible par la transforme de Fou-
rier par exemple. Suite cette tude exhaustive, Laaksonen a choisi de retenir un histogramme rendant compte des
huit directions possibles extraites l'aide dun fltre de Sobel 3x3 dans cinq zones segmentes a priori et la trans-
forme de Fourier globale de l'image [LAA00]. Une alternative ce dernier est la transforme en cosinus discret
(DCT) [SZU98]. Vailaya et Jain utilisent un histogramme des directions [VAI98], les coeffcients DCT de l'image
et ont ajout un descripteur rendant compte de la cohrence des directions dans une rgion restreinte de l'image
(edge direction coherence vector). Nanmoins, dans [VAI01], les coeffcients DCT ne sont plus utiliss, ce qui
rvle une redondance probable entre ces trois descripteurs. Gurin-Dugu et Oliva ont utilis l'orientation locale
dominante (LDO) [FRE91] qui extrait localement les bords des images plusieurs rsolutions l'aide de fltres
orients qui sont les drives secondes de fltres gaussiens [GUE00]. Ces orientations sont ensuite regroupes dans
des histogrammes et la dissimilarit est estime l'aide de la distance euclidienne. La symtrie des orientations par
rapport la verticale dans les images naturelles, permet de considrer les histogrammes d'orientations comme des
fonctions priodiques paires et de les coder par les coeffcients rels de la srie de Fourier. Enfn, on peut dcrire
localement les images par extraction de ses points dintrts [SCH97]. Schmid et Mohr utilisent des combinaisons
de drives premires, secondes et tierces de gaussiennes pour dfnir des vecteurs caractristiques invariants
des rotations, des changements dchelle, ou des variations de luminosit. Cette technique est trs performante
pour mettre en correspondance des images contenant des objets identiques. Son utilisation pour la classifcation
smantique de scnes semble diffcile, puisque les points dintrts ont peu de rapport dune image lautre.
Il n'existe pas de dfnition univoque du concept de la texture et beaucoup d'auteurs font abstraction du probl-
me ou donnent une dfnition qui justife les dveloppements ultrieurs de leur prsentation. [SME00] la prsente
comme ce qu'il reste quand on a t les deux descriptions prcdentes (la couleur et les formes locales), mais nous
pouvons dire en premire approximation que la texture est un attribut qui rend compte de l'arrangement spatial des
niveaux de gris dans une rgion
9
. L'tude des textures a gnr une littrature trs abondante et on pourra se repor-
ter [RAN99, DEB99] pour des revues. Les modles les plus lmentaires utilisent lautocorrlation des pixels, ou
des matrices de co-occurences qui rendent compte de larrangement spatial des niveaux de gris. Le modle MSAR
[MAO92] qui reprsente les textures plusieurs rsolutions, est couramment utilis pour lindexation dimages
par le contenu [SZU98, VAI01].
2.3.4 Au del des descriptions classiques
Nous avons prcdemment expliqu pourquoi le meilleur systme de reconnaissance des formes et des images
9
IEEE Standard 610.4-1990, IEEE Standard Glossary of Image Processing and Pattern Recognition Terminology, IEEE
Press, New York, 1990
Chapitre 2
- 28 -
Reprsenter et reconnatre les images naturelles
- 29 -
existant actuellement est le systme visuel humain. Il sert de rfrence et est une source d'inspiration pour la con-
ception des systmes de vision par ordinateur. Lors de leur ralisation nanmoins, certains principes de psycholo-
gie et physiologie de la vision sont diffcilement implantables, ou encore imparfaitement connus.
Les travaux de [HUB68] ont mis en vidence la prsence de cellule sensibles aux orientations et aux frquences
et ceux de [BIE87] ont montr que les objets peuvent tre grossirement reconnus partir de leurs contours. Il en
a t dduit que les bords orients jouent un rle primordial pour la reconnaissance. Cela explique la profusion
de descripteurs cherchant rendre compte de leur prsence dans les images et les caractriser quantitativement
et qualitativement (en terme de frquence notamment). Il semble aussi que cela ait t malheureusement interprt
comme une justifcation segmenter les objets ou les rgions dans les images. Dans [SME00], il est affrm que
thoriquement, la meilleure approche pour interprter une image smantiquement reste lutilisation dune forte
segmentation de la scne . Il est nanmoins constat que la fragilit de la segmentation forte semble tre un
obstacle insurmontable . Si on tient compte de la psychologie perceptive, tenter de reconnatre une scne dans
son ensemble partir de ses composantes nest pas raisonnable. Par exemple, les objets peuvent tre reconnus avec
une description partielle de leurs contours et les scnes ne sont pas apprhendes comme la somme des objets la
composant [BIE87]. Cest pourquoi une telle stratgie ne semble pouvoir tre suivie que dans des cas restreints o
la reconnaissance dobjets particuliers peut tre discriminante
10
.
Les systmes de reconnaissance se heurtent aujourdhui plusieurs verrous, dont lun des plus cruciaux est le
foss smantique (semantic gap) entre la description des images par leur contenu et les capacits cognitives
dun utilisateur. La pertinence des descripteurs nous semble alors primordiale dans ce contexte, mme si nous
avons conscience que le remplissage de ce foss ncessite aussi des efforts dautres niveaux (intraction avec
lutilisateur [COX00], fusion des informations...). Si nous considrons le systme visuel humain comme une rf-
rence, la pertinence des attributs prsents prcdemment est parfois contestable. Par exemple, nous montrerons
dans le chapitre 4 que la couleur nest pas tant ncessaire la discrimination smantique des scnes pour les hu-
mains, alors quelle est un attribut considr comme effcace dans de nombreux travaux. Nous proposons donc
de nous inspirer des principes de codage du systme visuel pour les dterminer.
Au del de la pertinence des descripteurs, nous posons aussi la question de leur effcacit. Celle-ci est souvent
occulte par la capacit des attributs rsoudre un problme donn. Nous constatons que parmi les descripteurs
usuellement utiliss en reconnaissance des formes, certains semblent tre redondants. La notion deffcacit dun
code sera dfnie prcisemment dans la suite de ce chapitre, mais intuitivement il semble quun code effcace doit
tre adapt la structure sous-jacente des donnes. De telles considrations ont conduit lmergence dune voie
de recherche dfnissant des descripteurs plus proches des principes du codage visuel et qui nous semble promet-
teuse pour dcrire les images naturelles.
10
Plus prcisement, lapprhension dune scne par une telle mthode suggre dimplanter une procdure de reconnaissance
(en complxit croissante), depuis la dtection bas niveau jusqu une interprtation haut niveau ncessitant lutilisation
de techniques issues de lintelligence artifcielle, telles les reprsentations logiques, les rseaux smantiques, les rgles
de production, les connaissances procdurales ou les objets structurs. Voir [KUN00, chap 3] pour un descriptif de ces
techniques.
Chapitre 2
- 30 -
Reprsenter et reconnatre les images naturelles
- 31 -
2.4 Vers un codage effcace des images naturelles
2.4.1 Analyse harmonique des images.
La voie la plus directe pour dcouvrir la structure des images naturelles et les coder de faon en diminuer
la redondance est de les exprimer comme la superposition dun certain nombre de composantes. Une famille de
composantes est une nouvelle base de reprsentation des images, qui doit possder des proprits reftant celles
qui ont t mises en vidence pour les images naturelles dans le paragraphe prcdent. La prise en compte de la
spcifcit des images naturelles a conduit les scientifques dvelopper plusieurs modles au fur et mesure que
leurs connaissances propos de ces stimuli particuliers saffnaient. Donoho distingue trois approches qui se sont
plus ou moins succdes dans les trois dernires dcennies [DON01].
Dans les annes 70, le codage des images et les hypothse consquentes sur le fonctionnement du systme
visuel humain, taient modliss par lanalyse de Fourier, qui permet de dcomposer les images en sommes (inf-
nies) de sinusodales. On dfnit le spectre damplitude dune image numrique par le module de la transforme de
Fourier de la luminance de limage et le spectre de puissance est le carr du module. Dans le domaine continu, si
on note I(x,y) la luminance dune image, son spectre de puissance est donn par:

S f f I x y e dxdy
x y
j f x f y
x y
( , ) , . =
( )
( )
( )

1
2
2
2
2

(2.3)
Lanalyse de Fourier est lune des bases les plus importantes du traitement du signal et des images, bien quelle
soit lhritire dune thorie initialement dveloppe pour expliquer la diffusion de la chaleur. Nous comprenons
alors quelle ait t supplante par dautres thories, permettant un meilleur codage des images.
Dans les annes 80, lanalyse de Gabor apparut comme un modle plus judicieux pour reprsenter les images.
Elle est dote de proprits remarquables, ce qui explique sans doute pourquoi certains chercheurs lutilisent
encore de nos jours. Nous allons donc en prsenter les principaux aspects, puis exposerons ceux des ondelettes
[MAL00] qui ont connu un grand succs partir des annes 90.
Un fltre de Gabor est dfnit dans le domaine spatial par la formule [GAB46, DAU85]:

G x y e
x y
x x y y
i f x f
x y x y
, e ( ) =

( )

( )

l
l
l
l
l

1
2
2 2
0
2
2
0
2
2

yy [ [
(2.4)
Puisque la fonction est complexe, le fltre de Gabor est gnralement reprsent par une paire de fltres spa-
tiaux, qui sont sa partie relle et sa partie imaginaire. Ces deux fltres sont des ondes sinusodales en quadrature,
modules par une enveloppe gaussienne dcart-types
x
selon x et
y
selon y. La transforme de Fourier de G(x,y)
est dfnie plus simplement par une fonction gaussienne, centre en (f
x
, f
y
) et dont les cart-types sont inversement
proportionnels
x
et
y
. La dfnition de cette fonction a t initialement lie lmergence de lanalyse temps
frquence qui a t invente pour palier aux limitations de lanalyse de Fourier classique. En effet, celle-ci per-
met de rendre compte des frquences et des orientations dans les images ou les signaux, mais ne permet pas de
localiser (spatialement ou temporellement) les vnements correspondants. Ainsi, un couple orientation/rsolution
Chapitre 2
- 30 -
Reprsenter et reconnatre les images naturelles
- 31 -
particulier est dcrit par un pic de Dirac dans le domaine frquentiel, mais correspond une sinusodale support
infni dans le domaine temporel. La solution est de restreindre cette analyse une fentre lisse et localise, que
lon fait glisser dans lespace original (transforme de Fourier court terme). Le principe dincertitude dHei-
senberg transpos la thorie de linformation exclut davoir une prcision infnie dans les domaines duaux: si
t

est lcart-type de lnergie dun signal donn (i.e la prcision sur le signal dans le domaine temporel) et
f
est
lcart-type de la transforme de Fourier correspondante (prcision dans le domaine frquentiel), alors:

f
.
t
1/2 (2.5)
Dans un plan temps-frquence, ce compromis est reprsent par un pav daire
f
.
t
. Plus la prcision est
grande dans un domaine, moins elle le sera dans lautre. Gabor a dmontr que laire de ce pav tait minimale
quand les atomes lmentaires, limitant la largeur danalyse dans les deux domaines, ont une forme gaussienne
[GAB46]. Dans un espace bidimensionnel, les fltres de Gabor permettent de capter lnergie dune orientation
particulire pour une gamme de frquences donne dans les images, tout en conservant un support spatial signi-
fcativement fni. De ce fait, quand Hubel et Wiesel ont montr que des cellules du cortex visuel des macaques et
des chats et par extension celui des hommes, sont sensibles aux orientations et aux frquences [HUB68], les fltres
de Gabor sont apparus comme des candidats potentiels pour modliser ces cellules [POL83, DAU85, FIE87]. Par
suite, ils ont t utiliss en vision par ordinateur pour la reconnaissance dobjets [JAI97] et de scnes [HER97,
GUY01, TOR02], mais gnralement sous forme dondelettes.
La fonction de Gabor permet le meilleur compromis entre la prcision spatiale et la prcision temporelle, mais
le principe de lanalyse de Fourier court terme nest pas pleinement satisfaisant puisquil dpend encore de la
taille de la fentre choisie et des frquences (f
x
, f
y
) analyses dans celle-ci. Par exemple, lanalyse des signaux trs
basse frquence dans limage ncessite de choisir une fentre suffsamment large (correspondant une priode
au moins!), mais dans ce cas, la prcision spatiale est mdiocre. Au contraire, une fentre de petite taille conduit
une bonne localisation, mais ne rend pas compte des signaux de priode suprieure sa taille. La solution a t
propose par Morlet au dbut des annes 80, puis formalise avec Grossman sous la forme de la transforme en
ondelettes continue [GRO84]. En premire approximation, elle consiste fxer la frquence danalyse et faire
varier la taille de la fentre danalyse toutes les rsolutions possibles. Dans sa version continue, londelette mre
, est une fonction dont la transforme de Fourier

( , ) f f
x y
vrife:

( )
( )
<

f f
sf sf
s
ds
x y
x y
,
,

2
2
0

(2.6)
Cette condition est par exemple vrife pour les fonctions isotropiques qui sont nulles lorigine [MAL00]. La
transforme en ondelettes dune image I(x,y) lchelle s et au point (x
0
,y
0
) est alors dfnie par:

WI s x y I x y s s x x s y y dxdy , , , ,
0 0 0 0
( ) ( ) = ( ) ( ) ( ) ( )



(2.7)
Cependant, cette transformation ne rend pas compte des orientations et est donc incompatible avec lutilisation
que lon souhaite faire des outils danalyse harmonique. Une solution est de dfnir une famille dondelettes orien-
Chapitre 2
- 32 -
Reprsenter et reconnatre les images naturelles
- 33 -
tes dont chaque lment

(x,y) (1 ) peut tre vu comme la rponse impulsionnelle dun fltre passe-bande


orient (fgure 2.5). La transforme en ondelettes lorientation de limage I(x,y) est dfnie selon lquation 2.7,
en remplaant par

.
La transforme en ondelettes est inversible, ce qui permet de reconstruire limage. Mais elle sexprime en
fonction des ondelettes toutes les rsolutions et localisations, ce qui rend sa mise en oeuvre diffcile. Afn de
palier cet inconvnient, Mallat a dvelopp un algorithme, inspir des travaux en analyse multi-rsolution (AMR)
[BUR83], qui permet de dcomposer un signal sur un ensemble dnombrable dondelettes [MAL00]. Il consiste
en des projections orthogonales successives de limage, dune part sur des espaces V
j
embots qui sont des ap-
proximations de moins en moins fnes de celle-ci et dautre part sur les sous espaces W
j
orthogonaux aux premiers,
qui reprsentent linformation de dtail entre deux niveaux de rsolution. En une dimension. Mallat et Meyer
ont montr que lon peut construire des bases orthonormales des espaces V
j
et W
j
, sur lesquelles la projection
dun signal donne respectivement des coeffcients dapproximation et des coeffcients dondelettes (ou de dtail).
Au niveau initial, on appelle fonction dchelle ou ondelette pre la fonction qui permet de construire une base
orthonormale de V
0
. Par dilatations et translations, londelette mre engendre une base orthonormale des espaces
W
j
. Quand le facteur dchelle varie de faon dyadique (s = 2
-j
avec j entier), cela permet dtablir une relation de
rcurrence sur les coeffcients entre deux niveaux successifs et de dfnir un algorithme trs effcace pour les calcu-
ler. A chaque niveau, ils sont dtermins partir dune opration de fltrage passe-bas suivie dun sous-chantillon-
nage (analyse), puis la reconstruction du signal est obtenue par sur-chantillonnage suivi du fltrage passe-haut par
les fltres duaux de ceux utiliss lors de lanalyse.
En deux dimensions, lextension la plus courante est obtenue en considrant trois espaces de dtails orthogo-
naux W
j
H
, W
j
V
et W
j
D
, qui sont respectivement les espaces horizontaux, verticaux et diagonaux. Si est londelette
mre dune AMR monodimensionnelle et londelette pre correspondante, on dfnit les ondelettes mres bidi-
Figure 2.5: Dcomposition dans le domaine frquentiel du support de

( , ) f f
x y
en six ondelettes

( , ) f f
x y
orientes,
qui permet de dfnir une transforme en ondelettes orientes en deux dimensions.

6
f
x
f
y
Chapitre 2
- 32 -
Reprsenter et reconnatre les images naturelles
- 33 -
mensionnelles par:




H
V
D
x y x y
x y x y
x y x y
,
,
,
( ) = ( ) ( )
( ) = ( ) ( )
( ) = ( ) ( )
(2.8)
et les bases orthonormales correspondantes sont alors

1
2 2 2
2
j
X
j j
x
n
y
m n m avec X H V D

\
)

( )

, , , , ,
(2.9)
Il existe un schma de dcomposition analogue l'AMR monodimensionnelle, o la projection sur les bases
prcdemment dfnies est effectue par un fltrage suivi d'un sous-chantillonnage. Dans le cas bidimensionnel
cependant, on commence par fltrer et sous-chantillonner selon les lignes, avant de raliser la mme opration
selon les colonnes. A chaque niveau correspond donc trois groupes de coeffcients de dtails correspondant aux
dtails horizontaux, verticaux et diagonaux.
Les ondelettes ont t utilises dans de nombreux domaines et ont eu en particulier un gros succs dans le
domaine de la compression d'images [DON98]. Par exemple, le nouveau standard de compression des images
fxes [JPE00] recommande d'utiliser des ondelettes bi-orthogonales, aussi bien pour la compression sans perte
que la compression avec pertes. Nanmoins la compression ne concerne pas spcifquement les images naturel-
les et les performances dpendent alors du type dondelette choisi. En vision, le formalisme des ondelettes a t
utilis avec des fltres de Gabor pour modliser les cellules simples du cortex visuel [HUB68, DAU85]. Comme
expliqu prcdemment, cette similarit entre les ondelettes de Gabor et les connaissances que l'on a du cortex
visuel ont incit de nombreux chercheurs utiliser ce modle pour rsoudre divers problmes de reconnaissance,
tels la compression d'images [LEE96], la segmentation de textures [BOV90], ou leur indexation [MAN96]. Leurs
performances sont aussi particulirement apprcies dans le cadre de la dtection ou la reconnaissance de visages
[DON99]. Dans ce contexte encore, [LIU03] effectue des post-traitements, mais l'extraction de caractristiques est
ralise avec des ondelettes de Gabor. Celles-ci ne sont nanmoins pas les seules utilises. [DOV02] utilise des
ondelettes de Daubechie pour l'indexation de textures et [UNS95] utilise des ondelettes splines orthogonales de
Battle-Lemari, ainsi que d'autres ondelettes non orthogonales (B-splines et D-splines), pour la segmentation et la
classifcation de textures.
Les rsultats obtenus l'aide des ondelettes dans tous ces domaines de la vision par ordinateur sont impression-
nants et leurs applications sont probablement loin d'tre puises. Pourtant, comme le remarque Donoho dans un
article paru au dbut de cette thse [DON01], il n'y a a priori aucune raison pour que des concepts mathmatiques
pr-existant, rpondant pour la plupart des problmes poss par l'ingnierie, la physique, ou les mathmatiques,
soient un modle correct ou mme d'une quelconque aide pour comprendre la perception du systme visuel hu-
main. Il propose justement de partir de donnes empiriques sur la vision pour dfnir les futurs modles math-
matiques qui seraient susceptibles de faire progresser la comprhension de la perception humaine. Ces donnes
empiriques sont issues de ltude des statistiques des images naturelles.
En prenant en compte les travaux rcents dans ce domaine, Donoho propose un modle codant parcimonieu-
sement les objets possdant des bords. Quand ceux-ci sont droits, ils sont analyss laide de ridgelets [CAN98],
Chapitre 2
- 34 -
Reprsenter et reconnatre les images naturelles
- 35 -
qui sont dfnies partir dune ondelette par



a b
x y a
x y b
a
, ,
,
cos sin
( ) =

(

\
)

1 2
(2.10)
La paramtre a est un facteur dchelle. La fonction ainsi dfnie est constante selon la crte
x.cos() + y.sin() = b et prend la forme de londelette dans la direction transverse. Lanalyse est locale dans
une direction et globale dans lautre, ce qui la rend approprie pour tudier des lignes droites dans les images.
Pour cela, Cands a dfni une transforme en ridgelets et a montr que rciproquement toute fonction de carr
intgrable pouvait tre reconstruite exactement partir des coeffcients de sa dcomposition en ridgelets. Une ver-
sion orthogonale a t dveloppe par Donoho, partir des ondelettes de Meyer [DON00]. Cela revient dfnir
un principe dchantillonnage en ridgelets, qui divise le domaine frquentiel en couronnes dyadiques, qui sont
elles-mme nouveau divises en secteurs angulaires, dont le nombre de secteurs crot exponentiellement avec
lchelle. Cette variation du nombre de secteur en fonction de la rsolution est couramment utilise en vision par
ordinateur, notamment avec les rosaces de Gabor ([OLI99, GUY01] par exemple).
Les ridgelets sont conues pour reprsenter les lignes droites. Afn de rendre compte des courbes, les mmes
auteurs ont dfni la transforme en Curvelet [CAN00]. Lanalyse dune image revient alors un schma se d-
composant en quatre tapes. Les images sont tout dabord fltres en sous-bandes selon une rpartition dyadique.
Les images fltres sont ensuite dcoupes en une collection de fentres carres et lisses, puis chaque carr est
normalis une chelle unitaire et analys par une structure en orthoridgelets. Cela revient donc considrer que
localement, les courbes sont approches par des lignes droites.
Or, les travaux psychologie et en physiologie de la vision insistent sur limportance des bords en analyse
dimages, si bien que les ridgelets semblent prometteuses pour la conception de systmes de reconnaissance. Leur
valuation a pour le moment t ralise en comparant la forme sous laquelle ils codent les images avec le codage
naturel de celle-ci [DON01]. Ce codage naturel est prcisment celui que nous proposons dutiliser pour reconna-
tre les images. Notre approche appelle aussi utiliser les connaissances recueillies sur les statistiques des images
naturelles et le fonctionnement du systme visuel humain, mais contrairement Donoho qui fabrique un modle
fxe et a priori danalyse, nous proposons dutiliser directement des descripteurs extraits des images naturelles,
dont nous pensons quils sont plus mme den refter la structure. Cest une dmarche cologique qui entend
sinspirer directement des principes de codage du systme visuel humain, puisque ce dernier srige en rfrence
pour la problmatique de reconnaissance dimage.
2.4.2 Statistiques des images naturelles
Puisque les images naturelles sont les stimuli fondamentaux auxquels notre systme visuel est adapt, il est
pertinent d'en tudier les proprits statistiques [BAR01a, SIM01, DON01]. De telles tudes ont essentiellement
t entreprises par des chercheurs en neurosciences
10
, motivs par la comprhension des proprits fonctionnelles
10

of television signals, Bell system Tech., J 31 751-763, 1952. Cit par [ATI92].
Chapitre 2
- 34 -
Reprsenter et reconnatre les images naturelles
- 35 -
des neurones biologiques [SIM01]. L'hypothse sous-jacente est que l'volution a faonn le systme visuel des
mammifres de manire ce que leur reprsentation interne du monde soit optimale vis--vis des stimuli naturels.
Ainsi ces travaux reviennent chercher la distribution de probabilit des images naturelles et intressent donc au
plus haut point la communaut de reconnaissance des formes et de traitement du signal. Nous prsentons ici les
principaux rsultats relatifs ces travaux et ce que cela implique sur le codage des images naturelles.
Comme nous lavons vu au premier paragraphe de ce chapitre, une image peut tre vue comme une donne
dun espace trs grande dimension. Les images naturelles en particulier forment un sous ensemble de cet espace,
dont nous pouvons chercher la distribution statistique. Nous supposons que cette distribution possde une densit.
Du fait de la grande dimension de lespace image, il est probablement impossible de caractriser entirement cette
densit, mais des travaux ont cherch en identifer certaines proprits.
Le spectre de puissance moyen des images naturelles a t empiriquement caractris comme dcroissant en
1
f

, ou f reprsente le module dune frquence spatiale de limage et approximativement gal 2 (ou gal 1
si on considre les amplitudes) [RUD94, SCH96]. En premire approximation, il a t considr que cette relation
tait vraie quelle que soit la direction considre. Nanmoins, [HER97, OLI99, GUE00, TOR03b] ont montr que
cette assertion devait tre relativise. Le spectre de puissance des scnes ayant peu de profondeur de champ (dites
scnes fermes) peut en effet tre considr comme isotropique et dcroissant en 1/f
2
pour toutes les orienta-
tions. Quand la profondeur de champ augmente par contre, la prsence dune ligne dhorizon trs marque tend
privilgier les frquences verticales. Dautre part, les images composes de constructions humaines comportent
plus de frquences verticales et horizontales et ont un spectre fortement marqu selon les frquences correspon-
dantes (fgure 2.7).
La forme particulire du spectre moyen des images naturelles est explique par beaucoup dauteurs comme
rsultant de linvariance lchelle de leurs statistiques qui a t mesure maintes reprises [SIM01]. Cette pro-
Figure 2.7: Logarithme du spectre de puissance prototypique de scnes naturelles. Le spectre des scnes comportant des
contructions humaines (a-b) est fortement marqu par la prsence de frquences horizontales et verticales. Au
contraire, le spectre des scnes de paysages naturels tend tre le mme selon toutes les directions (d,e),
l'exception des paysages comportant une ligne d'horizon bien marque (c) favorisant les frquences verticales.
(a) (b) (c) (d)
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
(e)
Chapitre 2
- 36 -
Reprsenter et reconnatre les images naturelles
- 37 -
prit signife que lorsque lon change lchelle laquelle on observe lensemble des images naturelles (i.e on fait
un zoom), leur distribution statistique demeure inchange. Afn de rendre compte de cette invariance, Ruderman
[RUD94] a introduit la fonction log-contrast quil dfnit comme le logarithme du niveau de gris des images
ramen au niveau de gris moyen. Si on note I(x,y) la luminance dun image et I
0
son niveau de gris moyen, alors
le log-contrast de limage est:

L x y
I x y
I
, ln
,
( ) =
( )

l
l
l
l
0
(2.11)
En traant les histogrammes de cette grandeur pour un ensemble dimages naturelles plusieurs chelles, il ob-
serva que ceux-ci taient tous confondus (fgure 2.8). Dautre part, la forme de ces histogrammes permet dexhiber
une autre proprit des images naturelles, qui est la forte non gaussianit de leurs statistiques. En effet, tant donn
lutilisation du logarithme dans lquation 2.4, une distribution gaussienne donnerait un histogramme en forme
de parabole et non pas des queues approximativement linaires, qui incitent plutt modliser ces distributions
par des laplaciennes [HYV01a]. La distribution non-gaussienne des niveaux de gris dans les images naturelles est
rvlatrice des dpendances qui existent entre les pixels la composant. En effet, si les pixels taient indpendants,
les histogrammes de la fgure 2.8 seraient la moyenne dun grand nombre de variables indpendantes et devraient
alors prsenter une forme gaussienne en vertu du thorme central limite [RUD94]. Puisque ce nest pas le cas,
nous en dduisons que les images naturelles sont fortement redondantes quand elles sont reprsentes par leurs
pixels.
Les distributions ont plus prcisment une forme sur-gaussienne, cest--dire prsentant un fort pic autour de
zro et des queues de distribution lourdes (heavy tails), dcroissant plus lentement quune distribution gaussienne
de mme variance. La non-gaussianit dune distribution est souvent mesure par son kurtosis, qui est le cumulant
Figure 2.8: Histogramme du Log-contrast pour un ensemble d'images naturelles diffrentes chelles
[RUD94]. Les diffrences d'chelles rsultent de la taille des fentres extraites des images. Celles-ci
sont des carrs de taille 1, 2x2, 4x4, 8x8, 16x16 et 32x32 pixels..
Chapitre 2
- 36 -
Reprsenter et reconnatre les images naturelles
- 37 -
dordre quatre et est dfni pour une variable X de moyenne par:

X
E X
E X
( ) =
( )

l
l
l
( )

l
l
l

4
2
2
3
(2.12)
Cette grandeur est nulle pour une distribution gaussienne et positive pour les distributions sur-gaussiennne.
Dans [HUA99], les auteurs ont tudi les statistiques des coeffcients dondelettes (de Haar) qui codent des
images naturelles. Il mettent nouveau en vidence des dpendances entre les coeffcients dune chelle et des
chelles adjacentes: lhistogramme conditionnel des coeffcients de deux chelles adjacentes rvle une dpen-
dance linaire entre ceux-ci, suggrant lexistence de redondance entre eux. [DON01] fait la moyenne sur toutes
les orientations de lnergie des coeffcients. En observant les distributions jointes de lnergie des coeffcients
des chelles proches, il retrouve le mme type de dpendances que celui constat par [HUA99]. Il remarque ainsi
quavec le codage en ondelettes, les motifs les plus nergtiques ont tendance tre dtects par plusieurs niveaux
dchelles et dorientations.
Quelle que soit la reprsentation, une forme de redondance se rvle de manire rcurrente sous forme de struc-
tures sur-gaussiennes. Afn de comprendre son origine, nous allons expliciter formellement la notion.
2.4.3 Redondance dans les images naturelles
Une image I est dcrite par N pixels, eux mme reprsents selon M niveaux de gris. Cela permet de la con-
sidrer comme un point situ dans un espace E
NI
N dimensions. Plus gnralement, on peut voir chacune de ces
N dimensions une source de symboles discrtiss sur M niveaux qui dfnissent le code de l'image I = (i
1
, ..., i
N
).
L'ensemble des images naturelles E
NI
est distribu selon une fonction de rpartition dont nous supposons qu'elle
admet une densit de probabilit P(I). L'entropie, est dfnie par:

H E P I P I
NI
I E
NI
( ) log = ( ) ( ) ( )

2
(2.13)
Cest la moyenne, sur tout lespace des images naturelles, de linformation -log
2
(P(I)) de chaque point-image.
Celle-ci exprime la raret, le caractre exceptionnel que peut revtir lobservation de limage I parmi toutes les
images de lespace E
NI
. Dans cet ensemble, le tirage dun point rare (donc ayant une faible probabilit dapparition)
est porteur de beaucoup dinformation. Le codage entropique consiste adapter la longueur des codes de faon
ce quils soient courts pour les vnements les plus probables et long seulement dans les cas plus rares. Lespace
image E
NI
nest connu que via la description que lon fait des images, cest--dire leur code. Celui-ci est dautant
plus effcace que sa longueur moyenne est faible. Le thorme de codage de source [SHA49] stipule que lentropie
est la borne infrieure de cette longueur moyenne.
Si les sources sont statistiquement indpendantes entre elles, la densit P(I) se factorise comme le produit des
densits marginales des sources et lentropie est gale la somme des entropies marginales des symboles:

H E P i P i
NI k
k
N
k
k
N
I i i
( ) log
'
' ,...,
= ( ) ( )

\
)

= = =

1
2
1
1 NN
( )

(2.14)
Chapitre 2
- 38 -
Reprsenter et reconnatre les images naturelles
- 39 -
H E P i P i
NI k
k
N
k
k
N
I i
( ) = ( )

\
)

( ) ( )
= = =

1
2
1
1
log
'
' ,...,,i
N
( )

(2.15)
lintgration sur toutes les images de chaque espace marginal vaut 1, donc:

H E P i P i H i
NI k
i
k
k
N
k
k
N
k
( ) = ( ) ( ) ( ) = ( )

= =
' '
'
'
'
'
log
2
1 1
(2.16)
En cas dindpendance, H(E
NI
) est donc la somme des les entropies marginales des sources H(i
k'
). Cest un cas
limite pour un systme d'information o la connaissance que l'on a sur une source ne nous donne aucun renseigne-
ment sur les autres. Gnralement, cette condition n'est pas satisfaite et (2.16) devient une ingalit indiquant que
l'entropie totale est infrieure la somme des entropies marginales des sources. Alors que l'ensemble des images
naturelles pourrait tre cod avec des messages de longueur moyenne H(E
NI
), les dpendances statistiques provo-
quent des contraintes sur les sources, qui obligent utiliser des messages de plus grande longueur pour effectuer la
mme tche. Dans une image reprsente par ses niveaux de gris, les variations rgulires de l'intensit lumineuse
dans certaines rgions des images, implique que la valeur de certains pixels peut tre prdite partir de la con-
naissance des autres. De manire gnrale, l'existence de dpendances statistiques entre les sources utilises pour
reprsenter une image provoque donc une diminution de l'effcacit du codage.
La distribution uniforme est la moins informative, puisque tous les tirages ont la mme importance et quaucun
ne reftent un vnement exceptionnel. L'entropie est donc maximale dans le cas d'une rpartition uniforme des
images dans l'espace E
NI
. Dans ce cas, les sources ont toutes la mme densit P(i
k
) = 1/M et les entropies margina-
les sont donc toutes gales log
2
(M). Or, l'entropie est la situation optimale o la longueur moyenne des codes est
minimale et l'on souhaite donc que cette borne infrieure soit maximale. Considrant les deux remarques prc-
dentes, la capacit du code informer est donc maximale quand l'entropie de E
NI
est gale la somme des entropies
marginales des sources (indpendance statistique des sources) et la rpartitions de celles-ci est uniforme, ce qui
conduit une borne suprieure de l'entropie valant C = N.log
2
M. Cette grandeur est appele capacit d'information
et permet de dfnir la redondance par:

R
H E
C
NI
=
( )
1
(2.17)
La redondance est nulle quand lentropie atteint sa borne suprieure. Or cette borne suprieure nest rien
dautre que le logarithme binaire du nombre M
N
de codes dfnissables dans lespace image. La capacit C est
donc intrinsquement lie la description de lespace image E
NI
(canal de codage), tout comme lentropie H(E
NI
)
via la ditribution des point-images. Ainsi la redondance donne bien une indication de leffcacit avec laquelle sont
dcrites les images naturelles dans lespace image choisi.
Atick a reformul (2.17) afn de faire apparatre explicitement deux causes de redondance [ATI92] :

R
C
C H i
C
H i H E
k
k
N
k
k
N
NI
= ( )

\
)

( ) ( )

= =

1 1
1 1
'
'
'
'

\
)

(2.18)
Le premier terme de cette quation rsulte de la distribution non uniforme des sources, alors que le second
Chapitre 2
- 38 -
Reprsenter et reconnatre les images naturelles
- 39 -
terme dcrit la dpendance statistique entre elles. On appelle code factoriel ou code entropie minimale un code
qui cherche minimiser la part de variance qui est due aux dpendances statistiques. Dans ce cas les activits
des sources sont indpendantes et la densit P(I) des images est gal au produit des densits marginales P(i
k
) des
sources.
2.4.4 Caractrisation des codes
Nous considrons ici que N sources sont gnratrices dun ensemble dimages o chacune est caractrise
par son code (s
1
, ..., s
N
). Rciproquement, par projection d'une image I(x,y) sur une base d'units codantes
i
(x,y)
(1 i N) nous obtenons une estimation de son code. Ainsi nous pouvons crire:

I x y s x y
i i
i
N
( , ) ( , ) =
=


1
(2.19)
Nous proposons ici de caractriser ces codes, en indiquant dune part la frquence dactivation des sources,
pour reprsenter lensemble des images et dautre part la proportion des sources utilise pour coder une image
particulire. Ces proprits sont rfrences sous des noms parfois diffrents dans la littrature et nous avons donc
adopt la taxonomie la plus courante, rapporte par Willemore et ses collgues [WIL00].
Un code compact cherche minimiser le nombre de sources utilises pour reprsenter fdlement une base
dimages. Les units codantes sont donc ordonnes en fonction de leur utilit pour le codage. Dans le cas de
lanalyse en composantes principales par exemple, les units codantes sont ordonnes en fonction de la part de
variance quelles restituent. La premire composante code la plus grande part de la variance des images, la seconde
la plus grande part de la variance restante et le processus est itr jusqu la dernire composante. La reprsentation
dun ensemble dimage active donc plus souvent la premire unit codante que les autres, la seconde est plus active
que la troisime et ainsi de suite.
Avec un code dispers (dispersed) au contraire, chaque unit de codage a la mme probabilit dactivit pour
lensemble de la base dimages. Autrement dit, aprs avoir cod un nombre suffsant dimages selon ce schma,
toutes les composantes ont une contribution gale. La distinction entre les codes compacts et les codes disperss
ne donne aucune indication sur le nombre dunits entrant en jeu dans le codage dune image particulire, mais
seulement sur leurs comportements pour le codage dune base dimages suffsamment large (fgure 2.9).
Un code est qualif de distribu (distributed) quand chaque image active un grand nombre dunits parmi les
N fonctions de base disponibles. Rciproquement, chaque unit est implique dans le codage dun grand nombre
dimages.
Avec un code pars ou parcimonieux (sparse), peu dunits sont impliques dans la reprsentation dune image
particulire, bien que le nombre de fonctions de bases
i
(x,y) puisse tre aussi grand que dans le cas prcdent.
Lorsque lon encode une collection dimages, chaque unit de codage est associe une caractristique particulire
et reste inactive tant que celle-ci nest pas prsente dans limage considre. Les sources ont un grand nombre de
valeurs faibles ou nulles et leurs distributions prsenteront un important pic autour de zro. A variance gale, les
queues de ces distributions dcrossent donc moins vite quune distribution gaussienne: elles sont sur-gaussiennes.
Chapitre 2
- 40 -
Reprsenter et reconnatre les images naturelles
- 41 -
De plus, la proprit de parcimonie savre tre trs intressante dans le contexte de la reconnaissance, puisque
chaque image prsente un nombre limit dattributs saillants.
Un code la fois dispers et parcimonieux (sparse-dispersed coding) savre attrayant pour diminuer les deux
sources de redondance. En effet, un code dispers conduit des distributions uniformes des sources par dfnition.
De plus, la recherche de sources prsentant des densits loignes de la distribution gaussienne tend les rendre
indpendantes [HYV99b], comme nous lexpliquerons plus en dtail au 3.3.4. Cela permet donc dobtenir un
code factoriel, qui donne une reprsentation effcace des images.
2.4.5 Rduction de redondance et principe Infomax
L'ide que la phylognse, en particulier la formation du systme visuel, est infuence par notre environne-
ment remonte au XIX
ime
sicle, avec entre autres les travaux de Darwin, Mach, Pearson, Helmholtz, puis Craik et
Brunswik [BAR01b]. Au del de l'adaptation aux statistiques du milieu dans lequel on volue, il mergea l'ide que
Figure 2.9: Le codage des images est caractris selon deux axes. L'axe horizontal (compact Vs dispers)
concerne plus particulirement le codage d'une base d'images dans son ensemble. L'axe vertical
(distribu Vs pars) est relatif au codage d'une image en particulier.
1 2 N
Activit moyenne
pour toute la base
Units
codantes
1 2 N
Activit moyenne
pour toute la base
Units
codantes
i
Activit pour 1
seule image
Units
codantes
j k
1
Activit pour 1
seule image
Units
codantes
N
Code COMPACT
Code DISPERSE
Code PARCIMONIEUX
Code DISTRIBUE
Chapitre 2
- 40 -
Reprsenter et reconnatre les images naturelles
- 41 -
les concepts et les lois scientifques permettent une conomie de pense traduisant une reprsentation interne
simple du monde qui nous entoure. Celle-ci est possible grce aux rgularits structurelles des objets et des
vnements, donc aux statistiques de ceux-ci. La thorie de l'information formalise par Shannon [SHA49] fournit
de puissants outils pour formaliser ces principes et plus particulirement pour quantifer (donc mesurer) le concept
d'information. C'est ainsi que Attneave [ATT54], Barlow [BAR61] et Watanabe [WAT60] mirent en vidence la
redondance qui existait dans lenvironnement naturel des tre vivants et mirent l'ide que les systmes sensoriels
transformaient l'information en proftant de sa redondance pour obtenir un codage effcace. Barlow a rcemment
fait une revue de la gense et de l'volution de cette ide [BAR01a], habituellement appele rduction de redon-
dance. Nous avons expliqu comment la redondance se mesure au moyen de l'entropie et quun code est effcace
quand celle-ci est minimale. Le cas idal est donc que les sorties du codeur soient indpendantes entre elles, ce qui
conduit un code factoriel. Nous adoptons ce principe en tant que niveau conceptuel [MAR82].
Plusieurs mthodes existent pour satisfaire le niveau algorithmique. Vers la fn des annes 80, une approche
fut mise en uvre l'aide de rseaux de neurones utilisant la rgle de Hebb. Cette rgle inspire d'observations
physiologiques stipule que si des neurones de part et dautre dune synapse sont activs de manire synchrone et
rpte, la force de la connexion synaptique se renforce. Les dveloppements les plus clbres de ce principe
sont les travaux de Hopfeld [HOP82] et ceux de Kohonen [KOH84] ayant abouti plus tard la dfnition des
cartes auto-organisatrices [KOH95]. C'est prcisment l'aide d'un algorithme hebbien dvelopp par Kohonen
que Linsker a mis en uvre le principe de maximisation de l'information appel infomax [LIN88]. Ce principe
stipule que dans un rseau de neurones (dvou imiter les capacits perceptives des mammifres), le passage
d'une couche de neurones une autre doit tre implant de manire ce que le taux d'information transmis entre
les couches soit maximal. Linsker se place dans le formalisme de Shannon en utilisant l'entropie pour mesurer le
taux d'information qui transite d'une couche l'autre. Une faon quivalente d'appliquer le principe infomax
est de construire le rseau de neurones de faon ce qu'il rende maximale l'information mutuelle entre les sorties et
les entres, ou autrement dit, entre la reprsentation neuronale et les stimuli (visuels). Notons que cette voie semble
avoir t pralablement explore par Laughlin [LAU81], notamment d'un point de vue exprimental [BAR01a,
NAD94, BEL95].
Fldik [FOL90] utilise une combinaison de mcanismes hebbiens et anti-hebbiens sur des units neuro-
nales impliquant une non linarit. Une telle architecture est capable de mettre en vidence les dpendances d'ordre
suprieur i.e. au del de l'ordre deux correspondant la dcorrlation. De plus chaque unit neuronale auto-adapte
son propre seuil de faon ce que la nouvelle reprsentation des donnes soit parcimonieuse (sparse), c'est--dire
que chaque forme en entre du rseau est reprsente en sortie par l'activation d'un petit groupe d'units codan-
tes parmis un grand nombre possible. Selon Fldik, un tel codage permet justement de dtecter les redondances
prsentes dans l'information d'entre.
Nadal et Parga [NAD94] ont dmontr que pour un rseau dont chaque neurone a une fonction de transfert non
linaire borne, le principe de rduction de redondance de Barlow est quivalent au principe infomax de Linsker.
Nous expliquererons (3.3.4) comment cette quivalence est exploitable [BEL95] pour faire naturellement mer-
ger, partir dimages naturelles, des units codantes semblables aux cellules simples du cortex visuel [BEL97,
Chapitre 2
- 42 -
HAT98]. Cest le principe algorithmique [MAR82] que nous avons adopt, qui porte le nom dAnalyse en Compo-
sante Indpendantes (chapitre 3). Il propose de dcomposer linairement une image, ou une partie dimage, I(x,y)
sur une base de fonctions
i
(x,y), de telle manire que le code engendre des composantes indpendantes:

I x y s x y
i i
i
N
( , ) ( , ) =
=


1
(2.20)
Les s
i
sont les composantes indpendantes caractristiques des images. Bien que ce ne fut pas la voie choisie
par Donoho, il remarque que les bases indpendantes suggres par le modle de lanalyse en composantes ind-
pendantes seraient, en un certain sens, des candidates correctes pour comprendre les donnes [DON01].
- 43 -
Chapitre 3
Analyse en Composantes Indpendantes
Ce chapitre prsente l'Analyse en Composantes Indpendantes (ACI). Nous adoptons dans un premier temps
une dmarche constructiviste en commenant par prsenter le problme historique de sparation de source
dans son contexte gnral (3.1). Nous prsentons ensuite des mthodes antrieures l'Analyse en Composantes
Indpendantes (3.2) qui d'une part cherchent peu ou prou rsoudre les mmes problmes et d'autres part ont de
forts liens avec elle. La suite du chapitre est construite de manire plus dductive. Partant de la dfnition la plus
gnrale de l'ACI, nous en dfnissons les limites et indterminations (3.3) puis passons en revue les diffrentes
approches mises en uvre pour la raliser (3.4). Nous insistons la fn de ce paragraphe sur les liens qui existent
entre ces mthodes. Enfn nous prsentons plusieurs applications ayant proft de manire signifcative de l'apport
de l'ACI, ainsi que quelques utilisations prospectives de celle-ci (3.5).
3.1 Reprsenter les donnes
3.1.1 Illustration : la soire cocktail
Il est courant d'observer en milieu naturel des mlanges de signaux provenant de sources diffrentes. Le clbre
problme de la soire cocktail (effet cocktail party) voque le cas d'une soire o les voix des convives se m-
langent allgrement. Pourtant chacun a dj constat l'extraordinaire capacit de l'oue humaine diffrencier l'une
de ces voix en particulier, celle de leur interlocuteur par exemple. Cette capacit peut en effet tre qualife d'extra-
ordinaire lorsque l'on constate que l'oue humaine est capable d'effectuer cette discrimination dans des conditions
extrmes, que ce soit en prsence de trs nombreuses sources, ou encore lorsque le bruit ambiant est bien suprieur
la voix que l'on cherche discerner. Et surtout, comme bien souvent, la nature ralise avec une facilit dconcer-
tante cette tche qui devient trs ardue ds que l'on souhaite la raliser artifciellement. Ce problme rentre dans
le cadre plus gnral de la sparation aveugle de sources qui consiste retrouver un certain nombre de sources
partir des observations d'un mlange de celles-ci. Le terme aveugle traduit simplement le fait que l'on ignore la
faon dont les sources se mlangent, ainsi que le nombre de sources que l'on doit retrouver. Prsent ainsi dans son
Chapitre 3
- 44 -
Analyse en Composantes Indpendantes
- 45 -
contexte le plus gnral, le problme est trs diffcile rsoudre pour une machine. Pourtant ce formalisme permet
de modliser les diffcults rencontres dans de nombreuses applications.
3.1.2 Formulation gnrale
Le problme de sparation de sources a initialement t formul par Hrault, Jutten et Ans [HER85] pour spa-
rer des signaux vhiculs par les fbres nerveuses. Le mlange rsulte d'une part du fait que les champs rcepteur
de cellules voisines se recouvrent largement et d'autre part que les capteurs biologiques sont sensibles plusieurs
grandeurs simultanment. Pour rsoudre le problme, ils proposrent un algorithme utilisant une architecture non
supervise dont le fonctionnement est inspir de celui de la cellule nerveuse. Indpendamment, Bar-Ness proposait
une autre solution au problme appliqu aux communications par satellites [BAR82].
Si nous reprsentons les donnes observes par un vecteur alatoire p dimensions not x, le problme revient
donc trouver une fonction reprsentant le mlange d'un certain nombre n de sources primitives qui sont
aussi considres comme un vecteur alatoire s=( s
1
, s
2
,..., s
n
)
T
,

telles que :
x = (s) (3.1)
Dans le cas du problme de la soire cocktail par exemple, chacune des p dimensions reprsente un capteur
(microphone par exemple) et les n sources sont les voix des convives et les autres bruits ambiants (musique de
fond, bruit de l'extrieur...). est appele fonction de mlange.
Formul dans ce contexte trs gnral, il s'agit de trouver la meilleure faon de reprsenter les donnes x
comme transformes des variables s au moyen de la fonction . Cela revient donc trouver un nouvel espace de
reprsentation des donnes. La meilleure faon dpend bien entendu de la manire dont on veut comprendre les
donnes, donc des hypothses formules dans un cadre applicatif dtermin. L'une des visions les plus anciennes
de ce problme est l'Analyse en Composantes Principales (ACP), galement appele transformation de Kurhunen-
Love ou encore transformation de Hotelling. Dans ce cas, on cherche exprimer les donnes observes comme
rsultant d'une transformation linaire des sources permettant de trouver le plus petit sous-espace o l'erreur de
reconstruction est minimale au sens des moindres carrs, ou de faon quivalente le sous-espace sur lequel les
projections linaires conservent le maximum de variance [HOT33]. Dans le cas de l'Analyse en Composantes In-
dpendantes, l'hypothse sous jacente permettant la meilleure reprsentation des donnes est que les sources sont
Sparation

Mlange

y x s
Sources Observations
Estimations
des sources
Figure 3.1: Modle gnral de la reprsentation de donnes
Chapitre 3
- 44 -
Analyse en Composantes Indpendantes
- 45 -
statistiquement indpendantes entre elles. C'est justement ce principe de meilleure reprsentation analogue
l'ACP qui a amen Hrault et Jutten adopter le nom Analyse en Composantes Indpendantes [JUT88]. Elle
sera cependant redfnie plus prcisment par Comon [COM94].
Quelles que soient les hypothses formules, nous nous plaons dans un cadre statistique et sommes donc con-
traints chercher une estimation des sources et de la transformation associe partir des donnes. De plus, mme
si nous avons modlis ces dernires par une variable alatoire multidimensionnelle x, nous ne disposons dans un
cas rel que d'un nombre limit d'chantillons de cette variable. Formellement nous pouvons crire:
y = (x) (3.2)
Dans ce cas, y reprsente une estimation des sources et est appele fonction de sparation. C'est en ralit
cette fonction de sparation que l'on cherche gnralement exprimer :
y = ((s)) (3.3)
Nous exprimerons la fonction de mlange comme l'inverse de la fonction de sparation , si toutefois cet
inverse existe. Si nous ne faisons aucune hypothse sur la fonction de mlange nous ne savons pas rsoudre ce
problme. Cela nous amne donc faire des hypothses sur le canal de mlange, donc contraindre la forme de
celui-ci.
Comme dans bien des domaines scientifques, la restriction au cas d'une transformation linaire des sources est
un cas particulier trs important. Cela permet gnralement de simplifer le problme la fois d'un point de vue
conceptuel et calculatoire. D'autre part de nombreuses mthodes ont t dveloppes pour rsoudre le cas linaire,
mme si la plupart d'entre elles ont t tendues au cas non-linaire ou une restriction de ce dernier. Si les fonc-
tions de mlange et de sparation sont des applications linaires, elles s'expriment alors sous la forme de matrices
et les quations prcdentes s'expriment alors sous la forme:
y = Wx = WAs (3.4)
A est la matrice de mlange et W la matrice de sparation. Dans ce cas linaire, nous pouvons voir les sources
comme les coordonnes des observations dans une base particulire. Dans le cas de l'ACP par exemple, cette base
de reprsentation est compose des vecteurs de l'espace permettant le codage du maximum de variance.
3.1.3 Notations
Sauf mention contraire, nous adoptons les notations suivantes. Un vecteur alatoire contenant n sources est
not s et celui contenant p observations est not x (nous considrerons que n = p). Les composantes de ces vecteurs
sont respectivement (s
1
, s
2
, ..., s
n
)
T

et

(x
1
, x
2
, ..., x
n
)
T
. Lorsque l'on considre des observations particulires de ces
vecteurs alatoires, nous adoptons une notation matricielle de la forme X
T
=[x(1), x(2),..., x(T)] dans le cas de T
chantillons :
Chapitre 3
- 46 -
Analyse en Composantes Indpendantes
- 47 -

X
x x T
x x T
T
n n
=

l
l
l
l
l
l
1 1
1
1
( ) ( )
( ) ( )


(3.5)
La matrice de mlange est note A et la matrice de sparation W. Dans les processus itratifs, W
t
sera la notation
prise pour dsigner la matrice W la t-ime itration (nous adopterons alors une notation semblable pour les
vecteurs mais donnerons des prcisions s'il y a un risque de confusion avec les composantes des vecteurs). Nous
dsignons la j-ime colonne de W par w
j
et la i-ime ligne de A par a
i
, adoptant la mme notation pour les vecteurs
dterministes et alatoires.
Les estimations des sources partir des observations sont notes y. Pour dsigner les estimateurs, nous uti-
lisons la notation chapeau , par exemple: = W
-1
. Nous serons amens considrer l'ensemble du systme
gnration + sparation not G (donc G = WA et y = Gs).
3.2 Rduire la dimension des donnes
Reprsenter des donnes prsuppose de contraindre le canal mlangeant les sources une certaine forme. Les
hypothses faites sur ce dernier permettent d'exprimer les donnes dans un nouvel espace de reprsentation pour
lequel un critre est optimis. Dans ce paragraphe, nous allons d'une part tudier le cas de l'Analyse en Compo-
santes Principales et d'autre part passer en revue une autre technique initialement dveloppe pour observer des
donnes en faible dimension, la Poursuite de Projection. Ces mthodes ont t dveloppes dans le but de rduire
la dimension de l'espace de reprsentation, mais permettent aussi de fournir une reprsentation pertinente des
donnes.
3.2.1 Analyse en Composantes principales
L'Analyse en Composantes Principales d'un vecteur alatoire rel x de taille p et de matrice de covariance
V
x
= E{x.x
T
} fnie est dfnie dans [COM94] comme un couple de matrice {F,D} tel que la matrice de variance/
covariance se factorise sous la forme
V
x
= F.D.F
T
(3.6)
D est une matrice diagonale relle positive et F est une matrice de rang r et de taille pr dont les colonnes sont
orthogonales entre elles (c'est--dire que F
T
.F est une matrice diagonale).
Une mthode pratique pour raliser une ACP est donc de diagonaliser la matrice de covariance des donnes
1
et
de dfnir la matrice D comme une matrice diagonale contenant les valeurs propres non nulles de V
x
ranges dans
l'ordre dcroissant et F telles que ses colonnes contiennent les vecteurs propres correspondants. Dans le cas d'une
diagonalisation ou d'une dcomposition en valeurs singulires de la matrice de covariance, les vecteurs propres ont
1
Nous supposons que le processus stochastique x est stationaire. Voir [DON98] pour une prsentation plus gnrale.
Chapitre 3
- 46 -
Analyse en Composantes Indpendantes
- 47 -
une norme unitaire, si bien que F
T
.F est gale la matrice unit. Ainsi la projection des donnes sur le premier vec-
teur propre, appele premire composante principale, encode un maximum de variance puisque cela correspond au
carr de la plus grande valeur propre des donnes originales. Si nous notons w
1
la direction de ce vecteur propre
cela revient donc l'estimer de faon ce qu'il vrife:

w
1
= ( )

=
arg max
w
T
E w x
1
2
(3.7)
Les composantes principales suivantes sont dtermines de telle faon qu'elles encodent le maximum de la
variance restante. Ainsi, si les k-1 premires composantes principales ont t dfnies, nous trouvons la direction
de la k-ime par la formule:

w E w x w w x
k
w
T
i i
T
i
k
=

\
)

l
l
l
l
l
'
!
1
=
=

arg max
1
1
1
2
11
1
+
1
1
1
'
!
1
1
1
+
1
1
1
(3.8)
Comme nous l'avons dj voqu, l'ACP revient chercher un sous espace de projection des donnes dans
lequel une lapproximation linaire est optimale au sens des moindres carrs. Des modles neuronaux ont aussi t
proposs pour raliser l'ACP, dont le principal initiateur a t Erkki Oja. Il a propos un modle de neurone une
seule sortie qui permet d'extraire la plus grande composante principale d'un ensemble de donnes. Si l'on note y la
sortie du rseau, x
i
les entres et w
i
les poids correspondants, la rgle de Oja s'crit:

y w x
w x y y w
i i
i
i i i
=
= ( )


2
(3.9)
Cette rgle peut tre vue comme une approximation de la rgle d'apprentissage de Hebb classique, suivie d'une
normalisation des poids (norme euclidienne unitaire) [FYF00]. Par suite, plusieurs modles ont t dvelopps
afn d'extraire l'ensemble des composantes principales [OJA92]. Citons notamment lalgorithme des sous espaces
pondrs dvelopp par Oja [OJA91] et l'algorithme de Hebb gnralis (GHA) dvelopp par Sanger [SAN89]
qui permet de trouver les vrais vecteurs propres dans l'ordre des valeurs propres (estimation au fl de leau ). Des
extensions au cas non linaire ont t faites, notamment par Karhunen et Joutsensalo [KAR94, KAR95]. Il s'avre
que ces extensions aboutissent une estimation des directions statistiquement indpendantes de l'espace d'entre
et effectuent donc une Analyse en Composantes Indpendantes [OJA97] sur laquelle nous reviendrons.
3.3.2 Blanchiment des donnes
Nous pouvons voir l'ACP comme un moyen de decorrler les donnes, donc rendre leur matrice de covariance
diagonale et mme unitaire. Si on reprend la notation du paragraphe 3.1, on dfnit la matrice de sparation par :

W D F
PCA
T
=

1
2
(3.10)
La sparation des donnes l'aide d'une telle matrice s'appelle un blanchiment spectral et correspond une
annulation des statistiques d'ordre 2 (variances). Il existe d'autres procds pour effectuer cette opration, comme
par exemple une solution symtrique [BEL97] :
Chapitre 3
- 48 -
Analyse en Composantes Indpendantes
- 49 -

W E xx
ZCA
T
=
1 2
(3.11)
La matrice de covariance E{yy
T
} des sorties y=W
ZCA
x est diagonale et les donnes sont donc dcorrles. De
manire gnrale, multiplier gauche une matrice de blanchiment par une matrice orthogonale, donne une nou-
velle matrice orthogonale.
3.2.3 La poursuite de projection
La poursuite de projection est une mthode statistique d'analyse de donnes dcrites en grande dimension
cherchant les projeter sur un espace de dimension faible de faon faire apparatre des structures intressantes.
Comme prcdemment, l'intrt des projections en faible dimension dpend de l'application. La mthode est base
sur la dfnition d'un indice qui mesure les caractristiques de la structure projete. Par exemple, si cet indice est
dfni de faon maximiser la variance des donnes projetes (sous contrainte de normalit des vecteurs de pro-
jection), la projection de poursuite revient faire une ACP sur les donnes.
Friedman et Tukey [FRI74] ont dfni un indice mesurant l'intrt des structures projetes et permettant de
rechercher les plus intressantes. Le principe est dloigner les nuages de donnes les uns des autres, en se basant
la fois sur un critre de dispersion et de densit locale. Une alternative est de s'loigner de la situation la plus
standard en statistique, c'est--dire celle pour laquelle les donnes se projettent selon un distribution gaussienne
[JON87, HOD56]. Pour cela, on dfnit des indices bass sur des mesures de non-gaussianit, notamment l'entropie
diffrentielle [HUB85], ou une approximation de celle-ci par des moments ou des cumulants [JON87]. D'autres
dfnitions d'indices sont revues en dtail dans la thse de Nason [NAS92] et des approximations de l'entropie dif-
frentielle (entropie de Shannon pour des variables continues) permettant des bonnes performances algorithmiques
ont t tablies par Hyvrinen [HYV98] pour l'estimation de l'ACI et de la poursuite de projections (voir 3.4.4).
3.3 Dfnition de lAnalyse en Composantes Indpendantes
3.3.1 Cadre pris en compte
Il existe plusieurs faons de dfnir l'ACI, ou ce qui revient au mme, d'expliquer la manire dont on souhaite
reprsenter les donnes. Heureusement, il a t tabli des quivalences entre les diffrentes mthodes et toutes
cherchent d'une manire ou d'une autre retrouver des signaux sous la seule hypothse d'indpendance statistique.
Dans le cas le plus gnral cette hypothse ne sufft pas effectuer la sparation des signaux [DAR51]. Dans cette
thse nous nous restreignons d'une part au cas des mlanges linaires des signaux, qui est de loin le cas le plus tu-
di et qui jusqu' aujourd'hui a mme souvent t pris comme point de dpart pour la dfnition de l'ACI. L'intrt
est que dans ce cas, l'hypothse d'indpendance statistique entre les signaux est suffsante pour effectuer la spa-
ration
1
. D'autre part, puisque nous nous intressons terme l'utilisation de l'ACI pour des images, o les signaux
Chapitre 3
- 48 -
Analyse en Composantes Indpendantes
- 49 -
sont considrs comme variant dans l'espace, nous nous limitons galement l'tude de mlanges instantans.
Ainsi nous cartons l'ensemble des mlanges convolutifs qui intressent plus particulirement les chercheurs tra-
vaillant sur des signaux variant temporellement, notamment dans le domaine de la dconvolution aveugle (autre-
ment appele galisation aveugle), dont les applications directes concernent la sparation de signaux auditifs. On
pourra se reporter [HAY94] pour une prsentation du problme et [AMA98a] pour sa rsolution par l'ACI.
Dans la suite, nous donnons la dfnition de l'ACI tablie par Comon [COM94], qui est historiquement la
premire dfnition rigoureuse pour le cas des mlanges linaires instantans, mais aussi la plus gnrale. Nous
indiquons ensuite les limitations qu'imposent les conditions d'identifcations des signaux et les indterminations
que cela implique. Enfn, nous prsentons un tat de l'art de plusieurs approches possibles et dveloppons certaines
d'entre elles dans les paragraphes suivants.
3.3.2 Dfnition
L'Analyse en Composantes Indpendantes d'un vecteur alatoire rel x de taille p et de matrice de covariance
V
x
= E{x.x
T
} fnie est un couple de matrice {A,D} tel que :
(a) la matrice de variance/covariance se factorise sous la forme :
V
x
= A.D
2
.A
T
(3.12)
o D est une matrice diagonale relle positive et A est une matrice de rang n et de taille pxn.
(b) les observations peuvent tre crites sous la forme :
x = A.s (3.13)
o s est un vecteur alatoire de taille n dont D
2
est la matrice de covariance et dont les composantes
(s
1
, s
2
, ..., s
n
)
T
sont les plus indpendantes possibles au sens de la maximisation dune fonction de con-
traste.
Par soucis de clarifcation nous confondrons dans un premier temps la notion de fonction de contraste et de
fonction mesurant lindpendance. Nous renvoyons [COM94] et au 3.3.4 pour la dfnition exacte des fonctions
de contraste. Il est ncessaire de se donner une fonction de cot qui dtermine les proprits statistiques de lACI
et un algorithme doptimisation qui dtermine ses proprits calculatoires [HYV99b]. Ces deux concepts ne sont
pas toujours indpendants lun de lautre. Une optimisation par gradient par exemple ncessite de pourvoir driver
la fonction de cot. Par contre, une mme fonction pourra parfois tre optimise par diffrents algorithmes.
Une mesure dindpendance apparat immdiatement comme naturelle. Nous pouvons en effet remarquer qu'un
vecteur alatoire rel s = (s
1
, s
2
, ..., s
n
)
T
dont la densit de probabilit est note
f u f u f u f u
s s s s
n
( ) ( ), ( ),..., ( ) =[ [
1 2
1 2 1

a par dfnition ses composantes (mutuellement) indpendantes si et seulement si :
1
On parle de mlanges post-non-linaires quand une non linarit est applique un mlange linaire. Taleb et Jutten minimi-
sent linformation mutuelle entre les sorties laide de fonctions score (drive du logarithme de la densit des estimations y)
pour effectuer la sparation [TAL99]. Une revue des avances dans le domaine de lACI non linaire a t prsente lors de la
confrence ICA2003 [JUT03].
Chapitre 3
- 50 -
Analyse en Composantes Indpendantes
- 51 -

f u f u
s s i
i
n
i
( ) ( ) =
=

1
(3.14)
Ainsi, une mesure naturelle d'indpendance des composantes du vecteur s est de comparer les deux membres
de l'quation prcdente au moyen dune mesure appele information de Kullback-Leibler dont nous rappelons en
annexe A la dfnition et certaines proprits. En labsence de la proprit de symtrie, elle ne peut tre rigoureu-
sement considre comme une distance, mais permet nanmoins de comparer des densits. Nous obtenons alors
l'information mutuelle du vecteur s, dfnie comme :

I p f u
f u
f u
du
s s
s
s i
i
n
i
( ) ( ) log
( )
( )
=
=

1
(3.15)
Cette grandeur est toujours positive et s'annule uniquement si les composantes de s sont mutuellement ind-
pendantes. Malheureusement en pratique il est trs diffcile d'estimer directement l'information mutuelle, puisque
cela ncessite une estimation de la densit conjointe multidimensionnelle, rpute diffcile lorsque le nombre de
composantes crot. Ce phnomne connu sous le nom de dmon de la dimensionalit (curse of dimensiona-
lity) est expliqu par la diminution trs rapide de la densit des chantillons dans l'espace probabiliste quand leur
dimension augmente. Ainsi, mme si l'information mutuelle est considre comme une rfrence en ce qui
concerne la mesure d'indpendance, elle l'est essentiellement au niveau thorique. En pratique d'autres mesures
seront utilises, pouvant ventuellement tre des approximations directes de l'information mutuelle.
3.3.3 Reformulation et conditions didentifabilit
Si nous utilisons l'information mutuelle comme fonction de contraste particulire, il est montr dans [COM94]
que la dfnition peut se simplifer l'identifcation d'un modle gnratif non bruit, instantan et linaire, ce qui
constitue la dfnition adopte par la grande majorit de la communaut s'intressant au sujet [HYV99b]:
L'Analyse en Composantes Indpendantes d'un vecteur alatoire x = (x
1
, x
2
, ..., x
p
)
T
consiste identifer le mo-
dle gnratif (non bruit) suivant:
x = A.s (3.16)
o les composantes s
i
du vecteur s = (s
1
, s
2
, ..., s
n
)
T
sont supposes mutuellement indpendantes et la matrice A
est constante et de taille pn.
Nanmoins, les conditions d'identifabilit [COM94, TON91] de ce modle apportent quelques restrictions:
- Au plus une des sources (composantes de s) peut suivre une distribution normale (gaussienne).
- Le rang de la matrice A doit correspondre au nombre de sources.
La premire condition vient du fait qu'une distribution gaussienne a tous ses moments et tous ses cumulants
d'ordre suprieurs deux nuls. Dans ce cas, l'indpendance est quivalente a une simple dcorrlation telle que
la ralise une Analyse en Composantes Principales et l'hypothse d'indpendance statistique ne permet pas de
Chapitre 3
- 50 -
Analyse en Composantes Indpendantes
- 51 -
diffrencier les sources gaussiennes les unes des autres. Il faut cependant remarquer que si plus d'une source est
gaussienne, il est toujours possible d'identifer les autres sources indpendantes non gaussiennes [HYV99b].
La seconde condition traduit le fait qu'il est ncessaire d'avoir plus de donnes observes que de sources iden-
tifer. Il faut cependant noter que de rcents travaux sur des bases sur-compltes (overcomplete bases) [OLS96,
OLS97, LEW99, LEW00, HYV02] ont montr qu'il est possible d'extraire plus de sources que d'observations. La
matrice de mlange n'est alors pas inversible, mais l'extraction des signaux est possible l'aide d'une estimation
baysienne par exemple. Cela est particulirement effcace dans le cas de signaux parcimonieux o la probabilit
des sources a posteriori est modlise par une distribution sur-gaussienne (i.e. ayant beaucoup de valeurs proches
de zro et des queues de distributions au dessus de la loi normale). Au contraire des travaux de Comon sur le mo-
dle d'ACI standard, il n'existe ce jour aucun rsultat thorique assurant la convergence de tels modles.
Rciproquement, dans le cas o le nombre d'observations est plus important que le nombre de sources que
l'on souhaite identifer, nous pouvons rduire la dimension par l'une des techniques prcdemment vues. Si les
conditions d'identifabilit sont respectes, nous pouvons donc toujours considrer que la matrice de mlange A
est carre.
Ces deux restrictions nonces, il subsiste encore deux indterminations dans le modle d'ACI ainsi dfni.
D'une part, changer l'ordre des composantes indpendantes s n'affecte pas leur indpendance mutuelle. D'autre
part, lindpendance statistique entre composantes est conserve si on les multiplie par une constante non nulle,
ce qui revient admettre une indtermination sur l'amplitude des sources. Ces deux indterminations ne sont pas
propres au modle restreint prsent ici et existent dans le cas le plus gnral (3.3.2). D'ailleurs, la dfnition des
fonctions de contraste tient compte de ces indterminations.
Dans le cas du modle d'ACI non bruit, l'amplitude des sources est modlise par la multiplication de la ma-
trice de mlange A par une matrice diagonale, appelle matrice d'chelle . Nous pouvons aussi considrer que
puisque l'ACI consiste estimer simultanment la matrice de mlange A et les sources s, toute multiplication d'une
composante s
i
par une constante non nulle revient diviser la colonne de A correspondante par la mme valeur. Le
cas de la constante -1 montre en particulier lindtermination sur le signe des signaux estims.
L'incertitude sur l'ordre des sources dans le cas de l'ACI non bruite peut tre modlise matriciellement par la
multiplication des sources s par une matrice de permutation P (matrice ayant exactement un seul 1 sur chaque
ligne et colonne et des zros sinon). De mme que dans le cas prcdent, changer l'ordre des sources est quivalent
une permutation des colonnes de la matrice de mlange A, ce qui revient la multiplier droite par P
-1
.
3.3.4 Fonction de contraste
Nous sommes maintenant en mesure de donner la dfnition complte d'une fonction de contraste [COM94],
appele aussi plus simplement contraste. C'est une fonction valeurs relles qui, applique aux densits p
y
des
sorties doit vrifer les proprits suivantes:
- Invariance par permutation : (P.p
y
) = (p
y
) pour toute matrice de permutation P.
Chapitre 3
- 52 -
Analyse en Composantes Indpendantes
- 53 -
- Invariance l'chelle : (p
y
) = (p
y
) pour toute matrice diagonale .
- Si les composantes y
i
sont indpendantes entre elles, (p
My
) (p
y
) pour toute matrice M inversible.
On considre gnralement des contrastes discriminants, c'est--dire des contrastes pour lesquels l'galit est
vrife uniquement pour des matrices de la forme M = .P. Ainsi avec de telles fonctions, l'indpendance des
composantes est ralise uniquement pour le minimum de la fonction de contraste.
L'information mutuelle est la fonction de contraste par excellence. Mais cette dernire tant diffcile calculer
directement, on cherchera une approximation numrique de celle-ci, avec un dveloppement en srie d'Edgeworth
ou de Gram-Charlier par exemple.
3.4 Etat de lart
Comme indiqu au dbut du chapitre, le problme de sparation de sources ayant conduit la formulation de
l'Analyse en Composantes Indpendantes a t initialement dfni par Hrault, Jutten et Ans [HER85], alors qu'ils
s'intressaient des problmes de neurophysiologie au dbut des annes 80. Vingt ans plus tard, le concept intres-
se des centaines de chercheurs dans le monde, du point de vue thorique et pratique. Depuis 1999 une confrence
portant spcifquement sur le sujet est organise tous les 18 mois. La premire a eu lieu Aussois (France) et les
suivantes Espoo (Finlande), San Diego (Californie, Etat-Unis) et Nara (Japon). La prochaine aura lieu Grenade
(Espagne) au mois de septembre 2004.
L'objet de ce paragraphe est de passer en revue les principales approches de l'ACI effectues au cours de cette
priode. Les sources d'inspiration sont essentiellement issues des domaines du traitement du signal dans une
approche neuronale, de la thorie de l'information et des statistiques. Aborde et explique diffremment dans cha-
cun de ces domaines, l'ACI se trouve tre un seul et mme concept qui en retour permet de rsoudre effcacement
une multitude de problmes et d'applications. Ce fait remarquable explique sans doute l'effervescence croissante
qu'elle suscite chez les chercheurs depuis vingt ans. On trouvera une revue rcente de l'ACI dans le livre de Hyvri-
nen, Karhunen et Oja [HYV01]. D'autres tats de l'art sont prsents dans le livre de Lee [LEE98] et dans les
articles [AMA98a, CAR98, HYV99b, LEE00]. Enfn signalons l'article de Jutten [JUT00] dans lequel il prsente
l'histoire de la gnse de l'ICA et de la sparation de sources.
3.4.1 Traitement du signal et statistiques
La premire approche de la sparation de sources ralise par Hrault et Jutten s'inspire du traitement du signal
et plus particulirement de l'approche neuronale ou, comme les auteurs l'appellent, l'approche neuromimtique
[HER85], marquant ainsi clairement l'inspiration biologique initiale. L'algorithme HJ permettant la sparation
[JUT91] est bas sur un rseau de neurones rcursifs dont les poids sont les termes non diagonaux d'une matrice
de sparation W (voir fgure 3.2), les termes de la diagonale tant contraints la nullit. Ainsi, l'algorithme calcule
les estimations y des sources partir des observations x :
y = (I+W)
-1
x (3.17)
Chapitre 3
- 52 -
Analyse en Composantes Indpendantes
- 53 -
avec la rgle d'adaptation suivante pour les termes non diagonaux:

w f y g y
ij i j
= ( ). ( )
(3.18)
o f et g sont des fonctions non linaires impaires diffrentes. Dans le papier original, les auteurs proposent
la fonction cube pour f et la fonction arctangente pour g, en prcisant que d'autres choix sont possibles (et
souhaitables) en fonction de la forme des densits estimer. Dans la seconde partie de l'article [COM91], des pr-
cisions sont apportes quand au choix de ces non linarits. Lanalyse mathmatique de l'algorithme HJ [COM91]
a aussi permis de prciser que la mesure d'indpendance sous-jacente est l'annulation des cumulants croiss d'ordre
suprieur. C'est d'ailleurs dans la ncessit de recourir aux statistiques d'ordre suprieur pour identifer les sources
que rside l'apport de l'ACI, comme cela sera montr dans [COM89] et [LAC92]. Pour une prsentation des statis-
tiques d'ordre suprieur, on pourra se reporter l'ouvrage de Lacoume, Amblard et Comon [LAC97], ou l'habili-
tation diriger des recherches de ce dernier [COM95]. Ainsi, Ruiz et Lacoume proposent un algorithme annulant
les cumulants d'ordre deux et quatre l'aide d'un algorithme d'optimisation non linaire sous contrainte revenant
annuler le carr des cumulants croiss [LAC92]. Mais en pratique cet algorithme prsente une complexit cal-
culatoire trop importante pour sparer plus de trois sources [COM95]. Dans [COM92] il est galement propos
un algorithme bas sur le dveloppement en sries d'Edgeworth des densits cherchant annuler les cumulants
d'ordre quatre. Dans [COM94], il est montr que cela revient dfnir l'information mutuelle (ou son oppos plus
exactement) comme une fonction de contraste que l'on cherche minimiser. Expliquer l'ACI l'aide des fonctions
de contraste a permis leur tude mathmatique rigoureuse et l'introduction de nouveaux algorithmes bass sur un
apprentissage itratif de la matrice de sparation. Mais l'tude de la convergence de ces algorithmes a montr leur
dpendance vis--vis de la matrice de mlange [MOR98]. Ce problme a t rsolu par [CAR96] en utilisant des
estimateurs quivariants, c'est--dire vrifant la proprit suivante:
1
1
1
x
1
x
2
x
n
y
1
y
2
y
n
-w
1n
-w
2n
-w
n2
-w
n1
-w
12
-w
21
Figure 3.2: Architecture neuronale rcursive de lalgorithme Hrault-Jutten [JUT91]
Chapitre 3
- 54 -
Analyse en Composantes Indpendantes
- 55 -


MX X
T T
M =
(3.19)
o M est une matrice de mlange inversible quelconque,
x
T
est l'estimateur considr (dans notre cas, l'in-
verse de la matrice de sparation W), estim partir de T chantillons des observations x, rangs dans la matrice
X
T
et est not
MX
T
quand il est estim partir des mmes chantillons multiplis par la matrice M. La recherche
de tels estimateurs est justife dans le cas qui nous intresse (3.17) puisque multiplier les observations par une
matrice M est quivalent multiplier le mlange par cette mme matrice: M(X
T
) = M(AS
T
) = (MA)S
T
. Or avec un
estimateur quivariant de la matrice de mlange, nous pouvons constater que l'estimation des sources ne dpend
plus du mlange A mais uniquement des sources:
(t) = (
x
T
)
-1
x(t) = (
AS
T
)
-1
As(t) (3.20)
(t) = (A
S
T
)
-1
As(t) = (
S
T
)
-1
s(t) (3.21)
Le passage de la premire ligne la seconde utilisant la proprit d'quivariance de .
Afn d'utiliser cette proprit pour estimer la matrice de sparation, Cardoso et Laheld ont introduit le gradient
relatif qui remplace l'itration additive habituelle d'un gradient par une itration multiplicative :

W W J y W I J y W
t t t t t t t t
= =
1


( ). ( ( )).
(3.22)
o J y
t
( ) dsigne le gradient d'une fonction de cot dpendant d'une fonction de contraste calcule
partir des estimes y
t
. Ainsi l'itration multiplicative (autrement appele mise jour en srie pour la traduction
de serial update) permet l'estimateur global des sources G = W.A de vrifer la proprit d'quivariance :

y W As G s
G W A
G I J G s G
t t t
t t
t t t t
= =
=
=

1 1
1
( ( )).

(3.23)
Ainsi l'estimation globale des sources n'est pas dpendante du mlange. Par suite dans [CAR96] un algorithme
baptis EASI (la signifcation n'est pas donne dans [CAR96], mais le premier auteur tant franais il peut s'agir de
Estimation Adaptative de Sources Indpendantes) est driv de ces rgles gnrales en faisant les choix suivants:

( )
( ) ( )
y y
J y E y
i
i
n
=
= [ [
=

4
1 (3.24)
Il est ainsi montr que la rgle d'adaptation de EASI pour la matrice de sparation devient :

W W y y I g y y y g y W
t t t t
T
t t
T
t t
T
t
=

l
l
1
( ) ( ) .
(3.25)
Amari est parvenu a un algorithme semblable [AMA96, AMA98b] en exprimant l'information mutuelle com-
me un dveloppement en srie de Gram-Charlier et l'a appel gradient naturel. L'algorithme du gradient naturel a
aussi t propos et mis en oeuvre dans [CIC96]. L'approche est justife par le fait que cela permet de faire tendre
Chapitre 3
- 54 -
Analyse en Composantes Indpendantes
- 55 -
la matrice des corrlations des sorties vers l'identit.
Une autre classe de mthodes bases sur la diagonalisation tensorielle a t introduite pour rechercher une
optimisation des contrastes. L'algorithme le plus connu est JADE (Joint Approximate Diagonalisation of Eigen-
matrices), dvelopp par Souloumiac et Cardoso [CAR93], qui fait suite FOBI (Fourth Order Blind Identifca-
tion) [CAR89]. Leur popularit est en partie due au fait qu'ils furent parmi les premiers algorithmes permettre
une ralisation pratique de l'ACI. Un tenseur de cumulant ( l'ordre quatre) est une matrice en quatre dimensions
contenant tous les cumulants croiss d'ordre quatre. Pour un vecteur alatoire x de taille n chaque lment de son
tenseur (d'ordre quatre) est Cum(x
i
, x
j
, x
k
, x
l
) avec 1 i, j, k, l n; cela peut tre vu comme la gnralisation d'une
matrice de covariance au del de l'ordre deux. Nous pouvons surtout le voir comme une application linaire d'un
espace de matrice nn dans un autre espace de matrice nn et le reprsenter par la matrice bloc en trois dimen-
sions N
x
contenant tous les cumulants d'ordre quatre de x, comme reprsent la gauche de la fgure 3.3. Comme
toute application linaire, celle-ci peut tre diagonalise et, sous contrainte de blanchiment des signaux d'entre,
il a t montr dans [TON93] que toutes les tranches de la matrice N
x
pouvaient tre diagonalises l'aide
d'une mme matrice unitaire U, qui permet d'effectuer la sparation dans le cas o toutes les valeurs propres sont
diffrentes. Dans le cas contraire [TON93] propose d'utiliser une combinaison linaire de matrices tranches et
de retenir la combinaison offrant le spectre (au sens ensemble des valeurs propres ) le plus large. Cette mthode
a le dsavantage de ngliger l'information des cumulants non pris en compte dans la combinaison choisie. Dans
[CAR93], le choix de la matrice unitaire parmi toutes celles possible se fait par diagonalisation directe de l'appli-
cation linaire associe au tenseur d'ordre quatre, en mesurant la diagonalit de la matrice par la somme du
carr des lments diagonaux. Puisque l'on est sous contrainte de normalit, rendre minimale la somme du carr
des lments hors diagonale est quivalent rendre maximal la somme des carrs des lments diagonaux. Par
suite, il est prouv qu'une telle opration revient optimiser la fonction de contraste :

c e Cum e e e e
i i k l
i k l
( ) ( , , , )
* *
, ,
=

2
(3.26)
o e est le vecteur d'entre blanchi. En pratique c'est la diagonalisation de la matrice N
x
dplie (fgure 3.3
droite) de taille nn qui permet d'identifer la matrice unitaire approprie. Le problme essentiel de cette appro-
che est qu'elle utilise tous les cumulants d'ordre 4, ce qui conduit des calculs d'une complexit d'ordre n
4
. Ainsi
elle ne pourra tre utilise en pratique que pour de faibles dimensions.
Une troisime classe de mthode a t dveloppe dans l'approche traitement du signal statistique de
l'Analyse en Composantes Indpendantes avec l'estimateur du maximum de vraisemblance (MV). La premire
proposition a t formule par [GAE90] puis dans [HAR96] en approchant la log-vraisemblance des sources par
un dveloppement en srie de Gram-Charlier bas sur leurs cumulants jusqu' l'ordre quatre. La mise en uvre a
plutt t faite par [PHA97] qui tient compte de l'ensemble des statistiques. Pour le modle considr, la vraisem-
blance des observations conditionnes par la matrice de mlange s'exprime comme :
Chapitre 3
- 56 -
Analyse en Composantes Indpendantes
- 57 -

p y p A u A du
x A s
( ) ( ) det( ) =

1 1
(3.27)
En notant la moyenne temporelle sur T chantillons considrs comme indpendants, e
i
un vecteur ayant un
1 la i-ime position et des zros ailleurs et en posant
i
=[log(p
s
i
)]' (o le signe ' marque la drive), l'estima-
teur du maximum de vraisemblance est obtenu en rsolvant :

E e A x e A x i j
i i
T
j
T
( )

l
l
=
1 1
0
(3.28)
Et en notant s e A x
i i
T
=
1

l'estimation des sources, on obtient:

E s s i j
i i j

( )

l
l
l
= 0
(3.29)
Ce rsultat justife la forme de la rgle d'apprentissage de l'algorithme HJ et donne la forme de la fonction non
linaire impaire qui doit tre choisie au sens du maximum de vraisemblance. Dans [PHA97], la solution de cette
quation est obtenue par le biais d'une optimisation itrative l'aide de l'algorithme de Newton-Raphson. Dans
[CHO01], c'est le gradient naturel dvelopp par Amari qui est utilis pour effectuer l'optimisation. Enfn, [PEA96]
drive deux gradients partir de la formulation de la vraisemblance, l'un servant l'estimation de la matrice de
sparation et l'autre l'estimation des densits de chaque sortie y
i
conditionne par la colonne w
i
correspondante.
L'une de leur rgle du gradient tant identique celle de [BEL95], les auteurs en dduisent l'quivalence entre la
mthode d'estimation par maximum de vraisemblance et l'approche Infomax qui sera dveloppe ultrieurement.
Cette quivalence a t dmontr difframment par Cardoso [CAR97].
3.4.2 Approche ACP non linaire
Une autre faon d'aborder l'Analyse en Composantes Indpendantes est de la considrer comme une extension
non linaire de l'Analyse en Composantes Principales. Le point de dpart est la rgle de Oja gnralise plusieurs
units [OJA92] qui s'exprime linairement :
Figure 3.3: Matrice de cumulants pour lalgorithme JADE.
N m Cum x x x x
a b k l i j k l
k l
, ,
* *
,
( , , , ) =

a=i+(j-1)n
1 a n
b=k+(l-1)n
1 b n
1 i n
1 j n
1 k.l n
N
x
(M)
Chapitre 3
- 56 -
Analyse en Composantes Indpendantes
- 57 -

W W I WW x x W
t t t t t
T
t t
T
t
=

l
l
1

(3.30)
Il a t propos dans [OJA91] d'appliquer des non linarits un ou plusieurs des produits W x
t
T
t
ou x W
t
T
t
.
Karhunen at Joutsensalo [KAR94] drivent un algorithme partir d'un critre non linaire permettant de minimiser
l'erreur de reprsentation, pouvant toujours se mettre sous la forme :

J w E f x Wf W x
i
T
1 1 2
( ) ( ) = ( )
(3.31)
o f
1
(.) et f
2
(.) sont deux fonctions non linaires s'appliquant chaque composante de leur argument vectoriel.
Ils en drivrent alors une rgle d'adaptation pour un apprentissage par rseau de neurones :

W W x g e WG x W g e f x W
t t t t t
T
t t
T
t t t
T
t
=

l
l
1 1 2 1 2
( ) ( ) ( ) ( )
(3.32)
o g
1
(.) et g
2
(.) sont respectivement les drives de f
1
(.) et f
2
(.). e
t
est l'erreur de reconstruction :

e x W g W x
t t t t
T
t
=
2
( )
(3.33)
et G
2
(.) est la matrice diagonale :

G x W diag g x w g x w n
t
T
t t
T
t t
T
t 2 2 2
1 ( ) ( ( )),..., ( ( )) =

l
l
(3.34)
Notons que le choix f
1
(t)=t
2
/2 permet de retrouver le critre de minimisation de l'erreur quadratique habituel
pour l'Analyse en Composantes Principales. D'autres choix sont possibles, mais pour des raisons de stabilit, il
est ncessaire que sa drive g
1
(.) soit une fonction impaire croissante. Les choix courants pour ces fonctions sont
reprsents sur la fgure 3.4. Si f
1
est choisie quadratique et f
2
est choisie linaire, nous retrouvons lACP standard.
Notons par ailleurs qu'aprs une priode d'apprentissage, l'erreur de reconstruction devient suffsamment petite
pour que le premier terme dans les crochets de (3.31) soit nglig devant le second. La rgle d'adaptation apparat
comme une approximation de gradient stochastique permettant de minimiser le critre J
1
(W). Un autre critre d'op-
timisation a t introduit dans [KAR94] et tudi plus particulirement dans [KAR95]. Plusieurs formes proches
ont t proposes, la plus signifcative s'exprimant pour chaque neurone w(i) (i=1,..., n) :

J w E f x w w w
i
T
i ij i
T
j ij
j
I i
2
1
( )
( )
= ( )

l
l
=


(3.35)
o
ij
=
ji
sont les multiplicateurs de Lagrange,
ij
est la notation habituelle pour le produit de Krnecker per-
mettant d'imposer l'orthonormalit des vecteurs w et I(i) indique le nombre de neurones sur lequel est fait la som-
mation. Lorsque I(i) = n, cela donne une gnralisation de l'algorithme des sous espaces pondrs et pour I(i) = i,
nous obtenons une gnralisation de l'algorithme de Hebb gnralis (GHA) de Sanger [SAN89]. En notant g(.) la
drive de la fonction f(.) prcdente, la rgle d'apprentissage est:

w i w i I w j w i x g x w i
t t t t t
T
j
I i
t t
T
t
=
=

l
l
l
l
l
1
1
( ) ( ) ( ) ( ) ( )
( )

l
l
(3.36)
Chapitre 3
- 58 -
Analyse en Composantes Indpendantes
- 59 -
L'utilisation de fonctions non linaires dans des rseaux de neurones du type ACP permet l'introduction de
statistiques d'ordre suprieur et peut donc se ramener une ACI. Par exemple dans [HYV01], Oja remarque qu'en
choisissant un critre quadratique pour J
1
et en notant les sorties y=Wx et sous contrainte d'orthogonalit pour la
matrice de sparation (WW
T
=W
T
W=I), on peut crire :

x W g Wx x W g Wx W W x W g Wx
x W g Wx Wx WW g
T T T T
T T
=

l
l

l
l
=
( ) ( ) ( )
( )
2
2
(( )
( ) ( ) ( )
Wx
x W g Wx t g y y g y
T
i i
i
n
2
2
2 2
1
= = [ [
=

et si on choisit la fonction non linaire comme :



g y
i
y y
y y
si y
si y
( )
{
=

<

2
2
0
0
alors, le critre J
1
revient :

J W E y y y E y
kurt i i i
i
n
i
i
n
( ) = ( )

=
= =

2
2
1
4
1
o l'on reconnat une fonction de contraste introduite dans [COM94].
3.4.3 Thorie de l'information
L'approche Infomax de l'Analyse en Composantes Indpendantes est souvent assimile l'approche par le
maximum de vraisemblance car une quivalence a t tablie entre les deux mthodes [CAR97]. Nanmoins, il
nous semble important de lui rserver une place part dans cette thse, puisque d'une part elle a t formule
partir de principes de la thorie de l'information et que d'autre part c'est cette approche qui permet de voir que
l'ACI ralise un processus pouvant expliquer le codage de l'information visuelle dans le cortex des vertbrs et
plus particulirement des primates.
Nous avons vu au chapitre 2 que Nadal et Parga [NAD94] ont montr lquivalence entre le principe de rduc-
4 2 0 2 4
0
1
2
3
4
5
6
7
8
t
F
o
n
c
t
i
o
n
s

n
o
n

l
i
n

a
i
r
e
s
f(t)=t
2
/2
f(t)=|t|
f(t)=lncosh(t)
4 2 0 2 4
2
1.5
1
0.5
0
0.5
1
1.5
2
t
F
o
n
c
t
i
o
n
s

d

r
i
v

e
s
g(t)=t
g(t)=sgn(t)
g(t)=tanh(t)
Figure 3.4: Choix typiques de fonctions non linaires (gauche) et leurs drives (droite) pour la PCA non linaire [KAR94].
Chapitre 3
- 58 -
Analyse en Composantes Indpendantes
- 59 -
tion de redondance formul par Barlow [BAR61] et le principe Infomax de Linsker [LIN88]. Bell et Sejnowsky
ont exploit ce rsultat [BEL95] :

=

w
I y x
w
H y ( , ) ( )
(3.37)
o I(y,x) est l'information mutuelle entre les sorties y et les entres x d'un rseau de neurone, H(y) est l'entropie
des sorties et w les paramtres du rseau. La relation ci-dessus exprime donc exactement que rendre maximum l'in-
formation mutuelle des sorties du rseau est quivalent rendre maximale l'information qui passe travers le
rseau. De la relation liant les densits de probabilits des entres et des sorties, ils drivent une rgle d'apprentis-
sage des paramtres du rseau qui permet d'obtenir un code factoriel et d'avoir une reprsentation en composantes
indpendantes des entres. Dans le cas gnral cette rgle s'crit:

W W
W
y
T
i
i
=

l
l

1
ln
'
(3.38)
o
y
i
'
est la drive de chaque sortie. Celle-ci dpend donc des non linarits (sigmodes) qui sont choisies pour
chaque unit du rseau. L'hypothse sous jacente est que la fonction de rpartition des donnes suit la non linarit.
On constate heuristiquement que les distributions sous-gaussiennes ne sont pas toujours spares [BEL95]. Cet
inconvnient est rsolu et la vitesse de convergence amliore, en utilisant une rgle du type gradient relatif
[CAR96] (ou gradient naturel [AMA98b]):

W I K y y yy W
T T
=

l
l
tanh( )
(3.39)
K est une matrice diagonale dont les lments valent 1 si la source est sur-gaussienne et -1 si elle est sous-
gaussienne [LEE99]. Le paramtre est estim chaque pas ditration pour assurer la stabilit [CAR98].
3.4.4 Eloignement la gaussianit
L'Analyse en Composante Indpendantes peut tre aborde, par la recherche de distributions les plus loignes
possibles de la distribution normale. La justifcation essentielle de ce point de vue est le thorme central limite qui
stipule que la somme de variables indpendantes tend asymptotiquement vers une distribution normale. Or selon le
modle d'ACI pris en compte, toutes les estimations y
i
en sortie de la matrice de sparation sont la somme de varia-
bles indpendantes (y = Gs), donc elles tendent se rapprocher d'une distribution gaussienne. En cherchant les en
loigner, elles tendent galer une seule des variables s
i
et raliser ainsi l'estimation souhaite ( une permutation
et un facteur d'chelle prs). C'est l'approche gnralement adopte par Hyvrinen pour prsenter l'Analyse en
Composantes Indpendantes [HYV01]. Le problme revient trouver une mesure de non-gaussianit qui est
applique aux estimations des sources puis rendue maximale par une mthode itrative. La mthode a initialement
t applique pour rsoudre des problmes de dconvolution aveugle, mais a t applique dans le cadre de l'ACI
par Delfosse et Loubaton [DEL95] en utilisant des grandeurs drives du moment et du cumulant d'ordre quatre
des sorties pour mesurer la non-gaussianit. Cependant, l'apport principal de ce travail est l'introduction d'une pro-
Chapitre 3
- 60 -
Analyse en Composantes Indpendantes
- 61 -
cdure de dfation pour estimer les sources. Cette procdure exploite l'existence de points fxes pour un processus
itratif, lui assurant non seulement la garantie de converger, mais permet aussi une convergence beaucoup plus
rapide qu'avec une descente de gradient ordinaire. C'est cette proprit qui a permis Hyvrinen et Oja de baptiser
leur algorithme FastICA . Dans la premire version de l'algorithme [HYV97], la mesure de non-gaussianit est
la valeur absolue du kurtosis. Mais cette mesure tant insuffsamment robuste, la seconde version de l'algorithme
[HYV99c] utilise une autre mesure, la nguentropie qui est dfnie par:

J y H y H y H y p u p u du
gauss y y
( ) ( ) ( ), ( ) ( ) log ( ) = = ( )
(3.40)
o H(.) indique l'entropie diffrentielle (entropie de Shannon pour des variables continues) et y
gauss
est une va-
riable gaussienne de mme moyenne et covariance que la variable alatoire y mesure. Cette mesure est toujours
positive, invariante par une transformation linaire et ne s'annule que pour une variable gaussienne. Elle a t
introduite dans [COM94], pour exprimer l'information mutuelle comme une fonction de contraste et en driver un
algorithme. En drivant des approximations de (3.39) on aboutit l'algorithme FastICA . En premire approxi-
mation cependant, la nguentropie est quivalente au carr du kurtosis pour des distributions symtriques i.e. ayant
leur cumulant d'ordre trois (aplatissement ou skewness en anglais) nul. Afn d'obtenir des estimateurs plus robustes,
la nguentropie est approche par:

J y E G y E G ( ) ( ) ( ) [ [
2
(3.41)
o G(.) est une fonction non quadratique, typiquement de la forme :

G y y
G y y
1
2
2
2
( ) logcosh( )
( ) exp( / )
=
=
(3.42)
Comme pour beaucoup d'algorithmes, les donnes sont contraintes tre centres et dcorrles. Par suite,
la drivation de l'algorithme se fait partir de (3.38). Dans le cas o l'on considre toutes les colonnes la fois,
il faut ajouter une contrainte de blanchiment global chaque itration. Le point cl est que sous contraintes de
blanchiment, la dcorrlation est quivalente une orthogonalisation. Cette orthogonalisation vite que les diff-
rentes colonnes convergent vers la mme source. Deux stratgies peuvent alors tre choisies pour contraindre
l'orthogonalit. La premire consiste effectuer le schma de la table 3.1 pour chaque colonne itrativement en
ajoutant simplement une orthogonalisation de Gram-Schmidt avec les autres colonnes avant l'tape de normalisa-
tion. L'inconvnient de cette mthode, appele approche par dfation , est que une erreur d'estimation sur une
composante se rpercute sur les suivantes du fait de cette orthogonalisation. L'autre mthode, appele approche
symtrique , orthogonalise simultanment toutes les colonnes. Elle rclame donc plus de mmoire, mais nest pas
pour autant moins rapide [HYV01, chap 14].
Voir l'ACI comme un loignement la gaussianit permet d'tablir de forts liens avec la poursuite de projec-
tions, o le but est de chercher des directions de projection o les donnes sont les moins gaussiennes possibles.
Ainsi, les mesures de non-gaussianit prsentes dans ce paragraphe peuvent tre utilises en poursuite de projec-
tion [HYV98].
Chapitre 3
- 60 -
Analyse en Composantes Indpendantes
- 61 -
3.4.5 Liens entre les mthodes
Toutes les mthodes prcdemment dcrites ont bien entendu des liens entre elles, au del du fait qu'elles
rsolvent toutes le problme pos par l'ACI et fort heureusement plusieurs de ces liens ont t mis en vidence.
Rappelons que chacune des mthodes prcdentes runit en fait deux aspects : une mthode statistique d'une
part permettant de mettre en vidence et de mesurer la proprit d'indpendance recherche et une mthode al-
gorithmique d'autre part permettant d'optimiser la fonction prcdente. Ce sont bien entendu les liens entre les
diverses mthodes statistiques que nous allons mettre en vidence dans ce paragraphe, puisque les diffrences
entre algorithmes n'infuent que sur l'aspect purement calculatoire (temps de convergence, mmoire requise...).
L'quivalence des approches Infomax et maximum de vraisemblance a t nonce dans [PEA96] aprs
que lauteur ait montr que l'on pouvait driver une rgle d'adaptation semblable celle de Bell et Sejnowski
[BEL95] partir de la vraisemblance. Cette dmonstration est reprise dans [LEE00]. Une autre dmonstration a t
W = {Matrice initiale vide}
TANT QUE i N
ica
{Pour toutes les
sources...}
w = rand(.)
w = w - WW
T
w {orthogonalisation}
w = w / ||w||
t=0
TANT QUE t < t
max
{t
max
itrations max}
w
i0
= w
w = E{zg(w
T
z)}-E{g(w
T
z)}w
T

w = w - WW
T
w

w = w / ||w||
SI ||w - w
i0
|| < OU ||w + w
i0
|| <
i = i+1
W = [W w]
BREAK {Source suivante}
FIN
t = t + 1;
FIN
FIN
W = rand () {Matrice initiale alatoire}
W = (WW
T
)
-1/2
W {Orthogonalisation}
POUR i : 1 N
ica
w
i
= w
i
/ ||w
i
||
FIN
t=0
TANT QUE t < t
max
{t
max
itrations maximum}
W
0
= W
POUR i : 1 N
ica
w
i
= E{zg(w
i
T
z)}-E{g(w
i
T
z)}w
i
T
FIN
W = (WW
T
)
-1/2
W
SI 1-min(|diag(W*W
0
)|
)
<
RETOUR
FIN
t = t + 1;
FIN
Table 3.1 : Les deux versions de lalgorithme du point fxe [HYV97, HY99c, HYV01]. (a) La version par dfation orthogo-
nalise les fltres itrativement. (b) La version symtrique fait une orthogonalisation globale. Les non linarits
testes sont indiques dans la table 3.2
Dfation Symtrique
G(t) g(t) g(t)
G
1
(t) = log cosh(t) g
1
(t) = tanh(t) g
1
(t) = 1 - tanh
2
(t)
G
2
(t) = -exp(-t
2
/ 2) g
2
(t) = t.exp(-t
2
/ 2) g
2
(t) = (1-t
2
).exp(-t
2
/ 2)
G
3
(t) = t
4
/ 4 g
3
(t) = t
3
g
3
(t) = 3t
2
Table 3.2 : g(t) et sa drive g(t) sont les non linarits utilises dans lalgorithme du point fxe. G(t) fait rfrence la fonc-
tion correspondante dans la dfnition du contraste associ (eq. 3.39)
Chapitre 3
- 62 -
Analyse en Composantes Indpendantes
- 63 -
propose dans [CAR97] qui a montr que les fonctions de contraste des deux approches concident. Plus prcis-
ment, ces deux contrastes correspondent la divergence de Kullback-Leibler entre la distribution des estimations
en sortie de la matrice W et de la distribution suppose des sources relles s. Ainsi c'est aussi le contraste associ
l'information mutuelle [CAR99] comme cela a t dfni dans [COM94]. Dans cet article, ce mme contraste a
t mis en relation avec la nguentropie, ce qui tablit un lien avec les mthodes bases sur une approximation de
l'information mutuelle (annulation des cumulants croiss) mais aussi celles calcules partir d'approximations de
la nguentropie (loignement la gaussianit). La relation entre lACP non linaire et d'autres critres a t tudie
dans [KAR98]. Il a aussi t montr que la rgle d'apprentissage dveloppe dans [KAR94] est quivalente celle
que Girolamy et Fyfe obtiennent avec une approche poursuite de projection [GIR97].
3.5 Utilisations de lanalyse en composantes indpendante
Pour toutes les mthodes prsentes prcdemment, les auteurs ont bien entendu appliqu leur algorithme un
cas plus ou moins concret afn de dmontrer ses capacits sparer des sources. Ces applications consistaient donc
gnrer quelques signaux, puis les mlanger artifciellement avant d'utiliser l'algorithme pour retrouver avec
succs les signaux originaux. Dans ce paragraphe, nous allons plutt nous intresser l'utilisation de l'ACI avec
des donnes issues du monde rel.
3.5.1 Sparation de signaux de parole
Une premire application est la sparation de signaux de parole, telle que prsente dans le problme de la
soire cocktail . Malheureusement le modle d'ACI prsent dans notre cadre (mixture linaire instantane) n'est
pas trs adapt pour le rsoudre, d'une part parce que les signaux ont tendance tre convolus et surtout parce
qu'il faut prendre en compte les dlais temporels entre chaque micro comme cela est fait dans [TRK96]. De plus,
dans un contexte rel, nous connaissons mal le modle de mlange des voix, ce qui rend la sparation d'enregis-
trements rels diffcile [NGU95]. On pourra se reporter [TRK99] pour une revue de l'ensemble des mthodes
applicables au problme convolutif.
3.5.2 Imagerie mdicale
Une classe importante de problmes rsolus par le modle instantan linaire d'ACI concerne les applications
en imagerie mdicale, en particulier la dtermination de l'activit crbrale [JUN01]. Celle-ci est tudie l'aide de
deux types d'images : les images encphalographiques d'une part et les images obtenue par rsonance magntique
d'autre part.
L'activit lectrique du cerveau peut tre dtecte l'aide d'enregistrement lectroencphalographiques (EEG)
ou magntoencphalographiques (MEG) puisque toute activit lectrique induit aussi bien un champ lectrique
que magntique. Les ERPs (Event-Related Potentials) sont des EEG enregistres sur des patients qui ragissent
plusieurs fois un mme stimuli et qui ont t moyennes en vue d'augmenter leur rapport signal sur bruit. La
Chapitre 3
- 62 -
Analyse en Composantes Indpendantes
- 63 -
bote crnienne agit comme un fltre passe-bas sur les signaux provenant du cerveau [MAK00] mais l'hypothse
de superposition linaire des signaux reste nanmoins valide. Si on suppose d'autre part que les activations cervi-
cales sont temporellement indpendantes, il n'en n'est pas de mme spatialement puisque plusieurs lieux peuvent
tre actifs simultanment. Cette technique ne permet donc pas d'effectuer la localisation spatiale des sources, mais
plutt une localisation temporelle d'un ensemble d'activits. Notons nanmoins que puisque la somme d'activits
indpendantes tend vers une distribution gaussienne, l'ACI peut thoriquement avoir quelques diffcults pour faire
la sparation. En pratique, l'utilisation de l'algorithme de Bell & Sejnoski [BEL97, LEE99] permet de dtecter des
variations faibles par rapport la distribution normale. Vigrio et ses collgues ont quand eux appliqu l'algo-
rithme FastICA des donnes EEG et MEG [VIG00].
L'imagerie par rsonance magntique fonctionnelle (IRMf ou fMRI : Functional Magnetic Resonance Ima-
ging) est une technique permettant de dtecter les zones actives du cerveau lors de l'excutions de tches sp-
cifques. C'est une technique rcente qui contrairement celle qui tait utilise prcdemment pour cette tche
(TEP : tomographie par mission de positrons) ne ncessite pas de traceur radioactif et peut donc tre pratique
plus souvent sur un patient. Elle utilise au contraire un marqueur naturel trs commun dans l'organisme : l'oxy-
gne. Plus prcisment, l'hmoglobine perd son oxygne aprs tre passe dans les zones actives du cerveau
et la dsoxy-hemoglobine rsultante possde des proprits para-magntiques qui peuvent tre dtectes par
des aimants puissants (0,5T 3T). C'est donc l'effet de l'activit neuronale sur la dsoxygnation sanguine qui est
dtecte. L'avantage immdiat par rapport aux images encphalographiques est la possibilit de reprer spatiale-
ment les sources. L'ACI permettra donc de rechercher des zones du cerveau spatialement indpendantes pour un
intervalle de temps donn, pouvant correspondre des zones fonctionnelles [BEC03].
Bien que l'utilisation de l'ACI en imagerie mdicale semble prometteuse, quelques limitations subsistent. Le
modle suppos est gnralement non bruit et suppose la prsence d'autant de sources que de capteurs. Dans le cas
de l'EEG/MEG, cela reste donc limit par le nombre d'lectrodes (une vingtaine pour des schmas standards). Par
ailleurs, l'hypothse d'indpendance temporelle peut tre remise en cause quand les enregistrements sont courts, ou
lorsque des vnements spatialement spars surviennent simultanment. Pour le moment, ces limitations sont sur-
montes l'aide de post-traitements statistiques ou d'une interprtation humaine des rsultats [JUN01, BEC03]. Il
semble aussi prometteur de combiner des enregistrements encphalographiques fournissant une bonne rsolution
temporelle et des enregistrements provenant de l'IRMf qui ont grande rsolution spatiale.
3.5.3 Donnes fnancires
Une premire application de l'ACI des donnes fnancires t ralise par [BAC97]. Cette tude, quelque
peu prospective, utilise comme donnes d'entres le cours des actions des 28 plus grosses entreprises cotes la
bourse de Tokyo entre 1986 et 1989
1
. Afn d'avoir des signaux stationnaires, ils s'intressent en fait au retour
d'action qui est la diffrence entre deux valeurs successives du cours. En appliquant l'algorithme JADE sur de
telles donnes, ils esprent trouver des facteurs indpendant dont l'interprtation expliquerait les structures sous-
1
Un crack boursier mondial a eu lieu durant lt 1987...
Chapitre 3
- 64 -
Analyse en Composantes Indpendantes
- 65 -
jacente des marchs d'actions. Les rsultats restent nanmoins trs qualitatifs. Ils montrent en particulier que l'ACI
permet une mise vidence de phnomnes plus intressants que l'ACP. De plus l'utilisation des quatre composantes
indpendantes les plus dominantes (dfnies partir de l'amplitude maximale) permet de retrouver l'essentiel de la
variation du cours de la principale banque japonaise.
Dans [KIV98], les donnes utilises sont les fux de liquidit de 40 magasins appartenant une mme chane
sur une priode de trois ans. L'algorithme FastICA est utilis pour extraire cinq composantes indpendantes (la
rduction de dimension est effectue par ACP). Dans ce cas, l'interprtation de certaines de ces composantes se fait
trs aisment et rvle les pics de vente de Nol ou bien les baisses pendant la saison estivale. D'autres composan-
tes peuvent avoir une interprtation plus dlicate (mais d'autant plus intressante) concernant par exemple la place
relative que peut avoir la chane de magasin par rapport ses concurrents.
Dans [MAL99], l'ACI est utilise pour transformer des sries temporelles de faon construire un prdicteur.
Le processus est test sur des donnes simules et des donnes relles et test avec un prdicteur auto-rgressif.
Pour les deux jeux de donnes, le prtraitement par l'ACI permet une meilleure prdiction des sries temporelles.
Ces premires application de l'ACI aux donnes fnancires sont assez prometteuses. Nanmoins, l'ACI pr-
suppose un modle linaire et ne prend en compte qu'un nombre restreint de composantes. Etant donn que l'vo-
lution de telles donnes dpend non seulement d'indicateurs conomiques mais surtout de facteurs psychologiques,
il semble assez diffcile d'obtenir de bonnes prdictions dans tous cas ! L'ACI semble tout de mme rvler des
structures intressantes pour de tels problmes et tre un prtraitement effcace pour les mthodes existantes.
3.5.4 Caractristiques fondamentales des images et des squences naturelles
Selon les ides formules par Attneave [ATT54], Barlow [BAR61] et Watanabe [WAT60], le but du systme
sensoriel et particulirement le systme visuel des vertbrs, est de rduire la redondance des donnes dentre
afn den avoir une reprsentation interne la plus effcace possible. Dans ce cas, linformation est code selon un
code factoriel et a une structure parcimonieuse (voir chapitre 2 et le paragraphe 3.4.3). En construisant un rseau
de neurone cherchant reconstruire au mieux les images (au sens des moindres carrs) sous contrainte de rendre
maximale la structure parcimonieuse des codes gnrs, Olshausen et Fields [OLS96] ont obtenu des units de
codage localises et orientes. Harpur et Prager [HAP96] ont indpendamment dvelopp un modle semblable.
Par ailleurs il a t dmontr [NAD94] que le principe infomax [LIN88] tait quivalent lhypothse de rduction
de redondance formule par Barlow. Lalgorithme [BEL95] tant bas sur ce principe, leurs auteurs eurent lide
de lappliquer des images naturelles [BEL97] et obtinrent des fltres semblables ceux de Olshausen et Field.
Le modle dimage suppos est que toute partie dune image est la superposition linaire de fonctions de bases
actives par des causes indpendantes sous jacentes (fgure 3.5 et chapitre 5). Les fonctions de base estimes
partir dimages naturelles (fgure 3.6) ressemblent en premire approximation des fltres de Gabor diffrentes
orientations et chelles frquentielles. Cette structure est cohrente avec les mesures effectues par [HUB68] sur
le cortex des macaques ayant rvl une organisation en colonnes par orientation et par rsolution. La comparai-
Chapitre 3
- 64 -
Analyse en Composantes Indpendantes
- 65 -
son entre les proprits de ces fltres et les donnes physiologiques sur le cortex visuel des macaques [DEL82a,
DEL82b] confrma la ressemblance [HAT98a].
Dans [HOY00], lapplication de lalgorithme FastICA des images en couleur ft merger des fltres spa-
tio-chromatiques codant la couleur selon le mme schma que le systme visuel humain (i.e selon une opposition
rouge/vert dune part et bleu/jaune dautre part). Dans le mme article, lalgorithme a aussi t appliqu des
images binoculaires conduisant alors des paires de fltres semblables aux cellules simples du cortex visuel.
Enfn, la mme ressemblance a t constate dans [HAT98b] lorsque des squences dimages naturelles sont
utilises. En plus de la localisation spatiale des fltres, on observe une localisation temporelle (fgure 3.7).
Ces similitudes entre les units codantes rsultant de lACI et les cellules du cortex visuel ont t exploites par
Hoyer pour dvelopper divers modles de vision biologiquement valides. De nombreux raffnements de lACI et
dautres avances majeures sont prsentes dans sa thse [HOY02] et les articles qui la compltent. En dehors de
la modlisation des cellules simples, il prsente une modlisation des cellules complexes qui utilise les dpendan-
ces rmanentes des cellules simples conduisant une organisation topographique des fltres (TICA), ou encore un
modle de codage neuronal spcifque des contours dans les images. Ces modles tendus de lACI sont destins
modliser le comportement visuel des humains en respectant une architecture neuronale plausible.
3.5.5 Classifcation et reconnaissance dimages
Applique des images naturelles, l'ACI permet de faire merger les structures fondamentales de celles-ci (les
bords [BEL97]). Cette capacit dadaptation aux donnes a naturellement t utilise pour des applications de
reconnaissance et de discrimination dimage.
[BAR98] a appliqu lalgorithme [BEL95] avec le modle dimage prcdent sur des images de visage. Les
fonctions de bases obtenues ressemblant alors des visages propres (eigenfaces) telles que celles qui rsultent
de lapplication de lACP. Ils implantrent aussi une seconde architecture revenant appliquer lACI sur la trans-
s
1
s
2
s
n

s
1
s
2
s
n

Modle
Interne
Figure 3.5: Modle dimage permettant dappliquer lACI aux images naturelles daprs [OLS96].
Chapitre 3
- 66 -
Analyse en Composantes Indpendantes
- 67 -
pose de la matrice de donnes telle que prsente dans le modle prcdent. Les sources et leurs estimes sont
alors des imagettes et les visages sont caractriss par les coeffcients de la matrice de sparation. Il est alors re-
marquable de constater que les sources indpendantes reprsentent des morceaux de visages caractristiques: lvre
suprieure, lvre infrieure, yeux, sourcils... Les deux protocoles ont t tests avec une base dimages de visages
o chaque sujet avait pos avec une expression neutre pour lapprentissage et une autre expression (joie, colre...)
pour le test. La mme sance de photo avait t reproduite deux ans plus tard, fournissant ainsi deux autres ensem-
bles dimages de test. Les images sont caractrises par le code indiqu prcdemment et la distance entre deux
images est gale langle entre leurs vecteurs caractristiques. Les performances de discrimination sont values
avec un classifeur aux K plus proches voisins. Pour les trois bases de test, les deux protocoles dACI permettent
une meilleure reconnaissance des visages que lACP, mais sont peu prs quivalentes entre elles.
La discrimination dobjets a t aborde dans [LAB99a] et a suscit un vif intrt chez de nombreux chercheurs
[ASH02]. Tout comme dans lexprience prcdente, le principe est dappliquer le modle dimage de Olshausen
et Field des images dobjets, gnralement reprsents par une collection de photos prises sous diffrents angles
de vue. Une partie des images sert lapprentissage et le test est ralis sur les images restantes. Lobjet est carac-
tris par la collection des rponses nergtiques moyennes des fltres ainsi gnrs aux images. Une slection ou
une pondration des fltres est faite en fonction de leur pouvoir discriminant valuant sa capacit sparer deux
objets sur la base dapprentissage. Lors de la phase de test, les distances entre les objets-test et les prototypes cal-
culs lors de la phase dapprentissage sont values par la norme euclidienne pondre par le pouvoir discriminant
des fltres et la plus petite dentre elles permet dattribuer lobjet la classe correspondante. L encore les tests
montrent que lACI donne de meilleures performances que lACP.
La reconnaissance de scnes naturelles au moyen de lACI est traite en dtail au chapitre 6. Les mthodes
Figure 3.6: Exemple de fonctions de bases extraites dimages naturelles par ACI (droite) et du module de leur
tranforme de Fourier (gauche)
Chapitre 3
- 66 -
Analyse en Composantes Indpendantes
- 67 -
existantes [LAB99b, LAB99c, LAB01] exploitent la capacit de lACI sadapter aux statistiques des donnes
concernes, les images naturelles en particulier. [LAB99b, LAB01] aborde le problme dune faon semblable
la reconnaissance dobjets, tandis que [LAB99c] propose une mthode pour caractriser les images qui repose sur
lidentifcation du fltre ayant donn la rponse la plus forte et non sur la rponse elle-mme. [LEN01] analyse des
images hyperspectrales laide de paquets dondelettes, puis applique lACI ces coeffcients afn de retrouver les
frquences pures prsentes dans la scne.
Dans le contexte de la modlisation de donnes multimdias, lACI prsente un potentiel suscitant un intrt
croissant [LAR03]. Lintrt de lACI est que la fusion des caractristiques trs htrognes, tablie par extraction
des sources multimdia combinant les informations de nature diffrente, semble correspondre plus fdlement
celle qui serait pratique par un humain que dautres techniques [LAR03, KOL02]. Par exemple, [KOL02]
combine du texte, caractris par lhistogramme doccurrence des termes le composant [SAL89] et des images
caractrise par des attributs bas niveau de couleur (histogramme de la description HSV) et de texture (banque de
fltres de Gabor,). Les trois caractristiques sont centres, normalises (variance unitaire) et rduites par ACP, puis
les sources multimdias extraites par ACI. Le classifeur de Bayes conduit la discrimination de trois catgories
(sport, aviation et paintbal) combinant le texte et les images de pages web. Le texte (seul) permet une
meilleure classifcation que les caractristiques dimages, mais la combinaison des trois rduit lerreur signifcati-
vement par rapport au taux de classifcation du texte seul.
Dans le domaine de la fusion audio-visuelle en particulier, la cohrence entre le mouvement des lvres dun
locuteur et les caractristiques spectrales de son discours est exploite par Sodoyer et ses collgues [SOD02]. Les
performances de sparation sont pour le moment quivalentes dautres algorithmes de sparation de sources,
mais cette approche est trs prometteuse, en particulier quand le nombre de micros est infrieur au nombre de sour-
ces. Dans ce cas, linformation visuelle pourrait permettre une extraction plus performante de lune des sources.
3.5.6 Autres applications de lACI
Dans ce paragraphe nous recensons quelques autres applications utilisant lACI que nous avons jug remar-
quables, tonnantes ou attrayantes, mais qui sont encore assez prospectives, au sens o elles commencent juste
tre explores et que parfois les rsultats ne montrent pas toujours damliorations majeures par rapport dautres
techniques.
Fonctions de base (A)
Figure 3.7: Deux exemple de squences indpendantes extraites de squences naturelles [HAT98b].
Fonctions de base (A)
Filtre correspondant (W)
Filtre correspondant (W)
Temps
Chapitre 3
- 68 -
Cest le cas pour la compression dimage qui est aborde dans [FEI03]. Les auteurs synthtisent des fonctions
de base conformment la mthode prcdemment dcrite en utilisant lalgorithme FastICA et les orthogona-
lisent au moyen dune transformation de Karhunen-Love ou dune procdure de Gram-Schmidt. Cet algorithme
est appliqu quatre types de bases dimages : des images naturelles, des images dempreintes digitales, des
visages et enfn des images synthtiques. Les images sont divises en blocs et ceux-ci sont caractriss par leur
code aprs projection sur les fonctions de bases ICA (ventuellement un nombre restreint), puis quantifs par un
quantifcateur de Lloyd dont lapprentissage a t fait hors ligne, suivi dun codage entropique. La valeur moyenne
de chaque bloc est code sparment tant donn que lACI travaille sur des donnes centres. Aprs dcodage des
mesures quantitatives et qualitatives sont faite en comparaison des algorithmes de rfrence dans le domaine de la
compression dimage: JPEG, JPEG2000 et lencodeur utilis par la police fdrale des Etats-Unis (WSQ) pour les
images dempreintes digitales. Les rsultats sont souvent meilleurs que pour le JPEG (surtout avec les visages),
mais restent infrieurs ceux de JPEG2000. Pour les images dempreintes digitales, lACI a des performances
proches de WSQ, tout deux surpassant JPEG mais restant infrieurs JPEG2000.
[HYVO1a] a dvelopp une mthode de dbruitage des images naturelles utilisant lACI lorsque le bruit est
additif et gaussien. La mthode utilise une matrice de sparation W qui est estime partir dimages naturelles se-
lon la mthode dcrite dans le paragraphe prcdent, puis qui est orthogonalise globalement (mthode symtrique
de la table 3.1). Applique des donnes bruites z = x + n o n est une bruit additif gaussien cela donne alors la
somme dune estimation des sources indpendantes et de Wn qui est aussi gaussien. En supposant une forme trs
sur-gaussienne pour les sources, les auteurs drivent plusieurs classes de fonctions modlisant ces densits qui
appliques au mlange permet deffectuer la sparation. Des tests sont effectus sur des images naturelles et sont
comments qualitativement (apprciation visuelle). Les rsultats sont visiblement meilleurs quun dbruitage par
fltre de Wiener mais ne sont pas compars dautres mthodes.
[FAR99] utilise aussi un modle d'image diffrent de [OLS96] dans le but d'tudier les transparences. Ils pren-
nent en compte le cas d'une transparence additive, typiquement celle qui peut tre observe lorsqu'un personnage
regarde un tableau ou un paysage travers une vitre. Le problme est alors de sparer l'image du tableau ou du
paysage et le refet de l'observateur. Afn de raliser une telle tche les auteurs ont besoin d'au moins deux prises de
vue diffrentes de la scne et supposent ensuite que les deux objets sparer sont indpendant et se mlangent ad-
ditivement. L'ACI s'applique alors parfaitement au problme et les rsultats sont assez convainquants. Nanmoins
cette mthode ne peut pas s'appliquer tous les types de transparence car l'hypothse d'indpendance statistique et
surtout de mlange linaire n'est pas toujours valide, ou bien n'est pas valide partout dans l'image et peut dpendre
de l'angle de prise de vue. On trouvera dans [PIN03] une prsentation des problmes lis ltude des transparen-
ces et des mthodes existantes pour les rsoudre.
- 69 -
4.1 Smantique et similarit des images naturelles
Reconnatre une scne reprsentant un environnement naturel est une tche effectue rapidement et aisment
par le systme visuel humain, sans mme avoir besoin didentifer tous les lments composant la scne, Par
contre, pour un systme de vision artifcielle la tche est trs ardue. Lune des causes de cette diffcult est que la
description que les systmes artifciels font des images repose sur des attributs (dits de bas-niveau ) tels que la
couleur, la texture, les distributions dorientations ou les relations spatiales existant entre ces lments, alors que
les sujets humains ont une conception (dite de haut niveau ) fonde sur la smantique des images.
Cette problmatique est particulirement pertinente dans le cas des systmes dindexation dimages par le con-
tenu (CBIR : content based image retrieval). Avec la place prpondrante prise par les images numriques depuis
la dernire dcennie et laccroissement fantastique de leur nombre, il est devenu crucial de trouver des moyens
effcaces et pratiques de les classer. Cela requiert didentifer des classes smantiques, ainsi que des descripteurs
Chapitre 4
Dfnition de catgories smantiques
Dans ce chapitre nous nous intressons dterminer comment les tres humains classent les images. Plusieurs
travaux rcents ont cherch discriminer automatiquement certains groupes dimages smantiquement distincts
partir dattributs bas niveau, ce qui sous entend lidentifcation pralable des catgories smantiques parmi
les images naturelles reprsentant lenvironnement naturel des humains (4.1). Nos travaux, motivs par un tel
objectif, sont bass sur une exprience psychophysique o des sujets humains jugent de la similarit de 105 ima-
ges naturelles en niveau de gris, qui a t reproduite avec les mmes images en couleur (4.2). Les rsultats sont
analyss de plusieurs manires, ce qui permet de les exprimer en termes de distances entre images (4.3). Celles-ci
sont ensuite utilises en entre dun algorithme de projection non linaire (Analyse en Composantes Curvilignes)
afn dobtenir une reprsentation de la base organise suivant un plan. Ces reprsentations permettent didentifer
des catgories smantiques, dapprcier lutilit de la couleur, et de mettre en vidence des asymtries perceptives
(4.4). Nous vrifons la robustesse de ces rsultats laide dun critre quantitatif driv de leur tude statistique.
Cela permet de dfnir une force de liaison inter-image, et de discerner lexistence dune hirarchie dans les
classes smantiques (4.5).
Chapitre 4
- 70 -
Dfnition de catgories smantiques
- 71 -
pertinents pour effectuer la sparation.
Ces dix dernires annes, plusieurs auteurs ont entrepris de telles identifcations. Gorkani et Picard [GOR94]
utilisent lorientation dominante des textures dans les images pour diffrencier des photos de villes et banlieue
par rapport dautres types dimages. Ils demandent trois personnes de dterminer quelles photos peuvent tre
considres comme ville ou banlieue parmi un ensemble de 98 photos. Selon les auteurs, une seule personne sufft
pour effectuer cette classifcation smantique vraie, mais pourtant ils obtiennent quelques jugements ambigus sur
certaines photos (les trois sujets ntant pas daccord). Seuls sont alors conservs les jugements o une majorit
des sujets (donc deux sur trois) sont en accord. Dans [HER97], les auteurs diffrencient simultanment 60 images
dcrites par leur rponse une rosace de 4x4 fltres de Gabor. Les images appartiennent cinq catgories s-
mantiques dont la classe a t dtermine par plusieurs sujets humains lors de prsentations trs courtes (50 ms).
Dans [SZU98], 1324 images sont spares en images dintrieur et images dextrieur par deux sujets humains.
Une classifcation est ensuite ralise partir dattributs de couleur, de texture et de frquences prsentes dans les
images avec presque 90% de succs. Dans [OLI99, TOR99] ce sont 700 images qui sont spares en images de
paysages dune part et en scnes artifcielles (i.e contenant des lments caractristiques dune activit humaine)
dautre part. La classe vraie des images est dtermine par quatre observateurs, tandis que la classifcation auto-
matique est ralise au moyen de combinaisons de rponses de fltres de Gabor. Ensuite, dans chaque catgorie,
deux axes smantiques sont mis en vidence en fonction de la profondeur perue dans les images. Dans [GUE00]
470 images appartenant quatre catgories sont classes en fonction de leurs orientations locales mesures plu-
sieurs chelles. Les labels des images sont dtermins par des sujets humains parmi quatre possibles : villes, scnes
dintrieur, paysages ouverts et paysages ferms.
Alors que les tudes prcdentes se concentrent sur la recherche de descripteurs pertinents pour sparer
certaines classes smantiques, [ROG98] et [VAI98, VAI01] commencent par se demander quelles catgories s-
mantiques il peut tre licite de vouloir sparer. Dans [VAI98] il est demand huit sujets humains dlaborer des
catgories en tant libres des critres utiliser, et du temps ncessaire. Les sujets mettent en moyenne une deux
heures sparer les 171 images, et distinguent douze catgories en moyenne. Les auteurs fabriquent ensuite une
matrice de dissimilitude entre les images partir de cette exprience et tablissent un dendrogramme entre les
images puis entre onze catgories retrouves la suite de lexprience. Par suite, cela leur permet de dfnir une
organisation hirarchique des images contenues dans leur base. Les images sont ainsi spares immdiatement
entre les paysages , les images de villes et les visages . Les catgories paysages et images de villes
sont elles-mmes subdivises en plusieurs autres catgories. Les auteurs essaient alors de reproduire certaines
de ces discriminations avec divers ensembles de descripteurs lis la couleur, aux frquences ou aux directions
de bords prpondrantes dans les images. En choisissant bien les classes et les descripteurs associs, ils atteignent
des taux de classifcation de lordre de 94% pour la discrimination de deux classes, le but tant de combiner
hirarchiquement plusieurs classifeurs deux classes. Dans [ROG98], deux expriences psychophysiques sont
conduites afn de dterminer une classifcation des images naturelles congruente avec la perception humaine. Dans
lexprience de Table Scaling , neuf sujets humains organisent 97 images sur une table en 30-45 minutes. La
dissimilarit entre les images est alors directement estime par la distance mesure entre les images sur la table.
Chapitre 4
- 70 -
Dfnition de catgories smantiques
- 71 -
Dans lexprience de Computer Scaling , quinze sujets humains doivent estimer la similarit des mmes 97
images que dans lexprience prcdente selon le protocole suivant : une image de rfrence apparat sur un cran
dordinateur en face de huit autres images de la base, et le sujet doit dsigner avec la souris celle qui lui semble la
plus proche. Les rsultats de cette exprience sont eux aussi traduits en termes de similarits entre les 97 images.
Les matrices de similarit des deux expriences sont utilises en entre dun algorithme de type Multi-Dimen-
sional Scaling qui projette les rsultats en deux ou trois dimensions. Les rsultats sont compars ceux fournis
par deux algorithmes, lun bas sur la norme L1 entre les histogrammes de couleur des images, et lautre utilisant
le contraste et les orientations en plus de la couleur. Les auteurs concluent que la couleur contribue lessentiel
de limpression gnrale quun sujet a dune image au niveau des basses frquences spatiales, et que la luminance
regroupe les images semblables par leurs hautes frquences spatiales. La projection en deux dimensions fait aussi
apparatre deux axes smantiques. Le premier axe part des scnes reprsentant des images de la Nature pour arriver
celles reprsentant des paysages models par lhomme. Lautre axe reprsente plutt le nombre dtres humains
prsents dans la photo.
La dmarche prsente dans ce chapitre sinscrit dans la veine des approches de Vailaya [VAI98] et Rogowitz
[ROG98] en cherchant dterminer quelles catgories smantiques sont licites catgoriser. Lexprience mene
est proche de lexprience de Computer Scaling de Rogowitz, mais nous y avons ajout une tape de quanti-
fcation de la similarit. Dautre part, nous avons cherch tudier prcisment les conclusions de Rogowitz sur
lutilit de la couleur pour la perception de la smantique dans les images. Nous rfutons limportance accorde
la couleur dans le jugement de similarit des images, et pensons que des rsultats aussi signifcatifs peuvent tre
obtenus en son absence. Pour cela, nous avons conduit notre exprience avec des images en luminance, puis nous
lavons reproduit avec les mmes images en couleur, afn de procder une comparaison et dtudier le rle exact
de cette dernire.
4.2 Exprience psychophysique
Dans cette exprience, on demande des sujets humains de juger la similarit de 105 images naturelles qui
leurs sont prsentes sur un cran dordinateur. Dans un premier temps, une image de rfrence est prsente face
un groupe de huit autres images choisies alatoirement et le sujet doit dsigner celle qui lui semble la plus sem-
blable ( ce niveau le protocole est proche de [ROG98]). Ensuite, il doit quantifer son estimation de la similarit
du couple slectionn selon une chelle comportant quatre niveaux. Cette exprience a t ralise avec des images
en couleur avec un groupe de sujet, et des images en niveau de gris avec un autre groupe.
4.2.1 Choix des images et des sujets
La base dimages est contrainte la fois en termes de contenu et de taille. La variabilit du contenu en termes
de smantique, et la taille de la base dimage doivent tre suffsamment grandes pour esprer lmergence de
catgories smantiques lissue de lexprience. Rciproquement, le nombre de comparaisons effectuer pour
Chapitre 4
- 72 -
Dfnition de catgories smantiques
- 73 -
couvrir lensemble de la base augmente avec le carr de sa taille, et correspond au nombre de sujets qui devront
passer lexprience pour procder ces comparaisons. En se basant sur les expriences prcdemment ralises
nous avons choisi de former une base contenant une centaine dimages. Le nombre exact dimages contenues dans
la base a t contraint par lorganisation interne des stimuli comme expliqu dans le paragraphe suivant.
La smantique des images a t choisie de faon a couvrir une large gamme de sujet, en connaissance des rsul-
tats des expriences passes [GOR94, HER97, SZU98, ROG98, VAI98, OLI99, TOR99, GUE00, GAR01, VAI01,
DEN 02, TOR02]. Nous avons ainsi inclus des images de certaines catgories dj identifes (forts, montagnes,
plage/champ/dsert, scnes dintrieur, villes, tres vivants, scnes technologiques) et des images pouvant a priori
tre classes dans plusieurs de ces catgories. [OLI99, TOR99, TOR02] ont montr limportance de la profondeur
perue dans les images comme critre pour les classer. Nous avons donc prcautionneusement choisi des images
avec diffrentes chelles de champs dans chacune des catgories. [ROG98] avait choisi ses images de faon
remplir uniformment lespace CIELab, afn de ne pas introduire de dsquilibre dans la distribution a priori des
couleurs et des intensits lumineuses. Nanmoins dans le cas dune prsentation partielle des images telle que celle
opre dans le cadre de notre exprience, les couleurs ne semblent pas tre un critre aussi important que lorsque
toutes les images sont prsentes simultanment. Nous pensons mme que la couleur est trs peu signifcative pour
les regroupements smantiques dans ce cadre et cest pour le montrer que nous avons conduit lexprience avec les
105 images ramenes en niveau de gris avec un groupe de sujets diffrent de celui qui a pass lexprience sur les
images en couleur. Enfn, nous avons attribu chaque image un numro arbitraire entre 1 et 105, qui permettra
de la dsigner de manire unique dans la suite.
Un groupe de trente-six sujets a pass lexprience avec les images en couleur et quarante autres sujets lon
pass avec les images en niveau de gris. Il faut y ajouter huit sujets experts (i.e ayant particip la dfnition du
protocole exprimental et en connaissant les enjeux) dont les rsultats ont t traits part dans un premier temps.
Tous les sujets ont une vision normale ou parfaitement corrige. Le genre est vari et la pyramide des ges stale
de 20 58 ans.
4.2.2 Organisation interne des stimuli et super-sujets
Nous souhaitons estimer la ressemblance dune centaine dimages entre elles, ou autrement dit environ 10000
couples dimages
1
, ce qui est beaucoup trop pour un seul sujet : mme sil russissait estimer la ressemblance
de chaque couple en moins dune seconde (ce qui est dj largement sous estim), cela reprsenterait plus de trois
heures dexprimentation ininterrompues ! Afn de remdier cet inconvnient pratique nous avons choisi de d-
composer lestimation en deux temps. La premire phase consiste choisir limage la plus ressemblante parmi huit
(tout comme dans [ROG98] ), lestimation exacte ntant ralise que pour des couples plus pertinents car pra-
lablement slectionns dans un pr-contexte restreint. Ainsi, la premire phase consiste dsormais prsenter les
images face un certain nombre de groupes de huit images. Cest ce protocole qui a fx le nombre total dimages
1
Etant donn notre protocole, il ny a pas forcment symtrie: la ressemblance de I
1
I
2
nest pas la forcment la mme que
celle de I
2
I
1
. Nous expliquons prcisement cette singularit dans la suite de ce chapitre.
Chapitre 4
- 72 -
Dfnition de catgories smantiques
- 73 -
une forme 8.K+1, o le nombre K a t choisi de faon dpasser la centaine dimages pour les raisons expliques
dans le paragraphe prcdent. Avec K = 13, le nombre dimages de la base a donc t fx 105 (=13*8+1). Une
exprience consiste donc comparer chacune des 105 images aux treize groupes de huit images ne contenant pas
limage de rfrence. Ces groupes sont forms a priori dans une matrice 105x104 dite de tirage (fgure 4.1)
contenant tous les numros des images regroups en paquets de huit. Dans notre cas (K=13), nous avons ainsi
K*(8*K+1) = 1365 tirages effectuer pour une exprience. La cration dune matrice de tirage telle que celle-ci
prsente deux avantages par rapport un tirage alatoire parmi les 8K images restantes chaque prsentation
dune image de rfrence. Dune part, cela assure de prsenter toutes les images le mme nombre de fois sans que
laspect alatoire soit fauss puisque chaque ligne de la matrice est une permutation alatoire des images restantes.
Dautre part, cela permet de sparer une exprience entre plusieurs sujets, et de former ainsi un super sujet
virtuel. En effet, les sujets ont besoin de cinq dix secondes pour chaque estimation, ce qui ncessite entre deux
et quatre heures pour un jeu complet de 1365 tirages. Nous divisons donc alatoirement ces tirages en quatre jeux
de 341 tirages (342 pour le dernier sujet), ce qui ramne chaque exprience un temps raisonnable compris entre
30 et 50 minutes. Grce la matrice de tirage pr-tablie, il est ensuite possible de former les rponses dun super
sujet reprsentes par les rponses de quatre sujets physiques. De manire gnrale, cette technique de tirage
a priori peut permettre de regrouper les rponses de plusieurs sujets quand celles-ci sont traduites par la suite en
terme de distances pour tre utilises en entre dun algorithme de projection non linaire des donnes.
4.2.3 Droulement de lexprience
Lexprience est mene sur lcran dun ordinateur via une interface programme en MATLAB. Lcran me-
sure 36.5 x 27.5 cm et est vu distance de soixante centimtres environ. Les images sont de taille 5.3 x 5.3 cm sur
lcran, et remplissent donc environ 5 dangle visuel. Les sujets ignorent les enjeux de lexprience (sauf pour le
groupe dexpert dont les rsultats ont t traits part), et il leur est demand dassocier les images en fonction de
1 2 K=13
K+1=14
8 images
K*(8K+1)=13*105=1365 tirages
1
1
8*K = 104
8*K+1=105
i
Tous les NUMEROS DIMAGE sont
prsents sur la ligne sauf le i-me.
Permutation de [1; i-1] [i+1;8K+1]
Figure 4.1: Matrice de tirage
Numro de limage
de rfrence
Chaque image est prsente face 13
groupes de 8 images
Chapitre 4
- 74 -
Dfnition de catgories smantiques
- 75 -
leur ressemblance, sans prciser de critre particulier. Ils commencent par se familiariser avec les 105 images de
lexprience imprimes sur quatre feuilles A4 de faon avoir une ide globale des associations possibles quils
pourront faire. Le temps ncessaire cette familiarisation est laiss lapprciation de chaque sujet, qui prend en
moyenne une deux minutes pour leffectuer. Nous leur dcrivons ensuite lexprience ci-aprs, et les laissons ef-
fectuer douze essais dont les rsultats ne sont pas rcolts, de faon ce quils shabituent la tche. Nous faisons
ensuite commencer lexprience relle et sortons de la salle pendant la dure de lexprience qui est denviron une
demi-heure.
Chaque essai se droule en deux temps. Sur un premier cran (fgure 4.2(a)) apparat une image de rfrence
sur la gauche, et huit images diffrentes sur la droite (quatre en haut et quatre en bas). Le sujet a un temps limit
de cinq secondes pour dsigner avec la souris limage la plus ressemblante limage de rfrence parmi les huit
autres, alors que Rogowitz leur laissait tout le temps quils souhaitaient. Ce temps est un compromis laissant au
sujet le temps dobserver les huit images et de faire son choix, sans quil ait pour autant le temps de faire des asso-
ciations smantiques trop complexes. Nous esprons que dans ce temps relativement court, les critres dassocia-
tions entre images seront cohrents dun sujet lautre. Si aucune image nest dsigne au bout de cinq secondes,
lexprience continue avec une autre image de rfrence et un autre ensemble de huit images test. Au contraire si
une association est faite, le couple dimages est alors affch sur lcran (fgure 4.2(b)) et le sujet dispose dautant
de temps quil le souhaite pour estimer la ressemblance entre les images selon une chelle de quatre niveaux nom-
ms trs proches, proches, loignes et trs loignes. Cette innovation par rapport lexprience de
[ROG98] permet dobtenir une apprciation quantitative de la similarit, alors que la premire tape se cantonne
une apprciation qualitative (proche/ non proche). Etant donn la nature de la tche rclame et la dnomination
du niveau de ressemblance le plus faible, celui-ci peut tre assimil au cas o une erreur dassociation et t faite
dans la premire partie de lexprience. Le temps ntant pas limit dans cette seconde tape, nous prcisons aux
sujets que cela peut leur permettre de faire une pause en cours dexprience.
A la fn de chaque exprience, nous nous entretenons avec les sujets afn de leur expliquer les enjeux de lexp-
rience et de leur demander quels types de regroupements ils ont effectus au cours de lexprience, et selon quels
critres si possibles. Du fait du temps laiss lors de la premire phase de lexprience, il ressort que les critres sont
Figure 4.2 : exemple des crans prsents aux sujets lors de l'exprience.
(a) (b)
Chapitre 4
- 74 -
Dfnition de catgories smantiques
- 75 -
essentiellement smantiques, parfois dordre graphique.
4.3 Traitement des donnes
Le traitement des donnes consiste traduire les rponses des sujets en termes de distances entre les images.
Nous dveloppons deux mthodes pour effectuer cette transcription, lune base sur les similarits mise en viden-
ces par les clics, et lautre base sur un raisonnement insistant sur les dissimilarits avec les images non asso-
cies limage de rfrence. En plus de ces traitements principaux, nous avons aussi vrif quelques paramtres
relatifs aux biais pouvant tre introduits par le protocole exprimental.
4.3.1 Contrle de lexprience
Deux paramtres ont t contrls lissue des expriences. Le premier est la distributions des clics, donc
des associations ralises par les sujets en fonction de la place de limage. Il en ressort que les deux images situes
les plus gauche des huit ont t choisie lgrement plus souvent que les autres. Ceci est notre avis d leur
plus grande proximit de limage de rfrence, mais le biais introduit est compens par le fait que les images ont la
mme probabilit dtre affches en ces lieux. Le second contrle est de vrifer la distribution des clics sur le
second cran, cest--dire la distribution des estimations de ressemblance. Il en ressort une nette prfrence pour le
niveau proche (36% des clics ) et dans une moindre mesure pour les niveaux contigus (trs proches 20%
et loignes 25%). Cette domination est explique par la nature de la tche demande au sujet qui doit avant
tout associer des images se ressemblant. Le niveau trs loign est nettement en retrait, et nous linterprtons
comme correspondant aux cas o aucun choix rellement vident existait parmi les huit images mais o le sujet a
cliqu sur limage la plus ressemblante dans le contexte. Globalement nanmoins, les sujets restent cohrents avec
la tche qui leur est demande et choisissent une image qui leur semble proche de limage de rfrence.
4.3.2 Matrice de similarit et distance intra
Nous fabriquons quatre matrices de similarit correspondant aux quatre niveaux de jugement possibles : S
4

pour trs proche ; S
3
pour proche ; S
2
pour loignes et enfn S
1
pour trs loignes . A chaque r-
ponse dun sujet, une image de rfrence i
ref
est associe une image j dsigne avec la souris, selon un niveau de
similarit K, et la valeur de S
K
(i
ref
,j) est alors accrue dune unit. Chaque matrice lmentaire est ensuite normalise
entre zro et un. Une unique matrice de similarit S
T
est ensuite obtenu par une moyenne pondre de ces quatre
matrices lmentaires. Les poids ont t dtermins en considrant quil existe une non-linarit entre les distances
perues et le jugement qui en est donn par un humain. De manire gnrale, si d(A,B) dsigne la distance perue
entre deux stimuli (images), alors, un sujet humain en fera un jugement :

A B g d A B , , ( ) = ( ) ( )
(4.1)
Chapitre 4
- 76 -
Dfnition de catgories smantiques
- 77 -
g est une fonction croissante [SAN99]. Cette fonction doit traduire la capacit des sujets effectuer une bonne
discrimination au niveau des distances faibles, mais qui a tendance sattnuer quand les diffrences entre images
augmentent. Autrement dit, au del dune certaine dissimilarit, on diffrencie peu les images trs diffrentes des
images extrmement diffrentes. Par exemple, nous pouvons poser que la relation existant entre la distance perue
et la distance juge est :

= d
1
3 (4.2)
Dautres fonctions de pondration croissantes g peuvent tre choisies, mais nous avons constat que cela ne
changeait presque rien aux rsultats tablis dans la suite. Comme nous pondrons ici des matrices de similarit,
nous devons utiliser une fonction dcroissante, que nous avons choisi comme la fonction inverse de la fonction
g croissante. En supposant par ailleurs que lchelle de jugement est perue comme linaire (i.e correspondant
aux niveaux K prcdemment dfnis), et en utilisant lexemple prcdent pour dfnir les poids, nous obtenons la
matrice de similarit totale suivante :

S i j
S i j S i j S i j S i j
T
( , )
( , ) ( , ) ( , ) ( , )
=
+ + +
+ + +
4 3 2 1
1
8
1
27
1
64
1
1
8
1
27
1
644
(4.3)
Chaque poids est bien linverse du cube de la similarit K correspondante. Le dnominateur permet de
normaliser les similarits entre zro et un.
Nous souhaitons par la suite obtenir une matrice de distance entre les images afn de pouvoir lutiliser comme
entre dun algorithme de type Multi-Dimensional Scaling . Le passage de la matrice de similarit S(.) une
matrice de distance D(.) est classiquement ralise via lopration D(.) = 1 S(.). Nanmoins nous constatons que
les matrices de similarits que nous manipulons sont creuses 50%, cest--dire que la plupart des coeffcients
sont nuls ou ont de faibles valeurs. Il est alors plus raisonnable dutiliser une transformation du type inverse
D(.) = 1 / S(.), qui plus est cohrente avec la relation utilise pour trouver les pondrations des matrices de simila-
rit partir de la relation entre les distances de perception et de jugement. Souhaitant conserver une normalisation
des distances dans lintervalle [0, 1], nous utilisons donc la formule suivante :

D i j
S i j
T
C
C
C
,
,
( ) =
+ ( ) ( )

1
1
2
1 2
(4.4)
Une relation non linaire du type inverse permet dtaler les faibles valeurs sur un plus grand intervalle
quune relation du type oppos. De plus, cet talement peut tre contrl par le coeffcient C comme cela est
illustr la fgure 4.3(a). Plus le coeffcient C est grand, plus nous donnons dimportance aux distances courtes
(donc aux similarits fortes), relativement lensemble de la distribution (fgure 4.3(b)).
La matrice de distance rsultante de cette mthodologie est qualife de distance intra et est note D
intra
. Ce
nom provient du fait que lon utilise des informations de nature intra-classe pour la fabriquer, puisque lon se
focalise sur les images qui sont associes par les sujets, donc tendant faire partie des mmes classes smantiques.
Ce sont donc les rapprochements successifs entre images de la mme catgorie qui tendront dfnir ces dernires.
A la fgure 4.3(b), nous navons pas reprsent le dernier bin des histogrammes (distances 1) qui est largement
majoritaire puisque la plupart des images nont jamais t associes, bien que toutes les images aient t confron-
Chapitre 4
- 76 -
Dfnition de catgories smantiques
- 77 -
Figure 4.3 : Pour differentes valeurs de C (formule 4.4) (a) passage des similarits aux distances
(avec normalisation). (b) Histogramme des distances les plus courtes
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Similarits
D
i
s
t
a
n
c
e
s
C=1
C=3
D(.)=1-S(.)
C=5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
200
400
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
200
400
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
200
400
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
200
400
(a) (b)
tes lune lautre un nombre de fois gal au nombre de sujets entier. Les distances de D
intra
sont donc majoritai-
rement gales 1, sauf pour les images qui ont t associes. La mthodologie du paragraphe suivant utilise une
philosophie diamtralement oppose.
4.3.3 Distance inter
La mthodologie prcdente souffre de linconvnient de ne pas prendre en compte le contexte dans lequel
deux images sont associes. Les sujets ont beau avoir observ les 105 images existantes en pralable de lexp-
rience, ils choisissent toujours limage la plus ressemblante limage de rfrence parmi les huit prsentes. Nous
pouvons donc considrer que quand le sujet associe une image j une image de rfrence i
ref
, il rejette en fait sept
images (r
1
, r
2
, , r
7
) du voisinage de limage de rfrence. Selon cette ide, nous calculons directement une ma-
trice de distance D
inter
(.), en accroissant la valeur de D
B
(i
ref
, r
1
), , D
B
(i
ref
, r
7
) chaque association effectue par un
sujet, puis en ramenant le tout entre 0 et 1. Cette fois, cest le contexte qui dtermine entirement les distances, et
labsence dloignement qui permettra aux images se ressemblant de ne pas tre spares.
Cette mthode est calcule de faon beaucoup plus simple que la mthode prcdente mais prsente linconv-
nient de ne pas utiliser linformation fournie lors de la seconde phase de lexprience. En effet, il se peut dune part
que plusieurs images soient smantiquement associes limage de rfrence et dans ce cas une seule ne sera pas
loigne de limage de rfrence lors dun choix. Cet inconvnient est attnu par le fait que sur un grand nombre
dassociations, seules les images qui sont systmatiquement rejetes dune mme image de rfrence en seront
loignes signifcativement. Dautre part, nous ne pouvons pas utiliser lestimation de ressemblance de la seconde
phase de lexprience car celle-ci ne concerne vraiment que le couple choisi, et que lors de cette estimation les sept
images rejetes ne sont pas visibles.
La diffrence fondamentale entre les deux mthodes de calcul de distance est qu chaque essai, la matrice
D
intra
est modife en un couple dimage alors que D
inter
lest en sept. La quantit dinformation entrant en jeu tant
plus grande, cela tend prsenter D
inter
comme plus attractive. Cet avantage est nanmoins compens par un risque
Chapitre 4
- 78 -
Dfnition de catgories smantiques
- 79 -
derreurs plus important, qui est uniquement corrig par leffet de moyenne sur un grand nombre de sujets. De
plus, nous allons mettre en vidence que linformation contenue dans ces deux matrices est lie.
4.3.4 Images non cliques
Dans la premire phase de lexprience, le sujet ne dispose que de cinq secondes pour associer une image
limage de rfrence. Dans le cas o aucun choix nest fait dans le temps imparti, une nouvelle image de rfrence
est prsente avec huit nouvelles images test, correspondant lessai suivant dans la matrice de tirage. Lessai
avort est alors rpertori dans la matrice Nc. Cest une matrice 105x105 dont nous incrmentons dune unit les
valeurs de la ligne correspondant limage de rfrence et des colonnes correspondant aux huit images test de
lessai o aucun choix na t fait.
Ainsi, chaque essai est rpertori dans lune des matrices prcdemment dfnies. De plus, si nous ne tenons
pas compte des normalisations entre 0 et 1 effectues sur les matrices de similarit et de distance, nous avons la
relation formelle suivante :
S
1
+ S
2
+ S
3
+ S
4
+ D
inter
+ Nc = Nombre de super-sujets (4.5)
Linformation contenue dans la matrice Nc est rapprocher de linformation contenue dans D
inter
au sens o
elle traduit plus une dissimilarit quune similarit, puisque le sujet na trouv aucune image semblable limage
de rfrence parmi les huit images test prsentes. Mais cela peut aussi tre d une hsitation entre deux images
ressemblant fortement limage de rfrence qui a t brutalement courte par la limite des cinq secondes de
rfexion. Puisque lon ne peut pas distinguer ces deux cas, nous sommes condamns ne pas prendre en compte
linformation provenant de la matrice Nc. Aussi, bien que trs proche, linformation contenue dans D
inter
et celle
de D
intra
est lgrement diffrente.
4.3.5 Symtrisation globale des distances
Etant donn les mthodes sus-dcrites pour fabriquer les matrices de distance, ces dernires ne sont pas sym-
triques. En effet, quelle que soit la mthode employe, D(i,j) dsigne la distance entre limage i et limage j quand
i est limage de rfrence. Or, ltude du jugement des distances en psychologie perceptive a montr que laxiome
de symtrie nest pas vrif [SAN99]. De manire gnrale, les stimuli moins saillants ressemblent plus aux
stimuli plus saillants que les stimuli plus saillants ressemblent aux stimuli moins saillants (dnomm
principe dasymtrie perceptive dans la suite). Par exemple, si lon considre que la prsence dun enfant sur une
photo est plus saillant que le paysage dans lequel il se trouve, une photo de montagne peut tre juge semblable
une photo de montagne o se trouve un enfant, mais cette dernire sera juge plus ressemblante nimporte quelle
photo o se trouve un enfant, qu une photo de montagne. Ainsi, lasymtrie de la matrice de distances dpend de
la base dimages et des associations possibles au cours des expriences. Nous avons donc mesur cette asymtrie
a posteriori au moyen de la formule :
Chapitre 4
- 78 -
Dfnition de catgories smantiques
- 79 -

PS
D i j D j i
D i j D j i
ij
=

+
( , ) ( , )
( , ) ( , )
(4.6)
La moyenne de cette variable est mesure pour tous les couples (i,j) de la matrice de distance (ij) et donne
ainsi une mesure de la symtrie de la matrice. PS
ij
est comprise entre zro (pour une matrice symtrique) et 1.
Cependant, cette valeur maximale est atteinte dans le cas o D(i,j) est nulle alors que D(j,i) est maximale et vaut 1,
mais aussi chaque fois que D(i,j) ou D(j,i) est trs faible devant lautre. La signifcation est donc biaise dans le
cas particulier o lune des valeurs est faible (indiquant une forte ressemblance des images) et la valeur symtrique
est extrmement faible. Les deux valeurs indiquent alors la mme chose, alors que lasymtrie mesure par (4.6)
donne une valeur maximale. Nous corrigeons donc (4.6) avec la formulation suivante :

PS
D i j D j i
D i j D j i
D i j D j i
ij
=

+
( )

min
( , ) ( , )
( , ) ( , )
, max ( , ), ( , )

(4.7)
Cette correction est valable compte tenu du fait quen pratique la valeur de (4.6) est trs souvent infrieure au
maximum des deux distances, sauf dans le cas particulier indiqu ci-dessus. Dans ce cas, nous considrons que
la distorsion ne doit pas tre considre comme importante tant donn que la signifcation physique des deux
valeurs est la mme. Nous remplaons donc la valeur de (4.6) par le maximum correspondant, qui est faible tant
donn sa nature. La moyenne de la variable dfnie par (4.7) est borne entre 0 et 1, et nous lassimilerons donc
un pourcentage, que nous appellerons coeffcient dasymtrie ou plus simplement asymtrie (fgure 4.4). Dans
le cas o on mesure lasymtrie dune matrice de distance intra , elle dpend de la pondration effectue et du
coeffcient C appliqu lors du passage des similarits aux distances, puisque ces paramtres infuencent les valeurs
relatives des distances. Par contre dans le cas dune matrice inter , il existe une seule valeur pour lasymtrie.
Les valeurs sont donnes dans plusieurs cas la table 4.1. Pour la matrice intra , nous avons considr la pond-
ration de (4.3), et le cas dune pondration uniforme (1/4 pour chaque niveau de similarit) qui est plus pertinente
pour comparer au cas de la matrice inter .
Lasymtrie est bien moins importante quand la pondration des matrices de similarit donne une importance
Distance Exprience avec les images
en couleur
Exprience avec les images
en niveaux de gris
D
intra
(C=1; pondration non uniforme) 1.44% (1.48%) 1.70% (1.77%)
D
intra
(C=3; pondration non uniforme) 2.05% (2.19%) 2.43% (2.62%)
D
intra
(C=5; pondration non uniforme) 2.61% (2.99%) 3.14% (3.59%)
D
intra
(C=1; pondration uniforme) 6.57% (7.03%) 7.07% (7.52%)
D
intra
(C=3; pondration uniforme) 8.85% (10.05%) 9.68% (10.83%)
D
intra
(C=5; pondration uniforme) 11.05% (13.37%) 12.18% (14.50%)
D
inter
13.15% (14.11%) 11.22% (12.05%)
Table 4.1: valeurs dasymtrie (4.7) pour diffrentes mthodes de calcul des distances. La pondration
non uniforme est celle de (4.3) : [1 1/8 1/27 1/64]/(1+1/8+1/27+1/64). Entre parenthse
est indique la valeur si on utilise (4.6).
Chapitre 4
- 80 -
Dfnition de catgories smantiques
- 81 -
dcroissante en fonction de la proximit juge : elle vaut au plus 3.2%, alors quelle nest jamais infrieure 6%
dans le cas de la pondration uniforme. De plus, lasymtrie crot quand on augmente le coeffcient C, donc quand
on donne une plus grande importance relative aux fortes similarits. Cela montre que les asymtries de perceptions
sont plus courantes parmi les similarits faibles que les similarits fortes. Selon le principe dasymtrie perceptive,
les similarits juges comme fortes ont donc tendance traduire la prsence de stimuli trs saillants dans les ima-
ges associes, alors que les similarits juges faibles permettent didentifer des stimuli moins saillants.
La matrice de distance D
inter
a une asymtrie plus importante que D
intra
(13.15% et 11.2% pour D
inter
contre
moins de 10% pour D
intra
, sauf pour C=5). En effet, tant donn son mode de construction, D
inter
modife plus de
couples D(i,j) que D
intra,
et ces modifcations sont toutes pondres de la mme faon. Ainsi, son taux dasym-
trie est comparable celui obtenu pour D
intra
avec une pondration uniforme, puisque les sept images rejetes de
limage de rfrence le sont toutes avec la mme force, indpendamment de leur proximit relative limage de
rfrence.
Au niveau de cette mesure dasymtrie globale, la diffrence entre lexprience en couleur et lexprience avec
les images en niveau de gris ne nous semble pas signifcative (table 4.1). Nous verrons que des diffrences se ma-
nifestent pour certains couples particuliers.
Pour la matrice D
intra
pondre selon (4.3), les valeurs dasymtrie (moins de 3.2%) peuvent tre considres
comme faibles, tant donn que lasymtrie est de 38% pour une matrice de distances remplie alatoirement, et
de 100% pour une matrice totalement asymtrique au sens des distances. Lorsque cela sera ncessaire, nous
pourrons donc nous permettre de symtriser la matrice de distances en faisant la moyenne avec sa transpose.
Nanmoins, bien que lasymtrie globale des matrices de distances soit faible quand on applique une pondration,
nous reviendrons sur ltude des couples particuliers o le phnomne est signifcatif.
Figure 4.4 : Coeffcient dasymtrie corrig, en fonction des distances dune image i une image j, variant
entre 0 et 1. Limage de gauche est la vue de dessus de limage de droite, o lon a superpos
les points correspondants la matrice D
intra
avec C = 1;
D(i,j)
D(j,i)
PS
ij
Chapitre 4
- 80 -
Dfnition de catgories smantiques
- 81 -
4.4 Rsultats qualitatifs
Etant donn le protocole exprimental, il y a peu d'intrts analyser les rsultats des sujets individuellement
puisque chacun ne participe que pour un quart de super-sujet. Il nest pas non plus trs pertinent danalyser les
rsultats dun super sujet puisque les rponses de celui-ci sont lunion des rponses de quatre sujets physiques.
Cest donc bien les rsultats moyenns sur lensemble des sujets qui nous intressent, puisque ce sont ceux-ci qui
fournissent les catgories smantiques qui peuvent exister pour la population considre.
4.4.1 Deux mthodes danalyse
Lanalyse des rsultats peut tre faites globalement sur les 105*105 couples (ou 105*105/2 couples sym-
triss), ou de faon diffrencie sur certains couples particuliers. Cette seconde mthode consiste considrer
une image particulire et regarder les images qui ont t juges les plus proches de celle-ci par les sujets. Rci-
proquement, nous pouvons aussi observer quelles images elle a t majoritairement associe, quand elle a t
prsente parmi les huit images test. Cette mthode danalyse est particulirement pertinente pour analyser les
asymtries dans la perception de couples particuliers et sera ultrieurement tudie ( 4.4.4). Le premier point
de vue est danalyser toutes les images ensemble, ce qui est fait classiquement par le biais dun algorithme de
type Multidimensional Scaling (MDS). Cest une procdure psychomtrique introduite par Shepard [SHE72]
(et Torgerson [TOR52] pour la version linaire) qui cherche exprimer un espace perceptif grande dimension
(inconnue) dans un espace de dimension rduite, par minimisation dun critre de distorsion. Par extension cela
revient donc reprsenter dans un espace euclidien des objets connus uniquement par leurs distances rciproques.
Lalgorithme original ne prsuppose aucune forme a priori sur les donnes, sinon que celles-ci varient contin-
ment (ce qui est une hypothse vraisemblable pour un espace psychologique ) dans un espace paramtrique dont
il faut estimer la dimension. Dans le cas o lon souhaite visualiser les donnes et leur organisation, les espaces
bi- et tridimensionnels sont particulirement priss. Des algorithmes moins coteux en calculs que le MDS original
sont alors couramment utiliss, notamment les cartes auto-organisatrices [KOH95] notes SOM ou le Non Linear
Mapping (NLM) propos par Sammon [SAM69]. Nous avons pour notre part dcid dutiliser lanalyse en com-
posantes curvilignes (ACC) [DEM94, DEM97] qui prsente un avantage sur chacune des mthodes prcdentes.
Par rapport au MDS et au NLM, le temps de calcul est nettement moins important. Par rapport aux SOM, le prin-
cipal avantage de lACC est de ne pas contraindre la topologie de sortie et dobtenir ainsi une meilleure reprsen-
tation de la topologie. Comme pour le MDS ou le NLM, lACC cherche minimiser un critre de distorsion entre
les donnes dentre et leur reprsentation en sortie de lalgorithme, mais contrairement eux, lACC autorise la
distorsion crotre temporairement au cours de sa convergence, bien quen moyenne cette distorsion dcroisse.
Cette particularit permet lalgorithme dviter de tomber dans des minima locaux de distorsion, et de converger
vers un minimum global de distorsion et ainsi de mieux reprsenter des structures de donnes complexes que le
NLM. Comme les autres algorithmes cits, lACC favorise la conservation de la topologie locale des donnes et
casse les grandes distances dentre lorsque cela est ncessaire (voir Annexe B).
Chapitre 4
- 82 -
Dfnition de catgories smantiques
- 83 -
Pour analyser les rsultats des expriences, nous adopterons dans la suite le point de vue qui nous semblera le
plus pertinent, en fonction du problme tudi. Lanalyse globale (projection par ACC) est trs robuste par rapport
au choix de la matrice de distance utilise, alors que lanalyse individuelle des images et de leurs premiers voisins
est plus sensible au choix de la distance utilise.
4.4.2 Vue gnrale des classes dimages
Afn de rendre compte de lorganisation globale de la base dimages par les sujets humains, nous les projetons
sur un plan laide dune ACC. Nous utilisons une matrice de distance intra fabrique partir de la matrice
de similarit dfnie en (4.3), et de lquation (4.4) avec un coeffcient C = 3. Lalgorithme converge en quelques
secondes, et donne une reprsentation telle que celles des fgures 4.5 et 4.6. Il faut bien noter que lACC donne
chaque fois une reprsentation particulire qui dpend non seulement des paramtres (voir Annexe B), mais aussi
de linitialisation des points sur le plan et du tirage alatoire de lordre dans lequel les images sont dplaces les
unes par rapport aux autres. Nous pouvons dans un premier temps considrer que ces illustrations sont assez repr-
sentatives de lorganisation interne de lespace perceptif des similarits entre images, pour lensemble des sujets
ayant pass lexprience. Les images reprsentes proches sur ces fgures ont gnralement t souvent associes
lune lautre lors des expriences psychophysiques. Cependant, seules les distances les plus courtes ont une
relle signifcation physique puisque lACC casse les grandes distances afn de dplier les donnes. Avec une autre
Figure 4.5 : Reprsentation des similarits perues entre les 105 images en niveaux de gris
Chapitre 4
- 82 -
Dfnition de catgories smantiques
- 83 -
initialisation, la reprsentation pourrait tre tourne dun angle quelconque, et certains groupes intervertis. Nous
nous affranchirons des aspects alatoires de lACC dans ltude quantitative (4.5).
Lutilisation de lACC permet un dpliage des donnes plus fn que celui qui est pratiqu par MDS dans
[ROG98]. Plus que des axes smantiques tels que lexprience de Rogowitz avait permis de retrouver, nous ob-
tenons ici des clusters smantiques auxquels nous avons associ des noms reprsentatifs tels que ceux reports
sur la fgure 4.6. Nous pouvons observer notamment que parmi les tres vivants, les animaux sont spars des tres
humains et que certains sont proches des champs . Les personnages sont assez tals, depuis les portraits
jusquaux gens mis en scne ( la plage, la montagne...) qui sont des images ayant tendance se rapprocher
des catgories correspondantes. Par contre limage de foule (en haut au centre sur la fgure 4.5, et en bas gauche
de la fgure 4.6) na pas t associe aux autres images de personnages o ils sont en nombre plus rduit. Enfn,
nous reprons aussi un effet de perspective parmi les scnes de constructions humaines, puisque les images repr-
sentant des vues densemble de villes ont tendance tre diffrencies des images de routes et de btiments. Cet
effet se retrouve aussi parmi la classe personnages o nous distinguons plusieurs groupes depuis les portraits
pris en gros plan jusquaux vues de paysages comportant des personnages.
Ces rsultats sont trs robustes par rapport un changement de pondration dans la fabrication de la matrice
D
intra
. Nous avons effectu des essais avec les pondrations [1 2 3 4]/10, [1 2 4 8]/15 et la pondration uniforme
Figure 4.6 : Reprsentation des similarits perues entre les 105 images en couleur
Portraits et personnages
Dserts
Plages
Scnes
dintrieur
Batiments
Villes et buildings
Routes
Montagnes
Forts
Champs
Animaux
Chapitre 4
- 84 -
Dfnition de catgories smantiques
- 85 -
sans constater de changement majeur par rapport aux rsultats noncs prcdemment. En effet, mme si un chan-
gement de pondration modife la valeur des distances absolues et peut mme modifer lordre de certains voisins,
les premiers voisins pris dans leur ensemble ne sont jamais fondamentalement modifs. Ainsi, puisque lACC
conserve la topologie locale des donnes dentre, les clusters smantiques sont conservs.
Le paramtre C de (4.4) permet de contrler limportance relative du nombre de distances courtes par rapport
aux distances longues, dans lensemble de toutes les distances de la matrice D
intra
(fgure 4.3). Plus le coeffcient
C est fort, plus on donne de limportance aux faibles similarits, donc aux grandes distances, et nous galisons les
fortes similarits correspondant aux faibles distances. Cela tend favoriser le regroupement des images apparte-
nant aux mmes classes smantiques, et loigner les clusters les uns des autres. Au contraire, un coeffcient C
faible donne une impression plus continue de la distribution de la base dimages sur le plan.
4.4.3 Infuence de la couleur
Dans [ROG98], les auteurs concluent que la couleur semble jouer un rle signifcatif dans lorganisation per-
ceptive des images, et que la couleur dominante de limage est importante dans le jugement de similarit. Nous
avons test plus avant cette assertion en ralisant lexprience avec les mmes images, dont nous avons conserv la
chrominance. Lorganisation rsultante aprs projection par ACC sur un plan (fgure 4.6) est extrmement sembla-
ble celle obtenue avec les images en niveau de gris. Nous retrouvons les mmes clusters smantiques que dans le
cas prcdent et pouvons faire les mmes remarques sur les diffrenciations existantes. Ainsi, pour les catgories
dimages prises en compte dans notre base de 105 images, nous montrons que cest la luminance qui porte lessen-
tiel de linformation smantique des images.
Nanmoins, nous remarquons aussi que a posteriori, certaines catgories smantiques comportent effective-
ment une couleur dominante. Cest par exemple le cas des images de plage comportant un dominante vert/bleu
pour leau et le ciel et blanc/sable pour la plage elle-mme, ou encore les forts qui sont globalement vertes et
les montagnes enneiges blanches/bleues. Nanmoins, les images de forts lautomne (oranges/marrons) ont
t associes aux autres images de paysages boiss. La catgorie des champs comporte des images dominante
verte et dautres dominante marron ou jaune/orange. La prsence dtres humains dans les images semble tre
un critre discriminant de catgorie totalement indpendant des couleurs dominantes (de mme pour les animaux).
Pour les montagnes, deux images nont pas les mmes couleurs dominantes que les autres mais semblent proches
du cluster quand mme, alors quelles y sont compltement incluses dans le cas des images en niveau de gris. La
couleur permet donc dans ce cas de diffrencier la sous-catgorie montagnes enneiges .
En conclusion, la couleur nest pas ncessaire lidentifcation smantique dans la plupart des cas. Nanmoins,
tant donn que certaines classes smantiques sont caractrises par des couleurs dominantes, nous pouvons avan-
cer que la couleur doit faciliter lidentifcation. Cela pourrait tre confrm par la mesure des temps de rponses
lors de la premire phase de lexprience. Par ailleurs, cet tat de fait implique que lutilisation de la couleur nest
pas indispensable la reconnaissance de scnes ou dobjets, mais peut faciliter la tche (comme dans [SZU98,
VAI01]), voire tre suffsante dans certains cas particuliers [STR95]. Pour des niveaux de reconnaissance plus fn
Chapitre 4
- 84 -
Dfnition de catgories smantiques
- 85 -
par contre, la couleur peut devenir ncessaire (distinction des montagne enneiges ou des arbres lautomne par
exemple).
4.4.4 Asymtries de la perception humaine
Lasymtrie dans la perception des images est un phnomne bien connu et peut tre exprime sous la forme :
les stimuli moins saillants ressemblent plus aux stimuli plus saillants que les stimuli plus saillants ressem-
blent aux stimuli moins saillants. Nous avons introduit une mesure (4.6) qui rend bien compte de lasymtrie
pour lensemble des images, mais peut tre biaise ponctuellement dans le cas particulier o lune des deux dis-
tances serait nulle ou extrmement faible devant lautre. Nous avons donc d la corriger par (4.7). Les plus fortes
valeurs dasymtries permettent de mettre en vidence des cas typiques : la distance dune image A une image B
est beaucoup plus courte que la distance de limage B limage A. Il faut cependant noter que ces mesures ont t
conues pour rendre compte de lasymtrie globale de la base dimages, et quantifer lerreur commise, quand on
symtrise la matrice de distance en vue de projeter lespace perceptif par ACC. Nous avons ainsi constat que cette
symtrisation pouvait gnralement tre ralise sans que cela change normment le comportement global de la
base lors de la projection par ACC. Si la symtrisation de la matrice de distance ne change que peu de choses pour
la plupart des images, elle fait cependant disparatre linformation relative aux couples dimages signifcativement
asymtriques. Nous allons maintenant rechercher ces tandems qui nont pas t pris en compte par les traitements
prcdents.
Nous pourrions penser utiliser la valeur donne par (4.7), mais le phnomne dasymtrie est mieux mis en va-
leur lorsquon mesure la proximit des images en terme de plus proche voisins. En effet, ce nest pas tant la valeur
de la distance absolue entre les images qui nous intressent, mais plutt de savoir si lappartenance dune image A
aux premiers voisins dune image B, implique que limage B fait partie des premiers voisins de limage A. Nous
introduisons donc le rang de proximit RgPrx(A,B), qui est le rang dune image B parmi les plus proche voisins
dune image de rfrence A, et nous recherchons les plus grands carts entre RgPrx(A,B) et RgPrx(B,A). Nous
devons nanmoins modrer ce propos puisque nous savons que le jugement de similarit est plus fn pour les cour-
tes distances (grandes similarits) que pour les grandes distances. Autrement dit deux images trs diffrentes
et deux images extrmement diffrentes sont juges avec un niveau de dissimilarit quivalent. Par exemple,
imaginons deux images A et B telles que RgPrx(A,B) = 55 et RgPrx(B,A) = 95. Lcart entre les deux rangs de
proximit est de 45, ce qui est une forte valeur dans notre contexte. Pourtant, il nest pas trs pertinent de retenir
cette asymtrie, puisque perceptivement les deux rangs de proximit peuvent tre jugs quivalents. Aussi, les dif-
frences de rang de proximit ne sont intressantes que dans le cas o lune des deux mesures est faible, ou autre-
ment dit quand le couple dimages (A,B) est effectivement jug proche dans un sens et pas (ou moins) dans lautre.
Etant donn la taille de la base dimage de notre exprience (105 images), nous recherchons donc les grands carts
de rang de proximit, en se limitant aux cas o lun des deux rangs est infrieur 10.
La fgure 4.6 reprsente des exemples dasymtries trouves par cette mthode. Limage de pylne voque la
technologie et les constructions humaines et peut ainsi tre facilement associe une image de ville. Limage de
Chapitre 4
- 86 -
Dfnition de catgories smantiques
- 87 -
Ref 1 2 3 4 5
Ref 1 2 37
Figure 4.7 : exemple dasymtrie de perception. Les chiffres indiquent le rang de limage parmi les
plus proches voisins de limage de rfrence.
Ref 2 3 4 5 6
Ref 1 2 3 46
ville par contre est prioritairement associe des vues densemble de milieu urbain, des vues internes de villes,
des btiments... Et le pylne narrive quen 37
ime
position, avec lensemble des images qui nont jamais t asso-
cies limage de ville. Dans le cas de limage du champ, laspect bucolique du personnage sentant les feurs a
pu inciter des sujets lassocier limage de champ. Par contre quand limage de rfrence est le personnage, les
images associes sont prioritairement des personnages, et limage de champ ne lui est jamais associe (la distance
est maximale et vaut 1, ce qui correspond une similarit nulle indiquant quaucune association na t effectue).
La mthode prsente permet donc de mettre en vidence des asymtries dans la perception humaine.
Rciproquement cependant, toutes les images mises en vidence par cette mthode ne doivent pas tre inter-
prtes comme des asymtries. En effet, dans le cas danalyses individuelles des images et de leurs plus proches
voisins, les rsultats sont biaiss par le protocole exprimental. Le fait que les similarits naient pas t estimes
pour tous les couples dimages mais par paquets de huit et avec un nombre limit de sujet, implique que certains
couples ont eu plus doccasions dtre associs que dautres. Dautre part, certaines images se sont rvles atypi-
ques ou inaptes tre rattaches franchement lune des catgories smantiques, ce qui est par exemple le cas de
Chapitre 4
- 86 -
Dfnition de catgories smantiques
- 87 -
Figure 4.8 : Asymtrie typique des images en niveau de gris
limage de la foule. Les premiers voisins de ces images sont alors htrognes si bien quelles ont de grandes
chances dtres asymtriques avec leurs premires voisines, sans que cela soit rellement signifcatif.
Notons enfn que certaines asymtries perceptives sont spcifques des images en niveau de gris, comme cest
le cas pour le couple dimage de la fgure 4.8. En labsence de couleur, limage davion qui est normalement as-
socie des images voquant la technologie, des constructions humaines (villes, routes...), ou bien aux mouettes,
est associe des images vides de dtails lui ressemblant dun point de vue purement graphique. Avec les couleurs
par contre, la dominante orange de limage du dsert, et bleu/blanc de limage davion exclue ce genre de rappro-
chement.
4.4.5 Synthse de lanalyse qualitative
Les matrices de distances calcules selon la mthode expose dans le paragraphe prcdent nous permet dob-
tenir une projection de lespace perceptif correspondant lexprience de computer scaling. Lutilisation de lACC
au lieu dalgorithmes de MDS plus classique fait ressortir des clusters smantiques plus signifcatifs que les
axes smantiques qui avaient t trouvs la suite de lexprience de Rogowitz [ROG98].
Nous avons conduit lexprience avec des images en niveau de gris et lavons reproduit avec des images en
couleur. Nous avons alors observs qualitativement les mmes clusters smantiques, et en avons donc dduit que
la couleur nest pas ncessaire pour supporter la smantique des images. A la vue des expriences passes, nous
avons nanmoins conscience que celle-ci peut tre suffsante dans certains cas particuliers, et de faon gnrale est
trs utile et doit probablement faciliter la tche de reconnaissance.
Afn de rendre compte des asymtries perceptives qui ont t limines lors de la symtrisation des matrices
de distances, nous avons dfni le rang de proximit dun couple dimages. Nous avons ensuite expliqu dans
quels cas lexamen des carts entre ces rangs de proximit permet de mettre en vidence des asymtries percepti-
ves pertinentes. Rciproquement cependant, le protocole mis en place ncessite une interprtation prcautionneuse
des rsultats.
4.5 Rsultats quantitatifs
Plusieurs des rsultats prcdents, et notamment la dfnition des classes smantiques, sont bass sur la pro-
jection par ACC des images de la base sur un plan en conservant au mieux les distances perceptives fabriques
Chapitre 4
- 88 -
Dfnition de catgories smantiques
- 89 -
partir des rsultats de lexprience psychophysique. Mais puisque lAnalyse en Composantes Curviligne est un
procd stochastique, le rsultat de la projection ne sera pas exactement le mme dune projection lautre. Nous
savons que lACC a tendance conserver les distances courtes (topologie locale) et casser les grandes distances,
mais puisque lon ne connat pas lespace dentre, nous ne savons pas quelles distances ont t conserves dans la
reprsentation darrive, et lesquelles ont t rompues. Cela revient se demander quelle est la validit dun voisi-
nage (images proches) dans lespace darrive pour une reprsentation particulire. Une solution ce problme est
de projeter les images un grand nombre de fois et de regarder si le voisinage est conserv, ce qui a t fait par de
Bodt et ses collgues [BOD00] dans le cas des cartes auto-organisatrices. Un test statistique peut alors tre effectu
en comparant le nombre de fois o deux images ont t voisines au hasard, et dterminer ainsi si le voisinage est
statistiquement signifcatif.
4.5.1 Force des liaisons inter-images
Considrons les 105 images dont les sujets ont jug la similarit, et notons D la matrice de distance fabrique
selon lune des mthodes prcdemment prsentes. Ces distances sont utilises en entre dun algorithme dACC
qui projette alors les images dans un espace euclidien (un plan gnralement). Soit Y
M
la distance maximale entre
les images dans lespace darrive. Nous assimilons lespace darrive une boule de diamtre Y
M
et dfnissons
un voisinage comme une boule de diamtre Y
M
/K (K vaut typiquement 10). Pour une distribution alatoire uni-
forme des images dans un espace de dimension N, la probabilit quun couple (X
i
, X
j
) dimages appartienne un
mme voisinage est donc :
p = Pr(X
i
est voisin de X
j
) = 1 / K
N
(4.8)
Nous ralisons B projections des images par ACC en ne faisant varier quune seule des deux sources incer-
taines possibles (annexe B). Par exemple nous faisons un tirage alatoire de lordre des neurones gagnants qui
reste le mme pendant les B projections, alors que linitialisation des points est diffrente chaque fois. Aprs
projection, deux images X
i
et X
j
sont considres comme voisines si elles peuvent tre inclues dans un voisinage.
Si cest le cas, nous incrmentons la variable STAB
ij
dune unit. Ce dcompte est ensuite compar celui dune
distribution alatoire uniforme : pour un couple (X
i
, X
j
) donn, la probabilit quils soient voisins suit une loi de
Bernoulli de paramtre (de succs) p dfni en (4.8). Ainsi, le nombre de fois o X
i
et X
j
seront voisins lors de B ti-
rages suit une loi binomiale (B,p). Si B est suffsamment grand alors cette loi tend vers une loi de Laplace-Gauss
de moyenne B.p et de variance B.p.(1-p) [SAP90]. Si la valeur de p est trs faible, nous pouvons approcher la loi
binomiale par une loi de Poisson de paramtre B.p.
Nous effectuons alors un test pour dterminer les couples signifcativement voisins. La fabilit du test dpend
du seuil S
v
au dessus duquel les images sont considres comme signifcativement voisines (fgure 4.8). Nous pou-
vons aussi thoriquement faire un test bilatral pour chercher les couples signifcativement non voisins (seuil S
nv
).
En pratique, ce genre de confguration est ralis pour les grandes distances entre les images, mais celles-ci ne sont
pas conserves par lACC. Cependant, sur un grand nombre de tirages, les clusters sarrangeront diffremment les
Chapitre 4
- 88 -
Dfnition de catgories smantiques
- 89 -
uns par rapport aux autres, si bien que des images appartenant des clusters smantiques diffrents devraient bien
tre voisins quun nombre marginal de fois. Lhypothse nulle du test est donc H
0
: Xi et Xj sont voisins ala-
toirement et nous la confrontons lhypothse H
1
: X
i
et X
j
sont signifcativement voisins (ou non voisins) .
Nous rejetons H
0
et acceptons H
1
si STAB
ij
est suprieur S
v
(ou infrieur S
nv
). La table de la fgure 4.8 donne
les seuils pour plusieurs valeurs du risque de premire espce, calculs partir de la loi binomiale pour B = 2000
et K=10 dans le cas dune projection plane (p = 1 / K
2
).
Nous ralisons B=2000 projections ACC sur un plan, et considrons que le voisinage signifcatif est un disque
de diamtre gal au dixime de la plus grande distance entre les images projetes. Avec la matrice D
intra
symtrise,
les rsultats montrent que sur 104 * 105 / 2 = 5460 couples dimages possibles, 4558 ont t voisins moins de 5
fois (dont 3975 aucune fois!), et 563 ont t voisins plus de 50 fois. La relation de voisinage (ou de non voisinage)
est donc statistiquement extrmement signifcative, et les rsultats sont semblables pour la matrice D
inter
.
Nous adoptons alors un point de vue lgrement diffrent et dfnissons la force de la liaison entre deux
images comme le nombre de fois o les images ont t considres comme voisines divis par le nombre de pro-
jections effectues. Plus la force est grande, plus le risque (de premire espce) que lon prend considrer les
images comme voisines est faible. Cette force vaut 1 pour i = j seulement, et dcrot en fonction de lloignement
de similarit des images, donc nous lexprimerons comme un pourcentage. Dans les conditions du tableau de la
fgure 4.8, un risque de premire espce de 10
-8
correspond une force inter-image de 49 / 2000 = 2.5% environ.
Notre critre est donc infniment plus exigeant que la procdure statistique prsente prcdemment , bien quil
soit driv de cette dernire. Il permet de hirarchiser les similarits inter-images et par suite de dfnir les catgo-
ries smantiques, et de dterminer les relations entre celles-ci.
4.5.2 Hirarchie des classes smantiques
Nous tablissons la force des liaisons inter-images avec les valeurs B = 2000, K = 10 et avec la matrice D
intra

pondre selon (4.3). Les liaisons les plus fortes (plus de 75%) permettent didentifer clairement certaines catgo-
ries smantiques (fgure 4.9(a)) parmi les 105 images (en couleur) : les scnes dintrieur , les montagnes en-
neiges , les arbres et paysages boiss , les champs , les dserts , les animaux terrestres , les plages ,
STAB
ij
Couple signifcativement
voisin
Couple signifcativement non
voisin (test bilatral)
Figure 4.8: test statistique pour dterminer les couples dimages signifcativement voisins. Lors de B
tirages les images sont voisines STAB
ij
fois. Si STAB
ij
est plus grand que S
v
, les images
sont considres comme signifcativement voisines. Si cest infrieur Snv, elles sont
signifcativement non voisines.
S
v
S
nv
Couple voisin par hasard
S
nv
Risque de premire
espce (B=2000, K=10)
S
v
12 5% 27
9 1% 31
7 0.1% 35
5 10
-4
39
2 10
-6
45
1 10
-8
49
Chapitre 4
- 90 -
Dfnition de catgories smantiques
- 91 -
Figure 4.9 : Visualisation des liaisons par force dcroissante (B = 2000, K=10) avec une projection
particulire des images. Une liaison inter-image est dautant plus forte que les deux ima-
ges ont t projetes dans un voisinage (i.e le centre des deux imagettes est inclu dans
un cercle tel que celui reprsent sur les quatre images) (a) : les deux imagettes ont t
projettes dans le voisinage pour plus de 75% des 2000 projections - (b) entre 25% et
75%- (c) entre 10% et 25% - (d) entre 6% et 10%.
(a) (b)
(c) (d)
Taille dun
voisinage
Chapitre 4
- 90 -
Dfnition de catgories smantiques
- 91 -
les routes, rues et villes et plusieurs sous-catgories de personnages . A ceci il faut ajouter des associations
ponctuelles entre images de btiments seuls ainsi quentre les deux mouettes et les deux pylnes lectriques.
Quand on diminue les exigences sur les forces des liaisons inter-images, certains liens inter-catgoriels apparais-
sent (fgure 4.10). Ainsi, la catgorie des personnages rsulte dune runion assez prcoce (plus de 40%) des
sous catgories que lon peut nommer enfants , gens en activit la neige , parents et enfants , ou encore
belles des champs . La relaxation des forces va ensuite permettre de faire des ponts entre ces catgories. Les
montagnes enneiges vont tre relies aux personnages en activit la neige vers 35%, les animaux terres-
tres vont fusionner avec animaux volants (mouettes) et animaux marins (dauphin) aux alentours de 30%.
Les vaches puis dautres animaux sont associs aux champs dans lintervalle 15% 40%. Les btiments seuls
forment une catgorie qui est peu peu rattache aux villes (20%).
On peut noter que limage reprsentant un avion est associe aux mouettes (39%) et pas la classe baptise
technologie comportant les pylnes lectriques et une image de bateau au port. Cette association est non seu-
lement lie la smantique (objet volant/animaux volant), mais on peut aussi remarquer que laspect visuel de
lavion est extrmement semblable lune des images de mouettes. Un autre cas particulier est limage de foule qui
est associe, mais relativement faiblement, la classe des villes plutt qu la classe des personnages.
Des liens se forment entre les champs et les paysages forestiers ou les montagnes pour former une
super-catgorie de paysages naturels laquelle ne sont pas rattaches les plages . La catgorie des person-
nages, bien que franchement distincte, fait le lien entre les ces catgories de scnes naturelles grce au contexte
dans lequel se situent les personnages. Ces images sont donc perues de deux faons : un premier sens est attach
au(x) personnage(s) prsents dans la scne, puis un second sens est attach au contexte du paysage (scne) dans
lequel est situ le personnage. Dans une moindre mesure, cela se vrife aussi pour les animaux, qui sont lis assez
tt la catgorie des champs, puis aux autres classes des paysages naturels.
Au contraire des ces catgories tres vivants , nous pouvons identifer quelques catgories bien spares les
unes des autres et possdant des liens relativement faibles et peu nombreux entre elles. Certaines dentres elles font
parties des catgories identifes ds lutilisation des liaisons fortes telles les scnes dintrieur , les dserts
et les plages . Au contraire, dautres rsultent de la fusion de plusieurs des catgories initiales et forment les
catgories bien connues des scnes naturelles (champs, forts, montagnes) et des scnes artifcielles qui
sont caractrises par la prsence de constructions humaines vue de lextrieur (villes, btiments, rue et routes et
dans une moindre mesure les objets de technologie comme les pylnes lectriques). Notons que la catgorie
des plages est essentiellement reprsente dans cette base par des plages paradisiaques , alors que des plages
plus habituelles aux sujets ayant pass lexprience (tous Franais) auraient peut-tre t plus facilement associes
aux paysages naturels .
4.5.3 Infuence de la couleur
Lorsque ltude quantitative est applique partir de la matrice des distances fabrique partir des rsultats de
lexprience avec les images en niveau de gris, les rsultats sont semblables ceux de la couleur quelques excep-
Chapitre 4
- 92 -
Dfnition de catgories smantiques
- 93 -
tions prs, comme indiqu en 4.4.3. Ainsi, les images de montagnes enneiges ne sont plus diffrencies des
autres images de montagnes. Une diffrence importante avec la couleur est quen labsence de cette dernire les
images de dsert sont lies aux images de champs avec une force allant jusqu 11%, et aux plages partir
de 7.5%, alors quelles formaient une catgorie trs distincte en couleur (liens infrieurs 2.3% avec les autres
catgories). Nous voyons ici se dessiner la catgorie des paysages ouverts qui comporte des images se diff-
renciant par la prsence dune ligne dhorizon bien marque donnant une impression douverture dans la scne. La
perception dune grande profondeur est donc porte par linformation de luminance, mais semble tre perturbe
par linformation de chrominance. Cela est cohrent avec [OLI99, TOR99, TOR02] puisque ces tudes ont mis en
vidence un axe smantique li la perception de la profondeur partir de linformation de luminance seulement.
Les scnes artifcielles ont aussi tendance tre perues de faon plus homognes quand les images sont en ni-
veau de gris que lorsquelles sont en couleur. Ainsi un lien est tabli entre une scnes intrieure et un btiment
avec une force de 11% puis dautres liens entre 5% 10%, alors quen couleur le lien le plus fort est 3.5%.
Nous avons ainsi confrmation quen ce qui concerne la discrimination la couleur intervient un niveau plus fn
que la luminance. Pour les formes de discrimination les plus grossires, cette dernire information est suffsante.
Par contre, lintroduction de la couleur peut intervenir fortement au niveau de la perception, et brouiller certains
critres discriminant en son absence. Nous avons vu que pour certaines catgories comme les dserts, le critre
de profondeur, qui tend rapprocher ces images des plages ou des champs , est fortement perturb par la
prise en compte de la couleur.
4.5.4 Synthse de ltude quantitative
Nous avons ralis un test statistique qui valide les rsultats de ltude qualitative, et confrme leur robustesse.
Nous en avons driv un critre, qui quantife la force des liaisons inter-images. Parmi les clusters smantiques
identifs dans ltude qualitative, cette force de liaison permet de reprer les plus signifcatifs.
En relaxant les contraintes de liaison progressivement, nous discernons lchelle des liaisons apparaissant entre
les clusters. Celles-ci sont interprtes selon deux modalits.
Dune part, nous en dduisons une hirarchie des classes smantiques des images qui aboutit des catgories
sur-ordonnes qui sont les scnes dintrieur (cuisines, salons...), les scnes artifcielles dextrieurs (villes, routes,
technologie...), les paysages naturels (montagnes, forts, champs), et les scnes ouvertes (paysages naturels ayant
une ligne dhorizon bien marque). Cette dernire catgorie nmerge que pour les images en niveau de gris. Dans
ce cas, nous constatons aussi au niveau des liaisons les plus faibles, lapparition de la catgorie des scnes artif-
cielles regroupant les scnes dintrieur et toutes les images contenant des constructions humaines.
Dautre part, nous identifons deux autres catgories sur-ordonnes, qui sont celles des animaux et des
personnages . Ces deux catgories rsultent aussi dune hirarchie, mais celle-ci semble aboutie un niveau
de liaison plus lev que les catgories prcdentes. Les liaisons de plus faible niveau font alors des relais entre
les autres catgories. Ces images sont souvent lies un contexte fortement smantique, tel que lactivit des
personnages.
Chapitre 4
- 92 -
Dfnition de catgories smantiques
- 93 -
Figure 4.10 : Dendrogramme symbolique illustrant la hirarchie des catgories smantiques. Les noms donns aux catgories
ont t dtermins la suite des entretiens post-exprimentaux avec les sujets. Les fches en traits pointills
indiquent les liens spcifques aux images en niveau de gris. Les pointills sont les liens contextuels.
Force inter-image
moyenne
10%
75%
25%
50%
Routes Rues Villes
Batiments
seuls
Scnes
technologiques
Scnes
artifcielles
extrieures
Scnes
urbaines
Animaux
Personnages
Enfants
Parents et
enfants
Belles des
champs
Gens
la neige
Mouettes Vaches
Montagnes
enneiges
Scnes
dintrieur
Scnes
dintrieur
Plages
(paradisiaques)
Plages
Champs
Dserts
Dserts
Scnes
ouvertes
Paysages
naturels
Animaux
terrestres
Arbres et
forts
Champs
Scnes artifcielles
Liaisons contextuelles
Liens spcifques aux
images en niveau de gris
Liaisons hirarchiques
Chapitre 4
- 94 -
Dfnition de catgories smantiques
- 95 -
4.6 Contribution de ces travaux
Depuis une dizaine dannes, la communaut de vision par ordinateur cherche discriminer des catgories
dimages smantiques, partir des attributs bas-niveau de celles-ci. Pourtant, ce nest que plus rcemment que
certains chercheurs se sont poss explicitement la question de savoir comment identifer objectivement ces classes.
Dans ce domaine, la pratique courante tait de confer un nombre rduit de sujets humains le soin dattribuer
les labels aux images, mais en fxant a priori les catgories envisages [GOR94, SZU98]. Avec lmergence de la
problmatique de lindexation dimages, il est devenu indispensable dtendre cette pratique, en commenant par
se demander quelles catgories il est licite de sparer. Les travaux de Rogowitz et ses collgues [ROG98], et de
Vailaya et les siens [VAI98, VAI01] apparaissent comme des tournants dcisifs pour cet objectif.
Nous avons men une exprience du type Computer Scaling [ROG98], en y apportant deux innovations.
Premirement, il est demand aux sujets une estimation quantitative de la similarit entre les images associes. En
plus de son apport intrinsque, cet ajout permet de modrer une association non dsire dans la premire tape, au
cas o le sujet ne trouve aucune image trs satisfaisante parmi les huit images tests proposes. Deuximement nous
avons conduit lexprience avec des images en niveau de gris, puis avec les mmes images en couleur. Cela donne
lieu lvaluation relle de lapport de la couleur dans le contexte de lidentifcation des catgories smantiques.
Nous avons traduit les rsultats des expriences, de deux manires diffrentes, en terme de distances entre
images. Les deux types de matrices de distances induits sont cens traduire un point de vue antagoniste. La ma-
trice D
intra
utilise directement les niveaux de similarit estims par les sujets, et a tendance refter les catgories
smantiques en rapprochant les images semblables. La matrice D
inter
utilise au contraire le contexte dans lequel
a t effectue lassociation initiale entre limage de rfrence et limage clique. Selon ce schma, cest le non-
loignement des images semblables qui leur permet de ntre pas spares. Bien que la relation (4.5) lie ces deux
matrices, linformation contenue dans D
intra
et D
inter
est diffrente du fait de limpossibilit dinterprter de faon
univoque les images non cliques . Nous avons ensuite propos un critre permettant de quantifer lasymtrie
des matrices de distances, et avons conclu que leur symtrisation est raisonnable, sous rserve dexaminer les cas
particuliers.
Nous avons projet lespace perceptif rsultant des expriences laide dune Analyse en Composantes Cur-
vilignes [DEM97]. Cet algorithme prsente de multiples avantages par rapport aux autres algorithmes de type
Multidimensional Scaling . En particulier, la projection non linaire sans contrainte topologique en sortie per-
met dobtenir des clusters smantiques plus loquents que les axes smantiques trouvs dans [ROG98]. Il ressort
de ces projections des espaces perceptifs que la couleur est rarement ncessaire lidentifcation smantique des
classes. Nanmoins, cela nexclut pas quelle puisse faciliter une tche de discrimination, voire tre suffsante pour
des tches trs spcialises.
Nous avons tudi les asymtries perceptives qui ont t limines lors de la symtrisation des matrices de
distances, en dfnissant le rang de proximit dun couple dimages, puis en examinant les carts entre ceux-ci.
Ceci a mis en vidence des asymtries pertinentes, dont linterprtation sest rvle cohrente avec un principe
dasymtrie connu en psychologie de la vision.
Chapitre 4
- 94 -
Dfnition de catgories smantiques
- 95 -
Enfn, une tude quantitative des rsultats prcdents, base sur un test de signifcation statistique, a permis de
dfnir une force des liaisons inter-images. Cela a conduit discerner une structure hirarchique dans les catgories
dimage. Une telle hirarchie a dj t propose par Vailaya en se basant sur le jugement de huit sujets, mais celle-
ci est purement descendante. Au contraire dune telle hirarchie stricte, nous proposons un schma perturb
par deux sur-catgories portant une smantique forte, qui sont les animaux et les personnages . De plus,
la reproduction de lexprience avec des images couleur nous a permis didentifer dans cet organigramme des
modifcations dues la chrominance.
4.7 Rendre Csar...
Le protocole exprimental a t cautionn par lensemble de lquipe inter-disciplinaire compose de
Catherine Berrut, Anne Gurin-Dugu (CLIPS), Alan Chauvin, Sophie Donadieu, Christian Marendaz et Carole
Peyrin (LPNC) et Jeanny Hrault (LIS). Le choix des images, llaboration de lexprience, le droulement prati-
que de celle-ci (explication du protocole puis entretien avec les sujets), la dfnition des matrices intra et inter et
une partie de lanalyse qualitative sont le fruit de la collaboration avec Nathalie Guyader (publications [2, 3, 4] en
rapport avec le manuscrit). On trouvera dans sa thse une autre exploitation de cette exprience.
Chapitre 4
- 96 -
- 97 -
5.1 Motivations et modle dimage (rappel)
Le but de nos travaux est dobtenir une description des images naturelles qui facilite lorganisation smantique
de celles-ci, en vue dindexer et de retrouver de telles donnes dans des bases de donnes trs larges. La recon-
naissance dune scne est une tche aise pour le systme visuel humain, si bien que les travaux en psychologie
de la vision et ceux de modlisation du codage visuel savrent tre une source dinspiration naturelle pour notre
approche. En particulier, nous nous sommes bass sur le principe de rduction de redondance propos par Barlow
[BAR61, BAR01] et souhaitons montrer, quen plus de leffcacit du codage, il peut conduire une organisation
perceptivedes scnes telle que nous la souhaitons. Cest une approche cologique qui part du signal pour
aboutir une organisation smantique, se distinguant ainsi des approches traditionnelles en vision par ordinateur
qui partent de lorganisation souhaite et recherchent les descripteurs appropris pour la retrouver. Il existe plu-
sieurs approches pour extraire de tels descripteurs [FOL90, OLS96, HAP96, OLS97]. Nous avons choisi dutiliser
lAnalyse en Composantes Indpendantes [BEL97, HOY00, LAB01], qui assure la diminution de redondance par
lindpendance statistique entre les nouvelles composantes et fait merger des descripteurs ressemblant aux cellu-
les simples du cortex visuel [HAT98a, HAT98b].
Chapitre 5
Extraction et caractrisation de descripteurs
adapts aux images naturelles.
L'Analyse en Composantes Indpendantes permet d'extraire des descripteurs directement des images naturel-
les. Nous retraons tout dabord les principales motivations qui nous incitent utiliser cet algorithme et rappelons
le modle dimage prsum (5.1). Nous distinguons trois temps principaux dans le processus dextraction, qui
concernent les images, puis les imagettes qui en sont extraites et enfn lutilisation de ces dernires en entre dun
algorithme dACI. La chane dobtention des descripteurs est dtaille et le choix des paramtres est expliqu
et justif pour les tapes successives (5.2). Nous caractrisons alors les fltres obtenus et montrons notamment
comment ils sadaptent aux statistiques des images dont ils sont extraits (5.3). Enfn, nous tudions les caract-
ristiques du codage des images naturelles qui en rsulte (5.4).
- 98 -
Chapitre 5
- 99 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Reprenant les notations du chapitre 3, le modle adopt revient considrer quune image est la superposition
linaire de N fonctions de base
i
(x,y), actives par des causes (s
1
, ..., s
N
) indpendantes. Chaque image est
donc reprsente par un chantillon particulier de ces sources indpendantes, correspondant leurs activits pour
la gnrer. En pratique, un tel modle nest appliqu qu une partie P(x,y) de limage (imagette ou patch), qui
sexprime donc sous la forme :

P x y s x y
i i
i
N
( , ) ( , ) =
=


1
(5.1)
Ces imagettes sont collectes dans des images naturelles, dplies et accoles les unes aux autres pour former
la matrice X des donnes (fgure 5.1). Un algorithme dACI est ensuite appliqu sur ces donnes afn destimer
la matrice de sparation W contenant sur chaque ligne les descripteurs recherchs. Ceux-ci sont assimils des
fltres RIF bidimensionnels F
i
, qui une fois appliqus aux donnes permettent de trouver une estimation (y
1
, ..., y
N
)
des causes (s
1
, ..., s
N
). Linverse A de la matrice W est une matrice dont chaque colonne contient une estimation
des fonctions de base
i
(x,y). Dans la suite de ce chapitre, nous allons expliquer comment toutes ces tapes sont
ralises, puis nous caractriserons les descripteurs obtenus, ainsi que les codes des images rsultants des rponses
de ces fltres.
5.2 Extraction des descripteurs
5.2.1 Chane dobtention des descripteurs (vue gnrale)
Trois grandes tapes constituent le processus dextraction des descripteurs ACI des images et chacune est fonc-
tion de plusieurs paramtres. La premire tape concerne le choix et les prtraitements des images naturelles dont
seront extraits les donnes, puis les descripteurs. La seconde tape est relative aux vritables donnes utilises pour
lextraction, qui sont des imagettes (ou patches) rectangulaires extraites des images prcdentes. Ces donnes hri-
tent localement des prtraitements effectus globalement ltape prcdente et sont aussi traites spcifquement.
Enfn la troisime tape est lextraction des descripteurs eux-mmes, laide dun algorithme dACI tel que ceux
prsents dans le chapitre 3. Nous discutons du choix de lalgorithme et du rglage de ses paramtres.
5.2.2 Prtraitement des images
Les images utilises dans ces travaux proviennent de bases d'images commerciales (COREL, Goodshoot), ou
ont t collectes sur internet. Il s'agit d'images en couleur, gnralement de taille 256384, dont on ne conserve
que la luminance. De plus, nous en conservons la partie centrale uniquement, de telle manire que lon nait que
des images de taille 256256. Quand ces images naturelles reprsentent des environnements smantiques varis,
nous parlons dextraction toutes catgories . Le nombre des images peut tre trs variable et n'est pas d'une trs
grande importance puisque les donnes rellement utilises sont des imagettes (patches) extraites de ces images.
- 98 -
Chapitre 5
- 99 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Dans les premiers travaux appliquant cette mthodologie [OLS96, OLS97, BEL97], il importe seulement que
ces images soient reprsentatives des environnements naturels, telles des images de forts, de vie sauvage,
de pierres, etc [HOY00]. Il sagit surtout quelles soient les plus naturelles possibles , puisque ces tudes ont
souvent pour but de mettre en relation leurs rsultats directement avec la phylogense du systme visuel [HAT98a,
HOY00] et la stratgie de codage [OLS97, BEL97]. La quantit des donnes sera donc discute plus en dtail dans
le paragraphe consacr lextraction des imagettes.
Le choix du nombre dimages et surtout de leur catgorie smantique, peut nanmoins tre exploit. Puisque
certaines catgories smantiques ont un signal caractristique et en particulier un spectre dnergie prototypique
[OLI99], il serait intressant dappliquer le protocole des donnes provenant exclusivement dune seule cat-
gorie. Nous parlons alors dextraction par catgorie . Van Hateren et Van der Schaaf ont montr que les fonc-
tions de base extraites par ACI ont des caractristiques congruentes avec les donnes physiologiques des cellules
simples du cortex visuel [DEL82], confrmant alors que la stratgie de codage mise en application par lACI est
biologiquement plausible [HAT98a]. Lobjet de lextraction par catgorie est de raliser une phylogense res-
treinte certaines catgories dimages, comme le feraient les cellules simples de malheureux sujets humains
contraints, pendant des gnrations, vivre dans un environnement compos uniquement de scnes de villes ou de
pices dintrieur. Conformment aux observations de [HAT98a], il est probable que leurs cellules simples sadap-
teraient peu peu cet environnement particulier, compos dun nombre important de lignes verticales et hori-
zontales. Plus prosaquement, nous supposons que lapplication de lACI des imagettes provenant de catgories
smantiques restreintes et bien choisies en fonction de leurs caractristiques frquentielles, permettra dobtenir des
dtecteurs statistiquement adapts ces catgories. Une telle hypothse a dj t formule par Labbi [LAB99c,
LAB01] et constate qualitativement par Bosch [BOS00]. Dans ce chapitre, nous quantiferons prcisment cette
proprit.
Les donnes provenant des images brutes contiennent deux problmes potentiels. Lun se manifeste par la d-
croissance en 1 / f de leur spectre damplitude (en moyenne). Cela traduit la prpondrance des basses frquences,
ce qui peut tre compens par un rehaussement des hautes frquences. En invoquant la stationnarit des statistiques
des images naturelles, Fields remarque que les vecteurs propres de la matrice de covariance sont essentiellement
Figure 5.1: Application de lACI aux images.
.
.
.
i
m
a
g
e
t
t
e

d

p
l
i

e
.
.
.
.
.
.
F
o
n
c
t
i
o
n

.
d
e

b
a
s
e

d

p
l
i

e
.
.
.
source indpendante s
i

(
t
a
i
l
l
e

d
e
s

p
a
t
c
h
e
s
)

N
o
m
b
r
e

d
e

s
o
u
r
c
e
s
A
.
.
.
i
m
a
g
e
t
t
e

d

p
l
i

e
.
.
.
X
S
Filtre indpendant w
i
W
X
Y

N
o
m
b
r
e

d
e

s
o
u
r
c
e
s
Nombre de patches
Nombre de patches
Synthse Sparation
Estimation source
A.S = X W.X = Y
- 100 -
Chapitre 5
- 101 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
quivalents aux bases de Fourier [OLS96, STE00]. Ainsi la dcroissance du spectre damplitude se traduit par
le fait que les vecteurs propres associs aux basses frquences portent une plus grande variance que les vecteurs
propres qui correspondent aux hautes frquences. Hrault et ses collgues ont montr que linhibition latrale par
les cellules horizontales de la rtine se modlise par un fltrage passe haut qui rquilibre la dcroissance natu-
relle du spectre en 1 / f [ALL99, HER01]. Atick et Redlich ont propos de modliser le traitement rtinien par la
combinaison dun fltre redresseur et dun fltre passe-bas de frquence de coupure leve [ATI92a]. Une version
simplife a t utilise par Olshausen et Fields sous la forme [OLS97]:

W f fe
h
f
f
( ) =

\
)

0
4
(5.2)
Le fltre passe-bas limine le bruit haute frquence rehauss par le blanchiment (f
0
= 200 cycles par image). Il
apporte aussi une solution au second problme des donnes brutes, li lchantillonnage rectangulaire des ima-
ges. Ainsi, les coins du spectre de Fourier ne doivent pas tre pris en compte, car lchantillonnage dun pixel
horizontal et dun pixel vertical conduit un chantillonnage diagonal biais dun facteur 2. Notons que ces deux
artefacts peuvent tre compenss au niveau du prtraitement des patches, comme nous le verrons par la suite. Nous
utilisons le modle de rtine biologique de Hrault procdant un fltrage non linaire [HER01] et ajoutons un
fltrage passe-bas conforme la frquence f
0
de lquation (5.2).
Afn dtudier linfuence de la rsolution, nous avons implant deux pyramides dimage [BUR83, CHE92]
et choisi de conserver fxe la taille des fltres extraits (qui correspond la taille des imagettes). La premire pyra-
mide est implante par un fltrage passe-bas qui est un fltre de Butterworth dordre 6 et de frquence de coupure
0.4 pixel
-1
. La seconde ajoute un prtraitement rtinien semblable celui dcrit ci-dessus. Chaque pyramide com-
porte trois niveaux, si bien qu partir dune image initiale de taille 256256, nous obtenons six images : trois
ont t prtraites uniquement par le fltre de Butterworth et sont de taille 256256, 128128 et 6464 ; les trois
Figure 5.2 : Exemple dune image diffrentes rsolutions et le logarithme des modules de spectres correspondants (haut),
prtraite par un fltre de butterworth dordre 6 et de frquence de coupure 0.4 (milieu), puis par un prtraite-
ment rtinien (bas).
256256 128128 6464
I
m
a
g
e

b
r
u
t
e
256256 128128 6464
B
u
t
t
e
r
w
o
r
t
h
R

t
i
n
i
e
n
- 100 -
Chapitre 5
- 101 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
autres sont de mme taille et ont en plus t prtraites par le fltre rtinien (fgure 5.2). Etant donn que le fltre
(5.2) effectue les deux oprations simultanment, nous avons compar avec la stratgie consistant appliquer un
seul prtraitement rtinien au plus haut niveau de la pyramide, puis appliquer la pyramide de Butterworth sur
cette image (fgure 5.3). Cela mne des images assez semblables, bien quelles soient plus contrastes selon notre
stratgie ( droite sur la fgure 5.3) et que le spectre soit plus uniforme avec le rtinien antrieur . En pratique,
nous avons vrif que les rsultats noncs par la suite sont valables quelle que soit la stratgie employe.
Au niveau de la pyramide, la stratgie inverse, consistant conserver la taille des images et rduire celle des
fltres, aurait thoriquement pu tre employe. Elle possde lavantage de conduire des calculs moindres, puisque
ceux-ci sont lis la taille des imagettes extraites. Cependant, elle rend diffcile lapplication dun prtraitement
avantageux sur les patches que nous allons dcrire ci-aprs : lapodisation par fentrage de Hanning.
5.2.3 Extraction et prtraitements des imagettes
Des patches sont extraits, gnralement en nombre gal, en des lieux alatoires des images. Ces patches sont
dplis et rangs dans la matrice (X la fgure 5.1), formant ainsi la collection de donnes qui est utilise en entre
dun algorithme dACI. Dans un premier temps, nous allons dterminer la taille et le nombre dimagettes quil est
souhaitable (et ncessaire) dextraire.
Figure 5.3 : Deux stratgies pour la pyramide incluant le prtraitement rtinien. A chaque niveau est
reprsente l'image et le logarithme des modules de leurs spectres. Le fltre anti-repliement
dun niveau de la pyramide au suivant est un fltre de Butterworth dordre 6 et de frquence
de coupure 0.25. Nous appliquons prfrentiellement le rtinien postrieur.
B
0.25
+ Sous-chantillonnage
Filtrage rtinien
B
0.4
Butterworth F
c
= 0.4

B
0.25
+
B
0.25
+
B
0.4
B
0.25
+ B
0.25
+
Rtinien antrieur Rtinien postrieur
B
0.4

B
0.4

B
0.4
- 102 -
Chapitre 5
- 103 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Dans [OLS97], ce sont environ 200.000 imagettes de taille 1212 pixels qui sont extraites de 10 images
512512. Nanmoins, cet algorithme ne pratique pas rigoureusement une ACI, mais procde une descente de
gradient sur un critre conu pour optimiser la reconstruction des images sous contrainte de les reprsenter parci-
monieusement. Dans [BEL97], o un vritable algorithme d'ACI est utilis [BEL95], le nombre de patches a t
rduit 17.595. Avec l'algorithme FastICA , Hoyer et Hyvrinen utilisent 50.000 imagettes 12x12 extraites de
20 images 384256 [HOY00] et Hurri ne prend que 10.000 patches de taille 1212 dans les tudes comparatives
qu'il a entrepris [HUR97] avec 15 images de taille 256512. Pour des imagettes de taille plus large, Van Hateren
et Van de Schaaf utilisent environ 120.000 patches de taille 1818 parmi 4212 images [HAT98a] et Labbi et ses
collgues extraient 7500 imagettes 2121 partir de 255 images [LAB99b]. Tous ces auteurs obtiennent, avec une
remarquable constance, une collection de fltres passe-bandes, orients et localiss. La similitude de ces rsultats
est en partie due au fait que, malgr un nombre variable de donnes, les images utilises sont souvent des paysa-
ges naturels et que la stratgie pourrait tre trs souvent qualife de toutes catgories. Lutilisation dimages
radicalement diffrentes, tels des visages [BAR98], ou des objets [LAB99a, GAR02], mne des collections
de fltres diffrentes. Le point qui nous importe est que dans ces cas, alors que le but est la discrimination ou la
reconnaissance dimages, la taille des donnes est plus faible que prcdemment. En effet, ce sont souvent des
images entires qui sont utilises : Barlett utilise 425 images de visages diffrents de taille 5060 [BAR98] pour
constituer les donnes en entre de lalgorithme [BEL95] et Garg prend 200 images (voitures) de taille 10040 en
entre du mme algorithme [GAR02]. La taille relativement grande des donnes limite le nombre dchantillons,
car les auteurs souhaitent se prmunir de temps de calculs dmesurs. Face ces stratgies htrognes, justifes
heuristiquement, nous avons choisi destimer le nombre de mesures par paramtre calcul. Celui-ci est fonction
des prtraitements suivants (fgure 5.4).
Afn dviter un biais d lchantillonnage rectangulaire des imagettes, chaque patch est apodis par un fltre
circulaire de Hanning. Cette opration diminue la variance des donnes priphriques des imagettes, si bien que la
dimension intrinsque D
int
des nouvelles imagettes est infrieure celle des donnes originales. Pour des imagettes
3232, elle est ramene entre 600 et 750, ce qui revient perdre environ le tiers des pixels. Quantitativement,
cela reviendrait utiliser des fentres rectangulaires non apodises de taille 2525 ( = 625 pixels signifcatifs)
2727 ( = 729 pixels). On comprend alors notre choix de faire varier la taille des images plutt que celle des
.
.
.
i
m
a
g
e
t
t
e

d

p
l
i

e
.
.
.
X
ACP
Image
Extraction Imagette
Figure 5.4 : Chane de prtraitement des imagettes.
A
p
o
d
i
s
a
t
i
o
n

(
H
a
n
n
i
n
g
)
- 102 -
Chapitre 5
- 103 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
imagettes dans la conception des pyramides. Au troisime niveau, les imagettes seraient de taille (32 / 2
3
)
2
= 88,
mais du fait de lapodisation, elles seraient ramenes une taille quivalente encore plus petite.
LAnalyse en Composantes Principales, permet de dterminer la dimension intrinsque des donnes prala-
blement centres (rang de la matrice de covariance) et de blanchir les donnes, cest--dire de les dcorrler et de
rendre leur variance unitaire. Dautres matrices de blanchiment peuvent dcorrler les donnes (3.3.2) et notam-
ment la matrice W
ZCA
= E{X.X
T
}
-1/2
qui est une matrice symtrique effectuant un traitement local en spatial [ATI93,
BEL97]. Au contraire, la dcorrlation par ACP est ralise au moyen de la matrice orthogonale W
PCA
= D
-1/2
F
T
(D
contient les valeurs propres de la matrice de covariance et F ses vecteurs propres) qui fournit des fltres locaux dans
le domaine frquentiel. Lavantage de cette transformation est quelle permet aussi de rduire la dimension des
donnes et dliminer les dimensions dont la variance a t fortement diminue par lapodisation de Hanning.
La dimension des donnes rduites R
dim
est suprieure au nombre de sources N
ICA
que lon veut extraire, mais
infrieure la dimension intrinsque des donnes : N
ICA
R
dim
D
int
. Si on extrait des imagettes de taille pp, on
ne peut estimer au maximum que N
ICA
= p
2
sources et la matrice W contient donc au plus N
ICA
2
= p
4
paramtres
estimer. En rduisant la dimension par ACP, nous navons plus que N
ICA
*R
dim
paramtres estimer. Chaque ima-
gette extraite fournit p
2
donnes, mais du fait de lapodisation le nombre de donnes rellement disponibles est
D
int
. Donc si on extrait N
patch
imagettes, cela fournit D
int
*N
ptch
donnes statistiquement signifcatives. Au fnal, nous
obtenons un coeffcient de qualit:

Q
N D
N R
patch
ICA
=

int
dim

mesures valides / paramtre estim (5.3)
Il est gnralement recommand davoir au moins 10 mesures par paramtre estim [SAP90]. En prenant
10.000 patches 3232, nous assurons un coeffcient de qualit suprieur 100 pour estimer jusqu quelques
centaines de fltres.
Diminuer la dimension limine le bruit et en pratique nous avons constat quil est ncessaire de rduire trs
fortement le nombre de donnes pour obtenir des fltres propres. Nous avons illustr ce phnomne sur la fgure
5.5 montrant des exemples de fltres et fonctions de base en fonction de la dimension de rduction R
dim
(= N
ICA
ici),
ainsi que lvolution de la part de variance encode en fonction de cette dimension. Nous comparons le prtrai-
tement Butterworth et le prtraitement rtinien , ainsi que leffet du fentrage de Hanning. Dans les quatre
cas, lallure des fltres samliore avec laugmentation de la rduction de dimension puisque le bruit est dautant
plus limin. Nanmoins, cela ne se fait pas au mme niveau selon le traitement.
Pour mieux comprendre leffet du prtraitement, nous avons reproduit les courbes avec une organisation trans-
verse (fgure 5.6), i.e avec un graphe pour chaque catgorie plutt que pour chaque traitement. Plus une courbe est
basse, plus il faut dunits pour encoder une mme part de variance. Nous constatons que le fentrage de Hanning
diminue bien le nombre de pixels variance signifcative puisqu prtraitement identique, elle est concentre sur
moins de dimensions. Nous pouvons rduire plus fortement la dimension sans perdre trop dinformation, ce qui est
avantageux en terme de temps de calcul. En rehaussant les hautes frquences, donc le bruit, le prtraitement rti-
nien a tendance augmenter le nombre de fltres intervenant dans lencodage des donnes. Ainsi sur la fgure 5.6,
- 104 -
Chapitre 5
- 105 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
0 50 100 150 200 250 300
50%
75%
100%
Figure 5.5 : En bas est reprsente lvolution de la part de variance encode par les R
dim
premiers fltres ACP. Au dessus sont
reprsents des exemples de fltres ACI extraits aprs rduction R
dim
par ACP. Traitement des images/imagettes:
(a) Butterworth - (b) Butterworth + Hanning - (c) Rtinien - (d) Rtinien + Hanning. En ordonne la part de
variance est gradue de 25% 1. En abscisse est indique la dimension. On donne six exemples de fltres et de
fonctions de bases en fonction de la dimension de rduction R
dim
. Le trait gras illustre lexemple particulier de
R
dim
= 200. Ils font partie dune collection de 100 descripteurs extraits partir de 10.000 patches 3232 issus de
50 images de villes et de scnes fermes. Pour chaque fgure: ligne 1 : fonctions de base des villes - ligne 2 :
fltres de villes - ligne 3 : fonctions de base des scnes fermes - ligne 4 : fltres des scnes fermes.
0 50 100 150 200 250
50%
75%
100%
0 100 200 300 400
50%
75%
100%
0 50 100 150 200 250
50%
75%
100%
(b) (c) (d)
100
150
300
200
400
Villes Sc. ouvertes
Sc. intrieures Sc. fermes
(a)
R
dim

R
dim
R
dim
R
dim
R
dim

Butterworth Butterworth + Hanning Rtinien Rtinien + Hanning
P
a
r
t

d
e

v
a
r
i
a
n
c
e
Fonctions de bases Villes
Filtres Villes
Fonctions de bases Sc. Fermes
Filtres Sc. Fermes
25% 25% 25% 25%
- 104 -
Chapitre 5
- 105 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
la courbe avec la condition Rtinien est systmatiquement la minorante de lensemble, ce qui signife quun
grand nombre dunits doivent tre extraites a priori pour reprsenter les donnes. Lajout du fentrage de Hanning
permet dutiliser le prtraitement rtinien en gardant une part de variance encode suprieure au prtraitement de
Butterworth seul jusqu R
dim
= 100 environ (selon les catgories).
Les scnes dintrieurs sont toujours celles qui peuvent tre codes avec le plus petit nombre dunits et les
scnes fermes avec le plus grand. Les scnes ouvertes ont lavantage avec le prtraitement de Butterworth et sont
dsavantages avec le prtraitement rtinien. Ainsi sur la fgure 5.5, pour un mme niveau R
dim
, les fonctions de
base et fltres de villes (les deux lignes du haut de chaque exemple) sont plus propres que ceux des scnes
fermes (les deux lignes du bas). Nous expliquons ce phnomne en le corrlant la complexit des scnes
impliques. Nous entendons la complexit au niveau du signal, cest--dire en terme de diversit de frquences
prsentes dans les images et de confgurations spatiales. Ceci sera trait plus en dtail dans le 5.3.3, mais nous
pouvons dj avancer que les scnes fermes sont bien celles qui prsentent les situations les plus diverses alors
que, schmatiquement, les scnes dintrieurs sont au contraire essentiellement composes de lignes horizontales
et verticales. Linformation coder est plus redondante, donc peut tre code par moins fltres (le code associ est
moins long). Linversion des courbes de villes et scnes ouvertes selon les prtraitements sexplique aussi
selon cette modalit: le prtraitement rtinien met plus en valeur les trs hautes frquences, plus nombreuses dans
des scnes caractre naturel (feuillages...), que celles reprsentant des environnements artifciels.
Tous ces commentaires restent valables pour lextraction toutes catgories . Nous avons reprsent une
collection complte des fltres ACI sur la fgure 5.7 et les fltres ACP correspondants sur la fgure 5.8. Nous avons
vrif lvolution de la courbe de variance pour les quatre prtraitements et celle-ci se situe systmatiquement au
milieu des quatre courbes de variance des fltres par catgorie .
0 100 200 300 400
0
0.5
1
Villes et rues
0 100 200 300 400
0
0.5
1
Sc. ouvertes
0 100 200 300 400
0
0.5
1
Sc. intrieures
0 100 200 300 400
0
0.5
1
Sc. fermes
Butterworth
Butterworth Hanning
Rtinien
Rtinien Hanning
Figure 5.6 : Evolution de la variance en fonction du traitement, pour des fltres extraits de chaque catgorie. Trait plein :
Butterworth seul - Pointills : Butterworth + Hanning - Tirets : Rtinien - Tirets/pointills : Rtinien + Hanning.
R
dim

R
dim

R
dim

R
dim

- 106 -
Chapitre 5
- 107 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Figure 5.7 : 100 fltres ACI extraits de 50 images de taille 256256 appartenant plusieurs catgo-
ries smantiques (extraction toutes catgories ). Nous avont utilis 10.000 patches
3232 et avons rduit la dimension 150 par ACP. (a) Les images ont t prtraites
par le fltre passe bas de Butterworth seulement - (b) Idem (a), mais les imagettes
ont t apodises par un fentrage de Hanning - (c) Les images ont t prtraites
par un fltre rtinien en plus du fltrage passe bas - (d) Idem (c) avec le fentrage de
Hanning
(a) (b)
(c) (d)
- 106 -
Chapitre 5
- 107 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Figure 5.8 : Les fltres ACP correspondants aux fltres ACI de la fgure 5.7. (a) Butterworth seul
- (b) Butterworth + fentrage de Hanning - (c) Butterworth + Rtinien - (d) Butterworth
+ Rtinien + fentrage de Hanning
(c) (d)
(a) (b)
- 108 -
Chapitre 5
- 109 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Nous revenons maintenant sur deux prtraitements optionnels, pralables lACP, que nous avions volontai-
rement ignors pour la clart et de fuidit de lexpos. Au lieu de centrer les donnes comme cela est fait classi-
quement avant lACI, certains auteurs [HUR87, HYV01b] prfrent ter la moyenne locale de chaque patch. Dans
lespace des caractristiques, cela revient projeter les donnes sur lhyperplan [1 1... 1 1]
T
, donc liminer la
direction propre de la composante continue. Quand on apodise les imagettes par un fltre de Hanning, la compo-
sante continue estime lenveloppe du fltre. Remarquons que la stationnarit des statistiques des images naturelles
rend cette opration approximativement quivalente un centrage des donnes (limage ayant t centre rduite
dans son ensemble auparavant) et la diffrence est suffsamment faible en pratique pour ngliger un centrage sup-
plmentaire. La rduction de dimension par ACP permet ensuite dliminer cette composante, puisquelle est alors
associe une valeur propre faible ou nulle. Au cas o lon prfre centrer les donnes classiquement, on peut ter
la premire composante qui correspond cette valeur moyenne.
Lautre prtraitement utilis par ces auteurs est de normaliser chaque imagette par sa variance locale. Cela
permet quelles aient toutes une contribution quivalente pour lestimation des composantes indpendantes. Luti-
lit de ce prtraitement est surtout quen pratique, il permet des temps de convergence plus courts [HUR97] pour
certains algorithmes (table 5.1).
5.2.4 Extraction des fltres par ACI
Les donnes sont centres, blanchies et subissent ventuellement des traitements supplmentaires avant dtre
utilises en entre d'un algorithme d'ACI. Parmi le panel d'algorithmes prsents dans le chapitre 3, nous devons
donc choisir celui qui est le plus adapt notre problme. Deux critres sont pris en compte pour justifer ce choix:
le temps de convergence de lalgorithme et lvaluation qualitative (visuelle) des fltres obtenus.
Le cadre exprimental arbitraire utilis pour comparer les algorithmes est constitu de 10.000 imagettes de
taille 1212 pixels, extraites de 13 images naturelles, qui ont t centres puis blanchies par ACP. Cela nous a aussi
permis de rduire les dimensions des donnes 49, ce qui correspond au nombre de descripteurs que nous avons
cherch extraire. Ces choix arbitraires sont semblables ceux de lunique tude entreprise dans cette voie (sur
des images) notre connaissance [HUR97]. Les algorithmes ont t implants en MATLAB, gnralement avec le
code fourni par leurs auteurs (table 5.1).
Lexamen des temps de convergence des algorithmes (table 5.2) nous a essentiellement dissuad dutiliser
lalgorithme JADE [CAR93]. Ce dernier ncessite une grande quantit de mmoire, ce qui limite la taille des don-
nes traites (raison pour laquelle nous nous sommes limits des patches 1212 pour les expriences de la fgure
5.8). Pour lalgorithme de Bell & Sejnowski (algorithme B&S [BEL95]), nous avons suivi le protocole indiqu
dans [BEL97] et le temps indiqu correspond 50 itrations. La normalisation des patches permet gnralement
de rduire le temps de convergence, notamment pour JADE, mais conduit la divergence de lalgorithme B&S.
Des problmes de convergence ont dj t constats avec cet algorithme [LAB01], pour des patches de taille plus
grande que 1212, ce que lon retrouve en absence de rduction de dimension par ACP.
Concernant lalgorithme FastICA, il existe deux versions [HYV97, HYV01] selon la mthode utilise pour
- 108 -
Chapitre 5
- 109 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Algorithme Patches non
norms
Patches nor-
ms
Patches apo-
diss
Patches apodi-
ss norms
JADE 116 min 11 sec 70 min 37 sec 72 min 14 sec 52 min 20 sec
Bell & Sejnowski 8 sec Non Convergence 8 sec Non convergence
FastICA def. (g
1
) 6 min 4 min 7 min 30 sec 9 min 40 sec
FastICA def. (g
2
) 8 min 4 min 45 sec 8 min 55 sec 9 min 30 sec
FastICA def. (g
3
) 2 min 35 sec 2 min 25 sec 2 min 5 sec 2 min 30 sec
FastICA sym. (g
1
) 32 sec 36 sec 25 sec 24 sec
FastICA sym. (g
2
) 34 sec 27 sec 29 sec 28 sec
FastICA sym. (g
3
) 11 sec 8 sec 17 sec 16 sec
Table 5.2 : temps de convergence pour divers algorithmes. Les donnes utilises sont 10.000 patches 1212 extraits de 13
images naturelles. Ils ont t centrs puis apodiss (ou pas) et norms par leur variance (ou pas). On a extrait 49
composantes indpendantes aprs blanchiment et rduction de dimension par ACP. Les algorithmes sont program-
ms en Matlab et les calculs ont t mens sur un Pentium IV 2.4 GHz avec 512 Mo de mmoire vive. sym est
labrviation pour indiquer que lon utilise lalgorithme Fast-ICA en version symtrique et def en dfation.
La non linarit est indique entre parenthses et correspond aux notations de la table 3.4. La normalisation des
patches nuit la convergence de lalgorithme de Bell & Sejnowski.
orthogonaliser les sources (table 3.3). Lavantage de la mthode par dfation est quelle fournit un ordre destima-
tion des fltres, ce qui peut tre utile pour un processus de slection. Dun autre cot, elle prsente le dsavantage
daccumuler les erreurs destimation au cours de la convergence : une inexactitude dans lestimation dune source
biaise les estimations suivantes. Pour ces raisons, nous prfrons utiliser lorthogonalisation globale (symtrique)
des sources, qui rclame plus de mmoire, mais qui a le double avantage de converger plus vite et de ne pas ac-
cumuler les erreurs au cours de la convergence. Nous avons test trois non-linarits pour lalgorithme du point
fxe (g
1
g
2
g
3
la table 3.2). Lutilisation de g
3
(t)=t
3
revient prendre le kurtosis pour fonction de contraste, mais
pour des sources sur-gaussiennes, les deux autres sont prfrables. On remarque que la normalisation des patches
change gnralement peu de choses pour la mthode symtrique et namliore les rsultats de la FastICA par d-
fation que dans le cas o les patches ne sont pas apodiss. Dune manire gnrale, le temps de convergence ne
permet pas de choisir dfnitivement entre les algorithmes, si ce nest pour carter JADE.
En ce qui concerne la qualit des descripteurs, la diffcult rside trouver des critres pour lestimer, ceux-ci
devant essentiellement tre dfnis en fonction de l'application vise. Notre but tant d'extraire des caractris-
tiques fondamentales des images, nous avons pris en compte les rsultats existants dans la littrature, qui se
Bell & Sejnoski : http://www.cnl.salk.edu/~tony/ica.html
JADE : http://www.tsi.enst.fr/~cardoso/guidesepsou.html
FastICA : http://www.cis.hut.f/projects/ica/fastica/code/dlcode.html
: http://www.cns.nyu.edu/~phoyer/
Table 5.1 : Les adresses o on peut obtenir les codes des algorithmes dACI. Pour Fast-ICA, la premire adresse est celle du
FastICA package qui permet toutes les implantations testes ici. La seconde est ladresse du site de Patrick Hoyer
qui fournit tous les codes permettant de reproduire les expriences de ses publications (reproductible researches).
Ceux-ci sont plus particulirement orients lapplication de lACI aux images naturelles.
- 110 -
Chapitre 5
- 111 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
JADE
B & S
Fast-ICA
def (tanh)
Fast-ICA
def (gaus)
Fast-ICA
def (kurt)
Fast-ICA
sym (tanh)
Fast-ICA
sym (gaus)
Fast-ICA
sym (kurt)
- 110 -
Chapitre 5
- 111 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Figure 5.9: [page de gauche] Fonctions de base extraites par divers algorithmes. Les donnes utilises sont 10.000 patches
1212 extrait de 13 images naturelles. Les patches ont t centrs et ont t traits par diffrentes mthodes : Gauche
: patches bruts - Centre gauche : patches norms - Centre droit : patches apodiss - Droite : patches apodiss et
norms. On a extrait 49 composantes indpendantes aprs blanchiment et rduction de dimension par ACP. sym
est labrviation pour indiquer que lon utilise lalgorithme Fast-ICA en version symtrique et def en dfation. La
non linarit est indique entre parenthses et correspond aux notations de la table 5.4.
ressemblent remarquablement [OLS97, BEL97, HAT98a]. En particulier, Hurri a ralis l'tude comparative de
seize extractions de caractristiques indpendantes d'images naturelles [HUR97], qui donnent des pistes pour faire
des choix pratiques dfaut de justifcations thoriques. A ce niveau, nous avons donc cherch obtenir des fltres
ayant des structures bien dfnies, ne prsentant pas de bruit. Cest donc lexamen visuel de ces fltres, combin
ltude de la littrature et aux exprimentations de la fgure 5.9 qui nous ont guid.
Globalement, nous obtenons des fltres passe-bandes, orients et localiss, ressemblant ceux dj observs
dans la littrature [BEL97, HAT98a, LAB99b] et pouvant tre assimils en premire approximation des fltres
de Gabor. En dehors de B&S, la normalisation des patches amliore souvent lallure des fltres, mais ce nest pas
le cas pour FastICA avec tanh ou gauss, alors que cela semble indispensable pour JADE et FastICA avec le
kurtosis. Pour FastICA, laccumulation des erreurs destimation avec la mthode par dfation donne des fltres
moins bien dfnis que pour lorthogonalisation symtrique. Nous avons t particulirement intrsss par les
fltres structures plus larges (basses frquences) que font emmerger B&S ainsi que Fast-ICA avec g
1
(t) = tanh(t)
ou g
2
(t) = t.exp(-t
2
/2) . Ces trois algorithmes sont clairement les plus intressants puisquils fournissent les descrip-
teurs les plus nets (fgure 5.9). Nous avons prfr lalgorithme FastICA car B&S a des problmes de convergence
quand la dimension des donnes est peu rduite par ACP. Selon les conditions exprimentales, les fltres obtenus
peuvent prendre diffrentes formes. Nous allons maintenant en tudier les proprits.
5.3 Caractrisation des fltres ACI
5.3.1 Lien entre fltres et fonctions de base
Lextraction de descripteurs par ACI estime une matrice W de sparation et on obtient la matrice A de mlange
correspondante en prenant sa pseudo inverse. Ainsi, AW = I et chaque ligne de la matrice W est un fltre w
i
qui
rpond idalement une fonction de base a
i
range en colonne dans la matrice A (fgure 5.1). Laspect idal de
cette rponse est entendu au sens o w
i
a
j
=
ij
(1 si i = j et 0 sinon). Nous pouvons alors trouver la relation qui
existe entre une fonction de base et le fltre correspondant en calculant lautocovariance des imagettes centres
P(x,y) [HYV01b], ces dernires tant dcrites selon le modle de lquation 5.1 :
- 112 -
Chapitre 5
- 113 -
Extraction et caractrisation de descripteurs adapts aux images naturelles

C x y x y E P x y P x y
C x y x y E a x y a x y
i j
, ; ', ' , ', '
, ; ', ' , ', '
( ) = ( ) ( )
( ) = ( ) (( )
'
!
1
1
+
1
1
'
!
1
1
+
1
1
( ) = ( ) ( )

s s
C x y x y a x y a x y E s s
i j
i j
i j i
,
, ; ', ' , ', '
jj
i j

,
(5.4)
Or les sources sont dcorrles et ont une variance unitaire suite au blanchiment des donnes, donc E{s
i
s
j
} =
ij
.
et on obtient :

C d d a x y a x y
x y i i
i
, , ', ' ( ) = ( ) ( )

(5.5)
Par suite :

C x y x y w x y a x y a x y w x y
k
x y
i i k
x y
, ; ', ' ', ' , ', ' ', '
', ' ', '
( ) ( ) = ( ) ( ) ( )

( ) ( ) = C x y x y w x y a x y
k
x y
k
, ; ', ' ', ' ( , )
', '
(5.6)
Les fonctions de base sont donc des versions fltres des fltres, o le fltre est le symtrique de lautocovariance
des donnes. Or daprs le thorme de Wiener-Kitchine, la transforme de Fourier de lautocovariance est le spec-
tre de puissance moyen des donnes. Pour les images naturelles, nous avons vu que celui-ci a une forme peu prs
anisotrope et dcrot en 1 / f
2
. Les fonctions de base sont donc des versions fltres passe-bas des fltres ACI et ont
une orientation et une frquence centrale semblable.
5.3.2 Paramtrisation des fltres
Les fltres ACI extraits des images naturelles sont en grande majorit des fltres passe-bande localiss et orien-
ts (fgure 5.7 et 5.9). Ils peuvent donc tre assimils des fltres de Gabor en premire approximation (fgure
5.10). Nous recherchons donc le modle de fltre de Gabor bidimensionnel le plus proche, en minimisant lun des
critres quadratiques suivants :

Q u v
F u v
F u v
G u v F
u v
ACI
ACI
u v 1 0 0 0 0
, , ,
,
max ,
, | , , , ( ) =
( )
( ) ( )
( )

l
l
l
l

2
0 5 0 5
0 0 5
dudv
u
v
. . ,
.
(5.7)

Q u v
F u v
F u v
G u v F
u v
ACI
ACI
u v
u v
2 0 0
0 0
, , ,
,
,
, | , , ,
,


( ) =
( )
( )

( )

GG u v
dudv
u v
u
v
,
,
. . ,
.
( )

l
l
l
l
l
l
l
l



2
0 5 0 5
0 0 5
(5.8)
F
ACI
(u,v) est le module de la transforme de Fourier du fltre dont on cherche les caractristiques et G(u,v) est
un fltre de Gabor bidimensionnel. Lquation (5.7) normalise le fltre de faon avoir un maximum 1 et lqua-
tion (5.8) une nergie unitaire. Le fltre de Gabor est dcrit par deux couples de paramtres, qui sont la frquence
centrale du lobe gaussien (F
0
,
0
) et ses cart-types (
u
,
v
). Il sagit du fltre s'crivant:

G u v F
u F v
u v
u v
, | , , , exp
0 0
0
2
2
2
2
1
2


( ) =
( )

\
)

'
!
1
1
++
1
1
'
!
1
1
+
1
1
(5.9)
qui a subi une rotation d'angle
0
. La description des deux fonctions est faite dans le domaine frquentiel, notam-
- 112 -
Chapitre 5
- 113 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
ment parce qu'un fltre de Gabor y est dcrit simplement et entirement par un unique lobe gaussien. Nanmoins,
les fltres ACI sont extraits individuellement dans le domaine spatial et puisqu'ils sont assimils des fltres rels,
chacun ne reprsente qu'un demi fltre de Gabor . En consquence, leur transforme de Fourier a un module qui
comporte deux lobes symtriques par rapport l'origine de l'espace frquentiel, correspondant la transforme de
Fourier de la partie relle seule (modulation en cosinus) ou de la partie imaginaire seule (modulation en sinus).
Le paramtre F
0
donne une indication sur la rsolution analyse et
0
sur l'orientation de l'analyse. Cette fr-
quence du pic central pourrait aussi tre repre dans un repre cartsien, rendant compte des frquences horizon-
tales u
0
et verticales v
0
analyses (fgure 5.11). L'tendue de l'analyse, qui est celle de la gaussienne, est donne par
(
u
,
v
). Ces cart-types sont directement lis ceux de la gaussienne en spatial (modulation) par les relations:

u
x
v
y
et = =
1
2
1
2
(5.10)
L'tendue de l'analyse peut tre reprsente par d'autres paramtres la signifcation physique plus explicite
(fgure 5.9). La bande radiale B
r
donne le rapport entre les frquences maximales et minimales analyses (en
octave), pour une hauteur donne (0 < < 1). Il est courant de prendre = 1/2, ce qui correspond l'analyse
mi-hauteur de la gaussienne. D'une manire gnrale, la bande radiale s'exprime par :

B
F
F
r
u
u
=
( )
( )

\
)

log
log
log
2
0
0
2
2


(5.11)
L'angle sous lequel est vue la gaussienne depuis l'origine du plan frquence est la bande transversale et avec
les mmes notations que prcdemment, cela vaut :

=
( )

\
)

2
2
0
Arctan

v
F
log
(5.12)
Figure 5.10: Exemple de fltres ACI dans le domaine frquentiel (fltres extraits de 10.000 patches dimages de villes, trait
par Butterworth uniquement, R
dim
= 150). La plupart dentre eux sont trs proches de fltres de Gabor
- 114 -
Chapitre 5
- 115 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
0
0.2
0.4
0.6
0.8
1

0
0
v
u
0.5
0.5
-0.5
-0.5
Figure 5.11 : Les paramtres dun fltre de Gabor. La bande tranversale et la bande radiale B
r

sont dtermines une certaine hauteur . Couramment, = 0.5.
F
0
u
v

(
)
2
l
o
g

v
( ) 2log

0
0.5
0.5
0
u
0
v
0
On peut aussi rsumer la forme gnrale du lobe gaussien par le facteur de forme, qui est le rapport des va-
riances F
F
=
v /

u
. Quand ce rapport vaut 1, la gaussienne est circulaire. Quand ce n'est pas le cas, cela est la
marque d'une slectivit cohrente avec l'orientation principale si le rapport est infrieur 1, ou perpendiculaire
l'axe orient
0
s'il est suprieur. Ainsi, bien que la modlisation des fltres ACI par leur fltre de Gabor le plus
proche renvoie quatre paramtres, il est possible d'en driver plusieurs autres, en fonction de la proprit que l'on
cherche analyser.
Pour loptimisation de (5.7) et (5.8), nous avons implant une descente de gradient classique et utilis une
mthode rgion de confance utilisant un gradient conjugu [COL94 COL96] (fonction MATLAB standard).
Si aucune contrainte nest impose sur les paramtres, loptimisation des fonctions de cot peut conduire des
rsultats aberrants dans certains cas extrmes, tels des cart-types ngatifs, ou des frquences centrales suprieu-
res 0.5. Nous avons donc optimis sans contrainte dune part, puis sous les contraintes suivantes dautre part :
F
0
[0, 0.5],
0
[0, ] ;
u
,
v
[10
-4
, 0.25]. Nous choisissons la modlisation qui mne lerreur la plus faible.
En immense majorit, la fonction de cot (5.7) aboutit de meilleurs rsultats que (5.8). Gnralement loptimi-
sation sous contrainte est prfrable. Nous prsentons quelques exemples et contres-exemples dans la fgure 5.12,
montrant que le meilleur des quatre modles donne presque toujours une estimation correcte de la rsolution dana-
lyse du fltre (F
0
) et de lorientation (
0
). Lestimation des carts types est gnralement correcte, mais quand les
fltres sont trop diffrents dun fltre de Gabor, le procd doptimisation ne fournit que la meilleure approximation
possible. Nanmoins, nous estimons la dmarche satisfaisante puisque notre but est dtudier les statistiques des
collections de fltres dans leur ensemble.
5.3.3 Images prises en compte
Nous extrayons quatre collections de fltres partir dimages smantiquement diffrentes (extraction par cat-
gorie). Les catgories des images sont cohrentes avec ltude psychophysique du chapitre 4, qui a fait merger au
niveau smantique le plus large, les scnes intrieurs (cuisines, salons, ...), les paysages naturels (forts, montagnes
- 114 -
Chapitre 5
- 115 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
et champs), les scnes ouvertes (plages, champs et dserts) et les scnes artifcielles extrieures (routes, villes,
rues, btiments isols, scnes de technologie). Ces quatre catgories sont trs proches des catgories que lon con-
sidre ici (6.1). Deux sont communes : les scnes dintrieurs et les scnes ouvertes. Les premires comportent
un grand nombre de frquences verticales et horizontales et sont caractrises par un spectre en croix (fgure
5.13). Les scnes ouvertes se singularisent par la prsence dune ligne dhorizon bien marque favorisant les fr-
quences verticales. Les paysages naturels , sans les champs , ont t qualifs de scnes fermes, puisque
quune analyse frquentielle des catgories restantes (forts et montagnes) aboutit un spectre de puissance moyen
anisotropique. Enfn, les scnes artifcielles extrieures ont t restreintes aux images de rues, villes et btiments.
Leur spectre de puissance moyen ressemble celui des images de scnes dintrieur (spectre en croix ) et sen
diffrencie essentiellement au niveau des basses frquences, o les frquences horizontales sont plus marques.
Ceci est probablement d la prsence de buildings dans les images, qui contiennent de nombreuses structures
verticales. Nous reviendrons sur le choix de ces images au dbut du chapitre 6.
Figure 5.12 : Modlisation des fltres ACI par leur plus proche fltre de Gabor en vue den rcuprer les
paramtres caractristiques. Le fltre ACI (module du spectre) est reprsent en haut gauche
de chaque fgure. La lgende est indique en (e) Au dessus de chaque modle est indique
lerreur et les pointills montrent le modle choisi.
|TF(filtre 6)|
0.5 0 0.5
0.5
0
0.5
filtre 6
1 32
1
32
920.1
0.5 0 0.5
0.5
0
0.5
368.8
0.5 0 0.5
0.5
0
0.5
149.8
0.5 0 0.5
0.5
0
0.5
369.4
0.5 0 0.5
0.5
0
0.5
|TF(filtre 23)|
0.5 0 0.5
0.5
0
0.5
filtre 23
1 32
1
32
867.3
0.5 0 0.5
0.5
0
0.5
396.6
0.5 0 0.5
0.5
0
0.5
232.6
0.5 0 0.5
0.5
0
0.5
396.7
0.5 0 0.5
0.5
0
0.5
|TF(filtre 4)|
0.5 0 0.5
0.5
0
0.5
filtre 4
1 32
1
32
212.5
0.5 0 0.5
0.5
0
0.5
207.9
0.5 0 0.5
0.5
0
0.5
212.5
0.5 0 0.5
0.5
0
0.5
208.8
0.5 0 0.5
0.5
0
0.5
|TF(filtre 22)|
0.5 0 0.5
0.5
0
0.5
filtre 22
1 32
1
32
940.2
0.5 0 0.5
0.5
0
0.5
230.3
0.5 0 0.5
0.5
0
0.5
150.7
0.5 0 0.5
0.5
0
0.5
231.9
0.5 0 0.5
0.5
0
0.5
|TF(filtre 36)|
0.5 0 0.5
0.5
0
0.5
filtre 36
1 32
1
32
967.8
0.5 0 0.5
0.5
0
0.5
635.2
0.5 0 0.5
0.5
0
0.5
944.7
0.5 0 0.5
0.5
0
0.5
635.1
0.5 0 0.5
0.5
0
0.5
|TF(filtre 38)|
0.5 0 0.5
0.5
0
0.5
filtre 38
1 32
1
32
929.6
0.5 0 0.5
0.5
0
0.5
398.4
0.5 0 0.5
0.5
0
0.5
378.6
0.5 0 0.5
0.5
0
0.5
396.9
0.5 0 0.5
0.5
0
0.5
|TF(filtre 35)|
0.5 0 0.5
0.5
0
0.5
filtre 35
1 32
1
32
905.1
0.5 0 0.5
0.5
0
0.5
294.7
0.5 0 0.5
0.5
0
0.5
145.5
0.5 0 0.5
0.5
0
0.5
188.7
0.5 0 0.5
0.5
0
0.5
|TF(filtre 48)|
0.5 0 0.5
0.5
0
0.5
filtre 48
1 32
1
32
848.7
0.5 0 0.5
0.5
0
0.5
606.7
0.5 0 0.5
0.5
0
0.5
912.1
0.5 0 0.5
0.5
0
0.5
606.1
0.5 0 0.5
0.5
0
0.5
(a) (b) (c)
(d) (e) (f)
(g) (h) (i)
Fonction de cot
(5.7) (5.8)
Gabor
frquen-
tiel
modle modle
n
o
n

O
p
t
i
m
i
s
a
t
i
o
n

c
o
n
t
r
a
i
n
t
e
Gabor
spatial
modle modle
o
u
i
- 116 -
Chapitre 5
- 117 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
0
0,2
0,4
-0,2
-0,4
0
0,4
0,2
-0,2
-0,4
fx
fy
log(E)
0,6
0,7
Figure 5.13 : Les quatre catgories dimages considres et leur spectre de puissance prototypique. (a) Villes - (b) Intrieurs
- (c) Scnes ouvertes- (d) Scnes fermes. Daprs [OLI99]
a b d c
5.3.4 Critres bivaris caractrisant les fltres
Nous appliquons la modlisation par fltre de Gabor prsente prcdemment et rcuprons ainsi les caract-
ristiques des fltres. Ltude des statistiques des fltres ACI de Van Hateren et Van der Schaaf [HAT98a] avait pour
but de comparer leurs proprits celles des cellules simples du cortex visuel. Leurs travaux ont donc consist
comparer les occurrences des divers paramtres dans les deux cas. Notre but ici est diffrent, puisque nous dsirons
les caractriser en terme de capacits discriminantes. Ltude des interactions entre des couples de paramtres est
donc apparue plus judicieuse ( statistiques bivaries ). Pour cette raison galement, ces expriences ont princi-
palement t effectues sur les fltres par catgories , alors que Van Hateren et son collgue avaient au contraire
tudi des fltres les plus gnraux possibles. Nous avons tudi linfuence de tous les prtraitements, puis analys
les rsultats selon trois critres: ladaptation des fltres aux spectres des images, leur slectivit en orientation et
leur slectivit en frquence.
Ladaptation des fltres aux spectres des images est dtermin par la localisation du pic central, partir de la
reprsentation des couples (F
0
,
0
) de chaque modle. Si les fltres sadaptent aux spectres, ils se situent prfren-
tiellement aux orientations et rsolutions les plus nergtiques en moyenne: sur les axes 0 et 90 pour les scnes
artifcielles (avec une lgre prdominance des frquences horizontales en basses frquences pour les villes ),
sur laxe vertical pour les scnes ouvertes et rgulirement rparties pour les scnes fermes.
La slectivit aux orientations rsulte de lanalyse de la coordination de lorientation
0
et du facteur de forme
F
F
ou de la bande transverse . Ces deux paramtres sont nanmoins lis et cette relation est quasi linaire tant
que la bande radiale ne prend pas de trop grande valeurs (fgure 5.14a). Nous avons choisi dutiliser le facteur de
forme qui a lavantage davoir une valeur numrique directement interprtable en terme de slectivit. Si F
F
est
infrieur 1, le fltre est slectif (pour les orientations) dans la direction
0
, alors que sil est suprieur 1, le fltre
a un lobe orient dans la direction perpendiculaire lorientation (fgure 5.14b). Dans le but de discriminer plus
- 116 -
Chapitre 5
- 117 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
effcacement, on souhaiterait que les fltres soient plus particulirement slectifs aux orientations dominantes des
spectres correspondants.
La slectivit en rsolution dcoule du lien entre la bande radiale B
r
et la frquence centrale F
0
. En effet, comme
le spectre des images dcrot en moyenne comme linverse de la frquence (1 / f), il serait intressant de voir si on
retrouve cette particularit en terme de rsolution danalyse des fltres. Si tel est le cas, il devraient donc avoir une
bande radiale qui volue linairement avec linverse de leurs frquences centrales.
5.3.5 Etude en fonction de la classe des images
Les fltres ACI sadaptent bien aux spectres prototypiques des catgories concernes (fgure 5.15). Pour les
catgories villes et intrieurs , les fltres se placent majoritairement dans le voisinage de laxe horizontal et
vertical. Pour les scnes fermes au contraire, ils ont une distribution anisotropique des rsolutions moyennes.
Pour les scnes ouvertes leffet est moins marqu, bien que lon ait une concentration autour de laxe vertical en
haute frquence. Le fentrage de Hanning provoque deux effets. Dans le domaine frquentiel, le lobe central est
plus large que celui dun sinus cardinal (TFD du fentrage rectangulaire), si bien que la rsolution danalyse aug-
mente et que les fltres peuvent tre plus haute frquence. Simultanment , on perd en prcision donc ladaptabilit
en ptit et les fltres sont distribus dans tout le plan frquence.
En rduisant plus fortement la dimension par ACP, nous obtenons des fltres encore mieux adapts aux spectres
des catgories (fgure 5.16). En particulier, la catgorie des scnes ouvertes a ses descripteurs majoritairement
situs autour de laxe vertical, sadaptant ainsi lallure globalement horizontale des images dont ils sont issus.
Cette rduction de dimension est aussi bnfque aux fltres des autres catgories qui en deviennent dautant mieux
adapts. La rduction de dimension par ACP entrane donc une adaptation aux structures les plus marquantes des
spectres en liminant les dimensions bruites. Nanmoins, la distinction entre bruit et information haute frquence
utile nest pas facile faire a priori. Nous estimons donc devoir quelque peu limiter cette diminution de rduction.
Il sera donc ncessaire de procder une slection des fltres.
0 0.5 1 1.5 2 2.5 3 3.5
0
0.5
1
1.5
2
2.5
B
r
=0.25
B
r
=0.50
B
r
=1.00
B
r
=2.00
B
r
=3.00
Facteur de forme
B
a
n
d
e

t
r
a
n
v
e
r
s
e
Figure 5.14 : (a) Relation entre la bande tranverse et le facteur de forme, en fonction de la bande radiale B
r
. (b) Comporte-
ment dun fltre de Gabor (lobe gaussien) vis--vis de lorientation en fonction du facteur de forme
(a) (b)
F
F
> 1
F
F
< 1
F
F
= 1
- 118 -
Chapitre 5
- 119 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Figure 5.16 : Rpartition des frquences centrales dans le plan frquence en fonction de la catgorie des images dextractions
(rsolution 256). La dimension a t rduite 50 par ACP, puis on a extrait 50 fltres ACI. Les images ont t pr-
traites par un fltre de Butterworth ou un fltrage rtinien. Les patches ont t fentrs ou pas.
Sans fentrage spatial Fentrage de Hanning
F
i
l
t
r
a
g
e

d
e

B
u
t
t
e
r
w
o
r
t
h
F
i
l
t
r
a
g
e


R

t
i
n
i
e
n
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
Figure 5.15 : Rpartition des frquences centrales dans le plan frquence en fonction de la catgorie des images dextractions
(rsolution 256). La dimension a t rduite 150 par ACP, puis on a extrait 100 fltres ACI. Les images ont t
prtraites par un fltre de Butterworth ou un fltrage rtinien. Les patches ont t fentrs ou pas.
Sans fentrage spatial Fentrage de Hanning
F
i
l
t
r
a
g
e

d
e

B
u
t
t
e
r
w
o
r
t
h
F
i
l
t
r
a
g
e


R

t
i
n
i
e
n
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Villes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. ouvertes
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. intrieures
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
0.5
Sc. fermes
u
v
- 118 -
Chapitre 5
- 119 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Concernant la slectivit en orientation, nous constatons que dans de nombreux cas celle-ci est plus impor-
tante autour des axes horizontaux et verticaux, o la majorit des fltres a un facteur de forme infrieur 1 (fgure
5.17). Cela se vrife pour les deux types de scnes artifcielles, mais aussi pour les scnes fermes et leffet est
accentu par le prtraitement rtinien. Les scnes ouvertes se distinguent des autres par la prdominance unique de
laxe vertical. Moins de fltres sont localiss dans son voisinage (par rapport aux scnes artifcielles), mais ils sont
dautant plus slectifs. Nous pouvons donc esprer de bonnes performances discriminantes pour la catgorie des
scnes ouvertes. Quand la dimension est rduite plus fortement, la slectivit en orientation samliore comme pr-
cdemment, puisque les fltres sadaptent dautant plus aux orientations dominantes quand celles-ci existent (fgure
5.18). De mme, pour les scnes fermes, nous obtenons des fltres remarquablement proches de lanisotropie.
Pour tudier la slectivit en rsolution, nous avons observ lvolution de la bande radiale des fltres en fonc-
tion de linverse de la frquence du pic central (fgure 5.19). Si peu deffets sont visibles dans le cas de rfrence
(Butterworth seul), le fltrage rtinien et surtout le fentrage de Hanning permettent de faire correspondre remar-
Figure 5.17 : Slectivit en orientation: rpartition du facteur de forme en fonction de lorientation du fltre, selon la catgorie
des images dextractions. La dimension a t rduite 150 par ACP, puis on a extrait 100 fltres ACI. Les images ont
t prtraites par un fltre de butterworth ou un fltrage rtinien. Les patches sont fentr par un fltre de Hanning
ou pas. La courbe reprsente la mdiane pour des groupes de fltres autour de 0, 30, 45, 60 et 90. Les barres
verticales indiquent les maxima et minima de ces groupes.
Sans fentrage spatial Fentrage de Hanning
F
i
l
t
r
a
g
e

d
e

B
u
t
t
e
r
w
o
r
t
h
F
i
l
t
r
a
g
e


R

t
i
n
i
e
n
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Villes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. ouvertes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. intrieures
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. fermes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Villes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. ouvertes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. intrieures
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. fermes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Villes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. ouvertes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. intrieures
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. fermes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Villes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. ouvertes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. intrieures
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. fermes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
- 120 -
Chapitre 5
- 121 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
quablement les fltres avec la dcroissance moyenne des spectres des images en 1 / f. Le fentrage de Hanning
permet dliminer les artefacts dus lchantillonnage rectangulaire, qui augmentent artifciellement la densit des
frquences horizontales et verticales. Linformation analyse est alors plus spcifque aux catgories elle-mmes.
5.3.6 Effet de la pyramide dimage
Les images sont traites par deux pyramides dimages trois rsolutions (images 6464,128128 et 256256),
lune oprant juste un fltrage passe bas au moyen dun fltre de Butterworth, lautre y ajoutant un prtraitement r-
tinien (5.2.2). Nous avons compar prcdemment linfuence de ces prtraitements sur les proprits des fltres.
Nous allons maintenant discuter de linfuence de la taille des images dextraction, ainsi que des diffrences entre
les trois stratgies dimplantation du prtraitement rtinien.
Nous avons extrait des collections de 100 fltres ACI aprs rduction 150 dimensions par ACP, pour les trois
niveaux des pyramides, les quatre catgories et les quatre prtraitements tudis prcdemment (Butterworth ;
Butterworth + Hanning ; Rtinien ; Rtinien + Hanning). Au fnal, cela donne donc 3 4 4 = 48 collections de
100 fltres. Nous avons modlis tous les fltres par leur approximation de Gabor, avons rcupr les paramtres
correspondants, puis avons calcul les trois types de statistiques bivaries considres pour tudier les proprits
des fltres en terme de discrimination.
La taille des images a une infuence sur la rsolution analyse, puisque celle-ci est directement fonction du
rapport entre la taille (variable) des images et la taille (fxe) des patches (3232). Dune part, la diminution de la
taille des images permet danalyser des structures relativement plus larges, donc plus basse frquence. Par contre
dans le mme temps, les dtails les plus hautes frquences de la rsolution suprieure ont disparu suite au sous-
chantillonnage et au fltrage anti-repliement. Les fltres ACI sadaptent donc aux rsolutions diffremment selon
les catgories, puisque celles-ci ne varient pas de la mme faon selon la rsolution. Nanmoins, elles prsentent
toutes une relative invariance lchelle, si bien que lon retrouve globalement les proprits indiques dans le
paragraphe prcdent pour les quatre prtraitements.
Pour les scnes fermes, qui ont une trs bonne invariance de leurs statistiques lchelle, les fltres sadaptent
au spectre de la mme faon toutes les rsolutions et les proprits de slectivit sont galement identiques.
Pour les scnes ouvertes, les proprits sont relativement invariantes selon la rsolution, mais on remarque une
tendance obtenir des fltres de plus en plus basse frquence autour de laxe vertical quand la rsolution diminue.
Cela traduit la capacit des fltres rendre dautant mieux compte de la structure globalement horizontale des
scnes, puisquelle est plus facilement discernable quand les patches analysent le quart de limage (image de taille
6464) que le soixante-quatrime (image de taille 256256). Dans le mme temps, cette dominance des frquen-
ces verticales en basse frquence introduit un biais par rapport la dcroissance moyenne en 1 / f, si bien que la
slectivit en rsolution en devient galement biaise. Pour les villes, leffet est diffrent selon que lon apodise les
patches avec le fltre de Hanning ou pas. Sans celui-ci, les fltres ont tendance se rapprocher des axes 0 et 90
quand la rsolution diminue, alors quils se concentrent principalement autour de laxe vertical et devenir plus
basse frquence quand le prtraitement est appliqu. Paralllement, la slectivit en rsolution samliore dans
- 120 -
Chapitre 5
- 121 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Figure 5.19 : Slectivit en rsolution (Bande radiale en fonction de linverse de la frquence centrale) en fonction de la
catgorie des images dextractions. La dimension a t rduite 150 par ACP, puis on a extrait 100 fltres ACI. Les
images ont t prtraites par un fltre de Butterworth ou un fltrage rtinien. Les patches ont t fentrs ou pas.
Sans fentrage spatial Fentrage de Hanning
F
i
l
t
r
a
g
e

d
e

B
u
t
t
e
r
w
o
r
t
h
F
i
l
t
r
a
g
e


R

t
i
n
i
e
n
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Villes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. ouvertes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. intrieures
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. fermes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Villes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. ouvertes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. intrieures
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. fermes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Villes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. ouvertes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. intrieures
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. fermes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Villes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. ouvertes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. intrieures
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
0.5
1
1.5
2
2.5
3
Sc. fermes
L
a
r
g
e
u
r
d
e
b
a
n
d
e
1/Frquence centrale
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Villes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. ouvertes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. intrieures
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 20 40 60 80
0
0.5
1
1.5
2
2.5
Sc. fermes
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
Figure 5.18 : Rpartition du facteur de forme en fonction de lorientation du fltre, selon la catgorie des images dextractions.
La dimension a t rduite 50 par ACP, puis on a extrait 50 fltres ACI. Les images ont t prtraites par un fltre
rtinien et les patches ont t fentrs par un fltre de Hanning. La courbe reprsente la mdiane pour des groupes de
fltres autour de 0, 30, 45, 60 et 90. Les barres verticales indiquent les maxima et minima de ces groupes.
- 122 -
Chapitre 5
- 123 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
le cas de lapodisation, alors quelle se dgrade lgrement dans le cas contraire (mais elle nest pas trs bonne
sans lapodisation de toute faon). Cela montre que les biais introduits par le fentrage rectangulaire sont moins
gnant en haute rsolution puisque dans ce cas, les hautes frquences sont dj prdominantes. Par contre, il vaut
mieux utiliser un fentrage circulaire quand la rsolution baisse. La concentration des frquences autour de laxe
vertical est cependant tonnante, puisque nous attendions plutt un groupement autour des axes horizontaux plus
en conformit avec le spectre moyen des villes (fgure 5.11). Enfn pour les scnes intrieures, les fltres restent
remarquablement bien adapts au spectre en croix toutes les rsolutions et nous observons, comme pour les
villes et les scnes ouvertes, une augmentation du nombre de fltre basses frquences en basse rsolution (6464).
La slectivit en orientation reste aussi trs stable, alors que celle en rsolution devient, comme pour les scnes
ouvertes, lgrement biaise en basse rsolution puisque le spectre moyen de la catgorie est lui-mme biais. Au
fnal, tant donn lexistence deffets contraires en fonction de la rsolution, il nous semble prfrable de prendre
une rsolution intermdaire. Pour les quatre prtraitements et chaque catgorie dimages, nous avons class les
trois rsolutions (table 5.3) en fonction de leur adquation aux proprits souhaites (5.3.4). Pour des images de
villes par exemple (fgure 5.20), nous souhaitons que les fltres soient placs majoritairement autour des axes hori-
zontaux et verticaux (fgure 5.20(a)), quils soient slectifs 0 et 90 (fgure 5.20(b)) et que la largeur de la bande
radiale volue linairement avec linverse de la frquence du pic central (fgure 5.20(c)). Pour lensemble des cas,
la rsolution intermdiaire (128128) conserve des proprits correctes dans tous les cas (table 5.3)
5.3.7 Conclusion sur la caractrisation des fltres
En modlisant les fltres ACI par leur plus proche approximation de Gabor, nous avons identif un jeu de
quatre paramtres les caractrisant. Nous avons dclin ces derniers selon plusieurs modalits quivalentes, puis
avons tudi trois statistiques pertinentes pour examiner leurs proprits potentielles de discrimination des quatre
catgories d'images. Ces trois statistiques considrent l'volution croise de deux paramtres et permettent d'en
dduire la qualit des fltres en terme d'adaptabilit aux spectres moyens des catgories, ainsi que leur slectivit
aux orientations et en rsolution.
Nous avons vrif que la localisation des fltres dans l'espace de Fourier est en adquation avec les
caractristiques spectrales de la catgorie dont le fltre a t extrait. Cette proprit est d'autant mieux vrife que
la rduction par ACP a t importante lors de la gnration des fltres. Pour les scnes ouvertes en particulier, il
est ncessaire de rduire trs fortement la dimension pour observer un regroupement des fltres majoritairement
autour de l'axe vertical. Cette rduction de dimension induit nanmoins un risque de perte d'information puisque
la distinction entre bruit et signal utile n'est pas vidente.
Nous avons constat que les fltres ont tendance tre anisotropes suivant leurs orientations privilgies, ce qui
dmontre leur capacit tre slectifs en ces lieux de lespace frquence et cet effet est particulirement favoris
par lapplication du prtraitement rtinien. Pour la catgorie des scnes ouvertes en particulier, cette slectivit est
dautant plus forte pour les fltres situs sur laxe vertical et permet de compenser leur nombre relativement faible
dans son voisinage.
- 122 -
Chapitre 5
- 123 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Butterworth Butterworth +
Hanning
Rtinien Rtinien + Han-
ning
Villes 256 2 / 1 / 0 0 / 1 / 3 3 / 1 / 0 0 / 1 / 3
Villes 128 1 / 2 / 0 0 / 2 / 2 1 / 2 / 0 0 / 2 / 2
Villes 64 3 / 3 / 0 0 / 3 / 1 2 / 3 / 0 0 / 3 / 1
Sc. Ouvertes 256 3 / 1 / 0 0 / 1 / 1 2 / 1 / 1 0 / 2 / 3
Sc. Ouvertes 128 1 / 1 / 0 0 / 2 / 2 1 / 2 / 2 0 / 1 / 1
Sc. Ouvertes 64 2 / 1 / 0 0 / 2 / 3 3 / 3 / 3 1 / 2 / 2
Intrieurs 256 1 / 1 / 0 2 / 1 / 1 2 / 1 / 0 3 / 2 / 1
Intrieurs 128 1 / 3 / 0 1 / 2 / 2 1 / 1 / 0 2 / 1 / 2
Intrieurs 64 1 / 2 / 0 1 / 3 / 3 1 / 1 / 0 1 / 3 / 3
Sc. Ferme 256 1 / 1 / 0 1 / 0 / 1 1 / 2 / 0 1 / 2 / 1
Sc. Ferme 128 1 / 0 / 0 1 / 1 / 1 1 / 1 / 0 1 / 1 / 1
Sc. Ferme 64 1 / 1 / 0 1 / 1 / 1 1 / 2 / 0 1 / 1 / 1
adapt. aux frquences
/
slect. en orientation
/
select. en rsolution
Table 5.3 : Rsultats des performances de slectivit des fltres en fonction de la rsolution pour les quatre catgories et
quatre prtraitements. Pour chaque prtraitement et chaque catgorie, nous classons les rsolutions selon les
effets escompts ( 5.3.4). Le rang 1 reprsente le cas le plus favorable et 3 le moins bon (il peut y avoir des
ex-aequo). 0 indique que les effets ne sont pas perceptibles pour le critre considr (cadre sous la table). Les
pointills correspondent aux exemples de la fgure 5.20.
0 5 10 15
0
1
2
3
L
a
r
g
e
u
r

d
e

b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
1
2
3
L
a
r
g
e
u
r

d
e

b
a
n
d
e
1/Frquence centrale
0 5 10 15
0
1
2
3
L
a
r
g
e
u
r

d
e

b
a
n
d
e
1/Frquence centrale
0 10 20 30 40 50 60 70 80 90
0
0.5
1
1.5
2
2.5
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 10 20 30 40 50 60 70 80 90
0
0.5
1
1.5
2
2.5
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0 10 20 30 40 50 60 70 80 90
0
0.5
1
1.5
2
2.5
Orientation en degr
F
a
c
t
e
u
r

d
e

f
o
r
m
e
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
u
v
0.4 0.2 0 0.2 0.4
0
0.1
0.2
0.3
0.4
u
v
Figure 5.20 : Quelques exemples des statistiques bivaries en fonction de la rsolution. (a) lieu des pics dans le plan
frquence pour les villes traite par Butterwoth seul - (b) Facteur de forme en fonction de lorientation pour
les villes traites en rtinien avec fentrage de Hanning - (c) Largeur de bande en fonction de linverse de la
frquence centrale pour le mme traitement que (b).
256256
6464
128128
(a) (b) (c)
- 124 -
Chapitre 5
- 125 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
On observe aussi une relation de dcroissance entre la bande passante et la rsolution des fltres, qui sadaptent
donc la dcroissance en 1 / f du spectre des images naturelles [RUD94]. Cet effet est nanmoins nettement plus
marqu quand on applique un fentrage de Hanning aux patches. Celui-ci permet dliminer les artefacts dus
lchantillonnage rectangulaire et de capter linformation propre aux catgories.
Ltude de linfuence de la rsolution fait ressortir des effets contradictoires selon les catgories dimages et
les prtraitements. Lutilisation dune rsolution intermdiaire permet dans la plupart des cas dobtenir le meilleur
compromis.
5.4 Caractrisation du codage des images naturelles
5.4.1 Codage d'une image
D'aprs le modle (5.1) d'image considr, un ensemble de fonctions de base extraites par ACI est une nou-
velle base de reprsentation d'imagettes de taille rduite. Chaque imagette P(x,y) est reprsente par un vecteur
(s
1
, ..., s
N
) dont nous pouvons trouver une estimation (y
1
, ..., y
N
) l'aide des fltres (F
1
, ..., F
N
) provenant de la
matrice de sparation W (voir 5.1).
Le problme est de coder une image I(x,y) de taille quelconque, au moyen de ces mmes descripteurs d'imaget-
tes, qui sont de taille fxe et relativement faible (3232 par exemple). Une solution pourrait tre de rduire la taille
des images celle des patches [LAB99b, BOS00]. Il semble plus intressant de considrer la rponse nergtique
de ces fltres tout I(x,y). Il est alors courant de ne tenir compte que d'un nombre limit de moments de ces r-
ponses [LAB99a, LAB99b, LAB01], gnralement la moyenne et la variance. Une alternative intressante est de
considrer le maximum de la rponse [LAB99c], ce qui sera tudi plus avant au chapitre 6. Pour notre part, nous
considrons qu'une image est caractrise par une collection de N rponses de l'image aux fltres, qui sont vues
comme autant d'observations particulires de variables alatoires {R
i
; i = 1, ..., N}. La rponse est estime par la
valeur absolue de la convolution de l'image avec les fltres :

= i N r I F
i i
1, , *

(5.13)
Ces rponses seront utilises pour dfnir les signatures des images dans le chapitre 6. Nous prenons en compte
la valeur absolue des rponses puisque l'ACI est intrinsquement indtermine au sujet du signe des signaux
estims. Nous pouvons prendre la rponse nergtique r
i
2
sans que les raisonnements tenus dans la suite de ce
manuscrit soient fondamentalement diffrents. Du fait de la taille limite des images, nous disposons d'un nombre
N
k
limit d'observations de chaque variable alatoire R
i
. Ce nombre est encore plus limit par le fait que l'on ne
conserve que la partie "valide" au sens de la convolution (suppression des effets de bord), ce qui pour des images
128128 par exemple, donne N
k
= (128 - 31)
2
= 9409 observations {r
i
(k) ; k = 1, ..., N
k
}. Chaque chantillon k,
correspond au code dun patch : (y
1
, ..., y
N
) = {r
1
(k), ..., r
N
(k)}.
- 124 -
Chapitre 5
- 125 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
5.4.2 Code dispers et parcimonieux
La description des images par les fltres ACI est parcimonieuse (parse) et disperse (sparse-dispersed coding)
[BEL97]. Rciproquement Olshausen et Fields ont montr que la considration exclusive de ce critre conduisait
faire merger des descripteurs semblables aux fltres ACI [OLS96]. La raison est que les images naturelles ont des
statistiques admettant une structure parse (2.4.3). La proprit de dispersion s'oppose la notion de code com-
pact et signife que le codage dune base dimages dans son ensemble se fait sur toutes les composantes disponi-
bles (fgure 2.9). La parcimonie soppose la notion de code distribu et signife que le codage dune image
particulire se fait sur un nombre restreint de composantes. Nous mesurons donc ces deux grandeurs sparment.
Si tous les auteurs saccordent dire que le caractre parcimonieux (sparsity) du code dun ensemble de fltres
traduit leur proprit tre inactif la plupart du temps et trs actif exceptionnellement, nous navons pas trouv
de dfnition mathmatique unique de cette caractristique. Pour la mesurer, on considre souvent lencodage
dun grand nombre de donnes par les fltres considrs et observons les distributions des activits des fltres.
Pour des donnes centres-rduites, les distributions rsultantes doivent donc prsenter un gros pic autour de zro
(traduisant linactivit de lunit codante pour la plupart des donnes), ce qui implique des queues de distribution
qui dcroissent moins vite quune gaussienne variance unitaire. Il existe plusieurs mesures possibles pour ren-
dre compte de la parcimonie de telles distributions, quand elles sont unimodales. La mesure la plus classique est
le kurtosis qui est la mesure S
1
de la fgure 5.21 pour des donnes centres rduites (2.12). Les autres mesures
rpertories (fgure 5.21) ont t dfnies par Olshausen & Fields [OLS96, OLS97], ainsi que par Willemore et
ses collgues [WIL00]. Dune manire gnrale, une distribution parcimonieuse a une proportion relativement
faible de grande valeurs [ABR00], donc une grande proportion de faibles valeurs. On remarquera dailleurs que S
2

(fgure 5.21) met en valeur la forte proportion de valeurs faibles, alors que les autres mesures inhibent les faibles
valeurs et favorisent les fortes. Par manque de dfnition rigoureuse, ces mesures sont donc des heuristiques qui
fonctionnent gnralement bien, mais peuvent parfois faillir. Par exemple, nous avons reprsent sur la fgure 5.21
la valeur de ces quatre mesures pour une distribution de donnes artifcielles caractre pars croissant avec un
paramtre . Nous observons que les grandeurs S
1
, ..., S
4
ont le comportement espr en augmentant avec . Par
contre, la mesure S
3
dune distribution uniforme donne environ 0.27, ce qui la rend plus parcimonieuse que la
plupart des distributions reprsentes sur cette fgure ! Le problme essentiel est nanmoins que ces mesures sont
trop dpendantes des donnes utilises pour les estimer. Malgr un protocole exprimental trs soign, Willemore
et ses collgues trouvent une diffrence de moins de 30% de parcimonie entre un code ACP et le code fourni par
les fltres de Olshausen & Fields qui sont pourtant conus dans cette optique [WIL00]. Or ces deux mthodes sont
antinomiques du point de vue de la parcimonie, ce qui laisse une dynamique faible pour ordonner selon cet axe.
Dautre part, nous avons rencontr de frquentes rserves sur lutilisation du kurtosis pour mesurer empiriquement
la parcimonie des distributions, par exemple parce quil est trs sensible la prsence dune faible quantit de for-
tes valeurs [DON00]. Nous avons reprsent sur la fgure 5.22 lvolution de la moyenne et de lcart-type dun tel
calcul partir dune quantit variable de donnes. Mme avec 10.000 chantillons, lcart-type est alors de lordre
de la moyenne, suggrant alors que la mthode est peu fable.
- 126 -
Chapitre 5
- 127 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
Pour mesurer le caractre dispers des codes, nous utilisons une mthode propose par Willemore [WIL00],
dont lide est la suivante. Quand un fltre encode des donnes, la variance de sa rponse donne une indication sur
la contribution de ce fltre au code complet. En comparant les variances de tous les fltres utiliss, nous recueillons
les contributions relatives de chaque fltre, pour encoder lensemble des donnes. Nous normalisons donc toutes
les variances par rapport la plus grande (qui vaut alors 1) et ordonnons les fltres par variances normalises d-
croissantes. Leur trac est appel trac en boulis (scree plot) par Willemore et nous considrons pour notre
part la valeur de variance normalise de chaque fltre, que nous appelons facteur dispersif. Si peu de fltres enco-
dent une large part des donnes (code compact par ACP par exemple), alors leurs facteurs dispersifs sont proches
de 1, tandis que ceux des fltres restants sont quasi nuls et le trac en boulis dcrot rapidement vers 0. Au con-
traire si le code est dispers, tous les fltres revtent peu prs la mme importance et les facteurs dispersifs sont
proches de 1, si bien que laire contenue sous le trac en boulis est plus grande que dans le cas prcdent. Ainsi,
la forme dun trac en boulis permet de qualifer le caractre dispersif dun code (ou au contraire sa compacit).
Lintgrale de la courbe continue et dcroissante permet de quantifer cette proprit.
=0.1 =0.15
=0.2 =.55
0.1 0.2 0.3 0.4 0.5 0.6
0
5
10
15
20
S
1

0.1 0.2 0.3 0.4 0.5 0.6


0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5

S
2
S
3
S
4
Figure 5.21 : Vrifcation heuristique de la capacit des mesures ( droite) traduire le caractre parcimonieux dune distribu-
tion. Il sagit dune distribution exponentielle de paramtre , dont la parcimonie crot avec la valeur de .
S
N
r
k
k
k
N
k
1
4
1
1
3 =
'
!
1
1
+
1
1
'
!
1
1
+
1
1

S
N
r
k
k
k
N
k
2
2
1
1 1
3
= ( )
'
!
1
1
+
1
1
'
!
1
1
+
1
1

exp
S
N
r
k
k
k
N
k
3 10
2
1
0 5331
1
1 = ( )
'
!
1
1
+
1
1
'
!
1
1
+
1
1 =

. log
S
N
r
k
k
k
N
k
4
1
2 1
=
'
!
1
1
+
1
1
'
!
1
1
+
1
1 =

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
0
5
10
15
20
25
30
35
nombre de patches utiliss
K
u
r
t
o
s
i
s
Figure 5.22 : Moyenne (plus ou moins un cart-type) de 20 calculs de kurtosis en fonction du nombre de patch.
- 126 -
Chapitre 5
- 127 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
5.4.3 Prtraitements et dispersion
Nous avons calcul les facteurs dispersifs des fltres de diffrentes catgories partir de leurs rponses aux ima-
ges des quatre classes. Quand le fentrage de Hanning nest pas appliqu (fgure 5.22), le traitement de Butterworth
apporte une dispersion presque toujours suprieure au rtinien, mais la diffrence est souvent ngligeable (tableau
de la fgure 5.22). De plus, les fltres sont toujours plus dispersifs sur leur catgorie dextraction, que sur les autres
catgories. Cela montre quil y sont mieux adapts et que toutes les units codantes (fltres) de la collection sont
mises contribution pour le codage. Sur une autre base que celle dont elle a t extraite par contre, une collection
de fltres est moins adapte. Ainsi, il y a moins de fltres bien placs dans le plan frquence, mais ceux-ci ont
une rponse dautant plus forte, si bien que leur facteur dispersif est relativement beaucoup plus fort que ceux des
fltres mal placs . Les rsultats chiffrs (tableau de la fgure 5.23) viennent conforter cette analyse. Par exem-
ple, le caractre dispersif est toujours assez fort sur les scnes fermes . En effet, puisque leurs spectres sont
anisotropiques en moyenne, les fltres des autres catgories sont bien placs quelque soit leur situation dans
le plan spectral. La ressemblance des spectres de villes et de scnes dintrieur implique que les fltres de
lune de ces deux catgories sont mieux adapts pour dcrire la seconde que les scnes ouvertes ou les scnes
fermes (tableau de la fgure 5.23). La diffrence entre le prtraitement de Butterworth et le rtinien sexplique
par le fait que le second augmente la slectivit des fltres en orientation (ils deviennent plus exigeants pour
dtecter les formes caractristiques des catgories), si bien quils rpondent moins fortement en moyenne sur les
Figure 5.23 :Les tracs en boulis pour les fltres de chaque catgorie prtraits par un fltrage rtinien (traits pleins) ou pas
(traits pointills). Le calcul des cart-types a t fait sur toutes les classes dimages (50 images par catgorie):
point = villes - cercle = scnes ouvertes - croix = scnes intrieures - losange = scnes fermes. Les fltres ont t
extraits aprs rduction de dimension par ACP 150, sans apodisation de patches. Le tableau donne la valeur
de laire sous les courbes, pour tous les fltres (chaque ligne), sur les diffrentes bases dimages (colonnes).
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Villes
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Sc. Ouvertes
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Sc. Intrieures
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Sc. Fermes
V = villes O = Sc. ouvertes
I = Sc. intrieures F = Sc. fermes
But = Butterworth
Ret = Rtinien
V O I F
V But 79 59 68 67
V Ret 69 50 62 67
O But 62 87 70 83
O Ret 59 84 69 79
I But 78 71 93 71
I Ret 77 70 92 71
F But 61 61 72 93
F Ret 62 57 75 92
Images
F
i
l
t
r
e
s
Images villes
Images Sc. ouvertes
Images Sc. intrieur
Images Sc. fermes
- 128 -
Chapitre 5
- 129 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
catgories o ils ne sont pas adapts. Cette ide est confrme par le fait quavec les fltres ferms , qui ont une
slectivit moindre en orientation, le rapport de force entre les deux prtraitements est invers pour les catgories
artifcielles auxquelles ils sont le moins adapts.
Quand le fentrage de Hanning est appliqu, on constate que le facteur dispersif chute fortement (fgure 5.24).
Par contre, le prtraitement rtinien permet dobtenir un codage largement plus dispers que le Butterworth. Cette
proprit est vrife non seulement sur les images de la catgorie dont les fltres ont t extraits, mais aussi sur les
images des autres catgories. Par contre, la dispersion nest pas toujours plus importante quand il y a correspon-
dance entre la catgorie dextraction des fltres et la catgorie quils analysent: le calcul sur les images fermes
est souvent du mme ordre que le calcul sur la base dimages qui correspond la catgorie des fltres. La baisse
gnrale du niveau de dispersion sexplique par leffet dtalement des fltres dans le plan frquence que provoque
le fltrage de Hanning (fgure 5.15). Les fltres tant moins bien localiss, les rponses des fltres bien localiss par
rapport aux spectres seront relativement plus fortes que celles des fltres mal localiss. Le rapport entre la disper-
sion sans le fentrage et avec (rapport du tableau de la fgure 5.23 sur celui de la fgure 5.22) vaut en moyenne 2.
Or, les fltres tudis dans ce cas ont t gnrs avec une rduction de dimension par ACP 150 (fgure 5.15).
Quand la rduction par ACP est accentue jusqu 50, la localisation des fltres est meilleure (fgure 5.16) et nous
avons calcul que la moyenne des rapports sus-nomms (table 5.4) vaut 1.4, ce qui confrme notre analyse. Les
fortes valeurs du facteur dispersif sur les images fermes sexpliquent, comme prcdemment, par lanisotropie
moyenne de leurs spectres, impliquant des rponses assez fortes quelque soit la localisation des fltres dans le plan
frquence.
Figure 5.24 : Les tracs en boulis pour les fltres de chaque catgories prtraits par un fltrage rtinien (traits pleins) ou pas
(traits pointills). Le calcul des cart-types a t fait sur toutes les classes dimages (50 images par catgorie) :
point = villes - cercle = scnes ouvertes - croix = scnes intrieures - losange = scnes fermes. Les fltres ont
t extraits aprs rduction de dimension 150 par ACP, avec apodisation des patches. Le tableau donne la
valeur de laire sous les courbes, pour tous les fltres (ligne), sur les diffrentes bases dimages (colonnes).
Images
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Villes
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Sc. Ouvertes
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Sc. Intrieures
0 20 40 60 80 100
0
0.2
0.4
0.6
0.8
1
Filtres Sc. Fermes
V = Villes O = Sc. ouvertes
I = Sc. intrieures F = Sc. fermes
But = Butterworth Ret = Rtinien
V O I F
V But 31 23 25 31
V Ret 63 51 53 62
O But 35 28 31 37
O Ret 54 56 52 57
I But 23 22 21 28
I Ret 40 34 41 53
F But 32 23 27 31
F Ret 44 49 47 61
F
i
l
t
r
e
s
Images Sc. intrieur
Images Sc. ouvertes Images villes
Images Sc. fermes
- 128 -
Chapitre 5
- 129 -
Extraction et caractrisation de descripteurs adapts aux images naturelles
V O I F
V But 42 26 35 32
V Ret 44 19 30 30
O But 28 44 35 37
O Ret 23 43 32 36
I But 37 36 47 39
I Ret 37 34 46 39
F But 28 32 37 46
F Ret 30 30 38 44
Images
F
i
l
t
r
e
s
V O I F
V But 22 17 21 22
V Ret 32 27 32 36
O But 23 18 22 24
O Ret 33 29 36 37
I But 21 17 21 22
I Ret 29 27 34 37
F But 23 20 23 24
F Ret 31 27 33 38
Images
F
i
l
t
r
e
s
Table 5.4 : Valeur du facteur dispersif calcul dans les mmes conditions que les fgures 5.23 et 5.24, mais o la dimension a
t rduite 50 par ACP. (a) sans fentrage de Hanning (b) avec fentrage de Hanning. Dans ce cas, la dispersion
maximale vaut 50, alors quelle tait de 100 dans le cas des fgures 5.23 et 5.24.
(a) (b)
5.5 Synthse
Nous avons dcrit la mthodologie complte pour extraire les fltres ACI et avons tudi leurs proprits relati-
vement un objectif de discrimination. Bien que plusieurs points aient dj t abords dans la littrature [OLS97,
BEL97, HUR97, HAT98a, LAB01, WIL00, HOY02], il nous semble qu'une telle tude exhaustive n'a jamais t
entreprise dans le contexte de la discrimination d'image.
Le choix de l'algorithme s'est port sur FastICA, puisque JADE a des temps de convergence trop grands et que
B&S a des problmes de convergence pour des patches de grande taille. D'autres algorithmes auraient pu tre tests
[HUR97], mais il nous importe surtout d'obtenir assez rapidement des fltres fables. La mthode de Olshausen et
Fields n'a pas t pris en compte, car il ne s'agit pas d'une ACI. Pour FastICA, nous utilisons la mthode symtrique
avec les non linarits 'tanh(t)' ou 't.exp(-t
2
/2)'.
L'extraction par catgorie [BOS00, LAB01] permet d'obtenir des collections de fltres adapts la catgorie
dont ils sont extraits. Nous avons montr que le fltrage rtinien des images permet damliorer la slectivit des
fltres en orientation et que lapodisation des patches par un fltre de Hanning amliore la slectivit en rsolution.
Cette dernire proprit est le rsultat dune adaptation gnrale des fltres la dcroissance moyenne du spectres
des images naturelles en 1/f, qui provient de llimination des artefacts dus lchantillonnage rectangulaire des
imagettes. Cela a nanmoins pour consquence dtaler la localisation des fltres dans tout le plan spectral. Nous
avons aussi montr que la combinaison de ces deux prtraitements (rtinien + Hanning) permet de conserver une
part de variance plus grande que pour le fltrage de Butterworth seul, jusqu une dimension de rduction de lordre
de 100 environ.
En gardant la taille des imagettes fxe 3232, nous avons fait varier la taille de images de 256256 (haute r-
solution danalyse) 6464 (basse rsolution). Les proprits des fltres en slectivit et en adaptation aux spectres
des images sont gnralement meilleures en haute et moyenne rsolution. Un lger avantage (selon un jugement
qualitatif) pour la rsolution moyenne, associ au fait que cela conduit des calculs de rponses moins long, nous
- 130 -
Chapitre 5
font prfrer la taille 128128 pour les images.
Nous avons prsent la faon dont nous caractrisons une image dans son ensemble laide des fltres ACI et
avons tudi linfuence des prtraitements sur le caractre dispersif des fltres. Cela nous permettra de dfnir un
critre de slection dans le prochain chapitre.
- 131 -
6.1 Introduction : dfnition de la base dimages.
6.1.1 Diffcults du choix
La tche de classifcation de scnes naturelles prsente une diffcult particulire par rapport aux tches de
reconnaissance dobjets ou de visages. Dans le cas des objets, chaque spcimen est unique et il sagit de le re-
connatre aprs un changement de point de vue, de taille, de condition dillumination ou ventuellement quand il
est partiellement occult. Dans le cas des visages, chaque spcimen est aussi unique et la variabilit provient des
diffrentes expressions possibles (sourire, colre, peur...), doccultations pouvant prendre des formes particuli-
res (port de lunette, de barbe...) ou encore de conditions dillumination diffrentes, voire de vieillissement ou de
changement dallure si les photos ont t prises plusieurs annes dintervalle [BAR98]. Bien que ces tches
Chapitre 6
Classifcation des images naturelles par
Analyse en Composantes Indpendantes.
Afn de valider notre approche, nous prsentons des mthodes de classifcation des images naturelles bases
sur l'utilisation des descripteurs extraits par Analyse en Composantes Indpendantes. Nous discutons de la
dfnition de la base d'images en nous appuyant sur les travaux du chapitre 4 (6.1). Nous dfnissons ensuite
plusieurs signatures des images naturelles qui utilisent les descripteurs ACI extraits selon le protocole expliqu
au chapitre 5, ainsi que les distances qui y sont associes. Celles-ci peuvent tre vues comme des versions
simplifes de la divergence de Kullback-Leibler applique des modles de prcision croissante de la densit des
rponses des fltres aux images (6.2). Nous nous intressons aussi un type de signature trs diffrent du modle
prcdent, qui exploite l'adaptabilit des fltres ACI aux bases d'images (6.3). Nous prsentons ensuite divers
rsultats de classifcation supervise qui permettent de comparer les modles et les confronter d'autres mthodes
(6.4). Enfn, les rsultats d'organisation continue des images naturelles permettent d'avoir une autre vue de leur
structure et ouvrent des voies vers la recherche d'images par le contenu (6.5).
- 132 -
Chapitre 6
- 133 -
Classifcation des images naturelles par ACI
puissent tre diffciles, elles ont lavantage de dfnir une classe vraie des images univoque, ce qui nest pas
toujours le cas des images naturelles. Par exemple limage de la fgure 6.1 pourrait aussi bien tre considre com-
me la photo dun lphant vu de loin, celle dun paysage , ou plus prcisment de la savane kenyanne ou tanza-
nienne et plus probablement celle dune photo du Kilimanjaro. Plus gnralement, nous avons vu aux chapitres 2
et 4 que les images naturelles peuvent tre classes un niveau sous-ordonn trs prcis ( le Kilimanjaro dans
le cas de la fgure 6.1), au niveau de base ( une montagne ) ou au niveau sur-ordonn ( un paysage naturel ).
Afn dviter ces ambiguts smantiques, nous avons dfni les labels des images en fonction de la catgorie la
plus large, cest--dire au niveau le plus bas de fgure 4.10. Nous nutilisons que linformation de luminance puis-
que nous avons montr que la couleur nest pas indispensable pour dterminer la smantique des images. Dans ce
contexte, quatre catgories sont considres : les scnes dintrieur, les scnes artifcielles extrieures, les scnes
ouvertes (plages, dserts, champs) et les paysages naturels (montagnes, forts). Les deux premires catgories
peuvent tre unies en scnes artifcielles un niveau encore plus gnral et la catgorie des champs est s-
mantiquement attache aux paysages naturels quand la chrominance est conserve. Les deux dernires catgories
peuvent donc ventuellement tre rassembles dans une supra-catgorie des scnes de nature . Ces quatre cat-
gories ont lavantage de correspondre celles qui ont t dfnies dans [OLI99, GUE00] o il a t montr quelles
possdent un spectre dnergie prototypique, auquel sadaptent les fltres ACI (chapitre 5). Nous avons veill
viter la prsence de personnages ou danimaux dans les images puisque nous avons montr que leur prsence
perturbe le cloisonnement smantique prcdent. Nanmoins, cette rgle na pas t respecte scrupuleusement
car nous avons vu que leur prsence avait une infuence asymtrique. Nous avons dduit que leur infuence tait
moindre, voire ngligeable quand ils sinscrivent dans le contexte gnral de la scne, cest--dire quand ils ne sont
pas le sujet principal (chapitre 4).
6.1.2 Choix des images
Nous avons tabli une base de 540 images 256256 auxquelles nous avons attribu lun des labels prcdents
(table 6.1). 200 images ont t utilises pour extraire les fltres ACI par catgorie et 50 parmi celles-ci pour
extraire les fltres toutes catgories . 340 images la smantique plus large ont t ajoutes afn de constituer
Figure 6.1 : Exemple dimage la smantique multiple.
- 132 -
Chapitre 6
- 133 -
Classifcation des images naturelles par ACI
lensemble des images qui serviront valider nos travaux. Bien quune grande partie de ces images ait dj t
utilises dans des tudes prcdentes au laboratoire [HER97, OLI99, GUE00] et dans dautres travaux [LAB01],
plusieurs dentre elles prsentent une smantique pouvant tre ambigu. Dune manire gnrale, elles reprsen-
tent un spectre assez large de situations et comportent des points de prise de vue varis (plonges et contre-plon-
ges). Lextension de la smantique pour la base de 340 images prtend faire ressortir la capacit de nos descrip-
teurs classer des situations plus diffciles. Nanmoins, si lattribution de labels en vue de classifcation prsente
lavantage de pouvoir quantifer nos rsultats en vue de comparer dautres mthodes, elle a le dsavantage de
dterminer des frontires parfois trop arbitraires entre les images. Cest pourquoi nous validerons nos approches
laide dautres procds par la suite (6.5).
Nous avons tabli une autre base de taille restreinte, indpendante de la base prcdente, uniquement ddie
extraire des fltres. Elle est compose de 24 images de taille 256384, dont nous conservons la partie centrale de
taille 256256. Les catgories sont les mmes que pour la base de 540 et les 6 images de chaque catgorie sont
prototypiques. Cette base indpendante permet de tester la classifcation des 540 images prcdentes par des fltres
ACI extraits de peu dimages, qui ne font pas partie des images classes.
6.2 Modlisation des activits des fltres ACI
Nous dfnissons des signatures des images utilisant les fltres ACI gnrs selon les mthodes du chapitre
5, ainsi que les distances associes ces signatures. Nous avons vu (chapitre 2, [SAP90]) que la discrimination
de donnes revient appliquer la rgle de Bayes (2.2) et que la diffcult consiste alors dterminer les densits
conditionnelles a priori des classes, qui sont des distributions multidimensionnelles, avec la possibilit dtre dans
un espace trs grande dimension (gale au nombre de fltres ACI considr). Dans une approche paramtrique,
24 images
(base indpendante
dextraction seule)
6 scnes artifcielles extrieures : villes, batiments.
6 scnes ouvertes : plages, champs, paysages grande profondeur de champ.
6 scnes dintrieur : salons, cuisines, chambre.
6 scnes fermes : forts, montagnes.
200 images
(extraction des fl-
tres) + test.
50 scnes artifcielles extrieures : villes, batiments, rues.
50 scnes ouvertes : plages, champs, paysages grande profondeur de champ.
50 scnes dintrieur : salons, cuisines, salles de bain, escaliers intrieurs.
50 scnes fermes : forts, montagnes, paysages faible profondeur de champ,
arbre seul.
340 images
(test seulement)
80 scnes artifcielles extrieures : villes, batiments, rues, constructions technolo-
giques.
80 images de scnes ouvertes : plages, champs, paysages grande profondeur de
champ, dserts.
90 scnes dintrieur : salons, cuisines, salles de bain, halls, bureaux, escaliers
intrieurs.
90 images de scnes fermes : forts, montagnes, paysages faible profondeur de
champ, arbre seul.
Table 6.1 : Composition de la base de 540 images et de la base indpendante dextraction.
- 134 -
Chapitre 6
- 135 -
Classifcation des images naturelles par ACI
certaines hypothses sont faites sur la forme des distributions et le but est destimer les paramtres partir des
chantillons dapprentissage. Do et Vetterli ont une telle dmarche en modlisant les distributions de coeffcients
dondelettes par des densits gaussiennes gnralises [DOV02]. Vailaya et ses collgues estiment les densits
conditionnelles par quantifcation vectorielles [VAI01]. Le choix du nombre de prototypes (taille du dictionnaire),
qui est aussi la dimension des densits, est alors dterminant pour la qualit de lestimation et est gnralement
assez coteux en calculs.
Nous avons plutt opt pour une approche non paramtrique qui ne pose aucun a priori sur la forme des den-
sits. La technique la plus courante pour lestimation non paramtrique de densits est lestimation par noyaux
[SIL86]. Dans le cas multidimensionnel nanmoins, nous sommes confronts au problme de la maldiction de
la dimension (curse of dimensionality) qui dsigne les diffcults lies lestimation des densits quand la dimen-
sion devient grande [AMA02]. Ces problmes sont consquents au comportement des espaces en grande dimen-
sion o les chantillons se retrouvent isols quand la dimension crot. Autrement dit, des rgions entires de cet
espace se retrouvent dpourvues dchantillons, moins daugmenter leur nombre dmesurment. Ce phnomne
est illustr par les expriences de la fgure 6.2 [HER02]. Cela montre que dans le cas dun espace de taille fnie par
exemple, les points ont tendance se concentrer fortement sur les bords de cet espace et dlaissent ainsi toutes
les rgions centrales , si bien que lestimation dune densit de probabilit est peu fable dans ces rgions. En
dimension 30 par exemple, ce qui reprsente un nombre de fltres / descripteurs assez raliste compte tenu de nos
rsultats ultrieurs, la pellicule hypercubique dpaisseur 0.02 (comprise entre lhypercube de ct 1 et celui de
ct 0.98) contient prs de la moiti du volume de lhypercube unit et celle dpaisseur 0.1 en contient plus de
95%. En pratique, lestimation de densits multidimensionnelles devient diffcile quand la dimension dpasse 10.
Il est pourtant courant de rencontrer des systmes de recherche dimages utilisant beaucoup plus de caractristi-
ques [JOH02], alors que le nombre dchantillons est limit (ventuellement pour le temps de calcul).
Lindpendance entre les caractristiques apparat comme une solution sduisante pour rsoudre ce problme
destimation, puisque dans ce cas une densit multidimensionnelle se factorise comme le produit de ses margina-
Figure 6.2 : Illustration de la maldiction de la dimensionnalit. (a) Evolution du rapport entre lhypersphre de rayon
1 (boule unit centre pour la norme 2) et lhypercube de ct 1 (boule unit centre pour la norme ) en
fonction de la dimension - (b) Evolution du volume contenu entre lhypercube de ct 1 et celui de ct 1-,
en fonction de la dimension. Ces deux coubes montrent que dans un espace fni, le volume a tendance se
concentrer sur les bords de lespace quand la dimension crot. Ces schmas sont inspirs de [HER02].
Dimension 2
0 5 10 15 20
10
8
10
6
10
2
10
0
DIMENSION
V
s
p
h
e
r
e

/

V
c
u
b
e
0 20 40 60 80 100
0
0.3
0.7
1
DIMENSION
V
1


V
1

= 1%
= 5%
= 10%
||1||

||1||
2

1
Dimension 2
(a) (b)
- 134 -
Chapitre 6
- 135 -
Classifcation des images naturelles par ACI
les. Une technique danalyse discriminante par composantes indpendantes a t introduite par Amato, Antoniadis
et Grgoire [AMA02], qui utilisent lACI pour transformer linairement les donnes en vecteurs indpendants
puis estiment ces densits par une mthode non paramtrique noyaux [SIL86]. Ils ont montr dans ce cas que le
produit des densits estimes permet de dterminer un label de classe et que cette rgle de dcision converge uni-
formment (en probabilit) vers la rgle de Bayes quand la taille des chantillons de la base dapprentissage tend
vers linfni, ou autrement dit que la classe dtermine par cette mthode tend se rapprocher de la classe qui serait
attribue un chantillon test (si les densits multidimensionnelles des classes sont connues). Dans notre cas, nous
savons que les densits concernes sont parcimonieuses. Dans le cadre paramtrique, elles ont t modlises par
des densits exponentielles dcroissantes [HYV01a] afn de synthtiser des images en vue de les dbruiter. Dans
un contexte non paramtrique, nous avons donc choisi dutiliser lestimation de densit par logspline [KOO92]
qui est particulirement adapte aux familles exponentielles, puisque quelle modlise le logarithme de la densit
laide de fonctions particulirement lisses (splines cubiques).
6.2.1 La divergence de Kullback-Leibler
Linformation de Kullbak-Leibler (annexe A) permet de mesurer une distance entre deux densits f et g, au
sens o la mesure est nulle si f =g et est strictement positive si elles sont diffrentes (nous considrons des densits
continues). Cependant, au contraire dune distance, elle ne vrife pas lingalit triangulaire et nest pas symtri-
que (Annexe A). La divergence de Kullback-Leibler (KL) est dfnie par :

KL f g f x g x
f x
g x
dx ( , ) log = ( ) ( ) ( )
( )
( )

(6.1)
Cette mesure est bien symtrique . Considrons deux ensembles de variables alatoires indpendantes{R
f
1
, ..., R
f
N
}
et {R
g
1
, ..., R
g
N
} ayant pour densits respectives f=f(x
1
, ...,x
N
) et g=g(x
1
, ...,x
N
). Puisque leurs composantes f
i
=f
i
(x
i
)
et g
i
=g
i
(x
i
) sont indpendantes, les densits jointes se factorisent en produit des densits marginales :

f x x f x et g x x g x
N i i
i
N
N i i
i
N
1
1
1
1
,..., ,..., ( ) ( ) ( ) ( )

(6.2)
Les variables x
i
, qui seront omises aprs la prochaine quation, varient dans leurs domaines d'observations
respectifs que nous notons D
i
. La divergence de Kullback-Leibler sexprime comme :

KL f g f
f
g
dx dx
N
x D x D
N
N
( , ) ... log( ) ...


1
1
1
(6.3)
Ce que l'on peut donc rcrire :

KL f g f
f
g
j
j
N i
i
N
i
i
N
D D
N
( , ) log ...

j
(
,
,
,
\
,
(
(
(


1
1
1
1
(6.4)
La fonction logarithme permet de transformer les produits en somme :

KL f g f
f
g
j
j
N
i
i i
N
D D
N
( , ) log( ) ...


1
1
1
(6.5)
- 136 -
Chapitre 6
- 137 -
Classifcation des images naturelles par ACI
Puis en factorisant, on obtient:

KL f g f
f
g
j
j
N
i
i D D
i
N
N
( , ) log ...
j
(
,
\
,
(
j
(
,
\
,
(
j
(
,
,
\
,
(
(

1
1
1
(6.6)

KL f g f
f
g
f
j
j
j k
N
i
i D D
k
D
N
k
( , ) log . ...
j
(
,
\
,
(
j
(
,
,
\
,
(
(
j
(
,
,


1
1
\\
,
(
(

i
N
1
(6.7)
f
k
est une densit, donc son intgrale sur l'ensemble de son domaine de variation est une constante Pds indpen-
dante de k et qui dans le cas d'une densit est Pds = 1. Par intgrations successives, il ne reste que :

KL f g Pds f
f
g
N
i
i
i D
i
N
i
( , ) . log ( )
j
(
,
\
,
(
j
(
,
\
,
(

1
1
(6.8)
Ce que l'on peut reformuler sous la forme (avec Pds = 1) :

KL f g KL f g
i i
i
N
( , ) ( , )

1
(6.9)
Ceci explicite l'un des intrts majeurs utiliser les fltres ACI selon le paradigme expos prcdemment. Puis-
que l'ACI permet d'extraire des fltres F
i
qui analysent des images en composantes indpendantes, la divergence de
Kullback-Leibler des densits jointes reprsentant deux images s'exprime comme la somme des divergences entre
les densits marginales et son estimation est ainsi facilite.
Le choix d'utiliser la divergence de Kullback-Leibler est motiv par deux autres arguments. Premirement, l'in-
formation de Kullback-Leibler entre la densit jointe d'une variable alatoire et le produit des densits marginales
des composantes de la variable est une mesure naturelle de l'indpendance entre ces dernires (3.15), qui permet
de dfnir l'information mutuelle de la variable alatoire. L'Analyse en Composantes Indpendantes cherche mi-
nimiser cette grandeur et la divergence KL apparat lgitime en tant que mesure de dissimilarit dans ce contexte.
Deuximement, cela nous permet d'avoir un point de vue unif sur les modles des rponses des fltres ACI et des
distances associes, que nous allons maintenant dvelopper.
6.2.2 Modles un ou deux paramtres
Notre premier modle des rponses des fltres ACI aux images, c'est--dire la signature des images, utilise un
seul paramtre par dimension (i.e par fltre). Dans ce cas, l'estimateur des moindres carrs pour ce paramtre est la
valeur moyenne de la rponse [SAP90]. La distance entre les signatures peut tre calcule par une distance eucli-
dienne. Il est quivalent de considrer que les rponses sont modlises par des distributions gaussiennes de mme
moyenne que les densits des rponses correspondantes et dont la variance vaut toujours 1 (ou toute autre valeur,
pourvu que ce soit la mme pour toutes les gaussiennes). En effet, la divergence de Kullback-Leibler entre deux
gaussiennes de mme variance est gale la distance euclidienne de leurs moyennes.
On introduit alors logiquement un modle deux paramtres, en considrant que les signatures sont des distri-
butions gaussiennes dfnies par leurs moyennes et leurs variances. La divergence KL entre deux gaussiennes g
1
et
g
2
, de moyenne
1
(respectivement
2
) et d'cart-type
1
(respectivement
2
), vaut [BAS96] :
- 136 -
Chapitre 6
- 137 -
Classifcation des images naturelles par ACI

KL g g
G
( || )
( ) ( ).( )
. .
1 2
1
2
2
2 2
1
2
2
2
1 2
2
1
2
2
2
2
=
+ +
(6.10)
Cela dfnit la fonction de dissimilarit pour le modle deux paramtres. Dans le cas o les cart-types sont
gaux, on retrouve bien une distance proportionnelle la distance euclidienne pour le modle un paramtre.
La divergence KL permet donc d'avoir une vue unife des diffrents modles. Dans le premier cas, la distance
euclidienne entre
1
(moyenne d'une densit f
1
) et
2
(moyenne d'une densit f
2
), est strictement quivalente la
divergence KL entre une densit gaussienne g
1
de moyenne
1
et une densit gaussienne g
2
de moyenne
2
, ayant
la mme variance. De mme, nous utilisons (6.10) pour estimer la distance entre f
1
(modlise par sa moyenne
1

et son cart-type
1
) et f
2
(modlise par sa moyenne
2
et son cart-type
2
), ce qui est strictement quivalent cal-
culer la divergence KL entre une densit gaussienne g
1
(de moyenne
1
et d'cart-type
1
) et une densit gaussienne
g
2
(de moyenne
2
et d'cart-type
2
).
On peut cependant tre interpell par le fait que les modles prcdents soient quivalents modliser les r-
ponses par une gaussienne, alors quelles sont nulles sur ]- ; 0]. Nous avons donc introduit un autre modle un
seul paramtre, qui revient modliser les donnes avec une distribution semi-normale. Cest une distribution nor-
male de moyenne nulle et d'cart-type 1 / , limite au domaine [0 ; +[ (fgure 6.3). La moyenne de la distribution
semi-normale vaut 1 / . Nous mettons en correspondance cette valeur avec les moyennes
1
et
2
des rponses de
densit f
1
et f
2
que l'on souhaite modliser et dduisons la distance utiliser de l'quation (6.10) :

KL f f
HG
( || )
.
1 2
1
2
2
2
2
1
2
2
2
=
( )

(6.11)
Figure 6.3 : Distribution semi-normale (trait plein) fabrique partir dune distribution normale (pointills).
3 2 1 0 1 2 3
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
0.5
1 /
- 138 -
Chapitre 6
- 139 -
Classifcation des images naturelles par ACI
6.2.3 Modles base d'histogrammes
Les histogrammes sont couramment utiliss en reconnaissance des formes pour dfnir des descripteurs accu-
mulatifs de caractristiques saillantes [JAI00]. On trouvera de telles utilisations dhistogrammes dans [SWB91,
STR95] par exemple. Les histogrammes permettent de dfnir des signatures plus proches des densits exactes que
les modles prcdents.
Soit B le nombre de bins (ce choix sera discut plus tard), V
M
la valeur maximale des observations et N
k
le
nombre d'observations disponibles. Un histogramme H dont les bins H(b) sont distribus rgulirement entre 0 et
V
M
est donn par :


<
b B H b Card r k D k N
avec D x
b V
B
x
b
i b k
b
M
1 1
1
, , ( ) ( ( ) ; , )
;
( )

VV
B
M

(6.12)
Cet histogramme peut tre normalis :

=
=

b B H b
H b
n
V
B
M
H b
b
B
1
1
, , ( )
( )
( )

(6.13)
Quand les images sont reprsentes par de tels histogrammes, nous utilisons directement la divergence de Kul-
lback-Leibler pour estimer la distance. Pour H
1
et H
2
calculs avec le mme nombre B de bins, cela donne :

KL H H
V
B
H b
H b
H b
H
M
b
B
( , ) ( ) log
( )
( )
1 2 1
1
1
2

(6.14)
La constante devant le signe somme est la largeur des bins et l'quation (6.14) correspond donc l'intgration
par la mthode des rectangles. Dans le cas o les histogrammes ne sont pas normaliss, nous pourrions retrouver
les mmes rsultats un coeffcient de proportionnalit prs. En particulier, le raisonnement du paragraphe 6.2.1,
montrant que la divergence KL entre deux densits multivaries est gale la somme des densits marginales, reste
toujours valable un coeffcient multiplicatif prs, pour peu que le nombre d'observations soit toujours le mme.
Cela revient vrifer que la valeur de Pds est bien constante et indpendante du fltre considr.
Le choix du nombre de bins est quivalent choisir la largeur des bins quand ceux-ci sont espacs rgulire-
ment. Ce choix est critique puisque la qualit d'estimation de la densit en dpend fortement. Il a t montr par
Diaconis et Freedman (cit dans [IZE91]) qu'une estimation effcace non biaise d'une densit est obtenue quand
la largeur de bin L
bin
est choisie de manire vrifer :
L
bin
= 2 IQR N
k
-1/3
(6.15)
IQR est l'tendue interquartile qui est dfnie comme la diffrence entre le troisime quartile (l'individu ayant
75% des chantillons infrieurs lui) et le premier quartile (idem 25%). En pratique cependant, les rponses des
fltres aux images sont trs parcimonieuses, si bien que beaucoup d'chantillons sont proches de zro. L'tendue
interquartile est donc faible, alors que la valeur maximale des chantillons V
M
peut tre grande. Dans ces condi-
tions, l'quation (6.14) conduit estimer les densits avec plusieurs centaines de bins. Or, le nombre d'chantillons
- 138 -
Chapitre 6
- 139 -
Classifcation des images naturelles par ACI
disponibles est limit par la taille fnie des images, donc de tels histogrammes aboutissent une estimation pauvre
des queues des distributions. Il nous a donc sembl opportun dintroduire la connaissance que lon a de la forme
gnrale des distributions pour construire une signature plus adquate. Quand lestimation est paramtrique, les
distributions parcimonieuses sont souvent modlises par des Laplaciennes, qui varient selon une dcroissance ex-
ponentielle de leur argument. Une solution pratique est donc dadopter une distribution non rgulire des bins, se-
lon une chelle logarithmique, ou estimer le logarithme de la distribution avec un espacement rgulier des bins :

D x x
b
b V
B
b V
B
M M
<

+
( )
+
( )
;
( ) log ( ) log ( )
10 10
1
10 10

(6.16)
o est le logarithme (en base dix) de la prcision machine pour les nombres fottants. Autrement dit, dix la
puissance est la plus petite valeur signifcative qui est calculable sur la machine considre, pour les nombres en
virgule fottante. Aprs normalisation des densits, la distance est calcule selon (6.14).
6.2.4 Estimation logspline
6.2.4.1 Densits logspline bases sur des fonctions B-spline
L'information la plus complte des rponses des fltres ACI aux images est obtenue en estimant la densit de
probabilit partir des observations disponibles. Deux approches gnrales existent : lestimation paramtrique
et lestimation non paramtrique [SIL86]. Dans le premier cas, nous supposons que les donnes proviennent
d'une distribution dont nous connaissons une expression analytique de la densit. Celle-ci peut tre dtermine en
effectuant une estimation des paramtres partir des donnes puis en incluant ces estimations dans les formules
analytiques. Nos modles un ou deux paramtres peuvent tre assimils une telle approche, o la densit est
suppose gaussienne et les paramtres estims sont les deux premiers moments. Dans l'approche non-paramtri-
que, les contraintes sont beaucoup moins fortes puisque les seules hypothses sont que la densit existe et que les
donnes sont suffsamment consistantes pour la retrouver. La mthode la plus simple suivant cette voie est l'estima-
tion par histogramme telle que nous l'avons prsente dans le paragraphe prcdent. Nanmoins, son acuit dpend
fortement du choix du nombre de bin ou de la largeur et la rpartition de ces derniers, qui ne suit pas forcment
une loi aussi rgulire que celles que nous avons prsentes. L'une des mthodes les plus usites est l'estimation
par noyaux [SIL86]. Si nous disposons de N chantillons y
1
, ..., y
N
, l'estimateur de la densit de probabilit est de
la forme :

f y
N w
K
y y
w
y
i
i
i
i
N

( ) , =

1 1
1
(6.17)
K est le noyau, qui peut tre une fonction gaussienne par exemple et les variables w
i
sont appeles largeur de
fentre (ou de noyau), largeur de bande (bandwidth) ou encore paramtre de lissage (smoothing parameter). Dans
sa version la plus simple, la largeur de bande est constante et dtermine le nombre de points pris en compte pour
estimer la densit locale autour de chaque donne. Si elle est trop petite, cela induit le risque d'introduire des ca-
- 140 -
Chapitre 6
- 141 -
Classifcation des images naturelles par ACI
ractristiques non pertinentes dans la densit. Au contraire si elle est trop large, le risque est de perdre des parties
importantes de la densit. Dans les versions plus volues, la largeur du noyau est adapte la densit locale des
donnes. Avec ces mthodes, nous retrouvons un problme semblable celui de l'estimation par histogrammes, li
au choix de la largeur des noyaux. La qualit de l'estimation d'une distribution inconnue, telle que celle des images
naturelles dans l'espace image, ne peut tre dtermine que par rapport l'application vise. Dans notre contexte,
il s'agit de diffrencier des images partir de fltres rpondant fortement celles auxquelles les statistiques sont
adaptes. Nous avons donc fait l'hypothse que la qualit de cette discrimination est essentiellement fonction des
fortes rponses des fltres aux images et que nous devons tre particulirement attentifs l'acuit des estimations
au niveau des queues des densits.
Nous avons opt pour la mthode de Kooperberg et Stone [KOO92] appele estimation des densits par logs-
pline (logspline density estimation). C'est une mthode qui utilise des splines cubiques avec des queues linaires
pour modliser le logarithme de densits unidimensionnelles. Cette stratgie est raisonnable dans notre cas puisque
nous avons vu que l'estimation par histogramme est plus judicieuse quand elle est effectue sur le logarithme des
donnes.
Considrons un entier k > 2, la borne infrieure L des donnes, leur borne suprieure U (L et U peuvent ven-
tuellement tre infnies) et une squence de points t
1
, ..., t
k
vrifant L < t
1
< ... < t
k
< U. Soit S l'espace des fonc-
tions f de classe C
2
sur ]L, U[, telles que les restrictions de f [t
1
, t
2
], ..., [t
k-1
, t
k
] soient des polynmes cubiques et
soient linaires sur ]L, t
1
] et [t
k
, U[. S est lespace des splines cubiques naturelles. Les fonctions des deux intervalles
extrmes sont chacune dfnies par deux paramtres et les k-1 autres intervalles contiennent des fonctions dfnies
par quatre paramtres, ce qui fournit au total 4k degrs de libert. Les trois conditions de continuit aux nuds
(sur les fonctions et les deux premires drives) imposent 3k contraintes. S est donc un espace 4k - 3k = k di-
mensions, dont on considre une base 1, B
1
, ..., B
k-1
de fonctions B-spline [DEB78]. Il est possible de les choisir de
faon ce que B
1
ait une variation linaire pente ngative sur ]L, t
1
] et que les autres fonctions y soient constantes,
que B
k-1
ait une variation linaire pente positive sur [t
k-1
, U[ et que les autres fonctions y soient constantes.
Soit = [
1
, ...,
k
]
T
un vecteur de dimension k vrifant :
exp ( ) ... ( )
1 1
B y B y dy
k k
L
U
+ + ( ) <

(6.18)
On considre la famille de lois de probabilit dfnissant une structure exponentielle partir de ces fonctions

f y B y B t C
k k
( , ) exp ... ( ) ( ) + + ( )
( )
1 1
(6.19)
o C( ) est une constante de normalisation telle que :

f y dy ( , ) =

(6.20)
On note l'espace de tous les vecteurs qui vrifent les contraintes ci-dessus. Elles imposent en particulier
que L soit fnie ou que
1
< 0 et que U soit fnie ou que
p
< 0. Pour N chantillons y
1
, ..., y
N
, provenant de la distri-
bution que l'on souhaite estimer, la log-vraisemblance correspondant la famille exponentielle est :
- 140 -
Chapitre 6
- 141 -
Classifcation des images naturelles par ACI

L f y
i
i
N
( ) log ( , ) , ( )

1

(6.21)
Cette fonction est strictement concave sur , donc si le maximum de vraisemblance

existe, il est unique et


l'estimation de la densit correspondante est l'estimation de la densit par logspline :

f f

. (.; ) ( )
(6.22)
Kooperberg et Stone ont propos un algorithme pour dterminer automatiquement la valeur optimale de k, les
valeurs des nuds t
i
et estimer le maximum de vraisemblance.
Le placement des nuds ne dpend que de statistiques d'ordre, c'est--dire de l'ordre des chantillons et non pas
de leurs valeurs. La fonction quantile est dtermine par interpolation linaire sur les observations. Le premier
nud et le dernier noeud sont placs sur le premier et le dernier chantillon. Les autres noeuds sont placs de ma-
nire ce qu'il y ait au moins quatre chantillons par intervalle et qu'ils soient rpartis symtriquement sur l'ensem-
ble des statistiques d'ordre. Le nombre de noeuds k-m est choisi selon le critre d'infomation d'Akaike :

AIC L k m
m

,
=
( )
+ ( ) 2 1

(6.23)
Plusieurs valeurs m sont essayes et on choisit m


qui minimise le critre AIC. Le modle correspondant est
form de k- m

noeuds et possde k-1- m

degrs de libert. Heuristiquement, Kooperbeg et Stone conseillent de


prendre = 3 ou = log(N) (habituellement, = 2), ce second choix conduisant au critre d'information bayesien
(BIC).
6.2.4.2 Implantation
Nous utilisons le code implant par Ripley et Kooperberg [RIP02], qui estime les densits selon la mthode ex-
plique ci-dessus. Pour un ensemble d'chantillons, ces programmes renvoient la valeur de la densit estime, les
valeurs des probabilits et des quantiles. Elle fournit aussi des chantillons alatoires partir de la densit estime.
Nous avons implant deux mthodes pour estimer la divergence de Kullback-Leibler. Pour deux densits f
1
et f
2
es-
times selon ce modle, nous pouvons calculer leur distance directement partir de (6.1) puisque nous connaissons
la valeur en tout point. Cette mthode d'estimation par intgration numrique est note KL
int
(f
1
, f
2
).
L'quation (6.1) peut aussi tre reformule sous la forme :

KL f f E
f X
f X
f
( , ) log
( )
( )
1 2
1
2
1

j
(
,
\
,
(
,

,
]
]
]
(6.24)
o E
f
1
[.] est l'esprance selon la loi f
1
, ce qui signife que la variable alatoire X suit cette loi. Limplantation de
Monte Carlo utilise l'estimateur naturel de l'esprance (loi des grands nombres) :

KL f f
f x
f x
MCp
k
k k
p
( , ) log
1 2
1
2 1

( )
( )
j
(
,
\
,
(

(6.25)
- 142 -
Chapitre 6
- 143 -
Classifcation des images naturelles par ACI
Les x
k
sont des chantillons alatoires qui suivent la loi f
1
. Le programme de Kooperberg fournit directement
ces chantillons et les valeurs des densits correspondantes.
6.2.5 Conclusion sur les modles dactivit
Nous avons prsent plusieurs modles de signatures des images quand celles-ci sont dcrites par des fltres
ACI et nous avons dfni pour chacun une distance qui permet d'estimer la dissimilarit entre images pour une
collection de descripteurs. Le tout peut tre vu comme une modlisation de prcision croissante des densits des
rponses des fltres aux images, dont on calcule la divergence de Kullback-Leibler entre elles. Ce cadre est donc
particulirement adapt l'utilisation de fltres ACI, puisqu'il exploite l'indpendance statistique entre les rponses
fournies afn d'estimer les densits de probabilits multidimensionnelles caractristiques des images et mesurer
leur dissimilarit.
Nous avons illustr sur la fgure 6.4 la faon dont les diffrents modles reprsentent les rponses. La repr-
sentation de la moyenne prsente peu d'intrt, mais les autres tracs montrent que quand le modle gagne en
prcision, nous approchons surtout d'une meilleure description des queues de distribution. Celles-ci indiquent la
densit (de probabilit) des valeurs les plus fortes des rponses des fltres aux images.
6.3 Signatures des images par activit maximale
Labbi a dfni une signature des images qui exploite pleinement l'adaptabilit des fltres ACI aux images natu-
relles [LAB99c]. Il fait une assimilation directe entre les cellules simples du cortex visuel qui se sont adaptes au
cours du temps aux statistiques des images naturelles et les fltres ACI qui sont adapts, par apprentissage, r-
0 0.5 1 1.5 2 2.5 3
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Figure 6.4 : Rponses des fltres ACI aux images selon les diffrents modles. Un histogramme naf atteste
de la rpartition approximative de la rponse. La moyenne est indiqu en pointills, le modle
semi-gaussien en traits et pointills. Les traits sont la modlisation gaussienne et le trait plein le
modle logspline
- 142 -
Chapitre 6
- 143 -
Classifcation des images naturelles par ACI
pondre slectivement aux caractristiques indpendantes de bases d'images [OLS96, HAT98]. Il propose que pour
des catgories disjointes, ce soient des fltres ACI diffrents qui rpondent fortement, oprant ainsi une slection
cohrente avec les classes dfnies. Ainsi la signature d'une image est l'histogramme des indices des fltres ayant
rpondu le plus fortement en chacun de ses pixels (table 6.2). Par suite, des prototypes de classes sont dfnis en
moyennant les signatures des images d'une base d'apprentissage. L'algorithme de classifcation consiste calculer
la distance d'une image test chacun des prototypes de classe, puis lattribuer la classe la plus proche.
Il souligne l'importance d'avoir des prototypes de classe bien distincts (variabilit inter-classe forte), en
choisissant prcautionneusement la base d'apprentissage de chacune. Les images la constituant doivent tre trs
prototypiques de la classe, de faon bien se regrouper dans l'espace des caractristiques (variabilit spectrale in-
tra-classe faible). C'est pourquoi les images choisies pour tester ce modle sont des images de feuilles d'arbre ,
de buildings et de visage qui prsentent effectivement des smantiques non ambigus et des signatures trs
diffrentes (fgure 6.4(a)). Dans le cas des scnes naturelles, les diffrences sont a priori moins videntes. Nan-
moins, nous avons montr que les fltres ACI sadaptent aux images dont ils sont extraits et il semble donc licite
dutiliser ce type de signature.
Les fltres sont calculs partir des 50 images les plus prototypiques de chaque catgorie. On distingue de
fortes ressemblances entre les profls des villes et des scnes intrieures, ce qui est cohrent avec lobservation
des spectres moyens de ces deux catgories (fgure 6.4(b)). On repre facilement parmi les fltres, ceux qui sont
adapts dtecter les directions horizontales, puisque le prototype des scnes ouvertes prsente quelques pics
dactivit, dont la plupart sont communs avec les deux catgories prcdentes.
Calcul des prototypes de classe :
- Extraite une collection de M fltres ACI partir d'une base d'images
- Pour chaque catgorie de n images :
- Pour chaque image I (taille NN) de la catgorie :
1 - Calculer les rponses des M fltres l'images ( N
2
points par fltre)
2 - En chaque pixel de l'image, dterminer l'indice du fltre ayant une rponse maximale
3 - Calculer l'histogramme des indices de fltre
- Le prototype de classe est la moyenne des n histogrammes.
Pour une image test :
1 - Calculer l'histogramme des indices de fltres rponse maximale
2 - Calculer la divergence KL de cet histogramme avec chaque prototype de classe
3 - Allouer l'image la catgorie de distance KL minimale
Table 6.2 : Algorithme dfnissant la signature des images en fonction de lactivit maximale des
fltres en chaque pixel et lalgorithme de classifcation associ [LAB99c].
- 144 -
Chapitre 6
- 145 -
Classifcation des images naturelles par ACI
6.4 Classifcation supervise
6.4.1 Evaluation des performances
Aprs extraction des fltres, calcul des signatures des images et les distances entre elles, nous validons nos
rsultats par classifcation supervise avec un classifeur aux K plus proches voisins (K
ppv
) et celui de la table 6.2.
Le choix du classifeur K
ppv
se justife pour deux raisons. Dune part, certains des modles ne reprsentent pas les
images dans un espace de caractristiques multidimensionnelles. Le classifeur K
ppv
est alors un outil simple et
performant pour discriminer les images quand on ne connat que les distances entre elles. Dautre part, cette va-
luation des performances est assez proche dun paradigme prcision/rappel qui est une mthode classique dans
le contexte de la recherche dinformation.
Pour la classifcation K
ppv
, le paramtre K varie entre 1 et 15 et on garde le meilleur rsultat. Le taux de classi-
fcation est la moyenne des taux de classifcation de chaque catgorie (moyenne de trace de la matrice de confu-
sion) pondre par les probabilits des classes a priori. La vraie matrice de confusion est toujours inconnue et on
nestime quune matrice de confusion apparente par validation croise. Plusieurs mthodes existent pour estimer
le taux derreur (1 - taux de reconnaissance). Le choix dpend de la quantit de donnes disponibles et le rsultat
est plus ou moins biais et variant. Bien que 540 images ne soient gnralement pas considr comme un petit
chantillon , nous avons retenu deux mthodes assez coteuses en calcul, mais prsentant des avantages quant
la qualit destimation. Lestimation par leave-one-out (LOO) consiste calculer la moyenne des taux derreur
des 540 classifcations avec 539 images pour lapprentissage et 1 image pour le test. Cet estimateur est peu biais,
mais sa variance est assez grande [HEN94]. Le compromis biais-variance peut tre rquilibr au proft de la
variance en utilisant k images pour le test et 540-k pour lapprentissage (leave-k-out), mais cela pose le problme
0 50 100 150 200
0
0.01
0.02
0.03
0.04
Sc. urbaines
0 50 100 150 200
0
0.01
0.02
0.03
0.04
0.05
Sc. ouvertes
0 50 100 150 200
0
0.005
0.01
0.015
0.02
0.025
0.03
Sc. intrieures
0 50 100 150 200
0
0.005
0.01
0.015
0.02
0.025
Sc. Fermes
0
0.01
0.1
Prototype des buildings
35
Indices Filtres
1
0
0.01
0.07
Prototype des visages
35
Indices Filtres
1
0
0
0.05
0.25
Prototype des feuilles
35
Indices Filtres
1
Figure 6.5 : Prototypes des classes calculs selon lalgorithme de la table 6.2. (a) les prototypes
des trois classes considre dans [LAB99c] - (b) les protoypes des images de scnes
naturelles principalement tudies dans nos travaux.
(a) (b)
- 144 -
Chapitre 6
- 145 -
Classifcation des images naturelles par ACI
du choix de k. Nous prfrons le procd bootstrap introduit par Efron et Tibschirani la fn des annes 70. Il
consiste gnrer B chantillons bootstrap, en tirant avec remise N
A
images parmi les 540 pour lapprentissage et
N
T
= 540 - N
A
images pour le test. A partir de ces B chantillons (statistique de lestimateur recherch = erreur de
classifcation), on dduit le taux de reconnaissance bootstrap (esprance de lestimateur bootstrap) et une estima-
tion de la variance. On peut montrer que le meilleur compromis biais-variance est ralis quant N
T
= N
A
= 540/2 =
270 [BUR89]. Lune des nombreuses variantes est le .632 bootstrap [EFR93] qui permet de corriger un autre
estimateur, telle lerreur par LOO
LOO
, en estimant son biais. Lestimateur corrig
632
est la moyenne pondre
entre lestimateur bootstrap
boot
et lestimateur corriger :

632
= 0.632
boot
+ 0.368
LOO
(6.26)
Le coeffcient de pondration de lestimateur bootstrap est 0.632, car cest la probabilit quun chantillon de
la base dapprentissage soit dans un chantillon bootstrap, en tant que limite de
1
1

N
A
N
A
quand N
A
.
Dans la suite, nous comparons divers critres en terme de classifcation. De nombreux cas ont t tests, donc
nous avons regroup les rsultats par thmes (infuence des signatures, des prtraitements...) pour des raisons
videntes de clart. Les expriences sont donc ralises en faisant varier un paramtre, tandis que les autres sont
choisi des valeurs raisonnables, dtermines dans les autres expriences : les images sont slectionnes par cat-
gories partir de la base de 200 images et prtraites par fltrage rtinien (fgure 5.3). On utilise 10.000 imagettes
par collection, qui sont apodises circulairement par un fltre de Hanning. La dimension est rduite 150 par ACP
et on estime 100 fltres ACI avec lalgorithme Fast-ICA. La signature des images est un histogramme avec 32 bins
distribus logarithmiquement.
6.4.2 Slection des fltres
Nous avons montr ( 5.2.3, fgure 5.4) quune forte rduction de dimension permet dobtenir des collections
de fltres mieux rsolus ( plus propres ). On prend nanmoins le risque de perdre de linformation importante
puisque la distinction entre bruit et information haute frquence utile nest pas vidente faire. Dans le cas con-
traire, la collection prsente un mlange de fltres rsolus et de fltres bruits. Nous proposons dutiliser le facteur
dispersif des fltres pour slectionner ceux qui sont les plus utiles la discrimination des images. Dans ce contexte,
un fltre rpondant identiquement toutes les images est peu utile. Le facteur dispersif slectionne au contraire les
fltres aux rponses les plus varies sur une base dimage.
Le facteur dispersif des fltres est estim sur une base dapprentissage reprsentative des classes discriminer.
Lestimation peut tre calcule partir des rponses toutes les catgories dimages ou en limitant le calcul aux
images correspondant la catgorie dextraction des fltres. Lide de la premire mthode est que les fltres sont
destins analyser toutes les images, puisque dans un contexte de classifcation, on ne connat pas la catgorie de
limage teste. Quand lextraction est faite par catgorie , il peut sembler plus licite deffectuer le calcul unique-
ment sur les images dont les fltres ont t extraits. Nanmoins, en cas dapodisation des patches par Hanning, nous
avons vu que la dispersion nest pas toujours plus grande quand la catgorie des fltres est la mme que celle des
- 146 -
Chapitre 6
- 147 -
Classifcation des images naturelles par ACI
images (les scnes fermes conduisent souvent un facteur dispersif important). La normalisation par le fac-
teur dispersif le plus grand peut aussi tre ralise par catgorie dimage ou sur lensemble des rponses la base
dapprentissage. La normalisation par catgorie assure davoir des fltres de chaque type, mme avec une slection
drastique, puisque le fltre le plus dispersif de chaque catgorie a un facteur dispersif maximal de 1. En cas de nor-
malisation globale, les fltres de la catgorie de plus grande dispersion seront reprsents plus massivement.
Nous avons constat que dans tous les cas le taux de classifcation crot avec le nombre de fltres, mais des
dcroissances temporaires peuvent avoir lieu. Elles sont cependant trs limites quand nous employons le prtrai-
tement rtinien + Hanning et dans ce cas les quatre mthodes permettent datteindre plus de 80% de classif-
cation correcte avec moins de 5 fltres. La comparaison avec une slection alatoire est loquente (fgure 6.6): les
fltres les plus dispersifs maintiennent le taux de classifcation plus dun cart-type de la moyenne dune slection
alatoire. Au contraire, les fltres les moins dispersifs sont peu performants en petite quantit, mais au del de 40
fltres, le taux de classifcation se maintient au del de 85%. Etant donn les applications vises, il est prfrable
dutiliser le moins de descripteurs possible, ce qui abonde dans le sens de notre critre. De plus, laccumulation
de caractristiques non discriminantes a tendance diminuer les performances du fait du lissage (moyenne) des
diffrences inter catgorielles.
Nous avons compar notre mthode une slection par linformation mutuelle de classe et le critre de Fisher.
Ce dernier est classique en reconnaissance des formes et consiste maximiser la variance inter-classe et rendre
minimale la variance intra-classe. Comme le facteur dispersif, il a t estim sur les 50 images les plus caractristi-
ques de chaque classe, partir des moyennes et des cart types des rponses nergtiques, selon la mme mthode
que [LAB01]. Pour le calcul de linformation mutuelle, la densit conjointe entre les rponses des fltres et les
classes a t estime par un histogramme 64 bins. Linformation mutuelle est ensuite calcule par :
I(C,X) = H(C) + H(X) - H(C,X) (6.27)
Figure 6.6 : (a) classifcation LOO en fonction du nombre de fltres, slectionns selon leur pouvoir dispersif
maximal (trait plein), alatoirement (tirets) ou leur pouvoir dispersif minimal (pointills) - (b)
Comparaison avec la slection par information mutuelles et le critre de Fisher.
0 5 10 15 20 25 30 35 40
55
60
65
70
75
80
85
90
Nombre de filtres
T
a
u
x

d
e

r
e
c
o
n
n
a
i
s
s
a
n
c
e
Plus dispersifs
Moyenne alatoire
Moins dispersifs
0 10 20 30 40 50 60
70
72
74
76
78
80
82
84
86
88
90
Nombre de filtres
T
a
u
x

d
e

r
e
c
o
n
n
a
i
s
s
a
n
c
e
Facteur dispersif
Information mutuelle
Critre de Fisher
a b
- 146 -
Chapitre 6
- 147 -
Classifcation des images naturelles par ACI
H(C) est lentropie de classe, H(X) lentropie dattributs, H(C,X) lentropie conjointe de classe et dattribut
(fgure 6.6(b)). Ces deux mthodes assurent des taux de classifcation de 75% ds les premiers fltres, mais il crot
plus lentement quavec le critre par facteur dispersif (fgure 6.6(b)). Ces trois mthodes entrent dans le cadre
gnral de la slection de caractristiques (variable and feature slection), qui vise trouver des prdicteurs les
plus performants possibles [GUY03]. Dans notre contexte, trois familles de mthodes sont envisageables. Les
expriences ralises ici sont des mthodes dordonnancement des descripteurs. Nous utilisons un critre (facteur
dispersif, information mutuelle de classe, critre de Fisher, critre de classifcation individuel...) pour ordonner les
fltres et obtenir ainsi des ensembles embots avec un cardinal croissant. Lavantage principal est le faible cot
de calcul, puisquil sufft dun seul calcul par descripteur. Le problme essentiel de ces mthodes est quil nglige
le fait quun ensemble de variables peu utiles individuellement, peuvent tre trs discriminantes collectivement
(fgure 6.7). Une solution est donc de rechercher des ensembles de descripteurs discriminants. Quand on utilise le
classifeur comme une boite noire permettant destimer la pertinence de lensemble test (wrappers methods), le
problme est dexplorer lespace de tous les sous ensembles possibles. La recherche exhaustive est NP complexe
( nombre de descripteurs possible la puissance taille du plus grand sous-ensemble ), et nest donc pas aise.
Lalternative est doptimiser une fonction objective traduisant la pertinence dun sous ensemble, en liminant ou
en ajoutant des descripteurs (embedded methods). Toute la diffcult est de dfnir la fonction objective ! Enfn la
dernire classe de mthodes consiste fabriquer de nouveaux descripteurs partir des descripteurs existants (fea-
ture construction), laide de lalgorithme des nues dynamiques par exemple, qui permet de trouver des prototy-
pes de descripteurs et de rduire la dimension de lespace des caractristiques. Cette dernire mthode correspond
lensemble de la mthodologie expose dans le chapitre 5, puisquil sagit dj de construire des descripteurs
pertinents (les fltres ACI) partir de descripteurs peu discriminants (le niveau de gris des images). De plus, la
rduction de dimension par ACP permet une premire slection, en liminant les fltres correspondant au bruit.
0.4 0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
0.5
0
0.5
1
1.5
Figure 6.7 : Le problme du OU EXCLUSIF (daprs [GUY03]). Deux classes de points (les ronds et les croix)
ont leurs labels dfnis en fonction de la table de vrit de la fonction OU EXCLUSIF. Individuel-
lement, aucun des deux axes X et Y nest discriminant. Collectivement par contre, la sparation
est facile.
Y
X
- 148 -
Chapitre 6
- 149 -
Classifcation des images naturelles par ACI
6.4.3 Infuence des prtraitements
Nous tudions linfuence des principaux prtraitements sur les performances en classifcation. Il sagit de la di-
mension de rduction par ACP, du prtraitement des images (Butterworth / rtinien postrieur) et du prtraitement
des imagettes (fentrage circulaire par Hanning ou pas). Les fltres ont t extraits par catgorie et nous les avons
slectionns en fonction de leur pouvoir dispersif, puis avons ralis des classifcations K
ppv
avec validation par
leave-one-out, en utilisant les signatures par histogrammes logarithmiques 32 bins. En nous limitant 60 fltres,
nous avons report les meilleurs taux de classifcation obtenus la table 6.3, indpendamment de la mthode de
slection par le facteur dispersif.
Concernant les prtraitements sur les images et les imagettes, lintrt du prtraitement rtinien et du fentrage
de Hanning apparat clairement. Il conduit aux meilleurs taux de classifcation quel que soit la dimension de rduc-
tion. Ces rsultats sont mettre en rapport avec les rsultats du chapitre 5, o nous avions montr quils permettent
dobtenir des fltres mieux adapts aux spectres moyens des catgories, plus slectifs en orientation, ainsi quen
rsolution. Le fltrage rtinien semble tre le plus bnfque des deux prtraitements, mais la combinaison avec
le fentrage permet datteindre plus rapidement les meilleurs taux de classifcation, quelle que soit la mthode de
slection/ordonnancement par facteur dispersif (fgure 6.6). Par contre, la mthode de slection infue plus forte-
ment sur lvolution pour les autres prtraitements.
Avec le traitement Butterworth, les taux de classifcation ont tendance dcrotre quand la rduction de dimen-
sion augmente, ce que lon interprte comme tant d une perte dinformation haute frquence non uniquement
lie au bruit. Avec le traitement rtinien les rsultats sont stables, mais cela est en partie d leffcacit du facteur
dispersif pour slectionner les fltres les plus aptes discriminer parmi toute la collection.
6.4.4 Classifcation avec les rponses dactivit
Nous comparons leffcacit des signatures des rponses compltes en complexit croissante en utilisant les
distances associes. Nous avons extrait quatre collections de 225 fltres ACI, partir dimages 128128 prtrai-
tes par le fltrage rtinien, puis avons apodis les patches par un fltre de Hanning. Nous avons slectionn les
fltres en fonction de leur pouvoir dispersif sur la base des 200 images et avons calcul les signatures des rponses
R
dim
= 50 R
dim
= 150 R
dim
= 225
Butterworth seul 80.9 % 82.0 % 82.8 %
Rtinien 87.0 % 86.9 % 87.4 %
Butterworth + Hanning 80.9 % 82.0 % 83.1 %
Rtinien + Hanning 86.7 % 87.2 % 85.7 %
Table 6.3 : Rsultats de la classifcation avec les fltres ACI par catgories pour diffrents prtraitements
et diffrentes dimensions de rduction. Lestimation des performance est faite par Leave-one-
out. Les fltres ACI ont t slectionns en fonction de leur facteur dispersif, selon les quatre m-
thodes (table 6.3) et nous avons report le meilleur rsultat obtenu, indpendamment du nombre
de fltres (60 au maximum) et de la mthode de slection.
- 148 -
Chapitre 6
- 149 -
Classifcation des images naturelles par ACI
compltes pour les 540 images. Les rsultats de classifcation LOO sont indiqus la fgure 6.8, o nous avons
report le meilleur taux de classifcation obtenu en fonction du nombre de fltres. Les modles un ou deux para-
mtres sont KL
E
(pour euclidien ) et KL
SG
(pour semi-gaussien ) et le modle deux paramtres est
KL
G
. H
linN
est la signature par histogramme N bins de largeur gale et H
logN
est celui ayant des bins en
progression logarithmique. Quand lestimation du nombre de bins est optimale pour chaque histogramme (6.15),
nous avons report le rsultat sous la forme H
linOpt
et H
logOpt
respectivement. KL
int
indique le calcul de
la distance de Kullback-Leibler entre deux densits modlises par logspline selon la formule intgrale (6.15) et
KL
MCp
est le mme calcul avec une implantation de Monte Carlo sur p chantillons (6.25).
Le taux de reconnaissance samliore avec la prcision du modle. De moins de 74% de reconnaissance avec
les modles un paramtre, nous passons 78% pour le modle deux paramtres. Cette amlioration apprcia-
ble des rsultats montre que la modlisation des rponses positives par une loi normale nest pas gnante puisque
seule la comparaison des deux modles nous importe. Lutilisation des deux premiers moments des distributions
est plus riche que lutilisation dun seul. Les histogrammes largeur de bin gale permettent datteindre un taux
de classifcation de 80% environ (81,1% avec 128 bins). Compte tenu de laccroissement de la complexit du mo-
dle par rapport la modlisation deux paramtres, le gain en reconnaissance est acqui chrement, dautant que
la variance de lestimateur LOO est grande. Loptimisation du nombre de bins conduit un taux de 55.6 %, avec
un nombre de bin variant de 37 6200 et 220 bins en moyenne (mdiane 155). Comme nous lavons expliqu, la
structure trs parcimonieuse de certaines rponses rend lestimation des densits peu robuste dans ce cas. Lutili-
sation dhistogrammes appliqus au logarithme des donnes apporte une amlioration substantielle en situant les
performances de classifcation au del de 85%. Avec un nombre de bins fxe, on obtient les meilleurs rsultats avec
32 et 64 bins. Nous avons obtenu les mmes taux de classifcation en fabriquant les supports des histogrammes
avec un maximum V
M
(6.12) diffrent pour chaque fltre (85.9% 32 et 64 bins) et avec le maximum global de la
6 8 10 12 14 16 18
70
72
74
76
78
80
82
84
86
88
H
lin256
H
lin128
H
lin64
H
lin32
H
lin16
H
logOpt
H
log256
H
log128
H
log64
H
log32
H
log16
H
log8
KL
G

KL
E

KL
SG
KL
int
KL
MC256
KL
MC500
KL
MC1000
Nombre de filtres
T
a
u
x

d
e

r
e
c
o
n
n
a
i
s
a
n
c
e

(
L
O
O
)
Figure 6.8 : Rsultats de la classifcation LOO en fonction du nombre de fltres, pour toutes les signatures/
distances des rponses compltes avec des fltres ACI (R
dim
= 225). Voir le texte pour les dtails
sur les notations.
- 150 -
Chapitre 6
- 151 -
Classifcation des images naturelles par ACI
base (85.7% 64 bins et 86.3% 32 bins). Quand on optimise le nombre de bins (6.15), il varie de 19 91 avec une
moyenne de 41 et donne un taux de reconnaissance quivalent aux deux fonctions prcdentes, avec nanmoins
un nombre de fltres moindre. Ces expriences montrent que les histogrammes sur le logarithme des donnes sont
bien adapts pour dcrire la forme globalement exponentielle des rponses. Dautre part, leur conception est rela-
tivement simple puisque lon a montr que lon pouvait utiliser un nombre de bins fxe entre 32 et 64, en fxant le
maximum la valeur de rponse la plus grande pour la base dapprentissage. La modlisation non paramtrique
par logspline donne des taux de classifcation galement au del de 85%. Limplantation intgrale (86%) donne
un rsultat semblable limplantation de Monte Carlo. Cette dernire donne un taux de reconnaissance quivalent
avec 1000 chantillons (86.5%) et 500 chantillons (85.8%). Par contre 256 chantillons sont insuffsants (77%).
Nous montrons ainsi que la modlisation logspline des densits, sans aucun a priori sur celles-ci, permet dattein-
dre des performances quivalentes aux signatures par histogrammes logarithmiques.
Etant donn que lestimateur LOO est connu pour avoir une grande variance, nous avons valu les performan-
ces des meilleurs modles au moyen dune procdure bootstrap et nous avons corrig le biais de lestimateur LOO
par le bootstrap .632 (table 6.4). Les rsultats montrent que le modle logspline surpasse lgrement les modles
par histogrammes logarithmiques, bien que les performances restent proches. On confrme que 500 chantillons
sont suffsants pour lestimation de la divergence KL par un estimateur de Monte Carlo.
6.4.5 Gnralisation de lextraction
Afn de tester les capacits de gnralisation des mthodes employes, nous avons test les fltres toutes cat-
gories , ainsi que des fltres par catgories et toutes catgories extraits de la base indpendante dimages.
Le protocole de classifcation est le mme que prcdemment.
Lutilisation de fltres toutes catgories extraits de la base des 200 images ne change pas profondment les
rsultats quand le fltre de Hanning nest pas utilis (table 6.5). En cas dapodisation par contre, on constate une
amlioration pour les fltres traits par Butterworth (84.4%) et une baisse des rsultats avec ceux traits par le fl-
trage rtinien (84.8 %). Ces taux de classifcation sont tout de mme corrects, ce qui montre la capacits des fltres
Table 6.4 : Rsultats de la classifcation Bootstrap pour les meilleurs modles de signatures compltes.
Boot

est lesprance de lestimateur bootstrap et
.632
est lestimateur LOO corrig.
Boot
est lecart-
type de lestimation bootstrap.
Modles
100 chantillonnages Bootstrap

Boot
(%)
Boot
(%)

.632
(%)
KL
MC_1000
82.7 1.8 83.9
KL
MC_500
82.8 1.8 84.0
KL
int
82.8 1.6 83.9
KL
logOpt
81.7 1.7 83.1
KL
log32
81.9 2.2 83.5
KL
log64
82 2.0 83.4
KL
log128
81.4 1.8 82.6
- 150 -
Chapitre 6
- 151 -
Classifcation des images naturelles par ACI
ACI sadapter simultanment toutes les catgories. Dans un contexte de recherche dimage, les frontires entre
les classes nont pas lieu dtre, ou plus exactement se doivent dtre fexibles quand cest licite, afn de sadapter
aux dsirs dun utilisateur. Les bonnes performances des fltres ACI toutes catgories sont donc un rsultat
intressant, puisque cela vite de sparer a priori les classes dimages.
Pour les fltres par catgories extraits dune base indpendante, les protocoles les plus robustes sont le rtinien
(82.6 %) et le rtinien + Hanning (85.6 %). Dans le cas le plus gnral, o les fltres toutes catgories
extraits dune base indpendante, on atteint 86.7 % avec le prtraitement rtinien (86.3 % en cas dapodisation).
Il est trs intressant de relever que dans ce dernier cas, les taux de classifcation sont presque du mme ordre
quavec les fltres extraits de la base de 200 images (table 6.5). Cela montre que lapprentissage direct nest pas
primordial et que nous pouvons esprer conserver les performances annonces dans ces travaux de manire trs
gnrale. Ceci est bien entendu caution utiliser des images raisonnablement proches de celles que lon considre
(scnes naturelles), au sens de leur distribution dans lespace image dcrit par les fltres ACI.
6.4.6 Comparaison dautres techniques
Nous avons compar les performances de classifcation des fltres ACI avec d'autres techniques utilises ou
utilisables en vision par ordinateur. Nous avons donc utilis le mme classifeur et la mme mthode de validation
que prcdemment (K
ppv
en leave-one-out, le paramtre K varie de 3 15).
Puisque les fltres ACI rendent compte des directions prsentes dans les images, nous avons mesur les per-
formances des histogrammes directionnels de bords (edge direction histograms). C'est une technique trs couram-
ment employe pour rendre compte des formes dans les systmes d'indexation d'images [VAI98, VAI00, LAA00].
Nous avons implant une mthode proche de celle qui est utilise dans PicSOM [LAA00, BRA99]. Nous dter-
minons les gradients directionnels en chaque pixel des images avec 8 fltres de Sobel (0, 45, 90,..., 315), puis
fabriquons les images de gradients binarises en ne conservant que ceux dont la valeur vaut 15% du maximum
(valeur heuristique dtermine par [BRA00]). Les histogrammes sont ensuite calculs dans 5 rgions (les quatre
quarts de l'image et la partie centrale), ce qui donne un vecteur caractristique 85=40 dimensions pour chaque
image. Les distances inter-images sont estimes par la distance euclidienne entre les vecteurs, puis nous les clas-
sons avec le classifeur K
ppv
en leave-one-out. Le taux de classifcation est de 71.1 % sur les images brutes, 69.5 %
Filtres toutes
catgories
Filtres par
catgorie
Filtres par catgorie
base indep.
Filtres toutes cat-
gorie base indep.
Butterworth seul 82.2 % 82.0 % 74.5 % 84.1 %
Rtinien 86.9 % 86.9 % 82.6 % 86.7 %
Butterworth + Hanning 84.4 % 82.0 % 75.9 % 85.7 %
Rtinien + Hanning 84.8 % 87.2 % 85.6 % 86.3 %
Table 6.5 : Rsultats de la classifcation avec les fltres ACI toutes catgories et par catgorie extraits
dune base indpendante. Lestimation des performances est faite par Leave-one-out. Les fltres
ACI ont t slectionn en fonction de leur facteur dispersif (60 au maximum).
- 152 -
Chapitre 6
- 153 -
Classifcation des images naturelles par ACI
sur les images traites par Butterworth et 71.7 % sur les images traites par rtinien. Les signatures un paramtre
des images par fltre ACI (modle 1 paramtre) mnent des rsultats meilleurs avec moins de 20 fltres (fgure
6.8). Le contexte ici est cependant diffrent de celui des travaux prcdemment cits, puisque nous cherchons
catgoriser limage dans son ensemble. Il nous semble donc plus judicieux de comparer lhistogramme des qua-
tre zones disjointes rassembles. Cela porte les rsultats 72.6 % pour les images brutes, 72 % pour celles traites
par Butterworth et 75.9 % pour les images traites par rtinien. Ces rsultats restent nanmoins infrieurs ceux
obtenus avec le modle deux paramtres des descriptions par fltres ACI, montrant que l'information analyse,
pertinente pour la discrimination, est plus complexe que de simple bords
1
.
Nous avons compar notre technique des ondelettes de Gabor, puisque cest une technique classique en vision
par ordinateur [MAN96, HER97, DON99, OLI99, TOR99, GUY01, LIU03], mais aussi parce que les fltres ACI
extraits prsentent de fortes ressemblances avec elles. Nous avons implant une rosace de Gabor 6 orientations
(0 /6 /3 /2 2/3 5/6) et 5 frquences (0.35 0.14 0.06 0.02 0.009). Leur bande transversale mi-hauteur vaut
/6, la plus haute frquence centrale vaut 0.35 et les autres sont places selon une progression gomtrique de rai-
son 5/2, de telle faon que les bandes transversales mi-hauteur soient adjacentes (fgure 6.9). Nous avons calcul
les rponses de cette rosace aux 540 images prtraites par Butterworth et par fltrage rtinien (le fentrage de
Hanning n'est pas licite ici puisque les fltres de Gabor sont dj moduls par une gaussienne). Les distances entre
images ont t estimes par la distance euclidienne. Les signatures sont centres et ramenes variance unitaire
sur l'ensemble de la base d'image de faon viter que certaines bandes frquentielles soient trop dominantes
[OLI99]. Un raffnement supplmentaire propos par ces auteurs est de symtriser les rponses en orientations,
c'est--dire de rassembler les rponses /6 et 5/6, ainsi que celles /3 et 2/3. Les rsultats de classifcation
sen trouvent alors amliors (table 6.6). Avec ces rponses nergtiques, les performances de classifcation sur
les images traites par rtinien approchent des 80 % et lutilisation dautres modles de rosace [GUY01] donnent
des rsultats semblables. Nous avons constat au cours de nos travaux que l'utilisation de la valeur absolue des
rponses conduit souvent de meilleurs rsultats que les rponses nergtiques. Notre interprtation est que lta-
1
independent components of images are more complex than edge flters ...
0 0.5
0
0.25
0.5
u
v
Figure 6.9 : Coupe mi-hauteur de la rosace dondelettes de Gabor 6 orientations et 5 frquences dans le
domaine frquentiel.
- 152 -
Chapitre 6
- 153 -
Classifcation des images naturelles par ACI
lement des grandes valeurs ralis par la fonction carre rend le calcul des signatures moins robuste. Ceci est
clair quand il sagit dhistogrammes ou destimations de densits et il semble que ce soit aussi le cas pour le calcul
de moyennes. En effet, limplantation des signatures prcdemment dcrites avec les rponses en valeur absolue
permet d'atteindre un taux de classifcation de 85.7% avec la signature symtrise et le prtraitement rtinien (ta-
ble 6.7). Le prtraitement de Butterworth conduit un rsultat identique aux rponses nergtiques sur les images
traites par rtinien (78.9%). Lutilisation de la valeur absolue des rponses est donc plus judicieuse et permet
datteindre des performances du mme ordre que celles des fltres ACI. Ce rsultat tait prvisible tant donn leur
ressemblance rciproque.
Nous avons test l'Analyse en Composantes Principales, puisque l'ACI est considre par de nombreux auteurs
comme une extension de l'ACP tenant compte des statistiques d'ordre suprieurs 2. Les fltres utiliss sont ceux
qui ont t extraits pralablement l'ACI et ont donc subi les mmes prtraitements. La signature utilise est un
histogramme logarithmique 32 bins. Nous avons relev le meilleur taux de classifcation obtenu en ordonnant les
fltres selon les quatre mthodes de slection (table 6.7). Le fltrage rtinien et le fentrage de Hanning permettent
un accroissement des performances encore plus important que pour les fltres ACI. Dans chaque cas, ces derniers
surpassent nanmoins les fltres ACP ce qui prouve limportance de la prise en compte des statistiques dordre
suprieur deux. Par contre, dans le cas de fltres toutes catgories , les taux de classifcation sont au mieux de
71.8 % avec le traitement rtinien + Hanning , ce qui montre que les fltres ACI ont de meilleures proprits de
gnralisation. En se limitant lutilisation de statistiques dordre deux, lextraction des descripteurs directement
partir des images mne de bonnes performances de discrimination si lextraction est supervise.
En supposant que la source principale de redondance est la prsence de bords dans les images [DON01],
Donoho et ses collgues ont cherch un moyen de les encoder de manire optimale, poursuivant ainsi le dvelop-
E[r
2
] E[r
2
]
sym
E[|r|] E[|r|]
sym
Butterworth 72.2 % 74.3 % 76.1 % 78.9 %
Rtinien 76.9 % 78.9 % 85.4 % 85.7 %
Table 6.6 : Rsultats de la classifcation K
ppv
(LOO) avec les fltres de Gabor. E[.] indique que lon a utilis
la rponse moyenne (centre rduite sur la base dimages). H
log32
est la signature par un histo-
gramme logarithmique sur 32 bins. La premire colone indique le prtraitement des images. r
2
est
la rponse nergtique et |r| celle en valeur absolue.
Table 6.7 : Rsultats de la classifcation K
ppv
(LOO) avec les fltres ACP par catgories et
toutes catgories en fonction du prtraitement. La signature est un histogramme logarithmique
sur 32 bins de la valeur absolue des rponses.
Brut Hanning
Butterworth 52.4 % 50.5 %
Rtinien 68.1 % 71.8 %
Brut Hanning
Butterworth 74.1 % 75.6 %
Rtinien 82.8 % 84.6 %
ACP par catgories ACP toutes catgories
- 154 -
Chapitre 6
- 155 -
Classifcation des images naturelles par ACI
pement de modles danalyse harmonique susceptibles de sapprocher dun codage optimal. Cands et Donoho
ont ainsi dfni les Ridgelet [CAN98] qui sont conues pour reprsenter les images parcimonieusement en les
dcomposant selon les crtes (ridges) prsentes dans les images. Plusieurs travaux ont exploit cette technique
pour le dbruitage dimage [DOV00a, STA02], la compression [DOV00b] ou encore le rehaussement de contraste
[STA03]. Nanmoins cette transformation na jamais t utilise dans le contexte de la discrimination dimage et
seul le caractre pars de la distribution des coeffcient a t tudie [DON01]. Nous avons calcul la transforme
en ridgelet numrique [DON02] et avons estim la distance des 540 images par un histogramme logarithmique
32 bins. Les taux de classifcation sont alors de 60 % sur les images traites par rtinien et 64 % sur celles traites
par Butterworth. Ces rsultats montrent essentiellement que la modlisation de la distribution parcimonieuse des
coeffcient nest srement pas adapte pour discriminer les images. La distance euclidienne entre les coeffcients
conduit un taux de reconnaissance encore plus faible (< 50%). Nous avons donc dfni la signature en prenant
la valeur absolue de la transforme en ridgelet, puis en moyennant les rponses des bases ayant une mme rso-
lution et une mme orientation. Pour une image 128128, cela donne (256 orientations)(6 rsolutions) = 1536
dimensions pour le vecteur caractrisant chaque image. Les taux de classifcation K
ppv
sont alors de 80.7 % sur les
images Butterworth , 82.4 % sur les images sans prtraitement et 85.6 % sur les images traites par rtinien.
Cela montre que, mieux utilise, cette description trs fne des images peut tre performante en terme de discrimi-
nation. Sur la base considre, ses performances restent nanmoins lgrement infrieures la classifcation par
fltres ACI. Si la signature dfnie ci-dessus nous semble judicieuse dans le contexte de la discrimination, il serait
nanmoins intressant de rechercher des conditions danalyse (prtraitement des images) optimales pour ce type
de description.
Enfn, nous avons implant la signature activit maximale des fltres ACI. A partir des images prtraites se-
lon les quatre protocoles nous avons extrait 100 fltres ACI aprs rduction de la dimension 150. Pour chaque pr-
traitement, nous avons slectionn une collection de 60 fltres par catgories (415) selon le protocole disp_3
(table 6.3). Nous avons ensuite calcul les signatures activit maximale pour les 540 images naturelles et avons
gnr les prototypes des classes partir des 50 images les plus prototypiques de chaque classe. Ces expriences
ont t reproduites avec 100 fltres ACI extraits de la base des 200 images aprs rduction 225 dimensions par
Filtres base 200
(R
dim
= 225)
Filtres base 200
(R
dim
= 150)
Filtres base indpendante
(R
dim
= 150)
Filtres toutes catgories
base 200 (R
dim
= 150)
K
ppv
proto K
ppv
proto K
ppv
proto K
ppv
proto
Butterworth
78.7 % 74.1 % 81.5 % 76.2 % 83.9 % 77.1 % 77.0 % 72.9 %
Butterworth
+ Hanning
84.3 % 80.3 % 87.2 % 84.1 % 85.9 % 80.3 % 83.9 % 80.6 %
Rtinien
78.3 % 76.7 % 81.9 % 77.3 % 84.8 % 77.1 % 78.2 % 76.2 %
Rtinien +
Hanning
85.6 % 82.7 % 85.9 % 82.1 % 85.9 % 82.4 % 84.6 % 81.5 %
Table 6.8 : Rsultats de la classifcation avec les signatures activit maximale, pour les quatre prtraitements,
avec des fltres par catgories extraits de la base des 200 images les plus prototypiques (table
6.1), de la base indpendantes de 25 images, ou les fltres toutes catgories . Classifcation aux
plus proches voisins (K
ppv
) ou avec des prototypes (proto) selon lalgorithme de la table 6.2.
- 154 -
Chapitre 6
- 155 -
Classifcation des images naturelles par ACI
ACP, ainsi quune collection de 100 fltres extraits de la base restreinte indpendante (R
dim
= 150).
La classifcation K
ppv
valide en leave-one-out donne des taux de classifcation meilleurs que la classifcation
par prototype (table 6.4). Le protocole K
ppv
est en effet plus prcis puisquil tient compte des voisinages locaux.
Avec le fentrage circulaire, nous observons de bon taux de classifcation pour les trois expriences (plus de
85.5 % en rtinien + Hanning ). Comme pour les rponses compltes, lutilisation dune base indpendante
dextraction nest pas nuisible aux performances (85.9 %). Par contre, une rduction de dimension insuffsante
risque damoindrir les rsultats, particulirement en labsence de fentrage. Le meilleur taux de classifcation est
atteint en Butterworth + Hanning sur la base des 200 images avec R
dim
= 150. Avec 87.2 %, la mthode a des
performances du mme ordre quavec les meilleures signatures de rponses compltes (KL
int
, KL
MC500
, KL
log32
).
Cela est aussi partiellement d la slection opre par facteur dispersif, puisque dautres expriences sans slec-
tion de fltres ne conduisent pas de tels rsultats. De plus, si on nutilise que 20 fltres (mme ordre de grandeur
que les rsultats avec les rponses compltes), le taux nest plus que 84.2 %. Cela reste bon et la complexit des
calculs est largement moindre que pour les signatures des rponses compltes. Par contre, nous sommes partags
sur la complexit de stockage. Si on ne conserve que les histogrammes dindice, enlever ou ajouter des descrip-
teurs oblige refaire tous les calculs. Dun autre ct, si on conserve lindice des fltres de rponse maximale et
la valeur pour chaque pixel, lajout devient ais (mais pas la suppression), mais cela oblige conserver deux fois
plus de donnes que de pixels dans limage (la moiti dentre eux sont nanmoins des entiers, ce qui prend moins
de place aprs compression). Dans un contexte dindexation cette seconde implantation est plus judicieuse,
moins que le systme ne soit pas destin voluer en incluant de nouvelles catgories. Lexprience ralise avec
les fltres toutes catgories conduit des rsultats lgrement infrieurs aux autres mthodes mais nanmoins
corrects (83.9 % et 84.6 % avec le fentrage). Pourtant, tant donn les hypothses originales concernant ce type
de signature [LAB99c], nous aurions pu nous attendre une chute drastique des performances puisque aucune ca-
tgorie a priori nest dfnie. Cela montre nouveau la capacit dadaptation globale des fltres ACI aux catgories
concernes. Selon lexprience, la hirarchie change entre Butterworth et rtinien . Par contre le fentrage
de Hanning est particulirement bnfque et amliore systmatiquement les rsultats de classifcation. En effet,
cette signature est extrmement dpendante ladaptation des fltres ACI aux spectres des images, puisquelle ne
considre que la valeur maximale des rponses. Cela montre directement, dans un contexte de classifcation, les
qualits du fentrage circulaire, dont les effets bnfques sur ladaptation ont t montrs au chapitre 5.
6.5 Organisation pour la recherche dimages par le contenu
6.5.1 Introduction
Le principe de la recherche dinformations [RIJ79] est de retrouver un document dans une grande base de don-
nes en mettant des requtes successives un systme de recherche dinformation (SRI) (fgure 6.7). A chaque r-
ponse du systme, lutilisateur juge la pertinence des propositions, ce qui permet daffner la recherche (relevance
- 156 -
Chapitre 6
- 157 -
Classifcation des images naturelles par ACI
feedback) pour les propositions suivantes. La conception de tels systme doit donc prendre en compte la subjec-
tivit lie la psychologie des utilisateurs humains, ainsi que leur versatilit. Dans le domaine de la recherche
dimage en particulier, il existe plusieurs types de requtes, telles la recherche dune image prcise existant dans
la base (target search), ou bien celle de plusieurs images la smantique dtermine (category search). On parle
de navigation ouverte (open-ended browsing) quand lutilisateur na quune vague ide de ce quil recherche,
sans mme savoir sil a une chance de trouver ce quil cherche dans la base et que son but peut changer en cours
de navigation [COX00]. Cela explique notamment pourquoi lvaluation des systmes de recherche dimages par
le contenu est un domaine de recherche ouvert et quen consquence la comparaison objective entre les diffrents
systmes nest pas facile. Une voie intressante pour lvaluation des SRI est lexprimentation psychophysique
avec des sujets humains [COX00].
La catgorisation en classes smantiques cohrentes avec le jugement humain semblent tre une premire tape
pertinente pour organiser la base dimages. Nous allons donc analyser la manire dont la base dimages (540) est
organise avec les descripteurs ACI, ainsi que leur comportement dans le contexte de la recherche dinformation.
Il faut cependant noter que dans un SRI, les descripteurs ACI ne constitueraient quune partie de la signature des
images et que dautres caractristiques (lies la couleur, la texture...) y seraient associes.
6.5.2 Organisation
Afn de visualiser lorganisation globale de la base dimages, nous calculons la matrice de distances entre les
images obtenue partir de lestimation KL (Monte-Carlo 500 chantillons) entre les signatures logspline des
rponses de 16 fltres provenant dimages traites par rtinien + Hanning. Nous reprsentons ces donnes en deux
dimensions laide dun algorithme de MDS linaire (fgure 6.11(a)). Nous distinguons quatre zones correspon-
dant aux classes dimages prcdemment considres, mais celles-ci sont entremles.
Bien que 200 300 valeurs propres sont positives, leur rpartition montre que moins de 20 dimensions domi-
nent les autres, suggrant quune reprsentation euclidienne dimension relativement faible pourrait tre ralise
(fgure 6.11(b)). Nanmoins, nous avanons que ce chiffre provient surtout du faible nombre dchantillons (540
Base
dimages
(signatures )

SRI
Requte
Rponses
la requte
Boucle de pertinence
Relevance feeback
Figure 6.10 : Shma gnral dun systme de recherche dinformation (SRI).
- 156 -
Chapitre 6
- 157 -
Classifcation des images naturelles par ACI
Projection des 540 images par MDS
Villes
Sc. ouvertes
Sc. intrieur
Sc. fermes
Figure 6.12: Projection 2D de la base de 540 images par ACC. Les exemples
dimages sont des frontires ou des points litigieux.
Projection des 540 images par ACC
Villes
Sc. ouvertes
Sc. intrieur
Sc. fermes
?
Figure 6.11: (a) Projection 2D de la base de 540 images par MDS (b) Rpartition des valeurs propres.
0 100 200 300 400 500 600
200
0
200
400
600
800
1000
1200
Valeurs propres ordonnes
(a) (b)
Ouvert ?
- 158 -
Chapitre 6
images), qui du fait de la maldiction de la dimension se retrouvent vite perdus en grande dimension. Cette
hypothse est confrme par le fait que lorsque 200 images sont projetes seulement, le nombre de dimensions
fortes dcrot proportionnellement.
La projection non-linaire par ACC (fgure 6.12) conduit une reprsentation lgrement mieux spare que
dans le cas linaire. Globalement, les quatre classes forment quatre zones distinctes, mais plusieurs images sont
hors de leur catgorie. Dans certains cas, cela est essentiellement d un tiquetage litigieux. Celui-ci est la
consquence de lambigut existant dans certaines images, telles celles marques ouvert ? sur la fgure 6.12.
Lablises en tant que paysages ouverts , il ne semble pas aberrant de les retrouver assez proche dimages de
montagnes. Avec ce mode dorganisation, la notion de label na plus lieu dtre, et cest celle de voisinage sman-
tique qui prvaut.
Les reprsentations locales de lespace image dcrit par les fltres ACI (fgure 6.12) montrent que ceux-ci ren-
dent correctement compte du contexte smantique des scnes. Lorganisation ainsi forge peut aider une tche de
recherche de type category search en alimentant un systme de recherche dimage avec linformation pertinente
pour la catgorie. En ce qui concerne une recherche de cible, le contexte smantique peut au moins aider dans les
premires tapes pour orienter le systme dans une direction correcte.
- 159 -
7.1 Information spatiale et carte de saillance
7.1.1 Motivations
Les modles de rponses dvelopps dans le chapitre prcdent rendent compte de lactivit globale des des-
cripteurs extraits par ACI sur les images. Ceci se justife du point de vue psychologique puisquune scne semble
devoir tre apprhende de manire globale [OLI01] et que cette stratgie peut tre effcace en discrimination
[TOR99]. De plus, les statistiques globales dune images peuvent donner de fortes indications quand la loca-
lisation des objets [TOR03a]. Pourtant, force est de constater que la rponse globale nest pas suffsante pour la
classifcation de scnes. Par exemple, nous avons montr au chapitre 4 que les images comportant des personnages
ou des animaux sont parfois prfrentiellement associes dun point de vue perceptif. Il semble donc ncessaire de
procder une segmentation des scnes pour en dtecter certains lments discriminants. Malheureusement, cette
tche est diffcile, voire impossible dans un cas gnral [SME00] : la segmentation forte dune image peut tre
juge mauvaise, mais en aucun cas nous ne pouvons dterminer une unique bonne segmentation dans un cas
gnral, puisque celle-ci dpend de lapplication vise. Une alternative est donc de procder une segmentation
faible, par exemple en divisant les images en zones fxes a priori. Cependant, elle se justife diffcilement du point
de vue cognitif (et cet aspect nous semble primordial pour la reconnaissance de scnes) tant donn la diversit
Chapitre 7
Voies prospectives et Conclusion
Dans ce dernier chapitre, nous synthtisons le travail effectu et discutons de sa porte. Nous identifons deux
axes de poursuite des recherches. Le premier est l'intgration de l'information spatiale dans le type de rponse
utilis. Pour cela, nous proposons d'utiliser un modle de cartes de saillance cohrent avec les travaux exposs
dans le manuscrit et prsentons les dveloppements effectus dans cette direction ainsi que les premiers rsultats
(7.1). Nous prsentons alors la synthse des travaux et ses implications dans le domaine de la description des
scnes naturelles et discutons d'une voie de recherche plus long terme, qui est l'utilisation de nos travaux dans
le cadre d'un systme de recherche d'images (7.2).
Chapitre 7
- 160 -
Voies prospectives et Conclusion
- 161 -
des images. On trouve des travaux en estimation de profondeur [TOR02, MAS03], en recherche dimages par le
contenu [LAA00] et aussi en reconnaissance de scnes [GUY01] qui proftent avantageusement de cette stratgie.
Nanmoins, les exprimentations menes sur la base des 540 images (chapitre 6) avec une telle segmentation ne
sont pas convaincantes. Cela est probablement d au fait que les images de cette base prsentent des points de vue
assez varis (plonges et contre-plonges), pour lesquels la segmentation a priori nest pas adapte.
Il nous semble plus appropri de rechercher une information spatiale propre chaque image. Dans cette veine,
lusage de point dintrt acquis par un dtecteur de Harris mne des rsultats impressionnants pour lappa-
riement de points [SCH97]. Il nous semble opportun de procder une dtection de points dintrts laide de
descripteurs extraits par ACI, ce qui renforcerait la thse dveloppe dans ce manuscrit. Les fltres ACI mergent
naturellement de lapplication du principe de rduction de redondance [BAR61] et prsentent de fortes similarits
avec les cellules simples du cortex visuel [HAT98a]. Leur utilisation dans un modle dattention visuelle apparat
donc naturelle. La mthode dveloppe repose sur lutilisation dun modle de carte de saillance conue partir
des units de codage ACI (chapitre 5).
7.1.2 Cartes de saillances
Depuis les travaux de Treisman [TRE80, TRE88] puis Ullman et Koch [KOC85] et Itti [ITT98], de nombreux
modles de cartes de saillance ont t dvelopps, souvent de manire biologiquement plausible car servant de
modle dattention visuelle. La rponse des neurones visuels, plus sensibles dans une petite rgion centrale du
champ visuel et inhibes par les stimuli dtects dans les rgions priphriques, est souvent implantes comme
une analyse multi-chelles de limage, suivi doprations linaires de type ON/OFF [OLI03]. Certains auteurs
se soucient de collecter les informations bas niveau de manire semblable au systme visuel des mammifres
[DEL82a, DEL82b], notamment en utilisant des fltres de Gabor pour collecter les informations dorientation
[CHA02]. Ainsi, les cartes de saillance sont de bon modles pour plusieurs phnomnes lis la vision, notamment
pour lattention visuelle [WOL89]. Une hypothse sous jacente ces tudes est que ces cartes permettent de rep-
rer les rgions saillantes de limage, cest--dire celles qui attirent naturellement le regard. Dans le contexte de la
reconnaissance de scne, cela permettrait de slectionner des rgions analyser plus fnement.
Selon le modle de Itti [ITT98], une carte de saillance est construite en extrayant des caractristiques bas ni-
veau plusieurs chelles spatiales, laide dune pyramide gaussienne dyadique par exemple [BUR83, CHE92].
Le principe dexcitation centrale et dinhibition latrale existant plusieurs niveaux dans le systme visuel hu-
main, notamment au niveau des cellules bipolaires et ganglionnaires de la rtine [HER01], est implant par diff-
rence entre une chelle fne et une chelle grossire. Cela forme des cartes de caractristiques bas niveau (feature
maps) qui sont normalises suivant les besoins puis moyennes sur toutes les chelles pour donner des cartes
de conspicuit (traduction libre pour conspicuity maps), qui sont elles mmes fusionnes en une unique carte de
saillance (fgure 7.1).
Chapitre 7
- 160 -
Voies prospectives et Conclusion
- 161 -
7.1.3 Modle dattention visuelle
Pour concevoir un modle dattention visuelle ascendante (de type bottom-up), nous associons un rseau
de neurone de type winner-take-all la carte de saillance pralablement dfnie [ITT98]. En effet un instant
donn, le maximum de la carte de saillance permet de reprer le point le plus saillant, o le regard est naturellement
attir. Biologiquement parlant, la carte de saillance peut tre considre comme une couche en deux dimensions
de neurone intgrateur seuillage (integrate and fre). Ce type de neurone intgre simplement son entre jusqu
ce que son potentiel atteigne un seuil, qui le fait dcharger compltement. Chaque pixel de la carte de saillance
est considr comme une entre d'un neurone. Ainsi, celui qui est associ au pixel de saillance maximale a son
potentiel qui crot le plus rapidement. Lorsque celui-ci atteint son seuil et dcharge, on considre que le regard se
dplace jusqu cette rgion, puis les neurones sont tous rinitialiss et on impose une inhibition locale autour de
la rgion ainsi mise en exergue.
Celle-ci permet d'viter la slection de la mme rgion de limage et de simuler une inhibition du retour ,
ce qui est observ dans des expriences psychophysiques [POS84]. La taille, la forme et la dure de linhibition
locale sont dtermines en fonction de donnes physiologiques. Dans un premier temps, nous pouvons choisir
un cercle de taille croissante jusqu 15% de la taille de limage, durant environ 500 ms [ITT98]. Dans le cas
d'une exploration ascendante (ou bottom-up) sans tche particulire effectuer ( exploration libre ), les cartes
de saillance construites selon ce principe prdisent correctement le comportement humain [ITT98, CHA02]. Des
tudes rcentes ont montr que dans le cas dexplorations de scnes avec la consigne de recherche dobjets ou
dtres vivants, la saillance est module par le contexte statistique de limage [OLI03]. Pratiquement, cela restreint
la recherche des cibles aux localisations naturelles (ou possibles). Par exemple un sujet cherche un piton unique-
ment dans une rgion proche du sol. En vision par ordinateur, cela se traduit par un apprentissage des contextes
Figure 7.1: Carte de saillance de [ITT98].
Les caractristiques bas-niveau extraites sont la cou-
leur, lintensit lumineuse et les orientations prsentes
dans limage, chacune plusieurs rsolutions.
Les cartes de caractristiques sont formes par sous-
traction entre les caractristiques prcdentes prises
une diffrence de 2 ou 3 niveaux dchelles.
Le tout est moyenn et normalis pour former des
cartes de conspicuit indiquant alors les points sail-
lants sur lensemble des rsolutions.
Les cartes prcdentes sont elles-mme combines
pour faire ressortir les points saillants selon lensemble
des caractristiques.
Une inhibition de retour implante par un rseau de
neuronne winner-take-all permet dobserver les points
saillants successifs.
Chapitre 7
- 162 -
Voies prospectives et Conclusion
- 163 -
statistiques locaux pour les cibles recherches et une restriction de la zone explore certains lieux.
Park a propos lutilisation de lACI dans une carte de saillance, mais uniquement pour fusionner les infor-
mations des caractristiques bas niveau des images [PAR02]. Linformation relative aux orientations est dtecte
par un fltre de Sobel et les autres caractristiques bas-niveau sont linformation de couleur et de symtrie. Nous
proposons plutt dutiliser les dtecteurs extraits par ACI pour dtecter les formes, ventuellement associs des
fltres ACI extraits dimages couleur [HOY00]. Cette stratgie pourrait permettre de capter directement les
contextes statistiques de cibles, de rduire simultanment la redondance du signal visuel, puis de dvelopper un
modle dattention visuelle descendante (top-down).
Le modle de carte de saillance dcrit prcdemment a t implant avec des fltres extraits de la base indpen-
dante dimages (6.1). Nous avons slectionn manuellement une collection de 1 7 fltres pour extraire les carac-
tristiques bas-niveau, puis avons calcul la carte de saillance correspondante. Les images utilises sont les mmes
que celles prsentes par Chauvin dans [CHA02]. Sur la fgure 7.2, nous avons reproduit les cartes de saillance
obtenues par les fltres ACI, celles obtenues par A. Chauvin et ses collgues avec leur modle de fltres de Gabor
et les cartes des densits de fxations obtenues la suite de leurs expriences de suivi oculaire. Dans le premier
cas (fgure 7.2 (a), (c) et (e)), la carte de saillance par fltres ACI correspond bien celle de Chauvin, ainsi quaux
mouvements oculaires moyens des humains. Dans le second cas (Figure 7.2 (b), (d) et (f)), la correspondance est
moins bonne, mais si notre but est de reprer les rgions les plus intressantes pour une analyse locale, le modle
de cartes de saillance par fltres ACI indique bien le bas de limage, qui est effectivement la zone dintrt.
Ces premires expriences montrent le potentiel des fltres ACI reprer les zones saillantes dans les images.
Ils donnent ainsi une information spatiale directement lie linformation de luminance. Chauvin et ses collgues
Figure 7.2 : (a / b) Cartes de saillances de Chauvin et al. - (c / d) Carte de densit des observations
obtenues par moyenne des expriences de suivi de mouvement occulaire de Chauvin
[CHA02] - (e / f) Cartes de saillances obtenue avec les fltres ACI.
a
b
c
d
e
f
Chapitre 7
- 162 -
Voies prospectives et Conclusion
- 163 -
ont montr que la saillance est une indication pertinente des rgions dintrt dans les scnes naturelles. Il est donc
judicieux de slectionner ces zones pour analyser plus fnement les images.
7.2 Conclusion et discussion
Apprhender la perception des scnes naturelles et plus gnralement le processus de vision, ncessite une
approche pluri-disciplinaire, impliquant (pour le moins !) la psychologie cognitive, la neurobiologie et la recon-
naissance des formes. En retour, cette interaction est bnfque pour chacune des disciplines, puisqu'elle permet
d'y affner les modles et d'enrichir les connaissances. En vision par ordinateur en particulier, la biologie est une
source d'inspiration trs fconde, permettant de dvelopper des algorithmes originaux et effcaces. Plus quune
source dinspiration, ltre humain est la rfrence dans le domaine de la reconnaissance d'images et en cons-
quence il est primordial de tenir compte de sa perception. Notre approche a donc t dicte par des considrations
la fois biologiques et psychologiques.
En vision par ordinateur, la prise de conscience que les catgories dimages ne peuvent tre dfnies que par la
prise en compte de la dimension perceptive est rcente et encore relativement limite. Pourtant, pour lvaluation
des systmes de recherche dimages par le contenu par exemple, il est de plus en plus vident que cette question ne
peut tre lude. Nous avons donc men une exprience psychophysique (chapitre 4) afn didentifer des classes
smantiques pertinentes dune part et de dterminer lapport de linformation de chrominance pour la tche. La
projection non linaire sans contrainte topologique en sortie mne des clusters smantiques plus loquents que
les axes smantiques trouvs prcdemment. En plus de lidentifcation des classes, il ressort que la couleur est
rarement ncessaire lidentifcation smantique des classes. Nanmoins, cela nexclut pas quelle puisse faciliter
une tche de discrimination, voire tre suffsante pour des tches trs spcialises. Nous avons tudi les asym-
tries perceptives en dfnissant le rang de proximit dun couple dimages, puis en examinant les carts entre
ceux-ci. Les asymtries ainsi rvles sont cohrentes avec un principe dasymtrie connu en psychologie de la
vision, ce qui renforce la pertinence de notre exprience du point de vue perceptif. Enfn, une tude quantitative des
rsultats prcdents a permis de dfnir une force des liaisons inter-images . Nous en avons dduit une structure
hirarchique descendante dans les catgories dimage et avons montr qu'elle est perturbe par deux catgories
portant une smantique forte, qui sont les animaux et les personnages . Ce rsultat est congruent avec les
nombreuses asymtries perceptives mises en vidence pour ces catgories. La reconnaissance de ces classes
dimages doit donc tre traite diffremment et nous navons pas cherch les identifer avec nos modles.

Notre approche se situe dans la ligne des modles inspirs du systme visuel humain tels que lanalyse de Fou-
rier, lanalyse de Fourier court terme, lanalyse multi-rsolutions par ondelettes et plus rcemment les ridgelets.
Nous ne posons aucun a priori sur la nature des lments importants reprsenter et nous appuyons seulement sur
les hypothses formules par Attneave, Barlow et Watanabe pour expliquer le codage sensoriel. Celles-ci avancent
que le systme visuel cherche diminuer la redondance statistique dans les images, de faon obtenir un code fac-
Chapitre 7
- 164 -
Voies prospectives et Conclusion
- 165 -
toriel, effcace au sens de la thorie de linformation. Une consquence de cette approche est que les descripteurs
sont directement extraits des images naturelles, ce qui peut tre vu comme un modle simple de ladaptation du
cortex visuel aux stimuli de notre environnement.
Nous avons choisi dutiliser lAnalyse en Composantes Indpendantes, qui assure la diminution de redondance
par lindpendance statistique entre les nouvelles composantes et fait merger des descripteurs ressemblant aux
cellules simples du cortex visuel. Cette approche a dj t explore par Bosh et Labbi et notre apport au niveau
de la mthodologie dextraction est davoir montr quantitativement ladaptation des descripteurs ACI aux statis-
tiques des scnes naturelles (chapitre 5). De plus, cette tude montre que les descripteurs adaptent leur slectivit
en orientation, ainsi que leur rsolution danalyse congrment aux statistiques moyennes des catgories concer-
nes. Nous avons aussi montr que des considrations biologiques supplmentaires, tels le modle de rtine de
Hrault et lapodisation circulaire des donnes, favorisent grandement ces proprits dadaptation. Nous avons
caractris les codes en terme de dispersion, laide des tracs en boulis de Willemore et de leurs intgrales,
puis avons dfni un critre de slection des fltres ACI par le facteur dispersif qui est la valeur instantane des
tracs en boulis .
Nous avons tabli plusieurs signatures dimages partir de lactivit des fltres. Celles-ci sont des paramtri-
ques de complexit croissante et une modlisation non paramtrique des densits par la mthode logspline (cha-
pitre 6). Dans ce contexte, lAnalyse en Composante Indpendantes est un choix judicieux, puisquelle permet
dviter les problmes de maldiction de la dimension que lon rencontre en estimant les densits dans des
espaces en grande dimension. De plus, lestimation des dissimilitudes entre images sexprime simplement par la
divergence KL, comme somme des divergences KL entre marginales. Rigoureusement, cette proprit nest vraie
que dans le cas o on utilise des fltres toutes catgories et dans le cas de fltres par catgories on ne fait
quadditionner les quatre distances obtenues pour chaque ensemble de fltres. Une autre limitation est lhypothse
de linarit du modle ACI qui est une simplifcation courante en physique, parfois suffsante (et cest souvent le
cas en sparation de sources!) mais peut aussi tre trs simplifcatrice ; il pourrait tre intressant dtudier une ex-
tension au cas non linaire. Dans ce cas, en plus dune mesure de dpendance et dun algorithme de minimisation,
il faut se donner une structure de mlange. Rcemment, Taleb et Jutten ont introduit le mlange post non-linaire
et une mthode base sur lutilisation des fonctions score pour effectuer la sparation dans ce cas et Achard et ses
collgues ont dfni de nouvelles mesures de dpendances [ACH01]. Cependant, rien ne nous assure quun tel
modle convienne.
La validation quantitative de notre approche a t ralise par classifcation supervise. Le slection par fac-
teur dispersif se rvle performante pour atteindre les meilleurs taux avec trs peu de fltres (plus de 80% avec 5
fltres, plus de 85% avec 10 fltres) et sur 500 images, il semble diffcile de faire signifcativement mieux. Sur un
cas tendu (plusieurs milliers dimages), la stratgie de slection pourrait nanmoins tre revue. Plusieurs fltres
peu discriminants individuellement peuvent ltre collectivement. Une mthode simple mettre en oeuvre, est
Chapitre 7
- 164 -
Voies prospectives et Conclusion
- 165 -
dutiliser un classifeur de type KNN pour estimer les performances de groupes de fltres. Le problme est alors
lexplosion combinatoire du nombre de groupes tester. Une mthode classique pour le rsoudre est lutilisation
du branch & bound , mais sa mise en oeuvre demande llaboration dune fonction objective diffcile tablir.
Pour les scnes naturelles, notre mthode de slection nous semble donc tre un bon compromis entre le cot de
calcul et le pouvoir discriminant obtenu.
La comparaison des diffrentes signatures montre un accroissement des performances avec la prcision de
la modlisation des queues de distribution. Cest surtout suite une slection des descripteurs par leurs facteurs
dispersifs que cest le plus marquant. Avec plusieurs dizaines de fltres, les performances tendent se rapprocher.
Les performances de la modlisation non paramtrique par logspline et celle par histogramme distribution de
bins logarithmique sont assez proches. Pour une application dans un cas trs gnral, notre prfrence irait la
modlisation logspline qui est la plus prcise.
Les rsultats de classifcation montrent lintrt des prtraitements dinspiration biologique et en particulier du
traitement rtinien. Il amliorent systmatiquement les performances en classifcation, de 5 10 %. Ce rsultat est
cohrent avec ltude de leur infuence sur ladaptabilit des fltres aux spectres des catgories. En slectionnant les
fltres par leur facteur dispersif, nos rsultats montrent que lon atteint peu prs les mmes performances quelle
que soit la dimension R
dim
laquelle sont rduites les donnes par ACP. Cependant, si les rsultats en rtinien sem-
blent saturer aux alentours de 85% (ce qui est partiellement due la dfnition du label des images, qui est parfois
trop brupte), on observe une progression de la classifcation au niveau du traitement Butterworth quand on rduit
moins (R
dim
). On peut avancer quavec un plus grand nombre dimages classer, il vaudrait donc mieux ne pas
trop rduire la dimension et slectionner a posteriori les fltres en fonction de leur facteur dispersif. Par contre, les
fltres ACI prsentent une bonne robustesse vis--vis de la mthode dextraction. Nos tests montrent peu de diff-
rence entre le meilleur rsultat obtenu avec les fltres extraits par catgorie sur la base des 200 images (87.4%)
et les fltres toutes catgories extraits sur une base indpendante (86.7%). Ce rsultat est satisfaisant et permet
denvisager lutilisation de ces descripteurs dans un contexte de recherche dimages par le contenu par exemple.
Nous avons compar notre mthodes plusieurs autres. Les performances des histogrammes directionnels
sont quivalentes celles des fltres ACI avec les signatures ou deux paramtres des rponses dactivit. Ainsi,
nos modles de signatures plus prcis peuvent avantageusement les remplacer pour des applications de type
recherche dimages par le contenu o lutilisation de tels histogrammes est courante. La description par ACI
est aussi meilleure en terme de discrimination que celle par ACP, mais la diffrence est plus discutable que dans le
cas prcdent. Lextraction de fltres ACP est trs ressemblante celle de fltres ACI et la diffrence est lutilisation
de statistiques dordre suprieur deux. En particulier, les fltres ACP sont eux aussi conus directement partir
des donnes et proftent donc de ladaptation aux donnes. Il est nanmoins ncessaire de superviser lextraction
puisque dans le cas dune extraction de fltres par catgories les performances de discrimination chutent drama-
tiquement. Ceci montre toute limportance de la prise en compte des statistiques dordre suprieur pour appliquer
le principe de diminution de redondance qui ncessite une vritable indpendance statistique. Les fltres ACP
sadaptent la moyenne de toutes les catgories, alors que ladaptation des fltres ACI est plus slective. Dans ce
Chapitre 7
- 166 -
Voies prospectives et Conclusion
- 167 -
cas, la discrimination convenable est consquente au codage parcimonieux et dispers des rponses.
Les ondelettes de Gabor, qui sont classiquement utilises en vision, ont des performances infrieures celles
des fltres ACI dans nos tests quand on utilise les rponses nergtiques. Avec les rponses en valeur absolue
cependant, nous avons montr quelles atteignent un niveau de discrimination du mme ordre avec le traitement
rtinien. Avec les fltres ACI, les rponses nergtiques mnent des taux de classifcation quivalents ou lgre-
ment infrieures, mais nanmoins du mme ordre
1
. Les signatures que nous avons dfni pour utiliser les ridgelets
permettent datteindre des performances quivalentes celles des ondelettes de Gabor. Les meilleurs taux de clas-
sifcation de ces deux modles (avec le traitement rtinien) sont infrieurs de 1.5% aux meilleurs taux atteint avec
nos modles. Or, ceci correspond justement lordre de grandeur de lcart-type de lestimateur LOO estim par
bootstrap .632 . La diffrence est donc peu signifcative et des exprimentations plus tendues seraient ncessai-
res pour diffrencier les trois modles prcisment.
Du point de vue perceptif cependant, les trois approches se diffrencient radicalement au niveau conceptuel
(formalisme de Marr). Les fltres de Gabor satisfont un principe de reprsentation spatio-frquentielle optimale,
les ridgelets une reprsentation optimale des crtes et notre approche au principe de reprsentation de linforma-
tion avec une redondance minimale. La ressemblance des fltres de Gabor et de certains fltres ACI suggre un prin-
cipe sous-jacent commun. Lextraction par ACI permet dobtenir des descripteurs plus gnraux, mais avec des
patches de grande taille nous sommes obligs de rduire la dimension par ACP pour que les fltres convergent
vers des reprsentations stables. Lutilisation dun trs grand nombre de donnes pourrait viter une telle opration
mais rclamerait des capacits de calcul plus importante. Ces expriences pourraient nanmoins permettre diden-
tifer des fltres globaux , rendant compte de la diversit des donnes limines par ACP.
Notre approche diffre des deux autres au niveau algorithmique au sens o elle est non supervise (fltres
toutes catgories ), puisque les descripteurs sont appris des donnes, alors que les fltres de Gabor et les rid-
gelets rsultent du calcul a priori des fonctions satisfaisant le niveau conceptuel. Il peut tre perturbant de ne pas
avoir de formule analytique des descripteurs utiliss, mais cela prsente lavantage dune certaine souplesse et
rserve la possibilit de satisfaire des principes conceptuels plus gnraux.
Enfn, le niveau de limplantation correspond la dfnition des signatures. Nous avons montr toute limpor-
tance de cette tape pour les fltres de Gabor, o les signatures par valeur absolue conduisent de meilleurs taux
de classifcation que les signatures nergtiques dans nos tests. Dans tous les cas, nous avons montr que lim-
plantation du modle de rtine amliore trs signifcativement les rsultats. Il serait donc souhaitable de faire des
investigations supplmentaires pour dfnir des signatures base de ridgelets. Pour les fltres ACI, la comparaison
de nos modles avec celui propos par Labbi ( signature activit maximale ) conduit des performances trs
proches. En particulier, les performances sont conserves avec les fltres toutes catgories , montrant que les
1
Les performances des fltres ACI et ACP extraits par catgories , et selon toutes les catgories avec une signature ner-
gtique ont t mesures exhaustivement loccasion du stage ingnieur de Benoit Verpeaux [VER01]. Les signatures utilises
taient essentiellement quivalentes nos modles un ou deux paramtres. Nous avons ralis quelques exprimentations
avec une modlisation des densits par histogramme. Nous avons effectu dautres tests avec nos modles actuels, aboutissant
des taux de classifcation lgrement infrieurs ou quivalents ceux obtenus avec la valeur absolue.
Chapitre 7
- 166 -
Voies prospectives et Conclusion
- 167 -
fltres sadaptent slectivement toutes les catgories simultanment et quil nest pas forcment ncessaire de
faire une distinction de classe a priori pour discriminer des scnes naturelles. Ce rsultat peut nanmoins tre d
la relative ressemblance des spectres concerns, par rapport aux catgories initialement prvues dans [LAB99c]
( feuilles , visages , buildings ). Il serait intressant dtudier le comportement de fltres toutes catgories
avec des signatures activit maximale sur de telles images, afn de tester plus avant les capacits dadaptation
des fltres ACI.
Nous avons donc montr les capacits des fltres ACI diffrencier des catgories de scnes congrment
leur smantique. Ces rsultats sont particulirement intressants dans un contexte de recherche dimages par le
contenu. Ceci est appuy par la bonne robustesse de notre mthode vis--vis de la mthode dextraction et par sa
supriorit sur les histogrammes de directions, qui sont largement utiliss dans les systmes actuels.
Dans une recherche de type category search, les fltres ACI peuvent tre utiliss pour identifer des clusters
smantiques de scnes du type de ceux identifs dans notre exprience psychophysique. Nous pouvons aller plus
loin, puisque nous avons montr que les frontires abruptes entre les classes, dcides parfois trop arbitrairement
en catgorisation, peuvent tre assouplies pour se diriger vers une organisation. Or, utiliser une approche globale
dfnissant le contexte gnral de la scne peut permettre doptimiser les approches locales postrieures, qui pren-
nent en compte le contexte local de la scne. Cela permettrait alors de faciliter une tche de recherche de cible
(target search). La diffcult est alors de fusionner judicieusement les informations fournies par les fltres ACI et
les informations utilises plus classiquement dans ce contexte (par exemple des points dintrts [SCH97]). En
particulier, il faudrait dterminer quel type dinformation doit tre prpondrant en fonction de lavancement de
la recherche. Une telle tche ne peut tre ralise quen fonction des attentes de lutilisateur. Nous proposons une
piste base sur les cartes de saillance, cohrente avec notre dmarche, pour explorer localement les scnes et df-
nir, terme, des descripteur adapts la recherche de cibles. Lhomognit des descriptions pourrait alors faciliter
la fusion des informations.
Chapitre 7
- 168 -
- 169 -
Bibliographie
[ABR00] Abramovich F., Benjamini Y., Donoho D., Johnstone I. Adapting to unknown sparsity by control-
ling the false discovery rate. Rapport technique N 2000-19, Stanford univ., dept. stat, 2000.
[ACH01] Achard S., Pham D.T., Blind source separation in post nonlinear mixtures. Actes ICA 2001, San
Diego, CA, USA, 9-13 dcembre 2001.
[ALL99] Alleyson D. Le traitement du signal chromatique dans la rtine: un modle de base pour la percep-
tion humaine des couleurs. Manuscrit de thse, UJF, Grenoble, France, 3 Mars 1999.
[AMA96] Amari A., Cichocki A., Yang H.H., A new learning algorithm for blind signal separation. Dans:
advances in neural information processing systems, vol 8, editors D. Touretzky, M. Mozer, and M.
Hasselmo, pp 757-763, MIT press, Cambridge MA, 1996.
[AMA98a] Amari S.I., Cichocki A. Adaptative Blind Signal Processing - Neural Network Approaches. Pro-
ceedings of the IEEE, vol 86, N 10, Octobre 1998.
[AMA98b] Amari S.-I., Natural Gradient works effciently in learning, Neural computation, 10, pp 251-276,
1998.
[AMA03] Amato U., Antoniadis A., Grgoire G., Independent Component Discriminant Analysis. Interna-
tional Mathematical Journal, vol 3, N 7, pp 735-753, 2003.
[ASH02] Ashutosh G., Agarwal S., Huang T.S., " Fusion of Global and Local Information for Object
Detection". Actes ICPR 2002, Qubec City, Canada, 2002.
[ATI92] Atick J.J., Could information theory provide an ecological theory of sensory coding ?. Network:
cmputation in neural systems, N 3, pp 213-251, 1992.
[ATI92a] Atick J.J., Redlich A.N., What does the retina know about natural scenes?. Neural computation,
4, 196-210, 1992.
[ATI93] Atick J.J., Redlich A.N., Convergent Algorithm for sensory receptive feld development, Neural
Computation, 5, pp 45-60, 1993.
[ATT54] Attneave F., Some informational aspects of visual perception. Psychological Reviews, 61:183
93,1954.
[BAC97] Back A.D., Weigend A.S. A frst application of independent component analysis to extracting
structure from stock returns. International journal of neural systems, vol 8, N 5, octobre 1997.
[BAR61] Barlow HB., Possible principles underlying the transformation of sensory messages. Sensory
Communication, ed. WA Rosenblith, pp. 21734. Cambridge, MA: MIT Press, 1961.
- 170 -
Bibliographie
- 171 -
Bibliographie
[BAR98] Barlett M., Lades H.M., Sejnowski T.J. Independent component representation for face recogni-
tion, Actes du SPIE symposium on electronic imaging: science and technology, conference on
human vision and electronic imaging III, San Jose, Californie, janvier 1998.
[BAR01a] Barlow H., Redundancy reduction revisited. Network : computation in neural systems, 12, 241-
253,2001.
[BAR01b] Barlow, H., The Exploitation of Regularities in the Environment by the Brain, Behavioral and
Brain Sciences, 24, http://www.bbsonline.org/documents/a/00/00/04/25/, 2001.
[BAR82] Bar-Ness Y., Carlin J.W., and Steinberg M.L., ``Bootstrapping Adaptive Cross Pol Cancelers for
Satellite Communication. Actes The International Conference on Communication, N 4F.5, Phila-
delphie, PA, Etats-Unis, juin 13-17, 1982.
[BAS96] Baseville M., Information: entropies, divergences et moyennes. Publication interne N 1020,
INRIA, Mai 1996.
[BEC03] Beckmann C.F., Smith S.M., probabilistic independent coponent analysis for functional magnetic
resonance imaging, FMRIB Technical Report TR02CB1, accept IEEE TMI, 2003.
[BEL95] Bell A.J, Sejnowski T.J., An information-maximisation approach to blind separation and blind
deconvolution. Neural computation, vol 7, pp 1129-1159, 1995
[BEL97] Bell A.J, Sejnowski T.J., The Independant Component of Natural Scenes are Edge Filter. Vision
Research, vol 37, n 23, pp 3327-3338, 1997.
[BIE82] Biederman I., Mezzanotte R.J., Rabinowitz J.C., Scene perception: detecting and judging objects
undergoing relational violations. Cognitive psychology, vol 14, pp 143-177, 1982.
[BIE87] Biederman I., Recognition-by-components: a theory of human understanding. Psychological re-
view, 94:115-47, 1987
[BIE88] Biederman I., Aspect and extensions of a theory of human image understanding. Dans Computa-
tional processes in human vision: an interdisciplinary perspective, editeur Pylyshyn Z., pp 370-428.
Norwood, NJ: Ablex, 1988.
[BIE01] Biederman I., Recognizing Depth-Rotated Objects: a review of recent research and theoty. Spatial
Vision, vol 13, pp 241-253, 2001/
[BOD00] Bodt E. de, Cottrell M., Bootstrapping self-organising maps to assess the statistical signifcance of
local proximity. Actes European symposium on artifcial neural networks (ESANN00), Bruges
(Belgique), 26-28 Avril 2000.
[BOS00] Bosch H., Object segmentation and recognition using temporal coding and independent component
analysis. Universit de Genve, 31 mars 2000.
[BOV90] Bovik, A. C., Clark, M. and Geisler, W.S. Multichannel Texture Analysis Using Localized Spatial
Filters, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 12, No. 1, pp. 55-73,
1990
[BRA99] Brandt S., Use of shape in content-based iamge retrieval. Thse de doctorat, Espoo, Finlande,
1999.
[BUN00] Bunke H., Recent developments in graph matching. Actes International Conference on Pattern
Recognition, vol 2, pp 117-124, Barcelone, Espagne, 2000.
[BUR83] Burt P.J., Adelson E.H., The laplacian pyramid as a compact image code. IEEE transaction on
communication, vol COM-31, pp 532-540, avril 1983.
- 170 -
Bibliographie
- 171 -
Bibliographie
[BUR89] Burman, P. A comparative study of ordinary cross-validation, v-fold cross validation and the repea-
ted learning testing methods. Biometrika, 76(3), 503 - 514, 1989.
[CAN98] Cands E., Ridgelets: theory and application. Manuscrit de thse, Universit de Stanford, 1998.
[CAN00] Cands E., Donoho D.L., Curvelets: optimally sparse representation of objects with edges. Dans
Curve and surface ftting: Saint-Malo 1999, A. Cohen, C. Rabut, L.L. Schumaker (eds), Vanderbilt
university press, Nashville, TN. ISBN 0-8265-1357-3, 2000.
[CAR89] Cardoso J.-F., Source separation using higher order moments. Actes IEEE ICASSP, pp 2109-2112,
Glasgow, Ecosse, UK, 1989.
[CAR93] Cardoso J.-F, Souloumiac A. Blind beamforming for non gaussian signals. IEE-proceedings-F,
vol 140, N6, pp 362-370, dcembre 1993.
[CAR97] Cardoso J.-F Infomax and maximum likelihood for blind source separation. IEEE signal proces-
sing lettters, vol 4, N 4, pp 112-115, avril 1997.
[CAR98] Cardoso J.F., Blind Signal Separation: Statistical Principles. Proceedings of the IEEE, vol 86, N
10, Octobre 1998.
[CAR99] Cardoso J.-F., High-order contrasts for independent component analysis. Neural computation, vol
11, pp 157-192, 1999.
[CHA02] Chauvin A., Hrault J., Marendaz C., Peyrin C., Natural scene perception: visual attractors and
image neural computation and psychology. Dans W. Lowe et J. Bullinaria (Eds.), Connexionist
Models of Cognition and Perception, World scientifc press, 2002.
[CHE92] Chhikian A., Algorithmes optimaux pour la gnration de pyramides dimages passe-bas et lapla-
ciennes. Traitement du signal, vol 9, N4, pp 297-307, 1992.
[CHO01] Choi S., Cichocki A., Zhang L., Amari S.-I Approximate maximum likelihood source separation
using the natural gradient. Third IEEE signal processing advances in wireless communication,
Taiwan, 20-23 mars 2001.
[CIC96] Cichocki A., Unbehauen R., Robust neural network with on-line learning for blind identifcation
and blind separation of sources. IEEE transaction on circuits and systems I: fundamental theory
and application, 43(11):894-906, 1996.
[COL94] Coleman T.F., Li Y., On the convergence of refective Newton methods for large-scale nonlinear
minimization subject to biund, Mathematical programming, vol 67, N 2, pp 189-224, 1994.
[COL96] Coleman T.F., Li Y., An interior trust region approach for nonlinear minimization subject to
bounds. SIAM journal on optimization, vol 6, pp 418-445, 1996.
[COM89] Comon P., Separation of sources using high-order cumulants. SPIE conference on advanced al-
gorithms and architectures for signal processing, vol. Real-time signal processing XII, pp 170-181,
San Diego, California, 8-10 aot 1989.
[COM91] Comon P., Jutten C., Hrault J., Blind separation of sources, Part II: problem statement. Signal
Processing, vol 24, N 1, pp 11-20, juillet 1991.
[COM92] Comon P. Independent Component Analysis. International signal processing workshop on high-
order statistics, Chamrousse, France, 10-12 juillet 1991, pp 111-120; republi dans J.L Lacoume,
ed., High order statistics, Elsevier, Amsterdam, 1992, pp 29-38.
[COM94] Comon P., Independent Component Analysis, A new concept?. Signal Processing, vol. 36, N 3,
pp 287-314, 1994.
- 172 -
Bibliographie
- 173 -
Bibliographie
[COM95] Comon P., Quelques developpements rcents en traitement du signal. Habilitation diriger des
recherches, universit de Nice Sophia-Antipolis, 18 septembre 1995.
[COX00] Cox I.J., Miller M.L., Minka T.P., Papathomas T.V., Yianilos P.N., The bayesian image retrieval
system, PicHunter: theory, implementation, and psychological experiments. IEEE transaction on
Image processing, vol 9, N 1, janvier 2000.
[DAU85] Daugman J. Uncertainty relation for resolution in space, spatial frequency, and orientation optimi-
zed two-dimensional visual cortical flters. Journal Optical Soc. Am., 2:1160- 1168, 1985.
[DEB78] De Boor C., A practical guide to splines. Springer-Verlag, New York, 1978.
[DEB 97] Del Bimbo A., Pala. P., Visual image retrieval by elastic matching of user sketches. IEEE Tran-
sactions on Pattern Analysis and Machine Intelligence, 19(2):121--132, 1997.
[DEB99] Del Bimbo A., Visual Information Retrival. Morgan Kaufmann Publishers, San Francisco, 1999.
[DEL82a] De Valois R.L., Yund E.W., Hepler N., The orientation and direction selectivity of cells in macaque
visual cortex. Vision research, vol 22, pp 531-544, 1982
[DEL82b] De Valois R.L., Albrecht D.G., Thorell L.G., Spatial frequency selectivity of cells in macaque vi-
sual cortex. Vision research, vol 22, pp 545-559, 1982.
[DEL95] Delfosse N., Loubaton P., Adaptive blind separation of independent sources: a defation approach.
Signal processing, vol 45, pp 59-83, 1995.
[DEL97] Delorme, A, Makeig, S, et al. EEGLAB: Matlab Toolbox for Electrophysiological Research.
WWW Site, Swartz Center for Computational Neuroscience, Institute for Neural Computation, Uni-
versity of California San Diego, www.sccn.ucsd.edu/eeglab [World Wide Web Publication], 1997.
[DEM94] Demartines P., Analyse de donnes par rseau de neurones auto-organiss. Manuscrit de thse,
INPG, 1995.
[DEM97] Demartines P., Hrault J., Curvilinear Component Analysis: a self-organising neural network for
non-linear mapping of data sets. IEEE transaction on neeural networks, 8(1):148-154, 1997
[DEN02] Denquive N., Tarroux P. Multi-resolution codes for scene categorization. Actes European sympo-
sium on artifcial neural networks (ESANN02), d-side publi., ISBN 2-930307, pp 281-287, Bruges,
Belgique, 24-26 avril 2002.
[DON98] Donoho D.L, Vertelli M., DeVore R.A., Daubechie I., Data compression and harmonic anlysis,
IEEE transaction on information theory, vol 6, pp 2435-2476, 1998.
[DON99] Donato G., Barlett M.S., Hager J.C., Ekman P., Sejnowski T.J., Classifying facial actions. IEEE
transaction on pattern analysis and machine intelligence, vol 21, N 10, pp 974-989, 1999.
[DON00] Donoho D.L., Orthonormal ridgelet and linear singularities, SIAM J. Math Anal., 31, pp 1062-
1099, 2000
[DON01] Donoho D.L., Flesia A.G., Can recent innovations in harmonic analysis explain key fndings in
natural image statistics?. Network: computation in neural systems, vol 12, pp 371-393, 2001.
[DON02] Donoho D.L., Flesia A.G., Digital Ridgelet Transform based on true Ridge Functions. Rapport
technique, universit de Stanford, 22 janvier 2002.
[DOV00a] Do M. N., Vetterli M., Image denoising using orthonormal fnite ridgelet transform. Actes SPIE on
wavelet applications in signal and image processing VIII, San Diego, Californie, Etats-Unis, 2000.
[DOV00b] Do M. N., Vetterli M., , Orthonormal fnite ridgelet transform for image compression. Actes IEEE
International Conference on Image Processing (ICIP), Vancouver, Canada, September 2000
- 172 -
Bibliographie
- 173 -
Bibliographie
[DOV02] Do M.N., Vetterli M., Wavelet-based texture retrieval using generalised gaussian density and Kul-
lback-Leibler distance. IEEE transaction on image processing, vol 11, N 2, fvrier 2002.
[DRE02] Dro J., Siarry P., Un nouvel algorithme de colonie de fourmis exploitant le concept dhtrarchie
pour loptimisation en variables continues. NSI2002, La Londe les Maures, France, 15-18 septem-
bre 2002.
[DUC03] Duchne C., Traitement de donnes multidimensionnelles par Analyse en Composantes Curvili-
gnes. Rapport de DEA, universit de Cergy-Pontoise, 2003.
[EFR93] Efron, B, Tibschirani, R.J., An introduction to the Bootstrap. Monographs on statistics and Applied
Probability. Chapman & Hall, New York, 1993.
[FAR99] Farid H., Adelson E.H., Separating Refections from Images using independent component analy-
sis. Journal of the optical society of america, 16(9):2136-2145, 1999.
[FEI03] Feirreira A, Figueiredo M.A.T Image compression using orthogonalised independent component
bases. IEEE workshop on Neural Network for Signal Processing, Toulouse, France, 17-19 septem-
bre 2003.
[FIE87] Field D.J., Relations between the statistics of natural images and the response properties of cortical
cells. Journal of the Optical Society of America, vol 4, N 12, pp 2379-2393, 1987.
[FOL90] Fldiak P., (1990), Forming sparse representation by local anti-Hebbian learning, Biological Cyber-
netics, vol 64, pp. 165-170, 1990.
[FRE91] Freeman, W.T., Adelson, E.H., The design and use of steerable flters. IEEE transaction on Pat-
tern Analysis and Machine intelligence, 13 (9), pp 891-906, 1991.
[FRI74] Friedman J.H., Tukey J.W., A projection pursuit algorithm for explotary data analysis. IEEE tran-
saction on computers, c-23(9):881-890, 1974.
[FYF00] Fyfe C., Artifcial Neural Networks and Information Theory. Cours, Universit de Paisley, 2000.
[GAB46] Gabor D., Theory of communication, Journal of IEEE, 93:429-457, 1946.
[GAE90] Gaeta M., Lacoume J.L., Source separation without prior knowledge: the maximum likelihood
solution. Dans Actes EUSIPCO90 - Signal Processing V: Theories and Applications, L. Torres, E.
Masgrau et M.A. Lagunas (eds), pp 621-624, Barcelone, Espagne, 1990.
[GAR01] Garrard P., Lambon Ralph M.A., Hodges J.R., Patterson K., Prototypicallity, distinctiveness, and
intercorrelation: analyse of the semantic attributes of living and nonliving concepts. Cognitive neu-
ropsychology, vol 18, N 2, pp 125-174, 2001.
[GAR02] Garg A., Agarwal S. and Huang T.S., Fusion of local and global information for Object detection,
Actes International conference on Pattern Recognition (ICPR02), 2002.
[GIB66] Gibson J.J, The perception of the visual world. Houghton Miffin, Boston, 1966.
[GIR97] Girolami M., Fyfe C., An extended exploratory projection pursuit network with linear and nonli-
near anti-hebbian lateral connections applied to the cocktail party problem. Neural networks, vol
10, N 9, pp 1607-1618, 1997.
[GOR94] Gokani M.M., Picard R.W., Texture orientation for sorting photos at a glance. IEEE conference
on pattern recognition, vol 1, pp 459-464, Jrusalem, Isral, Octobre 1994.
[GRO84] Grossmann A., Morlet J. Decomposition of Hardy functions into square integrable wavelets of
constant shape. SIAM Journal of Math. Anal., 15(4) : 723-736, juillet 1984.
- 174 -
Bibliographie
- 175 -
Bibliographie
[GUE00] Gurin-Dugu A., Oliva A., Classication of scene photographs from local orientations features.
Pattern Recognition Letters, 21, pp 1135-1140, 2000.
[GUY01] Guyader N, Hrault J., Reprsentation espace-frquence pour la catgorisation dimages. Actes
GRETSI 2001, Toulouse, France, 2001.
[GUY03] Guyon I., Elisseeff A, An introduction to variable and feature selection. Journal of machine lear-
ning research, 3, pp 1157-1182, 2003.
[HAP96] Harpur G.F., Prager R.W. Development of low entropy coding in a recurrent network. Network:
computation in neural systems, 7, pp 277-284, 1996.
[HAR96] Harroy F., Lacoume J.-L., Maximum likelihood estimators and Cramer-Rao bounds in source sepa-
ration, Signal processing, vol 55, pp 167-177, 1996.
[HAT98a] Hateren J.H. van, Schaaf A. van der, Independent component flters of natural images compared
with simple celles in primary visual cortex. Proceedings of the Royal Society Series B, 265, pp 359-
366, 1998
[HAT98b] Haterern J.H. van, Ruderman D.L., Independent component analysis of natural image sequences
yields spatiotemporal flters similar to simple cells in primary visual cortex. Proceedings of the
Royal Society Series B, 265, pp 2315-2320, 1998.
[HAY94] Haykin, Ed., Blind deconvolution. Englewood Cliffs, NJ: Prentice-Hall, 1994.
[HEN94] Henery, R.J., Methods for comparison. Dans: Michie, D., Spiegelhalter, D.J., Taylor, C.C. (Eds),
Machine learning, Neural and Statistical Classifcation. Ellis Horwood, 1994.
[HEN99] Henderson J.M., Hollingworth A., High-level scene perception. Annual review of Psychology, vol
50, pp 243-271, 1999.
[HER85] Hrault J., Jutten C. et Ans B., Dtection de grandeurs primitives dans un message composite par
une architecture de calcul neuromimtique en apprentissage non supervis. Actes du Xime collo-
que GRETSI, Nice, France,volume2, pages1017-1022, Mai1985.
[HER97] Hrault J, Oliva A., Gurin-Dugu A., Scene categorisation by curvilinear component analysis of
low frequency spectra. Actes ESANN97, pp 91-96, Bruges, 16-18 avril 1997.
[HER01] Hrault J., De la rtine biologique aux circuits neuromorphiques. Dans Les systme de vision,
chap 3, J.M. Jolion (Ed.), IC2 col, Hermes, 2001.
[HER02] Hrault J., Gurin-Dugu A., Villemain P., Searching for the embedded manifolds in high-dimen-
sional data, problems and unsolved questions. Actes ESANN96, Bruges, Belgique, 2002.
[HOD56] Hodges J.L., Lehman E.L., The effciency of some non-parametric competitors on the t-test. An-
nals of the Mathematical Statistics, 27:324-335, 1956.
[HOP82] Hopfeld J.J., Neural networks and physical systems with emergent collective computational abili-
ties,. Proc. Nat. Acad. Sci., vol. 79, pp. 2554-2558, Apr. 1982.
[HOT33] Hotelling H., Analysis of a complex of statistical variables into principal components . Journal of
Educational Psychology, 24, p. 417-441, 1933.
[HOY00] Hoyer P.O., Hyvrinen A., Independent Component Analysis Applied to Feature Extraction from
Colour and Stereo Images. Network: Computation in Neural Systems, 11(3):191-210, 2000.
[HOY02] Hoyer P.O., Probabilistic models of early vision. Manuscrit de thse, Espoo, Finlande, 2002.
[HUA99] Huang J., Mumford D., Statistics of Natural Images and Models. Actes IEEE Conference Com-
puter Vision and Pattern Recognition, Fort Collins (Colorado), Etats-Unis, pp 541-547, 1999.
- 174 -
Bibliographie
- 175 -
Bibliographie
[HUB68] Hubel D.H., Wiesel T.N., Receptive felds and functional architecture of monkey striate cortex.
Journal of physiology, 195, pp 215-244, 1968.
[HUB85] Huber P.J., Projection pursuit. The Annals of Statistics, 13(2):435-475, 1985.
[HUM00] Hummel J.E., "Where view-based theoriesbreak down: the role of structure in shape perception
and object recognition". Dans E. Dietrich & A. Markman (Eds). Cognitive Dynamics: conceptual
change in humans and machines, pp 157-185, Hillsdade, NJ: Erlbaum, 2000.
[HUR97] Hurri J., Independent component analysis of image data. Masters thesis, Espoo, Finlande, 1997.
[HYV97] Hyvrinen A., Oja E., A fast fxed-point algorithm for independent compoent analysis, Neural
computation, vol 9, N 7, pp 1483-1492, 1997
[HYV98] Hyvrinen A., New approximations of differential entropy for independent component analysis and
projection pursuit. Dans Advances in Neural Information Processing Systems 10, pages 273-279.
MIT Press, 1998.
[HYV99a] Hyvrinen A., Pajunen P., Nonlinear Independent Component Analysis: Existence and Uniqueness
Results. Neural Networks, vol 12, N 3, pp 429--439, 1999
[HYV99b] Hyvrinen A., Survey on Independent Component Analysis, Neural Computing Surveys, vol 2, pp
94-128, 1999.
[HYV99c] Hyvrinen A., Fast and robust fxeed-point algorithms for independent component analysis. IEEE
transaction on neural networks, vol 10, N3, 626-634, 1999.
[HYV01] Hyvrinen A., Karhunen J., Oja E., Independent Component Analysis. John Wiley & Sons, 2001.
[HYV01a] Hyvrinen A., Hoyer P.O., Oja E. Image Denoising by Sparse Code Shrinkage. Dans S. Haykin
and B. Kosko (eds), Intelligent Signal Processing, IEEE Press, 2001
[HYV01b] Hyvrinen A., Hoyer P., A two-layer sparse coding model learns simple and complex cell receptive
felds and topography from natural images. Vision research, 41, pp 2413-2423, 2001.
[HYV02] Hyvrinen A,. Inki M., Estimating overcomplete independent component bases for image win-
dows.. Journal of Mathematical Imaging and Vision, 17:139-152, 2002
[ITT98] Itti L., Koch C., Niebur E., A model of saliency-based visual attention for rapid scene analysis.
IEEE transaction on pattern analysis and machine intelligence, vol 20, pp 1254-1259, 1998.
[IZE91] Izenman, A.J., Recent developments in non parametric density estimation. Journal of the Ameri-
can Statistical Association, 86 (413), 204-224, 1991.
[JAI97] Jain A.K., Ratha N, Lakshmanan S, Object detection using Gabor flters Pattern Recognition, 30,
295-309, 1997.
[JAI00] Jain A.K., Duin R.P.W., Mao J., Statistical pattern recognition: a review. IEEE transaction on
pattern analysis and machine intelligence, vol 1, N22, janvier 2000.
[JOH02] Johansson B., A survey on : Content Based Search in Image Databases. http://www.isy.liu.se/cvl/
Projects/VISIT-bjojo/survey/surveyonCBIR/index.html, 2002.
[JON87] Jones M.C, Sibson R., What is projection pursuit?. Journal of the Royal Statistical Society, serie
A, 150:1-36, 1987.
[JPE00] JPEG2000 part 1 fnal committee draft version 1.0. Technical report, ISO/IEC FCD15444-1, March
2000.
[JUN01] Jung T.-P., Makeig S., McKeown M.J., Bell A.J., Lee T.-W., Sejnowski T.J, Imaging brain dyna-
mics using independent component analysis. Proceedings of the IEEE, vol 89, N 7, juillet 2001.
- 176 -
Bibliographie
- 177 -
Bibliographie
[JUT88] Jutten C., Hrault J., ICA versus PCA. Dans Actes EUSIPCO 88- Signal Processing IV: Theories
and Applications, J.L Lacoume, A. Chehikian, N. Martin, J. Malbos (Eds), pages 643-646, Greno-
ble, France, 1988.
[JUT91] Jutten C., Hrault J., Blind separation of sources, Part I: An adaptative algorithm based on neuro-
mimatic architecture, Signal Processing, vol 24, N 1, pp 1-10, juillet 1991.
[JUT00] Jutten, C., Taleb, A., Source separation: From dusk till dawn. Actes ICA 2000, pages 15-26 (pa-
pier invit), Helsinki, Finland, June 2000.
[JUT03] Jutten, C., Karhunen J., Advances in Nonlinear Blind Source Separation. Actes ICA2003, pp 245-
256, Nara, Japon, 2003.
[KAR94] Karhunen J., Joutsensalo J., Representation and separation of signals using nonlinear PCA type
learning. Neural Networks, 7(1):113-127, 1994.
[KAR95] Karhunen J., Joutsensalo J., Generalizations of principal component analysis, optimization pro-
blems, and neural networks. Neural Networks, 8(4):549-562, 1995.
[KAR98] Karhunen J., Pajunen P., Oja E., The nonlinear PCA criterion in blind source separation: relations
with other approaches. Neurocomputing, vol 22, pp 5-20, 1998.
[KIV98] Kiviluoto K., Oja E. Independent component analysis for parallel fnancial time series. Actes ICO-
NIP98, Kitakyushu, Japon. S Usui et T. Omori, eds), vol 2, (Tockyo, Japon), pp 895-898, APNNA,
JNNS., Ohmsha, Octobre 1998.
[KIR01] Kirkpatrick, K., Object recognition. In R. G. Cook (Ed.), Avian visual cognition [En ligne :
www.pigeon.psy.tufts.edu/avc/kirkpatrick/], 2001
[KOC85] Koch C., Ullman S. Shifts in selective visual attention : towards the underlying neural circuitry,
Human Neurobiology, vol 4 : pp219-227, 1985.
[KOF35] Koffka K., Principles of Gestalt Psychology. Lund Humphries, Londres, 1935.
[KOH84] Kohonen T. Self-organization and associative memory, Springer-Verlag, 1984.
[KOH95] Kohonen T. Self-organizing maps, Springer, 1995.
[KOL02] Kolenda T., Hansen L.K., Larsen J., Winther O. Independent component analysis for understanding
multimedia content. Actes du workshop IEEE Neural Network for Signal Processing XII, pp 757-
766, Martigny, alais, Suisse, 4-6 septembre 2002
[KOO92] Kooperberg C., Stone C.J., Logspline density estimation for censored data. J. Comput. Graph.
Stat., 1, 301-328, 1992.
[KUN93] Kunt M., Granlund G., Kocher M., Traitement numrique des images. Presses polytechniques et
universitaires romandes et CNET-ENST, Lausane, 1993.
[KUNT00] Kunt M., Coray G., Granlund G., Haton J-P., Ingold R., Kocher M., Reconnaissance des formes et
analyse de scnes. Presses polytechniques et universitaires romandes et CNET-France Tlcom,
Lausane, 2000.
[LAA00] Laaksonen J., Koskela M., Laakso S., Oja E., PicSOM - content-based image retrieval with self-
organizing maps. Pattern recognition letters, 21, pp 1199-1207, 2000.
[LAB99a] Labbi A., Bosch H., Pellegrini C., Gerstner W. Viewpoint-Invariant object recognition using inde-
pendent component analysis. Actes NOLTA 99, Hawa, Etats-Unis,28 nov-3 dec 1999.
- 176 -
Bibliographie
- 177 -
Bibliographie
[LAB99b] Labbi A., Bosch H., Pellegrini C., Image categorization using independant component analysis.
ACAI workshop on biologically inspired machine learning (BIML99), confrencier invit, 14
juillet, Crete, Grce.
[LAB99c] Labbi, A., Sparse-Distributed Codes for Image Categorization. Rsum de projet sur lACI et le
codage des images, 1999.
[LAB01] Labbi A., Bosch H., Pellegrini C., High order statistics for image classifcation. International
Journal of Neural Systems, vol 11, N 4, pp 371-377, 2001.
[LAC92] Lacoume J.-L., Ruiz P., Separation of independent sources from correlated inputs. IEEE transac-
tion on signal processing, 40(12):3074-3078, 1992
[LAC97] Lacoume J.-L., Amblard P.-O., Comon P., Statistiques dordre suprieurs pour le traitement du
signal. Masson, 1997.
[LAR03] Larsen J., Hansen L.K., Kolenda T., Nielsen F.A., Independent Component Analysis in Multimedia
Modeling. confrencier invit ICA2003, Nara, Japan, 1-4 Avril, pp. 687-696, 2003.
[LAU81] Laughlin, S. A simple coding procedure enhances a neurons information capacity, Z. Natur-
forsch, c 36, 910-2, 1981.
[LEE96] Lee T.S., Image representation using 2D gabor wavelets. IEEE transaction on pattern analysis
and machine intelligence, vol 18, N10, 1996.
[LEE98] Lee T.W., Independent Component Analysis, theory ans applications. Kluwer Academic Pu-
blishers, Boston, 1998.
[LEE99] Lee T.-W., Girolami M., Sejnowski T.J., Independent component analysis using an extended info-
max algorithm for mixed sub-gaussian and super-gaussian sources. Neural computation, vol 11,
N2, pp 409-433, 1999.
[LEN01] Lennon, M., Mercier G., Mouchot M.C., Hubert-Moy L., Spectral unmixing of hyperspectral
images with the Independent Component Analysis and wavelet packets. Actes International Geos-
cience and remote sensing symposium, Sydney, Australie, Juillet 2001.
[LEE00] Lee T.W., Girolami M., Bell A.J., Sejnowski T.J., A unifying information-theoric framework for
independent component analysis, Computer & mathematics with application, 39(11):1-21, 2000.
[LEW99] Lewicki M.S., Olshausen B.A., A probabilistic framework for the adaptation and comparison of
image codes. Journal of the Optical Society of America, A 16:1587-1601, 1999.
[LEW00] Lewicki S., Sejnowski T.J., Learning overcomplete representation, Neural compoutation, vol 12,
N2, pp 337-365, 2000.
[LIN88] Linsker,R. Self-organization in a perceptual network. IEEE Computer, 21:105-117, 1988.
[LIU03] Liu C., Wechsler H., Independent Component Analysis of gabor features for face recognition.
IEEE transaction on neural networks, vol 14, N 4, pp 919-928, 2003.
[LOG95] Logothetis N.K., Pauls J., Poggio T., Shape representation in the inferior temporal cortex of mon-
keys. Current Biology, vol 5, N 5, pp 552-563, 1995.
[MAK00] Makeig, S et al. Frequently Asked Questions about ICA applied to EEG and MEG data. WWW
Site, Swartz Center for Computational Neuroscience, Institute for Neural Computation, University
of California San Diego, www.sccn.ucsd.edu/eeglab www.sccn.ucsd.edu/~scott/icafaq.html [World
Wide Web Publication], 2000
[MAL99] Mlroiu S., Kiviluoto K., Oja E. Time series prediction with independent component analysis.
Actes AIT99 (Advances Investment Technologies), Gold coast, Australie, 20-21 dcembre 1999.
- 178 -
Bibliographie
- 179 -
Bibliographie
[MAL00] Mallat S., Une exploration des signaux en ondelettes, Les ditions de lcole polytechnique, Palai-
seau, 2000.
[MAN96] Manjunath B.S., Ma W.Y., Texture features for browsing and retrieval of image data. IEEE patern
analysis and machine intelligence, vol 18, pp 837-842, aot 1996.
[MAO92] Mao J., Jain A.K., Texture classifcation and segmentation using multiresolution simultaneous
autoregressive models, Pattern recognition, vol 25, N 2, pp 173-188, 1992.
[MAR78] Marr D., Nishihara H.K., Representation and recognition of the spatial organization of
tree-dimendional shapes. Proceeding of the Royal Society of London, B, 200, pp 269-294, 1978.
[MAR82] Marr D., Vision: a computational investigation into the human representation and processing of
visual information. Freeman, San Francisco, 1982.
[MAS03] Massot C., Hrault J., Extraction dindices dorientation et de forme dans les scnes naturelles par
modles corticaux, Actes GRETSI03, toulouse, France, 2003.
[MIN75] Minsky M, A framework for representing knowledge. In Patrick Henry Winston (Eds.), The Psy-
chology of Computer Visio, McGraw-Hill, New York, USA, 1975
[MOJ01] Mojsilovic A., Rogowitz B. Capturing image semantic with low-level descriptors. Actes Interna-
tional conference on image processing, vol 1, pp 18-21, Thessaloniki, Grce, 7-10 octobre 2001.
[MOR98] Moreau E., Macchi O., Self-adaptative source separation, part II: comparison of the direct, feed-
back, and mixed linear network. IEEE transaction on signal processing, vol 46, N 1, pp 39-50,
janvier 1998.
[NAD94] Nadal J.-P., Parga N., Non linear neurons in the low noise limit: a factorial code maximizes infor-
mation tranfer. Network: computation in neural systems, 5:565-581, 1994.
[NAS92] Nason G.P., Design and choice of projection indices. Thse de doctorat, universit de Bath,
1992.
[NEI67] Neisser U., Cognitive Psychology. New-York: Appleton-Century-Crofts, 1967.
[NGU95] Nguyen Thi H.-L, Jutten C., Blind source separation for convoutive mixtures. Signal processing,
vol 45, N 2, pp 209-229, 1995.
[OJA82] Oja E., A simplifed neuron model as a principal component analyser. Journal of Mathematical
Biology, vol 15, pp 267-273, 1982.
[OJA91] Oja E., Ogawa H., Wangviwattana J., Learning in non-linear constrained Hebbian networks. Dans
T. Kohonen et al. (Eds.), Artifcial neural networks, pp 385-390, Amsterdam, Pays Bas, 1991.
[OJA92] Oja E., Principal Components, Minor Analysis, and Linear Neural Netwoks. Neural Networks,
5(6):927-935,1992.
[OJA97] Oja E., The nonlinear PCA learning rule in independent component analysis. Neurocomputing,
17(1):25-46, 1997.
[OLI97] Oliva A., Schyns P., Coarse blobs or fne edges? Evidence that information diagnosticity changes
the perception of complex visual stimuli. Cognitive psychology, vol 34, pp 72-107, 1997.
[OLI99] Oliva A., Torralba A., Gurin-Dugu A., Hrault J. Global semantic classifcation of scenes using
power spectrum templates. Actes Challenge of Image Retrieval. Elect. work. in Computing series,
springer-Verlag, Newcastle, 1999.
[OLI01] Oliva O., Torralba A., Modeling the shape of the scene: a holistic representation of the spatial en-
velope. International journal of computer vision, 42(3):145-175, 2001.
- 178 -
Bibliographie
- 179 -
Bibliographie
[OLI03] Oliva, A., Torralba, A., Castelhano, M. S., and Henderson, J. M. Top-Down control of visual at-
tention in object detection. Actes IEEE International Conference on Image Processing, 14-17
septembre, Barcelone, Espagne, 2003.
[OLS96] Olshausen B.A, Fields D.J., Emergence of simple-cell receptive feld properties by learning a
sparse code for natural images. Nature, 381:607-609, 1996.
[OLS97] Olshausen B.A, Fields D.J., Sparse coding with an overcomplete basis set: a strategy employed
byV1?. Vision research, vol 37, N 23, pp 3311-3325, 1997.
[PAR02] Park S.-J., Shin J.-K., Lee M; Biologically inspired saliency map model for bottom-up visual
attention. Second workshop on biologicaly motivated computer vision, Tbingen, Allemagne, pp
418-426, Springer-verlag, Berlin, Heidelberg, 22-24 novembre 2002.
[PAL99] Palmer, S. E., Vision science: From Photons to Phenomenology. Cambridge, MA: Bradford
Books/MIT Press, 1999.
[PEA96] Pearlmutter B.A., Parra L.C., A context-sensitive generalisation of ICA. Actes ICONIP96, pp
151-157, Hong-Kong, 1996.
[PES01] Pesquet-popescu B., Pesquet J-C., Ondelettes et applications. Techniques de lingnieur, 2001.
[PHA92] Pham D.T., Garat P., Jutten C., Separation of a mixture of independent sources through a maximum
likelihood approach. Actes EUSIPCO, pp 771-774, 1992.
[PHA97] Pham D.T., Garat P., Blind separation of mixture of independent sources through a quasimaximum
likelihood approach. IEEE transactions on signal processing, 45(7):1712-1725, 1997.
[PIN03] Pingault M., Estimation du mouvement dobjets transparents. Manuscrit de thse, Universit jo-
seph Fourier, Grenoble, France, 2003.
[POG90] Poggio T., Edelman S., A network that learns to recognition three-dimendional objects, Nature,
vol 343, pp 263-266, 1990.
[POL83] Pollen, D. and Ronner, S Visual cortical neurons as localized spatial frequency flters. IEEE Tran-
saction. on Systems, Man, and Cybernetics, 13:907--916, 1983.
[POS84] Posner, M.I., Cohen, Y., Components of Visual Orienting. H. Bouma and D.G. Bouwhuis, eds.,
Attention and Performance, vol. 10, pp. 531556. Hilldale, N.J.: Erlbaum, 1984.
[POT76] Potter M., Short-term conceptual memory for pictures. Journal of experimental psychology: hu-
man learning and memory, vol 2, pp 509-522, 1976.
[PUZ99] Puzicha J., Rubner Y., Tomasi C., Buhmann J.M., Empirical evaluation of dissimilarity measures
for color and texture. Acte International Conference on Computer Vision, Kerkyra, Corfu, Grce,
pp 1165-1173, 1999.
[RAN99] Randen T., Hkon Husy J., Filtering for texture classifcation: a comparative study. IEEE tran-
saction on pattern analysis and machine intelligence, vol 21, N 4, avril 1999.
[RIJ79] Rijsbergen C.J. van, Information retrieval (2
nd
ed.), Butterworths, Londres, 1979.
[RIP02] Ripley B., Kooperberg C., Logspline density estimation package, version 1.0-7, disponible
http://www.cran.r-project.org/, 28 aot 2002.
[ROG98] Rogowitz B.E., Frese T., Smith J.R, Bouman C.A., Kalin E., Perceptual image similarity expe-
riment. IS4T/SPIE Symposium on Electronic Imaging: Science and Technology, Conference on
Human Vision and Electronic Imaging III, pp. 576-590, 1998
- 180 -
Bibliographie
- 181 -
Bibliographie
[ROS75] Rosch, E., Cognitive representations of semantic categories. Journal of Experimental Psychology,
General 104, pp. 192-233, 1975.
[RUD94] Ruderman D.L., The statistics of natural images. Network: computation in neural systems, vol 5,
pp 517-548, 1994.
[RUI97] Rui Y., Huang T.S., Chang S-F., Image retrieval: past, present, and future. Actes International
Symposium on Multimedia Information Processing, Taiwan, dcembre 1997.
[SAL89] Salton G., Automatic text processing: the transformation, analysis, and retrieval of information by
computer, Adison-Wesley, 1989.
[SAM69] Sammon J.W., A nonlinear mapping algorithmfor data structure analysis. IEEE transaction on Com-
puters, C-18(5):401-409, 1969.
[SAN89] Sanger T.D., Optimal unsupervised learning in a single-layer linear feedforwrd network. Neural
Netwoks, 2(6), 459-473, 1989.
[SAN99] Santini S, Jain R., Similarity measures . IEEE transaction on pattern analysis and machine intel-
ligence , vol 21, N 9, pp 871-883, 1999.
[SAN01] Santini S., Exploratory image databases : content-based retrieval. Academic press, Londres,
2001.
[SAN02] Sanfeliu A., Alquzar R., Andrade J., Climent J., Serratosa F., Vergs J., Graph-based represen-
tations and techniques for image processing and image analysis. Pattern recognition 35, N3, pp
639-650, mars 2002.
[SAP90] Saporta G., Probabilits, analyse des donnes et statistiques. Editions technip, paris, 1990.
[SCH94] Schyns P., Oliva A., From blobs to boundary edges: evidence for time and spatial scale dependent
scene recognition. Psychological Science, vol 5, pp 195-200, 1994.
[SCH96] Schaaf van der A., Hateren van J.H., Modelling the power spectra of natural images: statistics and
information. Vision research, 36, pp 2759-2770, 1996.
[SCH97] Schmid C., Mohr R., Mise en correspondance par invariants locaux. Traitement du signal, vol 13,
N 6, pp 591-618, 1997.
[SHA49] Shannon, C.E. & Weaver, W. (Ed.). The mathematical theory of communication. Urbana: Univ.
Illinois Press, 1949.
[SHA76] Shafer G., A mathematical theory of evidence. Princeton university press, 1976.
[SHE72] Shepard R.N., Romney K., Nerlove S.B., Multidimensional scaling: Theory and Application in the
behavioral sciences (volume 1: theory), Seminar press, New York, 1972.
[SIL86] Silverman B.W., Density estimation for statistics and data analysis, Chapman & Hall, Londres,
1986
[SIM01] Simoncelli E.P., Olshausen B.A., Natural image statistics and neural representation. Annual re-
view of neuroscience, 24:1193-216, 2001.
[SME00] Smeulders A.W.M., Worring M., Santini S., Gupta A., Jain R., Content-based image retrieval at the
end of the early years, IEEE transaction on pattern analysis and machine intelligence, vol 22, N
12, dcembre 2000.
[SOD02] Sodoyer D., Schwartz J.-L., Girin L., Klinkisch J., Jutten C., Separation of audio-visual speech
sources: a new approach exploiting the audio-visual coherence of speech stimuli. EURASIP journal
on applied signal processing, vol 1, pp 1165-1173, 2002.
- 180 -
Bibliographie
- 181 -
Bibliographie
[STA02] Starck J.-L., Cands E.J., Donoho D.L., The curvelet transform for image denoising. IEEE tran-
saction on image processing, vol 11, N6, juin 2002.
[STA03] Starck J.-L., Murtagh F., Cands E.J., Donoho D.L., Gray and color image contrast enhancement
by the curvelet transform. IEEE transaction on image processing, vol 12, N6, juin 2003.
[STE00] Stetter M., Obermayer K., Biology and theory of early vision in mammals. Brains and Biological
Networks, H. H. Szu (ed), chapter . INNS press, 2000.
[STR95] Stricker M., Orengo M., Similarity of color images. Actes SPIE 95, San jose, CA, USA, 1995.
[SWA91] Swain M.J., Ballard D.H., Color indexing. International journal of computer vision, vol 7, N 1,
pp 11-32, 1991.
[SZU98] Szummer M., Picard R.W., Indoor-outdoor image clasifcation. IEEE international workshop on
content-based access of image and video databases, Bombay, Inde, janvier 1998.
[UNS95] Unser M., Texture classifcation and segmentation using wavelet frames. IEEE transaction on
image processing, vol 4, pp 1549-1560, novembre 1995.
[TAL99] Taleb A., Jutten C., Source Separation in Post Non Linear Mixtures. IEEE Transaction on Signal
Processing, Vol. 47, n 10, pp. 2807-20, Octobre 1999.
[TAR95] Tarr M.J., Blthoff H.H., Is human object recognition better described by geon structural decrip-
tions or by multiple views? Journal of experimental psychology: human perception and perfor-
mance, vo 21, pp 1494-1505, 1995.[TAR98] Tarr, MJ, Blthoff H.H., Image-based object
recognition in man, monkey and machine. Cognition 67, 1-20, 1998.
[TAR00] Tarr M.J., Visual pattern recognition. Encyclopedia of psychology, A.E. Kazdin (Ed.), Washing-
ton, DC: American Psychological Association, 2000.
[THI97] Thiria S., Lechevallier Y., Gascuel O., Canu S., Statistique et mthodes neuronales. Dunod, Paris,
1997
[TON91] Tong L. Liu R.-W., Soon V.C., Huang Y.-F, Indeterminacy and identifability of blind identifca-
tion. IEEE Transaction on Signal Processing, Vol. 38, n 5, pp. 499-509, mai 1991.
[TON93] Tong L., Inouye Y., Liu R.W., Waveform-Preserving Blind estimation of multiple independent
sources. IEEE transaction on signal processing, 41(7):2461-2470, 1993.
[TOR52] Torgerson W.S., Multidimensional scaling, part I : theory and method . Psychometrika, vol 17, pp
401-419, 1952.
[TOR99] Torralba A., Oliva O., Semantic organization of scenes using discriminant structural templates.
Actes international conference on computer vision, pp 1253-1258, Korfu, Grce, septembre 1999.
[TOR02] Torralba A., Oliva A., Depth estimation from image structure. IEEE transaction on pattern analy-
sis and machine intelligence, vol 24, N 9, pp 1226-1238, septembre 2002
[TOR03a] Torralba A., Contextual priming for object detection. International Journal of Computer Vision,
vol 53, N 2, pp 157-167, juillet 2003.
[TOR03b] Torralba A, Oliva A., Statistics of Natural image categories. Network: computation in neural sys-
tems, vol14, pp 391-412, 2003.
[TRE80] Treisman A., Gelade G., A feature integration theory of attention. Cognitive psychology, vol 12,
pp 97-136, 1980.
[TRE88] Treisman A., Preattentive processing in vision. Dans computational processes in human vision: an
interdisciplinary perspective, Zelon Pylyshyn (Eds), pp 341-369, 1988.
- 182 -
Bibliographie
- 183 -
Bibliographie
[TRK96] Torkkola K., Blind deparation of delayed sources based on information maximization. Actes
ICASSP, Atlanta, GA, Etats-Unis, 7-10 mai 1996.
[TRK99] Torkkola K., Blind separationfor audio signals - are we there yet?. Actes ICA99, pp 239-244,
Aussois, France, janvier 1999.
[ULL96] Ullman S. High level vision: object recognition and visual cognition. Cambridge MA: MIT press,
1996.
[VAI98] Vailaya A., A. Jain, A., Zhang H.J, On Image Classifcation: City vs. Landscape, Pattern recogni-
tions, vol 31, N 12, pp 1921-1935, 1998.
[VAI01] Vailaya A., Figueiredo M.A.T., Jain A.K., Zhang H.J., Image classifcation for content-based in-
dexing. IEEE transaction on image processing, vol 10, N 1, janvier 2001.
[VER01] Verpeaux B., Analyse et amlioration dune chane de catgorisation dimages par ACI. Rapport
de stage de seconde anne, ENSERG, 2001.
[VIG00] Vigrio R., Oja E., Independence: a new criterion for the analysis of the electromagnetic felds in
the global brain. Neural Netwoks, 13, pp891-907, 2000.
[WAT60] Watanabe, S., Information-theorical aspects of inductive and deductie inference. IBM journal of
research and development, 4, pp 208-231, 1960.
[WIL00] Willmore B., Watters P. A., Tolhurst D.V., A comparison of natural-image-based models of simple-
cell coding, Perception, vol 29, pp 1017-1040.
[WOL89] Wolfe J. M., Cave K. R., Franzel S. L., Guided search: an alternative to the feature integration mo-
del for visual search. Journal of experimental psychology: human perception & performance, 15,
pp 419-433, 1989.
[YAN97] Yang H.H., Amari S.-I., Adative online learning algorithms for blind separation: maximum entropy
and minimum mutual information. Neural computation, vol 9, N 7, pp 1457-1482, 1997.
[ZAD78] Zadeh L.A., Fuzzy sets as a basis for a theory of possibility, Fuzzy sets and systems, vol 1, N1,
pp 3-28, 1978.
[ZHU03] Zhu S-C., Statistical modeling and conceptualization of visual patterns. IEEE transaction on pat-
tern analysis and machine intelligence, vol 25, N6, pp 691-712, juin 2003.
- 182 -
Bibliographie
- 183 -
Bibliographie
[1] Le Borgne H., Gurin-Dugu A., Antoniadis A., Representation of images for
classifcation with independent features , Pattern Recognition Letters, vol 25, N2,
pp 141-154, janvier 2004.
[2] Le Borgne H., Guyader N., Gurin-Dugu A., Hrault J., Classifcation of images :
ICA flters VS Human Perception . Actes Seventh International Symposium on Signal
Processing and its Applications, vol 2, pp 251-254, July 1-4 2003, Paris, France, 2003
[3] Guyader N., Le Borgne H., Hrault J., Gurin-Dugu A., Towards the introduction
of human perception in a natural scene classifcation system . Actes International
workshop on Neural Network for Signal Processing (NNSP2002), Martigny Valais,
Suisse, September 4-6, 2002.
[4] Guyader N., Chauvin A., Le Borgne H., Catgorisation de scnes naturelles : lhomme
vs la machine . Actes NSI 2002 : journes Neurosciences et Sciences de lIngnieur, La
Londe-les-maures, France, 2002.
[5] Le Borgne H., Gurin-Dugu A., Sparse-Dispersed Coding and Images Discrimination
with Independent Component Analysis . Actes Third International Conference on
Independent Component Analysis and Signal Separation (ICA2001), San Diego,
California, December 9-13, 2001.
[6] Le Borgne H., Gurin-Dugu A., Proprits des dtecteurs corticaux extraits des scnes
naturelles par Analyse en Composantes Indpendantes , Revue Valgo (ISSN 1625-
9661), 2001
[7] Le Borgne H., Gurin-Dugu A., Caractrisation dimages par Analyse en Composantes
Indpendantes, Actes ORASIS 2001, Cahors, 5-8 Juin 2001
[8] Gurin-Dugu A., Le Borgne H., Analyse de scnes par Composantes Indpendantes .
AGD confrencire invite lcole de printemps De la sparation de sources lanalyse
en composantes indpendantes . Villard-de-Lans (Isre), 2-4 Mai 2001.
[9] Le Borgne H., Gurin-Dugu A., Analyse dImages par Composantes Indpendantes :
Application lOrganisation Smantique de Bases dimages , NSI 2000 : journes
Neurosciences et Sciences de lIngnieur, Dinard, France, 2000.
Publications en rapport avec le manuscrit.
- 184 -
Bibliographie
- 185 -
Annexe A: divergence de Kullback-Leibler
A.1 Distance
Un ensemble est un espace mtique quand il est pouvu dune fonction d(x,y) valeurs relles positives
vrifant, pour trois lments x,y et z de , les proprits suivantes :
(1) {d(x,y) = 0} => {x = y}
(2) {x = y} => {d(x,y) = 0}
(3) d(x,y) = d(y,x) [Symtrie]
(4) d(x,y) + d(y,z) d(x,z) [Ingalit triangulaire]
La fonction d est une distance (ou une mtrique). Lorsque lon a seulement les proprits (2) et (3) (plus
d(x,y) 0), on parle de dissimilarit [SAP90]. En labsence de (2), d est dsigne comme pseudo-mtrique.
A.2 f-divergence intgrale
Soient P et Q deux lois de probabilit admettant les densits p et q par rapport une mesure de rfrence . Une
f-divergence intgrale est alors dfnie par :

I P Q f
p
q
qd x
f
( , ) ( ) =



o f est une fonction continue et convexe sur [0, +[, et souvent de classe C
2
. On ajoute alors les conditions:
f(1) = 0 pour garantir I
f
(P,P) = 0
Les f-divergence ne dpendent alors pas de la mesure de rfrence [BAS96]. Elles possdent les proprits
dinvariance suivante :
pour g(u) = f(u) + au + b I
g
(P,Q) = I
f
(P,Q) + a + b
pour g(u) = u.f(1 / u) I
g
(P,Q) = I
f
(Q,P)
Elles peuvent tre dfnies dans le cas o les lois nadmettent pas de densits partir dentropies fonctionnelles,
mais ce cas ne nous concerne pas ici.
- 186 -
A.3 Divergence de Kullback
Linformation de Kullback, ou entropie relative, correspond la fonction f(u) = u.ln(u), ce qui donne :

K P Q p
p
q
d x ( , ) ln ( ) =


La symtrise de cette grandeur est appelle divergence de Kullback ou encore divergence de Jeffreys-Kull-
back-Leibler et correspond la fonction f(u) = (u-1).ln(u), ce qui donne :

KL P Q K P Q K Q P p q p q d x ( , ) ( , ) ( , ) ln ln ( ) = + = ( ) ( ) ( ) ( )


Cest cette grandeur que nous appellons couramment divergence KL.
A.4 Proprits de la divergence KL
Nous considrons deux densits p et q strictement positives sur tout laxe rel. Etant donn que la fonction
logarithme est concave, on a lingalit :

ln
q
p
q
p

1
(A.1)

p
p
q
p q ln


(A.2)
Donc pour les intgrales sur laxe rel :

p
p
q
p q ln



(A.3)
Or p et q sont des densits donc leurs intgrales sur sont gales (et valent 1). Ainsi, linformation de Kul-
lback et la divergence KL sont positives pour toutes densits p et q strictement positives sur . La divergence
KL est nulle si p = q. Rciproquement, linngalit (A.2) est une galit uniquement quand p = q, et une ingalit
stricte dans le cas contraire. Comme nous considrons que p et q sont continues et strictement positive sur laxe
rel, si p q, cest aussi le cas de la fonction faisant la diffrence des deux membres de linngalit :

p
p
q
p q et continue sur ln

+ >0
Lintgrale est donc strictement positive, donc la divergence KL est strictement postive. Finalement on a lqui-
valence :

KL p q p q ( , ) = ( ) = ( ) 0
- 187 -
Annexe B:
Analyse en Composantes Curvilignes
Le problme est de reprsenter un ensemble de donnes x
i
en grande dimension (ou de dimension inconnue)
dont on ne connat que les distances X
ij
entre elles (espace dentre), dans un espace euclidien de dimension r-
duite (espace de sortie). La reprsentation euclidienne doit permettre de comprendre la structure des donnes, par
exemple en visualisant une reprsentation dans un espace euclidien de dimension deux ou trois. Le but est que
les distances Y
ij
entre les points projets dans cet espace rduit soient aussi proches des X
ij
. Comme cela nest pas
possible dans le cas gnral, on sattache conserver la topologie locale des donnes : les lments proches dans
lespace dentre le sont aussi dans lespace de sortie.
Lune des techniques classiques pour raliser ceci est le multidimendional scaling (MDS) [TOR52]. On sup-
pose que les N donnes ont une structure euclidienne (en entre), et on considre la matrice des distances au carr
D
(2)
={X
ij
2
}. Celle-ci est centre selon les lignes et les colonnes, au moyen de loprateur
J I
N
T
=

1
11
. On
obtient ainsi la matrice de covariance des donnes C = -1JD
(2)
J [HER02]. Celle-ci peut tre diagonalise (matrice
symtrique relle) C = QQ
T
(Q = matrice des vecteurs propres, = matrice des valeurs propres). La nouvelle
reprsentation des donnes est consitue des k premiers vecteurs propres normaliss par la valeur propre : Q
k

k
1
.
Les donnes sont donc projetes linairement.
LACC [DEM94, DEM97] ralise une projection non-linaire des donnes au moyen dun rseau de neurones
deux couches. Au contraire des cartes auto-organisatrices de Kohonen [KOH95], la topologie de lespace de sortie
nest pas fxe a priori. Les poids des neurones de la couche de sortie y
i
sont initialiss alatoirement. Ensuite, un
neurone de sortie, dit neurone gagnant , est choisi alatoirement et son poids est modif de faon minimiser
la fonction de cot :

E X Y F Y
ij ij ij
i j i
= ( ) ( )


1
2
2
,
(B.1)
F(Y
ij
, ) est une fonction positive, monotone, dcroissante (en fonction des distances Y
ij
). Elle limite donc le
voisinage pris en compte pour le calcul de la nouvelle position de chaque y
i
. On notera que lACC est un algo-
rithme non dterministe puisque deux source incertaines interviennent : linitialisation des donnes en sorties,
et lordre des neurones qui sont modifs (neurones gagnants).
La minimisation de (B.1) par descente de gradient donne une rgle dadaptation coteuse en temps de calcul.
- 188 -
Demartines et Hrault ont propos de la simplifer et dutiliser:

y t X Y F Y
y y
Y
j i
i ij ij ij
i j
ij


= ( ) ( )

( )
( ) , ,
(B.2)
La minimisation de (B.1) nest alors pas strictement monotone, mais seulement dcroissante en moyenne.
Cette proprit est trs intressante car elle permet de sortir de minima locaux de la fonction dnergie (B.1). De
plus, comme elle rclame seulement le calcul des distances entre le point courant y
i
( neuronne gagnant ) et les
autres points y
j
(ji), la complexit nest que O(N) alors que dautres techniques concurrentes , tel le Non-Linear
Mapping [SAM69] ou le MDS non linaire [SHE72], ont une complexit au moins O(N
2
).
On pourra se rfrer la thse de Demartines [DEM94] pour de plus amples dtails sur le sujet, ainsi que de
nombreuses illustrations. Celles-ci montrent les remarquables capacits de lalgorithme pour dplier et projeter
non linairement des donnes dans des situations diffciles. Un simulateur a t implant en C++ par Duchne dans
le cadre de son DEA [DUC03]. Il permet de superviser la largeur du voisinage F(Y
ij
, ) en cours ditration, ce qui
mne des rsultats encore plus performants (fgure B.1).
Figure B.1 : (a) Deux cercles imbriqus en trois dimensions - (b) Projection bidimensionnelle par ACC.
1.5
1
0.5
0
0.5
1
1.5
1
0.5
0
0.5
1
1
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
1
(a) (b)
- 189 -
Annexe C : Indexation
Nous prsentons des rsultats sous une forme plus habituelle dans la communaut de recherche
d'information.
C 1 Retrouver les premiers voisins
Il existe de nombreuses mesures pour rendre compte des performances des systmes de recherche dinfor-
mation (SRI). Le problme de lvaluation est nanmoins encore largement ouvert puisque la pertinence des
rponses est une notion subjective dpendant du dsir des utilisateurs. Classiquement on estime la prcision et
le rappel, qui mesurent la capacit du sytme retrouver des documents pertinents [RIJ79]. Sous rserve de
dfnir la pertinence, la prcision est le taux dimages pertinentes parmi celles qui sont proposes par le systme
(# images pertinentes rapportes / # images rapportes), et le rappel est le taux dimages pertinentes proposes
(# images pertinentes rapportes / # images pertinentes existantes). Puisque ces deux mesures dpendent du nom-
bre dimages proposes par le systme, on sinteresse gnralement leur volution conjointe. Une autre raison
ceci est quelles ne sont pas indpendantes dans un systme rel. On peut accrotre artifciellement le rappel en
proposant plus dimages ( la limite, proposer toutes les images de la base assure davoir un rappel gal 1!), et la
prcision en diminuant leur nombre. Nous devons donc gnralement faire un compromis entre ces deux critres,
tablir en fonction du diagramme PR (prcision en fonction du rappel).
Avec un classifeur aux K premiers voisins au chapitre 6, les rsultats de classifcation rendent dj compte de
telles performances en grande partie. Le couple signature/distance utilis est le mme que dans le cas de lorgani-
sation du 6.5 : la matrice des distances entre les images rsulte de lestimation KL (Monte-Carlo 500 chan-
tillons) entre les signatures logspline des rponses de 16 fltres provenant dimages traites par rtinien + Hanning.
Le taux de classifcation estim par K
ppv
est de 86 % et la matrice de confusion est donne la table C.1.
86.9 0 10 3.1
0 90 2.3 7.7
7.1 2.9 89.3 0.7
4.3 10.0 7.9 77.8
Table C.1 : matrice de confusion aprs classifcation K
ppv
.
Villes
Sc. ouvertes
Sc. dintrieur
Sc. fermes
- 190 -
C-2 Rsultats
La pertinence des images a t dtermine par les mmes labels que pour la classifcation, en divisant les 540
images en quatre catgories. Sur la courbe PR (fgure C.1a), nous mesurons quen moyenne une prcision de 0.5
autorise un rappel de 0.6, et que rciproquement si on fxe le rappel 0.5, la prcision est de 0.55, ce qui semble
acceptable pour des conditions relles : plus de la moiti des documents proposs sont pertinents, et ce systme
retrouve plus de la moiti des documents pertinents existants. Ceci nest quune moyenne, et nest pas vrai pour
chaque requte. Dun autre ct, nous utilisons seulement 16 rponses de fltres ici, alors quun systme rel utilise
une combinaison de beaucoups plus de caractristiques.
Par ailleurs, les performances sont diffrentes en fonction des classes. Les scnes ouvertes et les scnes dint-
rieur sont mieux retrouves qur les deux autres catgories. Comme nonc, lordre des courbes correspond exac-
tement lordre des taux de classifcation par K
ppv
pour chaque classe. Puisque les scnes fermes sont nettement
moins bien classes que les autres, nous avons diffrenci les images de montagne et celles de forts afn de crer
5 classes puis avons calcul les courbes PR dans ce cas (fgure C.1b). On voit ainsi que le problme essentiel vient
des images de montagne, et que celles de forts autorisent un compromis rappel/prcision de 05./0.45 (fgure
C.1b). Nanmoins pour certaines images, le choix des labels na pas t facile effectuer, ce qui explique que lon
ait prfr analyser les rsultats dorganisation continue des scnes (6.5), qui nous semble plus propice rendre
compte du contexte catgoriel.
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
PrcisionRappel
Rappel
P
r

c
i
s
i
o
n
Moyenne
Villes
Sc. ouvertes
Sc. intrieur
Sc. fermes
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
PrcisionRappel
Rappel
P
r

c
i
s
i
o
n
Moyenne
Villes
Sc. ouvertes
Sc. intrieur
Montagnes
Forets
Figure C.1 : Courbes Prcisions Rappel avec (a) 4 classes - (b) 5 classes.
(a) (b)