Vous êtes sur la page 1sur 189

N d'ordre :

UNIVERSITE DEVRY VAL D'ESSONNE

THSE
pour obtenir le titre de

Docteur de l'Universit Evry Val d'Essonne


Spcialit:
Sciences de l'Ingnieur
Prsente par

SOUHILA GUERFI ABABSA


Authentification dindividus par reconnaissance de
caractristiques biomtriques lies aux visages 2D/3D

Soutenue le 03 octobre 2008 devant le jury compos de

M. M. MILGRAM, Professeur, ISIR Universit de Paris VI, Prsident


M. L. CHEN, Professeur, EC de Lyon, Rapporteur
Mme. C. FERNANDEZ, Professeur, SIC Universit de Poitiers, Rapporteur
M. A. SMOLARZ , McF HDR, LM2S Universit de Troyes , Examinateur
M. J-P. GAMBOTTO, PAST HDR, IBISC Universit dEvry, Co-Directeur de thse
Mme S. LELANDAIS, Professeur, IBISC Universit dEvry, Directeur de thse

Je ddie cette thse

mes parents qui mont encourag et soutenu,


Fakhr Eddine, Selma et Sarah qui partagent ma vie,

Remerciements

Je tiens exprimer mes remerciements et ma vive gratitude :

A Madame Sylvie Lelandais et Monsieur Jean-Pierre Gambotto qui m'ont


permis, grce leur confiance et leur soutien prcieux, de raliser et
surtout de mener terme ce travail.

A Monsieur Etienne Colle, directeur du Laboratoire Informatique, Biologie


Intgrative et Systmes Complexes, pour m'avoir accueilli dans son
laboratoire dans des conditions plus que favorables une recherche
fructueuse.

A Monsieur Maurice Milgram qui me fait l'honneur de prsider ce jury de


thse.
A Madame Christine Fernandez et Monsieur Liming Chen qui ont accept
d'tre les rapporteurs de ce mmoire, je les remercie tout particulirement
pour l'attention et le temps qu'ils y ont consacrs.

J'exprime galement toute ma sympathie et ma gratitude tous les


doctorants de lIBISC pour l'ambiance agrable qu'ils ont su crer.

Enfin, je voudrais remercier ma famille et en particulier ma mre et mon


pre qui m'a donn l'ducation sans laquelle je n'en serais pas l
aujourd'hui.

Table des matires


Chapitre 1 Les Systmes Biomtriques
1.1

Introduction ............................................................................................................6

1.2

Les systmes biomtriques .....................................................................................8

1.3

Evaluation des performances des Systmes biomtriques ...................................10

1.4

Fiabilit des systmes biomtriques .....................................................................11

1.4.1

Test de vrification .......................................................................................11

1.4.2

Test didentification......................................................................................13

1.5

Applications des systmes biomtriques ..............................................................14

1.6

La place de la reconnaissance faciale parmi les autres techniques biomtriques.15

1.7

Systmes biomtriques bass sur la reconnaissance de visage.............................16

1.7.1

Dtection de visage.......................................................................................17

1.7.2

Extraction de caractristiques du visage.......................................................18

1.7.3

La reconnaissance de visage.........................................................................19

1.8

Principales difficults de la reconnaissance de visage .........................................19

1.8.1

Changement dillumination ..........................................................................19

1.8.2

Variation de pose ..........................................................................................20

1.8.3

Expressions faciales......................................................................................20

1.8.4

Prsence ou absence des composants structurels .........................................21

1.8.5

Occultations partielles ..................................................................................21

1.9

Conclusion ............................................................................................................21

Chapitre 2 Techniques de dtection et de reconnaissance de visages


2.1

Introduction ......................................................................................................... 22

2.2

Dtection de visages ............................................................................................ 22

2.2.1

Approches bases sur les connaissances acquises....................................... 23

2.2.2

Approches bases sur le Template-matching ........................................ 24

2.2.3

Approches bases sur lapparence............................................................... 25

2.2.4

Approches bases sur des caractristiques invariantes................................ 27

2.2.5

Dtection de visages base sur lanalyse de la couleur de la peau .............. 29

2.2.6

Comparaison des diffrentes approches ...................................................... 36

2.3

Techniques 2D de reconnaissance de visage....................................................... 37

2.3.1

Approches holistiques ou globales .............................................................. 38

2.3.2

Mthodes locales ......................................................................................... 44

2.3.3

Mthodes Hybrides...................................................................................... 52

2.4

Techniques 3D de reconnaissance de visages ..................................................... 55

2.4.1

Systmes dacquisition 3D .......................................................................... 55

2.4.2

Approches modle ....................................................................................... 57

2.4.3

Approches 3D .............................................................................................. 57

2.4.4

Approches 3D+2D....................................................................................... 61

2.4.5

Conclusion ................................................................................................... 63

Chapitre 3 Bases de donnes utilises


3.1

Gnralit sur les bases de donnes existantes.....................................................66

3.2

La base XM2VTS [Mes99] ..................................................................................68

3.3

La base IV2 [IV05] ...............................................................................................69

3.3.1

Protocoles dacquisition IV2 .........................................................................70

3.3.2

Evaluation prliminaire ................................................................................71

3.3.3

Protocoles .....................................................................................................73

3.3.4

Conclusion ....................................................................................................74

Chapitre 4 Extraction de visage et de ses caractristiques


4.1

Introduction ......................................................................................................... 75

4.2

Segmentation couleur du visage .......................................................................... 76

4.3

Segmentation par Ligne de Partage des Eaux ..................................................... 77

4.3.1

Principe de limmersion .............................................................................. 77

4.3.2

Ligne de Partage des Eaux (daprs Vincent et Soille ) .............................. 81

4.4

Approche segmentation de couleur propose...................................................... 82

4.4.1

Reprsentation de lespace TLS .................................................................. 82

4.4.2

Dtermination de limage de la norme du gradient TLS ............................. 84

4.4.3

Simulation de linondation daprs Vincent................................................ 88

4.4.4

Fusion des bassins versants ......................................................................... 91

4.4.5

Extraction de visage .................................................................................... 98

4.4.6

Extraction des rgions caractristiques du visage ....................................... 99

4.4.7

Extraction et Normalisation des rgions pour la vrification de visage .... 109

4.4.8

Conclusion ................................................................................................. 110

Chapitre 5 Reconnaissance de visage 2D/3D


5.1

Introduction ............................................................................................... 111

5.2

Authentification de visage 2D ................................................................... 112

5.2.1

Eigenface globale ...................................................................................... 113

5.2.2

Eigenface modulaire .................................................................................. 115

5.2.3

Tests et Evaluations ................................................................................... 116

5.3

Vrification de visage 3D .......................................................................... 125

5.3.1

Etude de lanthropomtrie du visage ......................................................... 126

5.3.2

Slection des points caractristiques ......................................................... 129

5.3.3

La signature 3D ......................................................................................... 130

5.3.4

Systme dacquisition de visage 3D.......................................................... 132

5.3.5

Protocole dvaluation............................................................................... 137

5.4

Vrifications de visage 2D/3D .................................................................. 141

5.4.1

Evaluation de la mthode propose ........................................................... 143

5.4.2

Comparaison des approches 2D, 3D et 2D/ 3D......................................... 143

5.4.3

Identification visage .................................................................................. 145

5.5

Discussion et Conclusion .......................................................................... 147

Conclusion et Perspectives ..........................................................................149


Annexe A
Algorithmes.................................................................................................. 151
Annexe B
Calibration de la Camra ............................................................................................... 155
B.1

La projection perspective .................................................................................. 156

B.2

Transformation camra/image........................................................................... 156

B.3

Les paramtres intrinsques .............................................................................. 156

B.3

Les paramtres extrinsques.............................................................................. 157

B.4

La transformation mire/image ........................................................................... 158

B.5

Estimation des coefficients de la matrice M...................................................... 159

Annexe C
Indices anthropomtriques......................................................................... 162
Rfrences ................................................................................................... 163

Liste des figures

Figure 1. 1. Caractristiques biomtriques. ........................................................................... 7


Figure 1.2. Principaux modules dun systme biomtrique ainsi que les diffrentes modes.9
Figure 1.3. Courbe du point d'quivalence des erreurs dans un systme biomtrique. ....... 12
Figure 1. 4. Courbe DET. .................................................................................................... 13
Figure 1. 5. Courbe CMC. ................................................................................................... 14
Figure 1. 6. Les tapes de la reconnaissance de visage. ...................................................... 17
Figure 1. 7. Exemple de variation dclairage..................................................................... 20
Figure 1. 8. Exemples de variation de poses. ...................................................................... 20
Figure 1. 9. Exemples de variation dexpressions. .............................................................. 21
Figure 2. 1 Modle de visage compos de 16 rgions (les rectangles) associes 23
relations (flches). [Sin94] .................................................................................................. 24
Figure 2. 2. Diffrentes rgions utilises pour la phase de template matching ................... 25
Figure 2.3. Les dix vues d'une personne dans la base de donnes ORL. ............................ 39
Figure 2.4. Taux d'identification moyen en fonction du nombre dexemples
dapprentissage par personne [Wan03]. .............................................................................. 40
Figure 2. 5. (a) image originale (b) carte de projection ; (c) image combine. ................... 42
Figure 2. 6. Synthse de nouvelles images avec diffrentes dgradations [Jun04]............. 43
Figure 2.7. Image de visage partitionne en imagettes[Che04]. ......................................... 48

Figure 2.8. Exemple : (a) une image du visage originale, (b) sa projection (SOM-Face) et
(c) image reconstruite [Tan05]. ........................................................................................... 50
Figure 2. 9. Processus de reconnaissance de visages bas sur les Modles Actifs
dApparence [Lan95]........................................................................................................... 53
Figure 2. 10. (a) Image texture (b) Image 2.5D (c) Image 3D ............................................ 56
Figure 2. 11. Choix de dix points : points 2D marqus par le " " et points 3D marqus par
"" [Wan02]. ....................................................................................................................... 62
Figure 3. 1. Exemple dimages extraites de la base XM2VTS............................................ 65
Figure 3. 2. Exemple dextraction de 10 images dune personne dans al base de
dveloppement..................................................................................................................... 68
Figure 3.3. Normalisation des visages prsents (figure 3.1).............................................. 69
Figure 4. 1. Minima, bassins versants et ligne de partage des eaux. ................................... 78
Figure 4. 2. Le plus court chemin godsique entre s et t. .................................................. 78
Figure 4. 3. Exemple de SKIZ godsique.......................................................................... 79
Figure 4. 4. Les diffrents cas de limmersion. ................................................................... 80
Figure 4. 5. Reprsentation numrique circulaire de la teinte ............................................. 84
Figure 4. 6. Modlisation du gradient multi composantes avec lapproche Di Zenzo. ....... 85
Figure 4. 7. Mesure de la pertinence de la teinte................................................................ 87
Figure 4. 8. Les diffrentes composantes : teinte (b), luminance (c), saturation (d),
gradient(e)............................................................................................................................ 88
Figure 4. 9. Les diffrentes composantes : teinte (b), luminance (c), saturation (d),
gradient(e)............................................................................................................................ 88
Figure 4. 10. Images originales (a) et rsultats de limmersion (b)..................................... 90
Figure 4. 11. Principe de la fusion des bassins versants...................................................... 92
Figure 4. 12. Stratgie dutilisation des composantes TLS. ................................................ 93
Figure 4. 13. Exemples de segmentation de visage : (a) images originales (b) images LPE
modifi................................................................................................................................. 95

Figure 4. 14. (a) image originale (b) image de saturation (c) histogrammes de la saturation
et seuils obtenus avec la mthode de Cheng........................................................................ 97
Figure 4. 15. (a) image originale (b) image de saturation (c) histogrammes de la saturation
et seuils obtenus avec la mthode de Cheng........................................................................ 98
Figure 4. 16. (a) image originale, (b) rsultats dextraction du visage................................ 99
Figure 4. 17. Modle gomtrique du visage. ................................................................... 101
Figure 4. 18. (a) image originale, (b) visage segment Is, (c) visage binaris IM, (d) les
centres de rgions yeux classifies. ................................................................................... 102
Figure 4. 19. Processus de fusion des rgions appartenant lil droit............................ 103
Figure 4. 20. Rsultats dextraction des rgions caractristiques...................................... 104
Figure 4. 21. (a) image originale, (b) mask Visage (c) rgions extraites .......................... 105
Figure 4. 22. (a) image originale (b) mask visage (c) rgions extraites ............................ 106
Figure 4. 23. (a) les bonnes dtections (b) les mauvaises dtections. ............................... 108
Figure 4. 24. (a,b) les bonnes dtections (c) les mauvaises dtections.............................. 108
Figure 4. 25. (a) Les caractristiques extraites avec notre mthode (b) visage normalis (c)
les rgions extraites. .......................................................................................................... 109
Figure 5. 1. Exemple de dcomposition en Eigenfaces..................................................... 114
Figure 5. 2. Courbes DET : les rsultats sur la deuxime exprience. .............................. 118
Figure 5. 3. Rgions faciales utilises pour construire les quatre classifieurs................... 119
Figure 5. 4. Courbe DET : des diffrents classifieurs. ...................................................... 120
Figure 5. 5. Fusion des scores. La classification se fait grce des rgles permettant de
combiner les sorties des quatre classifieurs....................................................................... 121
Figure 5. 6. Les courbes DET des diffrentes combinaisons de classifieurs..................... 122
Figure 5. 7. Courbes DET : rgionM extraction manuelle, rgionA extraction automatique.
........................................................................................................................................... 124
Figure 5. 8. Les diffrents rsultats de fusion de classifieurs............................................ 125

Figure 5. 9. Dessin au dioptrographe du Crne1 montrant les points et paramtres utiliss


dans la craniophotocomparaison ....................................................................................... 128
Figure 5. 10. Points (a), paramtres (b) et angles (c) utiliss pour la cration dune
signature 3D facial............................................................................................................. 131
Figure 5. 11. Systme stroscopique utilis..................................................................... 133
Figure 5. 12. Mire de calibration ....................................................................................... 134
Figure 5. 13. Diffrents points choisis pour la reconstruction........................................... 134
Figure 5. 14. Vision stroscopique. ................................................................................. 135
Figure 5. 15. Images stro extraites de la base d'valuation IV2 : a) image droite, b) image
gauche................................................................................................................................ 138
Figure 5. 16.Courbes DET : Comparaison entre les approches, 3D et visage 2D global.. 139
Figure 5. 17 Analyse des comparaisons des comparaisons inter et intra classe................ 139
Figure 5. 18. Exemple des 4 donnes choisis pour la reconnaissance du visage ............. 142
Figure 5. 19. Schma de principe de lapproche multi modale 2D-3D ............................. 143
Figure 5. 20. Exemples dimages utilises pour lvaluation de lapproche 2D-3D......... 143
Figure 5. 21. Courbes DET : Comparaison entre les approches, 2D modulaire, 2D globale
et 3D .................................................................................................................................. 144
Figure 5. 22. Les Taux ERR des diffrentes approches. ................................................... 145
Figure 5. 23. Comparaison des courbes CMC de 2D, 3D et 2D/3D, sur la sous-base IV2 .
Un visage est reconnu au rang r si une vue du mme visage est parmi ses r plus proches
voisins................................................................................................................................ 146
Figure 5. 24. Comparaison des courbes CMC 2D/3D (Vote la majorit) et
2D/3D (Somme pondre), sur la sous-base IV2 phase 2. ................................................ 147

Introduction Gnrale

Introduction Gnrale

De nos jours on parle de plus en plus de l'inscurit dans divers secteurs ainsi que des
moyens informatiques mettre en uvre pour contrer cette tendance : le contrle d'accs
aux ordinateurs, le-commerce, les oprations bancaires bass sur lidentification du
demandeur, etc. Il existe traditionnellement deux manires didentifier un individu. La
premire mthode est base sur une connaissance priori "knowledge-based" de la
personne telle que, par exemple, la connaissance de son code PIN qui permet dactiver un
tlphone portable. La seconde mthode est base sur la possession d'un objet
"token-based". Il peut sagir dune pice didentit, dune clef, dun badge, etc. Ces deux
modes didentification peuvent tre utiliss de manire complmentaire afin dobtenir une
scurit accrue comme dans le cas de la carte bleue. Cependant, elles ont chacune leurs
faiblesses. Dans le premier cas, le mot de passe peut tre oubli par son utilisateur ou bien
devin par une autre personne. De plus une personne sur quatre seulement fait l'effort
d'appliquer les consignes de scurit avant de retirer de l'argent (regarder derrire soi,
cacher le clavier avec sa main lors de la saisie du code secret, etc.). Dans le second cas, le
badge (ou la pice didentit ou la clef) peut tre perdu ou vol. Les caractristiques
biomtriques sont une solution alternative aux deux modes didentification prcdents.
Lavantage de ces caractristiques biomtriques est dtre universelles, cest--dire
prsentes chez toutes les personnes identifier. Dautre part, elles sont mesurables et
uniques : deux personnes ne peuvent possder exactement la mme caractristique. Elle
sont aussi permanentes ce qui signifie quelles ne varient pas ou peu au cours du temps.
Lintrt des applications utilisant la biomtrie se rsume en deux classes : faciliter le
mode de vie, viter la fraude.

Introduction Gnrale

La reconnaissance faciale fait partie des techniques biomtriques. On remarque que dans la
vie quotidienne chacun de nous identifie tout au long de la journe diffrents visages. Ainsi
lorsque nous rencontrons une personne, notre cerveau va chercher dans notre mmoire et
vrifier si cette personne est rpertorie ou non. La difficult de la reconnaissance de
visage par ordinateur varie normment suivant que les conditions dacquisition. Dans un
environnement contrl, des paramtres tels que larrire plan, la direction et lintensit des
sources lumineuses, langle de la prise de vue, la distance de la camra au sujet sont des
paramtres matriss par le systme. Dans un environnement non contrl, une srie de
prtraitements sont souvent ncessaires avant de faire la reconnaissance proprement
parler. Il faut tout dabord dtecter la prsence ou labsence de visage dans limage. Le
visage doit ensuite tre segment. Enfin, si nous travaillons sur un flux vido, le systme
doit suivre le visage dune image la suivante.
Plusieurs mthodes ont t dveloppes pour la reconnaissance de visage 2D. Cependant,
elles prsentent un certain nombre de limitations lies l'orientation du visage ou la pose,
lclairage, lexpression faciale, aux occultations, etc. Ces dernires annes, on parle de
plus en plus des techniques de reconnaissance de visage 3D comme une solution
alternative pour rsoudre les problmes cits ci-dessus. En effet, la richesse de
linformation fournie par les mesures 3D permet de reconstruire la forme tridimensionnelle
du visage. Ce type de reprsentation du visage est invariant aux changements
dillumination et de pose. Dans cette thse nous proposons de dvelopper une technique
bimodale 2D-3D de reconnaissance faciale qui combine des mesures anthropologiques 3D
du visage avec une technique 2D base sur lAnalyse en Composantes Principales ou ACP.
Lintrt dune telle approche est dexploiter les avantages des deux techniques (2D et 3D)
afin damliorer le taux de reconnaissance.
Notre but tant de dvelopper un systme dauthentification de visage simple et efficace
dans le cadre du projet IV, il est ncessaire de travailler tous les niveaux du systme
(dtection, extraction des caractristiques et reconnaissance) en apportant des
contributions pertinentes diffrents points de la chane de traitement. Ainsi, nous avons
commenc par dvelopper une technique bas niveau pour la localisation de

visage

unique sur fond uniforme par un procd simple, et le plus robuste possible aux variations
dclairage, do l exploitation de techniques de traitements d'images couleur classiques
ou il s agit de travailler sur une segmentation couleur robuste. Cette approche est base sur

Introduction Gnrale

un algorithme efficace de segmentation couleur du visage dans lespace TLS (Teinte,


Luminance, Saturation) qui utilise la mthode de Lignes de Partage des Eaux (LPE). Ce
choix se justifie par le fait que la mthode LPE est trs efficace pour segmenter des rgions
convexes et fermes, ce qui est le cas du visage humain. Par ailleurs, nous proposons de
modifier lalgorithme LPE classique en ajoutant un critre bas sur la teinte pour la fusion
des bassins versants.

Lextraction de la rgion du visage partir de limage segmente est une tape primordiale
dans le processus de reconnaissance faciale. Lalgorithme dextraction doit tre efficace et
doit fournir, sans aucune ambigut, la rgion du visage dans limage. Nous avons propos
une mthode originale base sur la classification de la couleur de la peau, pour extraire la
rgion du visage partir de limage segmente. Pour cela, nous avons tabli deux rgles
empiriques : la premire est base sur une mthode explicite qui dfini un domaine
dappartenance de la couleur de la peau dans le plan Teinte. La deuxime rgle dfinie la
taille minimale des rgions considres. Par ailleurs, nous avons dfini un modle
gomtrique pour extraire les rgions caractristiques du visage. Ce modle est bas sur les
distances interoculaires et yeux-bouche et permet de classifier trois rgions
pertinentes du visage, savoir la rgion il droit , la rgion il gauche et la rgion
bouche .
Une autre contribution de cette thse a consist dvelopper une technique 2D de
reconnaissance du visage base sur lAnalyse en Composante Principale qui prend en
entre, non pas limage entire du visage, mais les imagettes correspondant aux trois
rgions caractristiques du visage (les yeux, le nez et la bouche) et dmontrer que cette
mthode donne des taux de reconnaissance aussi bons que limage complte.
Dautre part, nous pensons que lanthropomtrie par sa matrise de lanatomie du visage
humain peut apporter des informations complmentaires pour amliorer la reconnaissance
faciale. En effet, les anthropologues ont t les premiers tudier de faon scientifique la
morphologie humaine en gnral et celle de la tte et du visage en particulier et cela en
utilisant des critres descriptifs et des caractres mtriques. Nous proposons de dfinir des
mesures anthropomtriques faciales partir de points caractristiques 3D du visage,
lesquels sont reconstruits par strovision. Ces mesures correspondent des valeurs
indiciaires et angulaires caractrisant les diffrentes rgions du visage. Une mthode

Introduction Gnrale

algbrique qui exploite ces mesures anthropologiques a t ensuite dveloppe afin de


raliser la reconnaissance dindividus. Les diffrents tests raliss sur la base IV2 ont
permis de valider cette approche.
Enfin, nous proposons de fusionner les rsultats de reconnaissance obtenus par les deux
approches (2D et 3D) afin damliorer le taux de reconnaissance. Pour cela, nous avons
explor plusieurs critres de fusion. Un protocole exprimental a t mis en oeuvre pour
tester cette mthode et analyser ses performances.
Organisation de la thse
Nous avons choisi darticuler notre tude autour de cinq chapitres principaux.
Le premier chapitre est consacr la prsentation gnrale de la biomtrie. Il dcrit tout
dabord le principe de fonctionnement des systmes biomtriques puis dfinit les outils
utiliss pour valuer leurs performances. Ensuite, la place de la reconnaissance faciale
parmi les autres techniques biomtriques est analyse. A travers ce chapitre, nous voulons
positionner le problme de la reconnaissance faciale et prsenter ses enjeux et intrts par
rapport aux autres techniques. Nous tudions galement les principales composantes dun
systme de reconnaissance faciale, notamment la dtection, lextraction de caractristiques
et la reconnaissance. Enfin, nous mettons en lumire les difficults rencontres par les
systmes de reconnaissance de visage que nous proposons dtudier dans le cadre de cette
thse.
Dans le second chapitre une analyse dtaille des diffrentes techniques dveloppes au
cours de ces dernires annes dans les domaines de la dtection de visage et de la
reconnaissance 2D et 3D est prsente. Notre objectif est de classifier ces mthodes de
manire efficace afin de mettre en vidence les particularits ainsi que les avantages et les
inconvnients de chacune dentre elles. Ceci nous permettra, par la suite, de mettre en
avant les critres de performances qui vont guider le choix des solutions retenues dans le
cadre de notre problmatique.
Dans le troisime chapitre nous prsentons les deux bases donnes utilises dans le cadre
de cette thse, XM2VTS, et IV2. Nous dtaillerons particulirement la phase de
dveloppement de la base IV2 dans laquelle nous avons t implique.

Introduction Gnrale

Le quatrime chapitre est ddi notre approche dextraction de visage et de ses


caractristiques. Nous prsentons, dans un premier temps, le problme de la segmentation
de visage dans une image couleur. Ensuite, nous dtaillons la mthode de segmentation
que nous avons labore, base sur lalgorithme de la Ligne de Partage des Eaux (LPE).
Par ailleurs, nous dcrivons les diffrents outils que nous avons mis en place afin
dimplmenter notre mthode de segmentation, notamment lespace TLS et le gradient
vectoriel TLS. Puis, nous dtaillons les quatre tapes de notre algorithme dextraction,
savoir : cration des supports de rgions, fusion de rgions,

extraction de visage et

extractions des rgions caractristiques. Les rsultats obtenus chaque tape sont examins
et des conclusions en sont tires.
Dans le cinquime chapitre, nous nous intressons lexploitation des informations 2D et
3D du visage comme moyen biomtrique pour lauthentification de personnes. Dans un
premier temps, nous dcrivons le dispositif dacquisition que nous avons choisi. Il se
compose dune paire stroscopique pour lacquisition dimages 2D et la reconstruction de
donnes 3D. Ensuite, nous dtaillons les diffrentes approches de reconnaissance faciale
que nous avons labores, savoir : lapproche 2D base ACP, lapproche 2D modulaire,
lapproche 3D et lapproche bimodale 2D-3D. Nous prsentons les rsultats exprimentaux
obtenus par chaque mthode et analysons les performances.
Enfin, la conclusion gnrale rsumera nos contributions et donnera quelques perspectives
sur les travaux futurs.

Chapitre 1

Les systmes biomtriques

Chapitre 1
Les Systmes Biomtriques
1.1 Introduction
La biomtrie consiste identifier une personne partir dune ou de plusieurs
caractristiques physiologiques (empreintes digitales, visage, iris, contour de la main, etc.),
ou comportementales (signature, dmarche, etc.). Etymologiquement, la biomtrie
humaine est synonyme danthropologie physique [Oli61].

Une autre dfinition de la

biomtrie est donne par Roethenbaugh [Roe98] : La biomtrie s'applique des


particularits ou des caractres humains uniques en leur genre et mesurables, permettant de
reconnatre ou de vrifier automatiquement l'identit .
Les systmes biomtriques sont de plus en plus utiliss depuis quelques annes.
Lapparition de lordinateur et sa capacit traiter et stocker les donnes ont permis la
cration des systmes biomtriques informatiss. Il existe plusieurs caractristiques
physiques uniques pour un individu, ce qui explique la diversit des systmes appliquant la
biomtrie, selon que lon prend en compte :

! Lempreinte digitale
! La gomtrie de la main
! Liris
! La rtine

Chapitre 1

Les systmes biomtriques

! Le visage
! La dynamique de frappe au clavier
! La reconnaissance vocale
! La dynamique des signatures
! LADN
! ..

Figure 1. 1. Caractristiques biomtriques: a) ADN, b) Oreille, c) visage, d) visage infrarouge, e)


thermogramme main, f) veine main, g) Empreintes digitales, h) marche, i) geste j) iris, k)
empreinte de la paume, l) rtine, m) signature, n) voix.

Nous introduirons dans ce chapitre quelques notions et dfinitions de base lies la


biomtrie. Nous donnerons le principe de fonctionnement des systmes biomtriques ainsi
que les outils utiliss pour mesurer leurs performances. Nous insisterons surtout sur la
place de la reconnaissance faciale parmi les autres techniques biomtriques, car elle
constitue lobjectif de cette thse. Enfin, nous exposerons les difficults majeures lies la
reconnaissance de visage, et qui font toujours lobjet de recherche par la communaut
scientifique.

Chapitre 1

Les systmes biomtriques

1.2 Les systmes biomtriques


Un systme biomtrique est essentiellement un systme de reconnaissance de formes qui
utilise les donnes biomtriques d'un individu. Selon le contexte de lapplication, un
systme biomtrique peut fonctionner en mode denrlement ou en mode de vrification ou
bien en mode d'identification :

! Le mode denrlement est une phase dapprentissage qui a pour but de recueillir
des informations biomtriques sur les personnes identifier. Plusieurs campagnes
dacquisitions de donnes peuvent tre ralises afin dassurer une certaine
robustesse au systme de reconnaissance aux variations temporelles des donnes.
Pendant cette phase, les caractristiques biomtriques des individus sont saisies par
un capteur biomtrique, puis reprsentes sous forme numrique (signatures), et
enfin stockes dans la base de donnes. Le traitement li lenrlement na pas de
contrainte de temps, puisquil seffectue hors-ligne .

! Le mode de vrification ou authentification est une comparaison "un un", dans


lequel le systme valide l'identit d'une personne en comparant les donnes
biomtriques saisie avec le modle biomtrique de cette personne stocke dans la
base de donnes du systme. Dans un tel mode, le systme doit alors rpondre la
question suivante: Suis-je rellement la personne que je suis en train de proclamer
?. Actuellement la vrification est ralise via un numro d'identification
personnel, un nom d'utilisateur, ou bien une carte puce.

! Le mode d'identification est une comparaison "un N", dans lequel le systme
reconnat un individu en lappariant avec un des modles de la base de donnes. La
personne peut ne pas tre dans la base de donnes. Ce mode consiste associer une
identit une personne. En d'autres termes, il rpond des questions du type: Qui
suis-je ? .

Chapitre 1

Les systmes biomtriques

Capteur
Biomtriques

Cration dune
signature

Extraction
des donnes

Base de
donnes

Le processus denrlement
1
modle

Identit proclame

Capteur
Biomtriques

Cration dune
signature

Extraction
des donnes

Comparaison
1:1
Vrai / faux

Le processus de vrification

Capteur
Biomtriques

N
modles

Comparaison
1:N

Cration dune
signature

Extraction
des donnes

Utilisateur identifi ou
Utilisateur non identifi

Le processus didentification

Figure 1.2. Principaux modules dun systme biomtrique ainsi que les diffrentes modes.

Les diffrents modules qui composent un systme biomtrique sont reprsents sur la
figure 1.2 ; leur fonctionnement peut tre rsum comme suit :

! Module capteur biomtrique : correspond la lecture de certaines caractristiques


physiologiques, comportementales ou biologiques dune personne, au moyen dun
terminal de capture biomtrique (ou capteur biomtrique);

! Module extraction des donnes : extrait les informations pertinentes partir des
donnes biomtriques brutes, par exemple des images de visage ou des rgions
caractristiques de visage ;

! Module cration dune signature : cre un modle numrique afin de reprsenter la


donne biomtrique acquise. Ce modle, appel aussi signature, sera conserv sur
un support portable (puce ou autre) ou dans une base de donnes ;

! Module comparaison : compare les caractristiques biomtriques dune personne


soumise contrle (volontairement ou son insu) avec les signatures
mmorises. Ce module fonctionne soit en mode vrification (pour une identit
proclame) ou bien en mode identification (pour une identit recherche).

! Module base de donnes : stocke les modles biomtriques des utilisateurs enrls.

Chapitre 1

Les systmes biomtriques

1.3 Evaluation des performances des Systmes biomtriques


Chaque caractristique (ou modalit) biomtrique a ses forces et ses faiblesses, et le choix
dpend de l'application vise. On ne s'attend ce qu'aucune modalit biomtrique ne
rponde efficacement aux exigences de toutes les applications. En d'autres termes, aucun
systme biomtrique n'est "optimal". Faire correspondre un systme biomtrique
spcifique une application dpend du mode oprationnel de l'application et des
caractristiques biomtriques choisies. Plusieurs tudes ont t menes afin dvaluer les
performances des systmes biomtriques. La socit amricaine lInternational
Biometric Group [IBG] par exemple effectu une tude base sur quatre
critres dvaluation :

! intrusivit: ce critre permet de classifier les systmes biomtriques en fonction de


lexistence dun contact direct entre le capteur utilis et lindividu reconnatre. La
reconnaissance faciale est une technique non intrusive , car il nexiste aucun
contact entre le capteur (la camra) et le sujet, elle est bien accepte par les
utilisateurs linverse d'autres techniques intrusives comme liris o un contact
direct est ncessaire entre le capteur et lil.

! fiabilit : dpend de la qualit de lenvironnement (clairage par exemple) dans


lequel lutilisateur se trouve. Ce critre influe sur la reconnaissance de lutilisateur
par le systme. Nous verrons ce point en dtail dans la section suivante.

! cot : doit tre modr. cet gard nous pouvons dire que la reconnaissance
faciale ne ncessite pas une technologie coteuse. En effet, la plupart des systmes
fonctionnent en utilisant un appareil photo numrique de qualit standard.

! effort : requis par l'utilisateur lors de la saisie de mesures biomtriques, et qui doit
tre rduit le plus possible. La reconnaissance faciale est la technique biomtrique
la plus facile utiliser car non contraignante.
Les rsultats de cette tude peuvent tre prsents comme suit :

! les techniques les moins "intrusives" aux plus "intrusives" : la voix, la frappe sur le
clavier, la signature, la main, le visage, l'empreinte digitale, l'iris et enfin la rtine.

10

Chapitre 1

Les systmes biomtriques

! les techniques les plus fiables aux moins fiables: l'iris, la rtine, l'empreinte digitale,
le visage, la main, la voix, et enfin un niveau quivalent, la frappe sur le clavier et
la signature.

! les techniques les moins coteuses aux plus coteuses: la frappe sur le clavier, la
voix, la signature, l'empreinte digitale, le visage, la main, la rtine et enfin l'iris.

! les techniques les plus faciles d'utilisation aux plus difficiles: le visage, la signature,
l'iris, la frappe sur le clavier, la voix, l'empreinte digitale, la main et enfin la rtine.

1.4 Fiabilit des systmes biomtriques


Afin de mesurer la fiabilit dun systme biomtrique en modes de vrification et/ou
didentification, deux principaux tests sont utiliss :

1.4.1 Test de vrification


Dans la tche de vrification, un utilisateur final doit faire une demande dauthentification
de son identit. Par exemple : il proclame "je suis Mr Dupont", alors le systme
biomtrique doit dterminer si l'identit proclame par l'utilisateur est accepte ou rejete.
Deux taux sont alors calculs :

! Le Taux de Faux Rejets ou False-Rejection Rate (FRR), il exprime le pourcentage


d'utilisateurs rejets alors qu'ils devraient tre accepts par le systme.

! Le Taux de Fausses Acceptations ou False-Acceptance Rate (FAR), il exprime le


pourcentage d'utilisateurs accepts par le systme alors qu'ils devraient tre rejets.
On peut formuler le test de vrification de la faon suivante [Jai04] :
Soient XQ le vecteur de caractristiques de la personne proclame I, Xt le vecteur de
caractristiques de la personne I stocke dans la base de donnes, S(XQ , Xt) la fonction de
similarit entre le vecteur XQ et Xt . La fonction S donne le score de similarit entre les
mesures biomtriques de la personne de la base de donnes et la personne proclame.
Le test de vrification est alors dfini par la fonction (I, XQ), telle que :
1

Si S #X Q , X t $ ( *

Sinon

#I , X $ ) '&ww
Q

11

(1.1)

Chapitre 1

Les systmes biomtriques

O w1 indique que la personne proclame est vraie et w2 quelle est un imposteur.


Le choix du seuil de similarit * est important car il influe directement sur les
performances du systme. Un seuil * trop petit entrane lapparition dun grand nombre de
faux rejets, tandis quun seuil * trop grand engendre un taux important de fausses
acceptations. La statistique la plus simple pour mesurer la performance dun algorithme
dans le contexte de la vrification est de calculer le point d'quivalence des erreurs (Equal
Error Rate - EER). Le point d'quivalence des erreurs, ou taux d'exactitude croise, est
dtermin par le point d'intersection entre la courbe du taux de fausses acceptations et la
courbe du taux de faux rejets. Un exemple de courbes d'erreurs croises est donn la
figure (1.3).
FRR

Taux derreur

FAR

*!
ERR
Source: Mansfield, T. et al. (2001),
Biometric Product Testing Final Report

Figure 1.4. Courbe du point d'quivalence des erreurs dans un systme biomtrique.

Lvaluation passe galement par le trac de statistiques complexes, comme la courbe


Detection Error trade-off (DET) . Cette courbe donne le FRR en fonction du FAR. Elle
est trace de manire paramtrique en fonction des valeurs du seuil *.

12

Chapitre 1

Les systmes biomtriques

FRR

EER

FAR

Figure 1. 5. Courbe DET.

1.4.2 Test didentification


On peut formuler le test didentification de la faon suivante:
Soient XQ le vecteur de caractristiques, pour dterminer lidentit I k , k+{1, 2,..,.N, N+1},
on calcule la fonction (I,XQ) dfine par :

#I , X $ ) '&I
Q

o I1,..,IN

% I N .1

,#

Si max S X Q , X I k
k

$- ( * , k ) 1, ..., N ,

Sinon

(1.2)

sont les identits enrles, IN+1 une identit rejete, X I k la signature

biomtriques qui correspond lidentit I k , et * le seuil.


Le test d'identification reprsente la mesure la plus couramment utilise, mais il nest pas
toujours suffisant. En effet, en cas derreur, il peut tre utile de savoir si le bon choix se
trouve parmi les N premires rponses du systme. On trace alors la courbe Cumulative

Match Characteristics (CMC) qui reprsente la probabilit que le bon choix se trouve
parmi les N premiers [Phi00].Comme lillustre la figure 1.5.

13

Chapitre 1

Les systmes biomtriques

Taux didentification

50 images

Rang

Figure 1. 6. Courbe CMC.

1.5 Applications des systmes biomtriques


Les applications de la biomtrie peuvent tre divises en trois groupes principaux:

! Applications commerciales : telles que l'ouverture de rseau informatique, la


scurit de donnes lectroniques, l'e-commerce, l'accs Internet, la carte de crdit,
le contrle d'accs physique, le tlphone cellulaire, la

gestion des registres

mdicaux, l'tude distance, etc.

! Applications gouvernementales : telles que la carte d'identit nationale, le permis


de conduire, la scurit sociale, le contrle des frontires, le contrle des
passeports, etc.

! Applications lgales : telles que l'identification de corps, la recherche criminelle,


l'identification de terroriste, etc.
De nos jours les systmes biomtriques sont de plus en plus utiliss dans des applications
civiles. Par exemple, le dispositif de Schiphol Privium l'aroport d'Amsterdam, utilise un
capteur de liris pour acclrer la procdure de contrle des passeports et des visas
[CNN02]. Les passagers insrent leur carte dans un lecteur et se mettent en face dun
appareil-photo ; ce dernier acquiert l'image de l'il. Des processus de traitement dimages
sont alors lancs afin de localiser l'iris et de calculer une signature appele Iriscode
[Dau99]. Une fois l'Iriscode calcul, il est compar aux donnes stockes dans la carte pour
identifier le passager. Un dispositif semblable est galement employ pour vrifier
l'identit des employs de laroport qui travaillent dans des secteurs de haute scurit. Un
autre exemple d'utilisation grande chelle de la reconnaissance faciale est celui de la ville

14

Chapitre 1

Les systmes biomtriques

de Newham, dans la banlieue de Londres. Il s'est vu dcerner le trophe Big Brother

Award en 1998 par l'organisation non gouvernementale Privacy International.


A en croire les perspectives de l'International Biometric Group, le march de la scurit
des biens et des personnes ne s'est jamais aussi bien port. En 2005, le march reprsentait
environ 1,8 milliard de dollars et pourrait atteindre les 5 milliards en 2008. Les
technologies les plus rpandues sont les empreintes digitales (48% du march), la
morphologie faciale (15,4% du march), la gomtrie de la main (11%), l'iris (9%), la
reconnaissance vocale (6%), la rtine, la morphologie des oreilles ainsi que la radiographie
dentaire. Notons que les techniques comportementales (comme la dmarche, le sourire, le
mouvement des yeux, etc.) ont quand elles du mal s'imposer.

1.6 La place de la reconnaissance faciale parmi les autres


techniques biomtriques
Les empreintes digitales sont les caractristiques biomtriques les plus communment
utilises pour la reconnaissance de criminels. Le premier systme automatique
d'authentification utilisant les empreintes digitales a t commercialis au dbut des annes
soixante. Dautres parts, plusieurs tudes ont dmontr que liris est la caractristique la
plus fiable car la texture de liris reste stable au cours de la vie (c.f. section 1.3). Toutefois,
ces mthodes prsentent linconvnient majeur dtre intrusives, ce qui limite normment
leurs domaines dapplications. De plus, une mthode comme lidentification de liris reste
contraignante pour les utilisateurs qui napprcient pas de placer leur il devant un
appareil. A linverse, des systmes didentification bass sur lanalyse des images de
visage ne prsentent aucune contrainte pour les utilisateurs. La reconnaissance faciale est
une modalit qui peut tre implmente de manire indpendante des autres modalits
biomtriques, elle est souvent utilise dans des applications de surveillance. La
reconnaissance faciale offre plusieurs avantages : le systme de capture (c..d les camras)
est facile installer, il est accept dans les lieux publics ce qui permet davoir des bases de
donnes de plus en plus grandes et ainsi damliorer les performances de la
reconnaissance.
Depuis quelques annes, la reconnaissance faciale suscite un intrt croissant auprs de la
communaut scientifique, qui sest notamment manifest travers l'organisation de

15

Chapitre 1

Les systmes biomtriques

confrences internationales spcialises telle que The International Conference on Audio


and Video-based Biometric Person Authentication (AVBPA) depuis 1997, et the
International Conference on Automatic Face and Gesture Recognition (AFGR) depuis
1995. Par ailleurs, les tats-Unis ont men depuis 1993 une srie de tests de
reconnaissance faciale dont les rsultats sont accessibles au public. Ces tests sont dsigns
sous les noms de FERET [Phi98b, 00; Riz98], XM2VTS [Mes99], FRVT 2000 [Bla01] et
FRVT 2002 [Phi03].
Dans [Pra07] les auteurs prsentent une analyse statistique des publications sur les
techniques biomtriques soumises et publies dans un numro spcial de la revue IEEE

Transaction on PAMI (voir tableau 1.1). Nous constatons que la reconnaissance faciale
arrive largement en tte avec un pourcentage de 33% du nombre total de publications. Ceci
dmontre bien lintrt scientifique pour cette technique.
Article (%)

Visage

Empreintes

Multimodale

Iris

digitale

Performance

Autres

Evaluation

Soumission

33%

17%

16%

9%

4%

21%

Acceptation

33%

16%

16%

11%

5%

20%

Tableau 1. 1. Rpartition des articles sur les techniques biomtriques soumis et accepts dans la
revue IEEE PAMI.

1.7 Systmes biomtriques bass sur la reconnaissance de


visage
La reconnaissance automatique de visage seffectue en trois tapes principales : (1)
dtection de visages, (2) extraction et normalisation des caractristiques du visage, (3)
identification et/ou vrification (voir figure 1.6). Certaines techniques de traitements
dimages peuvent tre communes plusieurs tapes. Par exemple, lextraction des
caractristiques faciales (yeux, nez, bouche) est utilise aussi bien pour la dtection que
pour lidentification de visages. Par ailleurs, les tapes de dtection de visage et
d'extraction de caractristiques peuvent tre excutes simultanment. Cela dpend
notamment de la nature de l'application, de la taille de la base dapprentissage, et des
conditions de prise de vue (bruit, occultation, etc.). Enfin, les techniques de traitement
utilises dans chaque tape sont trs critiques pour les applications biomtriques, et

16

Chapitre 1

Les systmes biomtriques

doivent, par consquence, tre optimises pour amliorer les performances du systme
global.
Image/vido

Simultanment

Dtection de visage

Extraction des
caractristiques

Reconnaissance de
visage
Identification / vrification
Figure 1. 7. Les tapes de la reconnaissance de visage.

Dans ce qui suit nous allons dtailler chaque tape du systme de reconnaissance faciale, et
nous prsenterons les principales difficults rencontres.

1.7.1 Dtection de visage


Lefficacit des systmes biomtriques bass sur lauthentification de visage dpend
essentiellement de la mthode utilise pour localiser le visage dans limage. Dans la
littrature scientifique, le problme de localisation de visages est aussi dsign par la
terminologie "dtection de visages". Plusieurs travaux de recherches ont t effectus dans
ce domaine. Ils ont donn lieu au dveloppement dune multitude de techniques allant de la
simple dtection du visage, la localisation prcise des rgions caractristiques du visage,
tels que les yeux, le nez, les narines, les sourcils, la bouche, les lvres, les oreilles, etc.
Nous dtaillerons quelques unes de ces mthodes dans la section (2.2). Cependant, les
solutions proposes jusqu maintenant sont loin dtre satisfaisantes car elles fonctionnent
uniquement dans des environnements contrls, et par consquent elles ne grent pas la
variabilit des conditions dacquisition de la vie quotidienne, notamment :

! La pose : o les images d'un visage changent en fonction de lorientation de ce


dernier (frontal, 45 degrs, profil).

17

Chapitre 1

Les systmes biomtriques

! La prsence ou absence des composantes structurales : les caractristiques


faciales tels que la barbe, la moustache, et les lunettes causent une grande
variabilit des composantes structurales du visage, notamment au niveau de la
forme, de la couleur, et de la taille.

! Les occultations : les visages peuvent tre partiellement occults par d'autres
objets. En effet, dans une image contenant un groupe de personnes par exemple,
des visages peuvent partiellement masquer d'autres visages.

! Les conditions dillumination : des facteurs tels que l'clairage (distribution de la


source de lumire, son intensit, son spectre) et les caractristiques de lappareil
photographique affectent l'aspect d'un visage dans limage acquise.

1.7.2 Extraction de caractristiques du visage


Lextraction des caractristiques telles que les yeux, le nez, la bouche est une tape
prtraitement ncessaire la reconnaissance faciale. On peut distinguer deux pratiques
diffrentes : la premire repose sur lextraction de rgions entires du visage, elle est
souvent implmente avec une approche globale de reconnaissance de visage. La deuxime
pratique extrait des points particuliers des diffrentes rgions caractristiques du visage,
tels que les coins des yeux, de la bouche et du nez. Elle est utilise avec une mthode
locale de reconnaissance et aussi pour lestimation de la pose du visage.
Par ailleurs, plusieurs tudes ont t menes afin de dterminer les caractristiques qui
semblent pertinentes pour la perception, la mmorisation et la reconnaissance dun visage
humain. Dans [Bru88; She81] par exemple, les caractristiques pertinentes rapportes
sont : les cheveux, le contour du visage, les yeux et la bouche. Cette tude a galement
dmontr le rle important que joue le nez dans la reconnaissance faciale partir des
images de profil. En effet, dans ce cas de figure, il est vident que la forme distinctive du
nez est plus intressante que les yeux ou la bouche [Bru88]. Dans [She81], les auteurs ont
particulirement tabli que la partie suprieure du visage est plus utile pour la
reconnaissance faciale que la partie infrieure [She81].

18

Chapitre 1

Les systmes biomtriques

1.7.3 La reconnaissance de visage


Le module de reconnaissance exploite les caractristiques du visage ainsi extraites pour
crer une signature numrique quil stocke dans une base de donnes. Ainsi, chaque
visage de la base est associe une signature unique qui caractrise la personne
correspondante. La reconnaissance dun visage requte est obtenue par lextraction de la
signature requte correspondante et sa mise en correspondance avec la signature la plus
proche dans la base de donnes. La reconnaissance dpend du mode de comparaison
utilis : vrification ou identification (voir section 1.2).

1.8 Principales difficults de la reconnaissance de visage


Pour le cerveau humain, le processus de la reconnaissance de visages est une tche visuelle
de haut niveau. Bien que les tres humains puissent dtecter et identifier des visages dans
une scne sans beaucoup de peine, construire un systme automatique qui accomplit de
telles tches reprsente un srieux dfi. Ce dfi est dautant plus grand lorsque les
conditions dacquisition des images sont trs variables. Il existe deux types de variations
associes aux images de visages : inter et intra sujet. La variation inter-sujet est limite
cause de la ressemblance physique entre les individus. Par contre la variation intra-sujet est
plus vaste. Elle peut tre attribue plusieurs facteurs que nous analysons ci-dessous.

1.8.1 Changement dillumination


Lapparence dun visage dans une image varie normment en fonction de lillumination
de la scne lors de la prise de vue (voir figure 1.7). Les variations dclairage rendent la
tche de reconnaissance de visage trs difficile. En effet, le changement dapparence dun
visage du l'illumination, se rvle parfois plus critique que la diffrence physique entre
les individus, et peut entraner une mauvaise classification des images d'entre. Ceci a t
exprimentalement observ dans Adini et al [Adi97] o les auteurs ont utilis une base de
donnes de 25 individus. L'identification de visage dans un environnement non contrl
reste donc un domaine de recherche ouvert. Les valuations FRVT [Bla01] ont rvl que
le problme de variation d'illumination constitue un dfi majeur pour la reconnaissance
faciale.

19

Chapitre 1

Les systmes biomtriques

Figure 1. 8. Exemple de variation dclairage.

1.8.2 Variation de pose


Le taux de reconnaissance de visage baisse considrablement quand des variations de pose
sont prsentes dans les images. Cette difficult a t dmontre par des tests dvaluation
labors sur les bases FERET et FRVT [Bla01; Phi03]. La variation de pose est considre
comme un problme majeur pour les systmes de reconnaissance faciale. Quand le visage
est de profil dans le plan image (orientation < 30), il peut tre normalis en dtectant au
moins deux traits faciaux (passant par les yeux). Cependant, lorsque la rotation est
suprieure 30, la normalisation gomtrique n'est plus possible (voir figure 1.8).

Figure 1. 9. Exemples de variation de poses.

1.8.3 Expressions faciales


Un autre facteur qui affecte lapparence du visage est lexpression faciale(voir figure 1.9).
La dformation du visage qui est due aux expressions faciales est localise principalement
sur la partie infrieure du visage. L'information faciale se situant dans la partie suprieure
du visage reste quasi invariable. Elle est gnralement suffisante pour effectuer une
identification. Toutefois, tant donn que l'expression faciale modifie l'aspect du visage,
elle entrane forcment une diminution du taux de reconnaissance. L'identification de
visage avec expression faciale est un problme difficile qui est toujours dactualit et qui
reste non rsolu. L'information temporelle fournit une connaissance additionnelle
significative qui peut tre utilise pour rsoudre ce problme [Gro01].

Figure 1. 10. Exemples de variation dexpressions.

20

Chapitre 1

Les systmes biomtriques

1.8.4 Prsence ou absence des composants structurels


La prsence des composants structurels telle que la barbe, la moustache, ou bien les
lunettes peut modifier normment les caractristiques faciales telles que la forme, la
couleur, ou la taille du visage. De plus, ces composants peuvent cacher les caractristiques
faciales de base causant ainsi une dfaillance du systme de reconnaissance. Par exemple,
des lunettes opaques ne permettent pas de bien distinguer la forme et la couleur des yeux,
et une moustache ou une barbe modifie la forme du visage.

1.8.5 Occultations partielles


Le visage peut tre partiellement masqu par des objets dans la scne, ou par le port
daccessoire tels que lunettes, charpe... Dans le contexte de la biomtrie, les systmes
proposs doivent tre non intrusifs cest--dire quon ne doit pas compter sur une
coopration active du sujet. Par consquent, il est important de savoir reconnatre des
visages partiellement occults. Gross et al [Gro01] ont tudi limpact du port de lunettes
de soleil, et du cache-nez occultant la partie infrieure du visage sur la reconnaissance
faciale. Ils ont utilis la base de donnes AR [Mar98]. Leurs rsultats exprimentaux
semblent indiquer que, dans ces conditions, les performances des algorithmes de
reconnaissance restent faibles.

1.9 Conclusion
Dans ce chapitre, nous avons prsent les technologies utilises dans les systmes
biomtriques pour lidentification de personnes. Nous avons aussi donn un aperu sur les
techniques de mesure de leurs performances. Cette tude nous a permis de constater que la
reconnaissance de visage suscite de plus en plus lintrt de la communaut scientifique,
car elle prsente plusieurs challenges et verrous technologiques. Enfin, nous avons mis en
vidence les diffrentes difficults inhrentes la reconnaissance automatique de visages,
ce qui nous a permis de bien dfinir les problmatiques traites dans cette thse,
notamment linvariance lillumination. Les techniques utilises aux diffrentes tapes de
la reconnaissance de visage sont dtailles dans le chapitre suivant.

21

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Chapitre 2
Techniques de dtection et de
reconnaissance de visages
2.1 Introduction
Comme nous lavons voqu au chapitre prcdent, un systme automatique de
reconnaissance de visages se dcompose en trois sous-systmes : dtection de visage,
extraction des caractristiques et reconnaissance de visages. La mise en oeuvre dun
systme automatique et fiable de reconnaissance faciale est un verrou technologique qui
nest toujours pas rsolu. Dans ce chapitre, nous prsenterons un tat de lart sur les
techniques de dtection de visage. Nous dtaillerons en particulier les mthodes bases sur
la couleur de la peau. Nous exposerons aussi les mthodes de reconnaissance de visage 2D
et 3D. Enfin, nous terminerons le chapitre par une synthse des mthodes et techniques
tudies.

2.2 Dtection de visages


La dtection de visages est la premire tape dans le processus de reconnaissance faciale.
Son efficacit a une influence directe sur les performances du systme de reconnaissance
de visages. Il existe plusieurs mthodes pour la dtection de visages, certaines utilisent la
couleur de la peau, la forme de la tte, lapparence faciale, alors que dautres combinent
plusieurs de ces caractristiques.
Les mthodes de dtection de visages peuvent tre subdivises en quatre catgories
[Yan02] :

22

Chapitre 2

Techniques de dtection et de reconnaissance de visages

2.2.1 Approches bases sur les connaissances acquises


Cette mthodologie sintresse aux parties caractristiques du visage comme le nez, la
bouche et les yeux. Elle est base sur la dfinition de rgles strictes partir des rapports
entre les caractristiques faciales. Ces mthodes sont conues principalement pour la
localisation de visage. Dans [Kot97], Kotropoulous et Pitas utilisent une mthode base de
rgles. Tout dabord, les caractristiques du visage sont localises laide de la mthode de
projection propose par Kanade[Kan73] pour dtecter les contours dun visage. Soit I(x,y)
lintensit de la luminance du pixel (x,y) de limage m n, les projections horizontale et
n

y #1

x #1

verticale de cette image sont dfinies par HI ( x ) # " I ! x , y $ et VI ( x ) # " I ! x , y $ . Le profil


horizontal de limage originale est calcul en premier. Les deux minimas locaux sont
dtermins, ils correspondent aux bords gauche et droit du visage. Ensuite, le profil vertical
est son tour calcul. Les minima locaux de ce profil vertical correspondent aux positions
de la bouche, du nez et des yeux. Linconvnient de cette mthode est quelle narrive pas
dtecter le visage lorsque ce dernier se trouve sur un arrire plan complexe.
Yang and Huang [Yan94] quant eux, ont tudi les volutions des caractristiques du
visage en fonction de la rsolution. Quand la rsolution de limage dun visage est rduite
progressivement, par sous-chantillonnage ou par moyenne, les traits macroscopiques du
visage disparaissent. Ainsi, pour une rsolution faible, la rgion du visage devient
uniforme. Yang et Huang se sont bass sur cette observation pour proposer une mthode
hirarchique de dtection de visages. En commenant par les images faible rsolution, un
ensemble de candidats de visage est dtermin laide dun ensemble de rgles permettant
de rechercher les rgions uniformes dans une image. Les candidats de visage sont ensuite
vrifis en cherchant lexistence de traits faciaux prominents grce au calcul des minimas
locaux des rsolutions suprieures. Une caractristique intressante de cette technique
descendante de recherche de zone dintrt (informations globales vers des
informations plus dtailles) est de rduire le temps de calcul ncessaire par lutilisation
dimages sous-chantillonnes. Malheureusement, cette technique occasionne de
nombreuses fausses dtections et un taux faible de dtection.

23

Chapitre 2

Techniques de dtection et de reconnaissance de visages

2.2.2 Approches bases sur le Template-matching


Les templates peuvent tre dfinis soit "manuellement", soit paramtrs l'aide de
fonctions. Lide est de calculer la corrlation entre l'image candidate et le template. Ces
mthodes rencontrent encore quelques problmes de robustesse lis aux variations de
lumire, d'chelle, etc. Sinha [Sin94] [Sin95] utilise un ensemble dinvariants dcrivant le
modle du visage. Afin de dterminer les invariants aux changements de luminosit
permettant de caractriser les diffrentes parties du visage (telles que les yeux, les joues, et
le front); cet algorithme calcule ainsi les rapports de luminance entre les rgions du visage
et retient les directions de ces rapports (par exemple, la rgion 1 est elle plus claire ou plus
sombre que la rgion 2). La figure (6) montre un modle prdfini correspondant 23
relations. Ces relations prdfinies sont classifies en 11 relations essentielles (flches) et
12 relations confirmations (gris). Chaque flche reprsente une relation entre deux rgions.
Une relation est vrifie si le rapport entre les deux rgions qui lui correspond dpasse un
seuil. Le visage est localis si le nombre de relations essentielles et de confirmation
dpasse lui aussi un seuil.

Figure 2. 1 Modle de visage compos de 16 rgions (les rectangles) associes 23 relations


(flches). [Sin94]

Yuille et al. [Yui92] ont utilis un template dformable pour modliser les caractristiques
faciales. Ce template adapte un modle lastique, connu a priori, aux caractristiques
faciales (e.g., yeux). Dans cette approche les caractristiques faciales sont dcrites par des
templates paramtriques. Une fonction d'nergie est dfinie pour lier les contours, les
sommets et les valles dans l'image d'entre aux paramtres correspondants dans le
template. Le meilleur ajustement du modle lastique est trouv en minimisant une
fonction d'nergie des paramtres. Bien que leurs rsultats exprimentaux dmontrent une
bonne performance pour le suivi de caractristiques non rigides, un inconvnient de cette

24

Chapitre 2

Techniques de dtection et de reconnaissance de visages

approche est que le template dformable doit tre initialis dans la proximit de l'objet
d'intrt.
Pour dtecter les caractristiques faciales pour la reconnaissance de visage, Brunelli et
Peggio[Bru93] ont utilis, pour chaque rgion extraite, un dtecteur appropri. Ils se sont
aussi inspirs de la mthode de Kanade [Kan73] dcrite dans le paragraphe 2.2.1.

Figure 2. 2. Diffrentes rgions utilises pour la phase de template matching

Pour les rgions yeux, nez et bouche, ils utilisent la direction du gradient vertical et
horizontal. La bouche et le nez sont localiss en utilisant des stratgies similaires. La
position verticale est dtermine grce aux standards anthropomtriques. Dabord, une
estimation fine de leur position relle est obtenue en cherchant les pics de la projection
horizontale du gradient vertical pour le nez, et les valles de la projection horizontale de
lintensit pour la bouche
La position des sourcils et leur paisseur peuvent tre trouves par une analyse similaire.
La recherche est une fois encore limite la fentre dintrt, juste au-dessus des yeux, et
les sourcils sont trouvs en utilisant la carte du gradient vertical. Le dtecteur du sourcil
cherche les pairs de pics du gradient ayant des directions opposes.

2.2.3 Approches bases sur lapparence


Ces approches appliquent gnralement des techniques d'apprentissage automatique. Ainsi,
les modles sont appris partir d'un ensemble d'images reprsentatives de la variabilit de
l'aspect facial. Ces modles sont alors employes pour la dtection. L'ide principale de ces
mthodes est de considrer que le problme de la dtection de visage est un problme de
classification (visage, non-visage). Une des approches les plus connues de dtection de
visage est lEigenface [Tur91], elle consiste projeter limage dans un espace et calculer
la distance euclidienne entre limage et sa projection. En effet, en codant limage dans un
espace, on dgrade linformation contenue dans limage, puis on calcule la perte

25

Chapitre 2

Techniques de dtection et de reconnaissance de visages

dinformation entre limage et sa projection. Si cette perte dinformation est grande


(value partir de la distance, que lon compare un seuil fix a priori), limage nest pas
correctement reprsent dans lespace : elle ne contient pas de visage. Cette mthode
donne des rsultats assez encourageants, mais le temps de calcul est trs important.
Dans Rowley et al. [Row98], les auteurs proposent un systme de dtection de visage bas
sur la classification par des rseaux de neurones. Leur technique est divise en deux tapes:
la localisation des visages en utilisant un rseau de neurones et la vrification des rsultats
obtenus. Les auteurs ont construit un rseau de neurones qui, partir dune image prtraite
de 20x20 pixels, indique sil sagit dun visage ou non. Le prtraitement consiste galiser
lhistogramme. Limage est balaye avec des fentres de 20x20. Pour dtecter les visages
de diffrentes tailles, une analyse multi-rsolutions est effectue. Lextension a aussi t
propose afin de dterminer un rseau de neurones indiquant le degr de rotation dun
visage. Ainsi, le systme est capable de dtecter des visages ayant subi des rotations dans
le plan et de diffrentes chelles. Lun des avantages des rseaux de neurones est leur
robustesse au bruit. Malheureusement, les rseaux de neurones, sont souvent difficiles
construire. Leur structure (nombre de couches caches pour les perceptrons par exemple)
influe beaucoup sur les rsultats et il nexiste pas de mthode pour dterminer
automatiquement cette structure. La phase dapprentissage est difficile mener puisque les
exemples doivent tre correctement choisis (en nombre et en configuration).
La mthode de Fraud et al [Fer01] est base sur un type particulier de rseau de neurones
qualifi de gnratif contraint et entrain sur les valeurs des images globales. Le rseau est
un Perceptron Multicouches auto-associatif et entirement connect. Il est conu pour
permettre de mettre en uvre lAnalyse Composantes Principales (ACP) non-linaire.
Cette approche fournit des taux intressants de dtection de visage (voir le tableau 2.1).
Une autre approche performante qui repose sur les rseaux de neurones est celle de Garcia
et al [Gar04] appele Convolutional Face Finder (CFF) , elle est base sur lutilisation
des rseaux de neurones convolutionnels multicouches. Le rseau, entrain de manire
supervise depuis une base dapprentissage de visage et non visage, est capable de driver
automatiquement des extracteurs de caractristiques (produit de convolution) spcialises.
Celui-ci fournit sur la base CMU un taux de dtection gal 90,3%.

26

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Schneiderman et Kanade [Sch00] utilise une information multi-rsolution pour les


diffrents niveaux de la transforme en ondelette. La classification en visage non linaire
ou bien en non visage est ralise en utilisant les statistiques des produits dhistogrammes.
Ces derniers sont calculs partir des exemples de visage et de non visage en utilisant la
mthode AdaBoost learning [Sch00a] [Li04]. Adaboost est employ pour rsoudre trois
problmes fondamentaux : 1) apprentissage effectif des caractristiques partir un grand
ensemble de caractristiques. 2) construction de classifieurs faibles, dont chacun est bas
sur une des caractristiques choisies; et 3) le renforcement ou boosting des classifieurs
faibles pour construire un classifieur fort. Le cot de calcul de cette technique est trs
lev.
Une mthode bien connue de dtection dobjets complexes tels que les visages est
lutilisation de classifieurs de Haar monts en cascade (boosts) au moyen dun
algorithme AdaBoost. Cette mthode est implmente nativement dans la bibliothque
OpenCV [Bra05] et a t prsent initialement dans Viola et Jones [Vio01]. Le principe de
cette mthode est obtenir un algorithme complexe de classification, compos de
classifieurs lmentaires qui liminent au fur et mesure les zones de limage qui ne sont
pas compatibles avec lobjet recherch. Ces classifieurs binaires reposent sur des
primitives visuelles qui drivent des fonctions de Haar ( Haar- like features).

2.2.4 Approches bases sur des caractristiques invariantes


Ces approches sont utilises principalement pour la localisation de visage. Les algorithmes
dvelopps visent trouver les caractristiques structurales existantes mme si la pose, le
point de vue, ou la condition d'clairage changent. Puis ils emploient ces caractristiques
invariables pour localiser les visages. Nous pouvons citer deux familles de mthodes
appartenant cette approche : Les mthodes bases sur la couleur de la peau quon
dtaillera dans la section suivante, et les mthodes bases sur les caractristiques de visage;
elles consistent localiser les cinq caractristiques (deux yeux, deux narines, et la jonction
nez/lvre) pour dcrire un visage typique.
Lalgorithme dvelopp par De Silva et al. [DeS95] est un exemple typique des mthodes
bases sur les caractristiques. Leur algorithme utilise tout dabord une hypothse sur la
position du haut du visage ensuite lalgorithme de recherche parcourt le visage de haut en
bas afin de trouver laxe des yeux eye-plane caractris par une augmentation soudaine

27

Chapitre 2

Techniques de dtection et de reconnaissance de visages

de la densit de contours (mesure par le rapport noir/blanc le long des plans horizontaux).
La longueur entre le haut du visage et le plan de l'oeil est alors utilise comme une
longueur de rfrence pour construire un template facial flexible. Ce template
couvrant des caractristiques telles que les yeux et la bouche est initialis partir de
limage dentre. La forme initiale du template est obtenue en utilisant la longueur
anthropomtrique en respectant la longueur de rfrence. Le template flexible est alors
ajust par rapport aux positions finales des caractristiques en utilisant un algorithme de
rglage fin qui emploie une fonction de cot base contour. Les auteurs rapportent un taux
de 82% de russite pour la dtection de toutes les caractristiques faciales dans le cas de
visages quasi-frontaux (<30) sur un fond homogne. Bien que l'algorithme russisse
dtecter les caractristiques dethnies diffrentes puisquil qu'il ne se base pas sur les
informations de niveaux de gris et de couleur, il narrive pas cependant dtecter
correctement ces caractristiques si l'image du visage contient des lunettes ou bien si les
cheveux couvrent le front.
Par ailleurs, Yow et Cipolla [Yow97] ont dvelopp une mthode base sur lextraction de
points d'intrts (les maximas locaux de la drive seconde d'un filtre gaussien). Ces points
sont ensuite utiliss pour raliser une dtection de contours qui sont leur tour groups en
rgions. Le regroupement des contours est bas sur un critre de proximit et un critre de
similarit en orientation et en paisseur. A partir de chaque rgion, lalgorithme dfinit
alors un vecteur pour lequel il calcule la moyenne et la matrice de covariance par rapport
aux diffrents vecteurs des modles. Le critre d'appartenance un lment du visage
s'appuie sur la distance de Mahalanobis: Les diffrents candidats sont alors groups en se
basant sur un modle de connaissance indiquant leur position relative. Chaque composant
du visage est enfin analys avec un rseau bayesien. L'intrt de cette mthode est qu'elle
peut dtecter des visages dans diverses poses. On a un taux de russite de 85%.

28

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Dtecteur de visages

CMU

Rowley et al. [Row98],

CMU-125

86,2%/23

Schneiderman et Kanade [Sch00]

MIT

MIT-20

84,5%/8
94,4%/65

Fraud et al [Fer01]

86%/8

Viola et jones [Vio01]

88,4%/31

Garcia et al [Gar04]

90,3/8

77,8%/5
90,5/8

90,1/7

90,2/5

Tableau 2. 1. Extrait de [Gar04]. Evaluation des performances des principales mthodes de


dtection de visage (Taux de dtection / Nombre de Faux Positifs) sur les bases CMU et MIT.

Dans le cadre de cette thse, nous nous intressons en particulier aux techniques de
dtection de visages bases sur lanalyse de la couleur de la peau. La section suivante,
prsentera une tude dtaille sur ces techniques, ce qui nous permettra de situer notre
approche par rapport aux travaux existants.

2.2.5 Dtection de visages base sur lanalyse de la couleur de la peau


Les mthodes de dtection bases sur lanalyse de la couleur de la peau sont des mthodes
efficaces et rapides. Elles rduisent l'espace de recherche de la rgion visage dans limage.
De plus, la couleur de la peau est une information robuste face aux rotations, aux
changements dchelle, et aux occultations partielles. Plusieurs espaces couleur peuvent
tre utiliss pour dtecter, dans l'image, les pixels qui ont la couleur de la peau. L'efficacit
de la dtection dpend essentiellement de l'espace couleur choisi. Les espaces couleur les
plus utiliss sont :
! Lespace RVB, mis au point en 1931 par la Commission Internationale de
l'Eclairage (CIE). Il consiste reprsenter l'espace des couleurs partir de trois
rayonnements monochromatiques de couleurs : Rouge-Vert-Bleu. Cet espace
correspond

la

faon

dont

les

couleurs

sont

gnralement

codes

informatiquement, ou plus exactement la manire dont les crans tubes


cathodiques (ordinateurs, TV) reprsentent ces couleurs.
! Lespace HSL (Hue, Saturation, Luminance), appel aussi TSL (Teinte, Saturation,
Luminance) en Franais, s'appuie sur les travaux du peintre Albert H. Munsell.
Cest un modle de reprsentation dit "naturel", car il est proche de la perception
physiologique de la couleur par lil humain. En effet, le modle RGB aussi adapt

29

Chapitre 2

Techniques de dtection et de reconnaissance de visages

soit-il pour la reprsentation informatique de la couleur ou bien l'affichage sur les


priphriques de sortie, ne permet pas de slectionner facilement une couleur. Le
modle HSL consiste dcomposer la couleur selon des critres physiologiques :
o la teinte (en Anglais Hue), correspondant la perception de la couleur,
o la saturation, dcrivant la puret de la couleur, c'est--dire son caractre vif
ou terne,
o la luminance, indiquant la quantit de lumire de la couleur, c'est--dire son
aspect clair ou sombre.
Il existe d'autres modles naturels de reprsentation proches du modle HSL :
!HSB : Hue, Saturation, Brightness soit en Franais Teinte, Saturation, Brillance. La
brillance dcrit la perception de la lumire mise par une surface.
!HSV : Hue, Saturation, Value soit en Franais Teinte, Saturation, Valeur.
!HSI : Hue, Saturation, Intensity soit en Franais Teinte, Saturation, Intensit.
!HCI : Hue, Chrominance, Intensity soit Teinte, Chrominance, Intensit.
! Le modle YCrCb est un signal non-linaire cod partir du signal RVB. Le
paramtre Y reprsente la luminance (c'est--dire l'information en noir et blanc),
tandis que Cr et Cb permettent de reprsenter la chrominance, c'est--dire
l'information couleur.
! Le modle colorimtrique L*a*b* (aussi connu sous le nom de CIELab), dans
lequel une couleur est repre par trois valeurs :
o L*, la luminance, exprime en pourcentage (0 pour le noir 100 pour le
blanc).
o a* et b* deux gammes de couleur allant, respectivement, du vert au rouge et
du bleu au jaune avec des valeurs allant de -120 +120.
Le modle L*a*b* couvre ainsi l'intgralit du spectre visible par lil humain et le
reprsente de manire uniforme. Il permet donc de dcrire l'ensemble des couleurs visibles
indpendamment de toute technologie graphique.
Les techniques de dtection du visage bases sur la couleur de la peau peuvent tre
classifies en quatre catgories que nous allons maintenant aborder: les mthodes

30

Chapitre 2

Techniques de dtection et de reconnaissance de visages

explicites, les mthodes non paramtriques, les mthodes paramtriques, et les mthodes
semi paramtriques. Toutes ces approches pratiquent une phase d'apprentissage sur un
nombre dimages reprsentatives pour calculer une densit de probabilit de la couleur
peau.

2.2.5.1 Les mthodes explicites


Les mthodes explicites utilisent des rgles de dcision empiriques et/ou statistiques
[Vez03] pour la dtection des pixels ayant la couleur de la peau. Les images doivent tre
acquises dans un environnement contrl (i.e. un clairage rglable) [Yan98a]. Une
mthode explicite est une mthode de classification qui consiste dfinir explicitement les
frontires de la rgion peau (cluster) dans lespace couleur utilis.
Dans [Pee03], par exemple, la peau est classifie dans lespace couleur RGB en utilisant les
rgles suivantes :

R ' 95 et G ' 40 et B ' 20 et


max&R, G, B% - min&R, G, B% ' 15 et

(2.1)

R ( G ' 15 et R ' G et R ' B


Par ailleurs, Chai et Ngan [Cha99] ont propos un algorithme de segmentation de visage
dans lequel ils ont employ les deux plans CbCr du modle couleur YCrCb pour
dterminer les rgions ayant la couleur peau. Ils ont utilis la base de donnes de visages
ECU [ECU]. Ils ont trouv que les valeurs de pixels dans les domaines DCb = [ 77 , 127 ]
et DCr = [ 133 , 173 ] dfinissent bien les pixels peau. De mme, Garcia et Tziritas [Gar99]
ont segment la peau en utilisant, huit plans dans l'espace YCbCr, ou six plans dans
l'espace HSV.
L'avantage de ces mthodes rside dans la simplicit des rgles de dtection de la peau
quelles utilisent, ce qui permet une classification rapide. Cependant, leur problme
principal est la difficult de dterminer empiriquement un espace couleur appropri ainsi
que des rgles de dcision adquates qui assurent un taux de reconnaissance lev.
Une mthode utilisant des algorithmes dapprentissage a t propose pour rsoudre ces
problmes [Gom02]. Les auteurs commencent par choisir un espace RGB normalis (o r
= R /R+B+G, g = G/ R+B+G et b = B/ R+B+G et la somme des trois composantes
normalises r+g+b= 1) sur lequel ils appliquent un algorithme d'induction constructive

31

Chapitre 2

Techniques de dtection et de reconnaissance de visages

afin de crer de nouveaux ensembles dattributs pour les composantes RGB. Une rgle de
dcision, semblable lquation (2.1) qui ralise la meilleure identification possible, est
estime pour chaque ensemble d'attributs. Ils ont obtenu des rsultats meilleurs que ceux
qui sont obtenus avec un classifieur de Bayes dfini dans l'espace RGB.

2.2.5.2 Les approches non paramtriques


Les approches non paramtriques ne dpendent pas de la forme de la fonction de
distribution de la teinte. Elles utilisent les histogrammes couleur 2D et 3D pour reprsenter
la distribution (ou densit de probabilit) de la tonalit de la peau dans un espace couleur.
Lavantage dutiliser les histogrammes couleur est quils sont robustes (invariants) aux
occultations et aux changements de point de vue. Ils peuvent ainsi diffrencier un grand
nombre d'objets [Yan98a] dans une tche de reconnaissance.
En gnral, les approches non paramtriques se droulent en trois tapes :
! Construire les histogrammes de couleur de peau et de non peau partir de lespace

couleur.
! Calculer la probabilit conditionnelle pour chaque couleur de peau et de non peau.
! Utiliser la rgle de Bayes afin de calculer la probabilit pour qu'un pixel

corresponde la classe peau. Ce processus, permet ainsi de crer une carte de


probabilit de la couleur peau.
! Un seuil de classification est enfin dtermin partir de la relation entre les

dtections correctes et les dtections fausses donnes par la courbe ROC (Receiver
Operating Characteristic). Il est appliqu la carte de probabilit et permet
dextraire les rgions peau.

2.2.5.3 Les approches paramtriques


Les approches non-paramtriques bases sur les histogrammes couleur exigent un grand
espace mmoire. De plus, leurs performances dpendent directement des images
d'apprentissage. Le besoin dun modle plus compact pour reprsenter la peau, et qui peut
tre gnralis avec moins de donnes d'apprentissage, a pouss les chercheurs
dvelopper des modles paramtriques de distribution de peau. Cette dernire est souvent

32

Chapitre 2

Techniques de dtection et de reconnaissance de visages

reprsente sous la forme dun modle gaussien simple (MGS) parfois elliptique, ou par un
mlange de modles gaussiens (GMM) pour traduire son caractre multimodal.
Plusieurs travaux sur la modlisation de la distribution de la couleur de peau ont utilis un
mlange de Gaussiennes dfini par :
n

k #1

!2 * * $d , k

P!C ; ) , , $ # " + k

exp (0.5!C ( ) k $

!, k $(1 !C ( ) k $

(2.2)

O C est la reprsentation des espaces couleur utiliss, n le nombre de gaussiennes


utilises, + le poids de la kieme gaussienne, " la matrice de covariance, ) le vecteur moyen,
et d la dimension des donnes de C.
Pour une gaussienne simple (uni-modale), les valeurs de + et de n sont gales 1. Dans ce
cas, les paramtres peuvent tre estims en utilisant le maximum de vraisemblance, alors
que pour le mlange de gaussiennes ils sont dtermins en utilisant lalgorithme EM
(Expectation - Maximization algorithm) [Dem77][Jon02][Yan98b].
Le choix du nombre n de gaussiennes dpend normment des donnes dapprentissage et
du choix de lespace couleur utilis. Plusieurs techniques ont utilis des valeurs de n
comprises entre 2 et 16.
Yang and Ahuja [Yan99] ont utilis deux gaussiennes dans lespace couleur LUV. Leurs
tests ont dmontr que le modle MGS ntaient pas suffisants pour modliser la
distribution de la peau avec la base de donnes de Michigan. Greenspan et al. [Gre01] ont
dmontr qu'un modle MMG est une reprsentation robuste qui s'adapte aux diffrents
espaces couleur et aux variations dillumination. Leur modle MMG contient deux
composantes, la premire modlise la distribution de la lumire ordinaire de la couleur de
peau, alors que la deuxime composante modlise la distribution des rgions les plus
lumineuses de la peau.
En tudiant la distribution de la couleur de peau et de non-peau dans plusieurs espaces
couleurs, Lee et Yoo [Lee02] ont conclu que les rgions de couleur de peau ont
approximativement une forme elliptique qui ne peut pas tre modlise par un MGS. En
effet, en raison de l'asymtrie du cluster de peau par rapport au pic de densit, lutilisation
du modle gaussien symtrique (MGS) mne un taux lev de faux positifs. Afin de
rsoudre ce problme, ils ont propos donc un nouveau modle qu'ils ont appel modle

33

Chapitre 2

Techniques de dtection et de reconnaissance de visages

elliptique de frontire . Les auteurs ont compar leur modle avec les modles MGS et
MMG six composantes, appliqus sur la base de donnes de Compaq [Jon99]. Ils ont
obtenu des performances lgrement meilleures. Cependant, l'inconvnient du modle
elliptique de frontire rside dans le fait que son utilisation est limite la classification
binaire.
Hsu [Hsu02] propose de combiner une technique de correction de couleur avec la dtection
de la couleur de peau, pour localiser le visage dans une image. La correction de couleur
permet dliminer leffet de la rflexion et de la variation de lillumination dans limage.
La technique de compensation dclairage utilise ce quon appelle un blanc de rfrence
. Elle est base sur lhypothse quune image contient toujours du blanc. Les pixels blancs
sont reconnus en utilisant une correction non-linaire Gamma de la valeur de luminance. Si
le pourcentage des pixels blancs dpasse 5 % sur 100 pixels, on applique alors une
correction de couleur sur limage. Cette correction sapplique sur les coefficients des trois
axes RGB.
Enfin, pour dtecter la couleur de peau on utilise un MGS dans lespace modifi CbCr, qui
est obtenu partir dune transformation non linaire applique lespace YCbCr.
Linconvnient de cette mthode de correction rside dans la difficult dfinir les
hypothses de dpart [Mar03].

2.2.5.4 Approches semi-paramtriques


Dcrit par Kohonen au dbut des annes 80, le rseau SOM (Self-Organizing Map)
[Koh97] est un des plus populaires rseaux de neurones non supervis. Il est
principalement utilis pour classifier des donnes de grande dimension, mais il fonctionne
tout aussi bien pour des donnes de faible dimension. Lobjectif du rseau SOM est de
classifier les pixels dentre selon quils correspondent ou non des pixels de peau, ce qui
permet au final dextraire la rgion du visage. Brown et al. [Bro01] entranent deux rseaux
SOM pour apprendre, partir de 500 images, la distribution des pixels de la couleur peau
et la couleur non peau. Les performances du SOM ont t testes sur lensemble des
images dapprentissage/test de la base de donnes Compaq [Jon99]. Plusieurs espaces
couleur (RGB normalis, Teinte-Saturation, TLS) ont t utiliss avec le dtecteur SOM.
Les rsultats ont montr que les performances des dtecteurs de peau SOM ne dpendent
pas des espaces couleurs utiliss, linverse du modle MMG. Par ailleurs, les

34

Chapitre 2

Techniques de dtection et de reconnaissance de visages

performances du dtecteur SOM sont infrieures celles qui sont obtenues par la mthode
base sur les histogrammes RGB, dveloppe dans [Jon99]. Nanmoins, le dtecteur SOM
ncessite moins de paramtres et il est plus efficace pour les applications en temps rel.
Certains auteurs ont galement propos un apprentissage automatique des couleurs
reprsentant la peau laide de rseaux neuronaux. Ceux-ci peuvent tre entrans partir
dchantillons de pixels reprsentant la peau (et non-peau), pralablement convertis dans
lespace de couleur YCrCb. Par ailleurs, dautres espaces de couleurs ont aussi t utiliss
dans ce contexte. Kakumanu et al. [Kak04][Kak06] ont employ un rseau de neurones
pour modliser la constance de la couleur the color constancy . Leur rseau de neurones
possde trois couches et permet destimer lillumination de la peau. Il prend en entre un
histogramme deux composants r et g (voir section 2.2.1.1) et donne en sortie les
illuminations de la peau dans l'espace r, g. Ce rseau de neurones est entran sur une base
de donnes de 255 images, et test sur 71. Les images utilises fournissent un grand choix
d'illuminations, de diffrents arrires plans et de sources de lumire non blanches. Enfin,
une technique de seuillage simple est utilise pour dtecter la peau partir de ce rseau de
neurones.

2.2.5.5 Autres approches


Sobottka et Pitas [Sob98] proposent une mthode de localisation et dextraction des
caractristiques du visage qui utilise la fois la forme et la couleur [Sob96]. La
segmentation de limage se fait dans lespace HSV pour localiser la rgion couleur de la
peau. Les composantes connexes sont ensuite dtermines en appliquant un algorithme de
croissance de rgions avec une rsolution grossire. Pour chaque composante connexe,
lalgorithme ajuste une ellipse afin de dterminer la rgion candidate qui correspond au
visage. Enfin, une analyse plus fine des caractristiques lintrieur de cette rgion permet
de conclure sur la prsence dun visage ou non.
Dans [Ter98a][ Ter98b], un modle gaussien de la couleur de peau est utilis pour
classifier les pixels de couleurs de peau. Afin de caractriser la forme des clusters dans
limage binarise, un ensemble de 11 moments gomtriques dordre infrieur est calcul
en utilisant la transforme de Fourier et la transforme radiale de Mellin. Afin de dtecter
la rgion visage, un rseau de neurones est entran laide des moments gomtriques

35

Chapitre 2

Techniques de dtection et de reconnaissance de visages

extraits. Lexprimentation de cette mthode a dmontr un taux de dtection de 85% sur


une base de test de 100 images.
Belaroussi et al. [Bel05] proposent de combiner trois dtecteurs pour localiser le visage :
! un dtecteur anthropomorphique bas sur un modle dapparence neuronal. Il s'agit

d'un rseau de neurones auto-associateur (rseau Diabolo dj utilis en


reconnaissance d'criture). Ce rseau est entran reconstruire la classe "visage"
(pendant l'apprentissage, l'entre sert de sortie dsire) en ralisant une
compression des donnes (analyse en composantes principales non linaire) dans sa
couche cache comportant un faible nombre de cellules. Une image de non-visage
sera en principe mal compresse et donnera une erreur de reconstruction plus
importante.
! un dtecteur gomtrique bas sur la Transformation de Hough Gnralise (THG).

L'ellipse est une forme gomtrique simple qui permet de modliser grossirement
un visage. Une THG est donc ralise sur l'image des orientations de gradients afin
de dtecter une ellipse verticale d'excentricit donne. Il en rsulte un tableau de
vote dont le maximum correspond la position dans limage du point le plus
susceptible dtre le centre de lellipse.
! un dtecteur colorimtrique bas sur une modlisation statistique de la teinte chair

par mlange de gaussiennes (MMG) dans l'espace YCbCr.


Le traitement parallle d'une image par les trois dtecteurs produit trois cartes de
probabilit qui sont combines linairement. Le maximum (cas mono-visage) ou les n
premiers maxima (cas multi-visages) de la combinaison donne la localisation. Les
expriences, conduites sur la base ECU (3000 images), montrent que la combinaison des
dtecteurs permet d'atteindre des taux de localisation suprieurs 85%.

2.2.6 Comparaison des diffrentes approches


Les performances des diffrentes mthodes de modlisation de la couleur de la peau ont t
values sous des conditions identiques. Malheureusement, la plupart des mthodes de
dtection de la peau fournissent des rsultats obtenus sur leurs propres bases de donnes
qui ne sont pas disponibles. La base dapprentissage et de test la plus utilise pour la
dtection de la peau est la base de donnes Compaq [Jon99].

36

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Dans le tableau (2.1) les performances des diffrentes mthodes appliques cette base de
donnes, sont prsents. Il donne le taux des vrais positifs (TP) et le taux des faux positifs
(FP). Bien que les mthodes utilisent la base de donnes de manire diffrente pour dfinir
les images dapprentissage et les images de test, et emploient diffrentes stratgies
dapprentissage, ce tableau donne une image assez fidle des performances obtenues par
ces mthodes [Kak06].

Mthodes

Espace couleur

TP

FP

Bayes SPM [Jon99]

RGB

90%

14.2%

Bayes SPM [Bra00]

RGB

93.4%

19.8%

MMG [Jon99]

RGB

90%

~15.5%

SOM [Bro01]

TLS

78%

32%

Elliptical boundary model [Lee02]

CIE-xy

90%

20.9%

MGS [Lee02]

CbCr

90%

33.3%

MMG [Lee02]

IQ

90%

30%

Thresholding of I axis[Bra00]

YIQ

94.7%

30.2%

MGS [Hsu02]

YCbCr

96%

Tableau 2. 2 Les performances des diffrentes mthodes de dtection de peau.

2.3 Techniques 2D de reconnaissance de visage


Plusieurs mthodes d'identification de visages ont t proposes durant les vingt dernires
annes. L'identification de visage est un axe de recherche ouvert attirant des chercheurs
venants de disciplines diffrentes : psychologie, reconnaissance de formes, rseaux
neuraux, vision artificielle et infographie.
Avant de dtailler les diffrentes techniques lies la reconnaissance de visage 2D, nous
allons dabord prsenter un aperu des tudes faites par les chercheurs en cognition et en
reconnaissance faciale du visage. En effet, la connaissance des rsultats de ces tudes est
importante car elle permet le dveloppement de nouvelles approches. Le but ultime de la
reconnaissance faciale est de rivaliser, voir mme dpasser, les capacits humaines de
reconnaissance. Les rsultats fondamentaux de ces tudes ont t synthtiss dans un
papier publi en 2006 par [Sin06], ils se rsument comme suit :

37

Chapitre 2

Techniques de dtection et de reconnaissance de visages

! Les humains peuvent reconnatre des visages familiers dans des images de faible

rsolution.
! La capacit de tolrer les dgradations des images augmente avec la familiarit
! Les informations haute frquence seules, soit les contours, sont insuffisantes pour

obtenir une reconnaissance faciale performante


! Les caractristiques faciales sont traites de manire holistique
! Parmi les diffrentes caractristiques faciales, les sourcils sont les plus importants

pour la reconnaissance
! La forme du visage est gnralement code de manire caricaturale
! La pigmentation du visage est aussi importante que sa forme
! La couleur joue un rle important spcialement lorsque la forme est dgrade
! Les changements dillumination influencent la capacit de gnralisation
! Le mouvement des visages semble faciliter la reconnaissance de manire

consquente
! Le systme visuel progresse dune stratgie locale vers une stratgie holistique au

cours des premires annes de la vie


! Identit faciale et expressions sont traites par des systmes spars

C'est ce qui explique labondance et la diversit de la littrature dans ce domaine. Larticle


de Tana et al. [Tan06] donne un tat de lart rcent et complet sur les dernires techniques
dveloppes. Dans cette section, nous prsenterons les approches 2D de la reconnaissance
de visage les plus connues. Ces dernires peuvent tre subdivises en trois catgories : les
approches holistiques ou globales, les approches locales et les approches hybrides.

2.3.1 Approches holistiques ou globales


Ces mthodes identifient un visage en utilisant l'image entire de ce dernier comme entre
du systme de reconnaissance. Chaque image de visage de dimension (n,m) est reprsente
par un vecteur simple de dimension n m, en concatnant les valeurs du niveau de gris de
tous les pixels de limage du visage. Lespace I contenant tous les vecteurs images de
visages est appel espace images. Lavantage de cette reprsentation est quelle prserve
implicitement les informations de texture et de forme ncessaire pour la reconnaissance de
visages. De plus, elle permet une meilleure capture de laspect global du visage que les
reprsentations locales [OTo93]. Toutefois, son inconvnient majeur rside dans la

38

Chapitre 2

Techniques de dtection et de reconnaissance de visages

dimension trs grande de lespace image quelle ncessite [Jai82, Jai87, Rau91], ce qui
rend trs difficile la classification.
Ainsi, une image 100 100, par exemple, est reprsente par un vecteur de dimension 104
[Dui95]. Comme le nombre dimages dapprentissage pour chaque personne doit tre au
moins gal dix fois la dimension du vecteur [Jai82], il faut 105 images par personne,
nombre assez exorbitant. En pratique, on na pas besoin de tant de photos pour dvelopper
un modle fidle pour lapparence du visage dune personne. Des techniques de rduction
de dimension sont gnralement employes. Une des techniques les plus utilises dans
l'identification de visage est l'Analyse en Composantes Principales (ACP).
Une mthode trs populaire, base sur la technique ACP, est la mthode eigenface
[Sir87, Tur91]. Son principe est le suivant : tant donn un ensemble dimages de visages
exemples, il sagit tout dabord de trouver les composantes principales de ces visages. Ceci
revient dterminer les vecteurs propres de la matrice de covariance forme par
lensemble des images exemples. Chaque visage exemple peut alors tre dcrit par une
combinaison linaire de ces vecteurs propres. Pour construire la matrice de covariance,
chaque image de visage est transforme en vecteur. Chaque lment du vecteur correspond
lintensit lumineuse dun pixel. Cette mthode sera prsente avec davantage de dtails
dans le chapitre 5.
Dans [Wan03], les auteurs ont dmontr que la matrice de covariance C peut scrire :
C #CI - CE

(2.12)

C'est--dire quelle est gale la somme de la matrice de dispersion intra-personne CI et la


matrice de dispersion inter-personne CE. Dans le cas dun seul exemple d'apprentissage par
personne, CI = 0, et donc lquation (2.12) se rduit CE.
L'eigenspace estim partir de la matrice CE seulement n'est pas fiable, parce quil ne peut
pas diffrencier, de manire efficace, lerreur didentification des autres erreurs dues la
transformation et au bruit [Wan03]. Pour illustrer linfluence du nombre dexemples
dapprentissage par personne sur les performances de la reconnaissance, les auteurs ont
utilis la base de donnes ORL [Sam94] comme base de test. La base de donnes ORL
contient des images de 40 individus, chacun tant enregistr sous 10 vues diffrentes. Dans
leur exprimentation, les auteurs ont fix le nombre de visages de test. Par contre, ils ont
fait varier le nombre de visages d'apprentissage. Ainsi, pour chaque personne, ils ont utilis

39

Chapitre 2

Techniques de dtection et de reconnaissance de visages

la dernire image (Figure 2.1) pour le test et ont choisi alatoirement les n premires
images (n <= 9) pour l'apprentissage.

Taux didentification

Figure 2.3. Les dix vues d'une personne dans la base de donnes ORL.

Nombre dexemples d apprentissage

Figure 2.4. Taux d'identification moyen en fonction du nombre dexemples dapprentissage par
personne [Wan03].

Cette procdure a t rpte vingt fois. La figure 2.2 montre que la performance de la
mthode eigenface baisse avec la diminution du nombre dexemples dapprentissage pour
chaque personne. Dans le cas extrme, si seulement un exemple dapprentissage par
personne est utilis, le taux d'identification moyen de l'eigenface tombe en dessous de
65 %. Ce taux atteint 95 % quand on utilise neuf exemples dapprentissage par personne.
Pendant la dernire dcennie, plusieurs chercheurs ont dvelopp diverses extensions de la
mthode eigenface , comme leigenface probabiliste [Mog97], les mthodes bases sur
lAnalyse Discriminante Linaire (ADL) [Bel97, Zha99, Lu03], la Machine Vecteur
Support (SVM) [Phi98], la mthode de la ligne caractristique [Li99], et Laplacianfaces
[He05]. Ces approches possdent des performances suprieures celles qui sont donnes
par la mthode eigenface basique. Cependant, ceci nest plus vrai si un seul exemple
dapprentissage par personne est disponible, en raison du fait que la plupart de ces
techniques vont, soit se rduire lapproche eigenface basique, ou bien ne fonctionnent
plus. Ces mthodes peuvent tre rsumes comme suit [Tan06] :

40

Chapitre 2

Techniques de dtection et de reconnaissance de visages

! les mthodes bases sur lAnalyse Discriminante Linaire (ADL) dterminent les

directions de projection les plus discriminantes dans leigenspace. Pour cela, elles
maximisent les variations inter-personne par rapport aux variations intra-personne.
Cependant, si un seul exemple dapprentissage par personne est utilis, c'est--dire
si les variations intra classes nulles, alors les performances de lADL deviennent
faibles par rapport celles qui sont donnes par leigenface [Mar01]. Afin de
remdier ce problme, Zhao et al. [Zha99] ont propos de remplacer la matrice de
dispersion intra-personne par une matrice constante. Ainsi, la mthode base ADL
se rduit alors la mthode eigenface.
! Lapproche Probabiliste [Mog97] transforme le problme d'identification de visage

en un problme de classification en deux classes. Elle value la probabilit de la


diffrence entre une image de test et une image prototype appartenant aux classes
intra-personne et inter-personne. Notons que la distribution intra-personne ne peut
pas tre value dans le cas d'un exemple par personne, et la mthode se ramne
aussi la mthode eigenface.
! .Evolution pursuit. [Liu00] et Laplacianfaces [He05] dpendent largement du

nombre dexemples dapprentissage par personne. Dans le cas d'un exemple par
personne, ces mthodes se ramnent encore la mthode eigenface .
! Les mthodes SVM [Phi98] et ligne de caractristiques [Li99] sont des mthodes

de classification dans leigenspace . Si uniquement un exemple par personne est


utilis, alors aucune des deux mthodes ne marche.
Comme illustr ci-dessus, on ne peut pas s'attendre obtenir de bonnes performances en
gnralisant la technique eigenface lorsque celle-ci utilise un seul exemple par personne.
Cependant, cette mthode sadapte trs bien pour la classification de donnes de grande
dimension.

2.3.1.1 Les nouvelles extensions de lAnalyse des Composantes Principales


Wu et Zhou prsentent une nouvelle mthode nomme (PC)2A, pour enrichir linformation
sur lespace image [Wu02]. Ils utilisent une mthode de projection pour la dtection de
visage [Kot97] dont le principe est le suivant :

41

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Soit I(x,y) lintensit du pixel (x,y) de limage I de dimension m n. Les projections


horizontale et verticale de cette image sont respectivement dfinies par :
n

HI ( x ) # " I ! x , y $

(2.13)

y #1
m

VI ( y ) # " I !x, y $

(2.14)

x #1

Les deux projections refltent la distribution des caractristiques faciales saillantes utiles pour
l'identification de visage. Elles permettent de gnrer une carte de projection (figure 2.3b).
Limage obtenue partir de ces projections est ensuite combine avec limage originale pour
gnrer une image plus riche en information (figure 2.3c). Cette dernire est dfinie par :

M p ( x, y ) # HI (x)VI (y)/J

(2.15)

o J est l'intensit moyenne de l'image.

Figure 2. 5. (a) image originale (b) carte de projection ; (c) image combine.

La technique eigenface est utilise pour la reconnaissance de visages. Cette mthode a t


value sur un sous-ensemble de la base de donnes FERET [Phi00]. Une seule image de
visage a t utilise lors de la phase dapprentissage. Les auteurs ont rapport une prcision
de 3 5 % suprieure la mthode eigenface standard, et en limitant de
10 15 % la taille du vecteur eigenfaces.
Par ailleurs, lestimation de la matrice de covariance, lorsque la dimension des donnes est
faible, est un problme qui nest toujours pas rsolu par la mthode eigenface standard.
Yang et al. [Yan04] ont introduit une nouvelle technique quils ont appel Analyse en
Composantes Principales Bidimensionnelle (ACP2D). Cette mthode applique directement
lACP sur les images 2D plutt que sur un seul vecteur. Les auteurs utilisent pour cela une
matrice de covariance gnralise, calcule partir des lignes de limage originale. Cette

42

Chapitre 2

Techniques de dtection et de reconnaissance de visages

modlisation permet de rduire le cot calculatoire et linstabilit numrique lors de la


construction du modle.
Les mthodes dtailles ci-dessus traitent le cas dun seul exemple dapprentissage. Les
problmes de variations d'expression, d'illumination ou de changement de pose ne sont pas
explicitement traits. Jung et al. [Jun04] ont dvelopp un systme d'authentification pour
traiter ces problmes. Leur ide est de synthtiser un ensemble dimages corrompues,
gnres partir dune image originale. Ils ont utilis un modle de bruit avec trois
paramtres contrlant respectivement, le degr de contraste, la brillance et le flou
Gaussien.

Figure 2. 6. Synthse de nouvelles images avec diffrentes dgradations [Jun04]

La figure 2.4 montre un exemple dimages corrompues gnres partir dune image
originale en variant les valeurs des paramtres de bruit. Les auteurs ont utilis 137 images
de visage de cartes d'identit ayant une rsolution de 300 dpi pour valuer leur mthode.
Les rsultats exprimentaux montrent que le taux d'erreur est seulement de 1.32 %,
indiquant que la mthode peut significativement amliorer la similitude entre les images
dgrades et les images d'apprentissage.

2.3.1.2 Les nouvelles extensions Fisherface


La mthode des fisherfaces que nous dcrivons dans cette section est sans doute la plus
connue des approches utilisant lAnalyse Discriminante Linaire (ADL) dans le contexte
de la reconnaissance de visages.

43

Chapitre 2

Techniques de dtection et de reconnaissance de visages

L'approche fisherface [Bel97] est une extension de la mthode eigenface. Son but est de
trouver un sous-espace plus discriminant dans l'eigenspace pour la reconnaissance de
visages. Cependant, lapproche fisherface ne marche pas lorsquun seul exemple est utilis
pour lapprentissage, car dans ce cas aussi la dispersion intra-classes est nulle.
Afin de rsoudre ce problme, Wang et al. [Wan05] ont propos une mthode qui calcule
la dispersion intra-classes partir de plusieurs sujets diffrents. Les auteurs justifient leur
choix par le fait que l'tre humain prsente une dispersion intra-classes semblable. Un
ensemble gnrique dimages dapprentissage, avec des exemples multiples par personne,
est collect. Il est utilis pour calculer la dispersion intra-personne. Une mthode
semblable celle de Fischer est ensuite implmente, elle permet de dterminer les
vecteurs propres les plus discriminants pour l'identification. Cette mthode a t value
sur un sous-ensemble de la base de donnes FERET avec 256 sujets. Une marge de
performance suprieure de 10 % sur la mthode eigenface traditionnelle a t obtenue.
En utilisant lAnalyse en Composantes Principales Bidimensionnelles [Yan04], Visani et
Garcia [Vis05] ont propos une nouvelle mthode base sur lalgorithme ADL Bilinaire.
Ils ont test leur technique sur la base Asian Face Image Database PF01, qui contient des
prises de vues de 75 personnes dont aucune ne porte de lunettes, avec des conditions
dillumination neutres. Les images sont normalises. La base dapprentissage contient
quatre vues par personne pour 60 des 75 personnes de la base, avec une expression faciale
neutre et une pose frontale. Le taux de reconnaissance rapport par les auteurs est suprieur
celui de leigenface, de fisherface, et de lACP2D.

2.3.1.3 Discussion
Bien que les mthodes holistiques aient eu beaucoup de succs, leur inconvnient majeur
rside dans le fait quelles utilisent uniquement des photos 2D dapparence faciale. Or, on
sait qu'une telle reprsentation est sensible aux changements d'expression, d'illumination et
de poses. Une manire dviter ce problme consiste utiliser des reprsentations faciales
locales. En effet, les caractristiques locales ne sont gnralement pas aussi sensibles aux
changements dapparence que les caractristiques globales.

44

Chapitre 2

Techniques de dtection et de reconnaissance de visages

2.3.2 Mthodes locales


Les mthodes locales utilisent les caractristiques faciales locales pour la reconnaissance
de visage. Elles sont relativement matures compares aux mthodes holistiques [Law97,
Bru93, Wis97, Man92, Kel70]. Dans ces mthodes, le visage est reprsent par un
ensemble de vecteurs caractristiques de dimensions faibles, plutt que par un seul vecteur
de grande dimension.
Nous pouvons classifier les mthodes locales en deux catgories : les mthodes bases sur
les caractristiques locales : extractions et localisation des points caractristiques, et les
mthodes bases sur les apparences locales : partitions des images de visage en rgion
caractristiques.

2.3.2.1 Mthodes bases sur les caractristiques locales


Les approches bases sur lextraction de points caractristiques peuvent tre subdivises en
deux catgories : les approches gomtriques et les approches bases sur les graphes.
2.3.2.1.1 Approches gomtriques

Elles sont bases sur lextraction de la position relative des lments qui constituent le
visage (tel que le nez, la bouche et les yeux). La plupart des approches gomtriques
utilisent des points d'intrt (comme les coins de la bouche et des yeux). Au dbut des
annes 1990, Brunelli et Poggio [Bru93] ont dcrit un systme de reconnaissance faciale
qui extrait automatiquement 35 caractristiques gomtriques du visage. La similitude est
calcule laide de classifieurs de Bayes. Un taux d'identification de 90 % sur une base de
donnes de 47 sujets a t rapport par les auteurs. Le cot de stockage des techniques
gomtriques est trs bas compar celui des autres techniques. Toutefois, les approches
purement gomtriques prsentent quelques inconvnients, notamment :
! les caractristiques gomtriques sont gnralement difficiles extraire, surtout

dans des cas complexes : illumination variable, occultations, etc.


! les caractristiques gomtriques seules ne suffisent pas pour reprsenter un visage,

tandis que d'autres informations utiles comme les niveaux de gris de l'image ne sont
pas du tout exploites.

45

Chapitre 2

Techniques de dtection et de reconnaissance de visages

2.3.2.1.2 Approches bases sur les graphes

Plutt que dutiliser des mthodes purement gomtriques, certains chercheurs ont choisi
de reprsenter les caractristiques locales du visage sous forme de graphes. Manjunath et
al. [Man92] ont propos une mthode de dtection de caractristiques locales du visage,
base sur la dcomposition en ondelettes de Gabor [Lee96]. La reconnaissance de visages
est alors formule comme un problme de mise en correspondance de graphes. L'efficacit
de cette mthode a t valide sur un ensemble de donnes de visage de 86 sujets,
contenant des variations d'expression et de pose, Un taux de reconnaissance de 90% en
moyenne a t rapporte dmontrant la robustesse de cette approche.
Cependant, une fois construit, le graphe topologique ne peut pas tre modifi. Or, les
images de visage changent facilement dapparence en raison des diffrentes variations
(illumination, expression, pose, etc.), et du coup un schma de graphe topologique fixe
n'est plus adquat.
Elastic Graph Matching

En se basant sur cette observation, Lades et al. [Lad93] ont propos un graphe topologique
lastique connu sous le nom de Elastic Graph Matching. Les auteurs utilisent pour cela
une grille rgulire, place sur les images de visages. Les caractristiques extraites sont des
coefficients de Gabor. Les noeuds de la grille sont lis lastiquement. L'lasticit permet
d'accommoder des distorsions d'objet et des changements de point de vue. La mise en
correspondance est excute en deux tapes. Ce systme peut sadapter aux changements
modrs de taille et dorientation du visage.
Elastic Buch Graph Matching

La technique dElalstic Buch Graph Matching (EBGM) [Wis97] ressemble celle de


lElastic Graph Matching, la diffrence tant que lEBGM utilise un seul graphe pour
reprsenter les diffrentes variations dapparence de visage. Chaque nud contient un
ensemble de 40 coefficients complexes dOndelette de Gabor, incluant la phase et
lamplitude. Ces coefficients sont connus sous le nom de jet. Ainsi, la gomtrie d'un objet
est code par les artes du graphe, alors que les nuds (jets) codent les variations des
niveaux de gris (ex : un eye bunch va contenir des jets reprsentant les yeux : yeux
ferms, ouverts, fminins, masculins, etc.). Deux inconvnients de la mthode EBGM ont
t mis en vidence [Zha97]. Premirement, elle exige un temps de calcul suprieur aux

46

Chapitre 2

Techniques de dtection et de reconnaissance de visages

autres mthodes ce qui la rend plus difficile mettre en uvre en pratique. Et


deuximement, seules les informations sur les positions clefs de l'image (par exemple : les
yeux, le nez, la bouche) sont utilises pour l'identification. Bien que ce soit un facteur
crucial qui contribue la robustesse de la mthode, la manire dont cette mthode gre une
situation o les caractristiques clefs sont occultes nest pas claire.
Des amliorations ont t apportes ce modle par Kepenekci et al. [Kep02] : ils
proposent une mthode base sur les caractristiques de Gabor. Au lieu de fixer le nombre
de points caractristiques du visage comme dans la mthode EBGM, ils ont utilis un
ensemble de matrices de filtres de Gabor pour parcourir les rgions faciales locales. Les
points caractristiques obtenus avec la rponse frquentielle la plus haute du filtre de
Gabor sont automatiquement choisis pour tre des candidats la reprsentation de visage.
Puisque les points caractristiques rsultants sont diffrents dun visage un autre, la
possibilit de trouver des classes spcifiques de caractristiques sen trouve donc
augmente. En plus des valeurs de la rponse de Gabor, la position de chaque point
caractristique est enregistre, considrant ainsi implicitement la structure spatiale du
visage. Des rsultats exprimentaux sur l'ensemble de la base de donnes ORL montrent
un taux d'identification de 95.25 % avec seulement une image dapprentissage par
personne. Un deuxime test sur la base FERET [Phi00] a dmontr que cette amlioration
mthode est moins coteuse en de temps de calcul que la mthode EBGM. Cependant, sa
flexibilit dans la dtection des points dintrt augmente le risque des faux appariements
en raison de la possibilit de la non-existence des caractristiques dans la zone locale
considre.
Les mthodes bases sur les caractristiques locales sont efficaces. Cependant leurs
performances dpendent essentiellement de la prcision de la localisation des points
caractristiques. Cette tche reste trs difficile en pratique, plus particulirement dans des
situations o la forme et l'apparence du visage peuvent fortement changer. Par exemple, la
sur-illumination peut provoquer une rflexion spculaire sur le visage. Pour rsoudre ce
problme des mthodes bases sur lapparence locale sont utilises. Elles font lobjet de la
section suivante.

47

Chapitre 2

Techniques de dtection et de reconnaissance de visages

2.3.2.2 Mthodes bases sur lapparence locale (Local appearance-based


methods)
Ces techniques sont utilises de manire modulaire pour les diffrentes rgions faciales.
Un modle global est alors dfini partir de la combinaison des diffrents modles locaux.
Ainsi, les diffrentes rgions faciales ne seront plus affectes de la mme manire par les
diffrentes sources de variabilit. Par exemple, le port de lunettes de soleil change
considrablement laspect des yeux, tandis quun sourire affecte plus la rgion de la
bouche. Deux paramtres sont utiliss pour dfinir les rgions locales du visage : la forme
(rectangle, ellipse) et la taille. Les caractristiques des rgions locales sont dtermines
partir dune analyse des valeurs de niveau gris [Che04, Tan05]. Des techniques comme les
Ondelettes de Gabor [Man92, Kep02] ou de Harr [Le04] et lanalyse fractale sont aussi
utilises pour lextraction de caractristiques. En gnral, les caractristiques base de
valeurs de gris prservent l'information de texture, tandis que les caractristiques de Gabor
sont plus robustes face aux changements dillumination et aux transformations
gomtriques [Man92, Lad93].
2.3.2.2.1 ACP et ADL modulaire

Dans [Pen94], Pentland et al. ont introduit lapproche des Modular Eigenspase . Les
rgions faciales utilises sont : la totalit du visage, les yeux et le nez. Une ACP est
applique sur chacune de ces rgions et les rsultats de classifications obtenus sont
agrgs. La bouche tant trop sensible des changements dexpression faciale, sa prise en
compte engendre une baisse du taux de reconnaissance. Cette approche peut tre qualifie
dhybride, puisquelle utilise la fois des caractristiques globales et locales. Les auteurs
ont montr quelle est plus efficace que les techniques globales ou strictement locales
appliques sparment.
Comme expliqu ci-dessus, les mthodes bases ADL chouent si un seul chantillon par
classe est utilis. Chen et al. [Che04] ont propos dappliquer la mthode ADL sur un
exemple de petite taille. Ils ont partitionn chaque image de visage en un ensemble
dimagettes de mme dimension (figure 2.5).

48

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Figure 2.7. Image de visage partitionne en imagettes[Che04].

Pour chaque classe, des chantillons composs de toutes les imagettes partitionnes sont
produits pour lapprentissage. Enfin, la mthode ADLF (Analyse Discriminante Linaire
Fisher) est applique au chantillons nouvellement produits. Cette mthode a t value
sur un sous-ensemble de donnes FERET contenant 200 personnes avec une image
d'apprentissage par personne : un taux d'identification de 86.5 % a t atteint.
Dans [Pri05], Price et Gee ont introduit une technique modulaire base sur une variante de
lADL. Les rgions slectionnes sont : la rgion faciale dans son ensemble, une bande
faciale (de mme largeur que la rgion faciale) stalant du front jusquau-dessous du nez,
et une bande faciale contenant les yeux. Les rsultats exprimentaux montrent que cette
approche est plus performante que les techniques des eigenfaces et des fisherfaces, elle est
notamment robuste aux changements dans les conditions dillumination du visage,
dexpression faciale et doccultation.
2.3.2.2.2 Les approches probabilistes Locales modulaires

Martinez et al [Mar02] prsentent une approche probabiliste locale pour la reconnaissance


de visages avec des occultations partielles et des variations dexpression. Ils utilisent un
seul exemple dapprentissage par classe. Chaque visage est divis en six rgions locales
sous forme dellipses. Les rgions ayant les mmes positions pour chaque visage sont
groupes sparment dans un sous-espace. Pour une reprsentation plus compacte et
efficace, chaque sous-espace de visage est nouveau transform dans un eigenspace, o la
distribution est value par la moyenne d'un modle de mlange de Gaussiennes en
utilisant l'algorithme EM. Dans l'tape d'identification, les images de test sont aussi
divises en six rgions locales et sont projetes respectivement dans leigenspace calcul.

49

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Une approche probabiliste plutt qu'une approche de vote est utilise pour mesurer la
similitude dun appariement donn. Les tests sur un jeu de 2600 images ont montr que
l'approche probabiliste locale ne rduit pas la prcision mme pour 16 des visages
partiellement occults. Cependant, le mlange de Gaussiennes utilis dans cette mthode
est de nature paramtrique, il dpend de lhypothse que la distribution puisse tre
fidlement reprsente avec les exemples donns.
Bien quun certain nombre dexemples soit synthtiquement produit comme dcrit cidessus, les cots de calcul et de stockage avec la procdure de production des exemples
virtuels peuvent tre trs levs (par exemple 6615 exemples par individu dans [Mar02])
quand la base de donnes de visage est trs grande.
Tan et al. [Tan05] ont tendu l'approche probabiliste locale en proposant une mthode
alternative pour reprsenter le sous-espace de visages en utilisant la carte SOM (SelfOrganizing Map) [Koh97]). Plus spcifiquement, chaque image I de visage est d'abord
divise en M diffrents sous blocs locaux Ri

M
i #1

, puis un rseau SOM est entran en

utilisant tous les sous-blocs obtenus partir de toutes les images d'apprentissage
disponibles, sans tenir compte des classes. Chaque sous-bloc Ri de la mme image I de
visage est ensuite mapp avec les units qui correspondent le mieux (BMU : best matching
units) selon la stratgie suivante : le plus proche voisin, dans la SOM 2D de lespace
topologique, est dfini comme un vecteur de position li = {xi, yi}. Tous les vecteurs de
position du mme visage sont groups en un ensemble, c'est--dire I # &l i %i #1 # &xi , y i %i #1 ,
M

appel la reprsentation "SOM-FACE" du visage (figure 2.6b). Cette reprsentation


possde plusieurs avantages. Des dfauts possibles, comme le bruit dans l'image de visage
originale, peuvent tre limins durant le processus dentranement de la SOM. Cette
mthode est une faon compacte de reprsenter le visage.

(a)

(b)

(c)

Figure 2.8. Exemple : (a) une image du visage originale, (b) sa projection (SOM-Face) et (c) image
reconstruite [Tan05].

50

Chapitre 2

Techniques de dtection et de reconnaissance de visages

la diffrence d'autres mthodes comme lACP, cette reprsentation est intuitivement


comprhensible. En effet, chaque lment d'un SOM-VISAGE a une signification
physique donne par le vecteur de poids stock dans le nud correspondant de la carte
SOM, qui peut tre interprt comme une pice (patch) faciale locale dans l'espace
d'entre.
2.3.2.2.3

Les Modles de Markov Cach modulaire

Les mthodes mentionnes ci-dessus ne considrent pas explicitement le rapport entre les
caractristiques locales. Une autre faon intressante d'incorporer des informations
globales est la mthode base sur les Modles de Markov Cach (MMC). Plutt que de
traiter limage de visage comme un graphe topologique statique o les caractristiques
locales reprsentent les nuds, la mthode base sur les MMC caractrise le modle de
visage comme un processus alatoire dynamique avec un ensemble de paramtres.
Samaria et al. [Sam93] ont illustr l'utilit des techniques MMC dans l'identification de
visages. Dans leur mthode, un modle de visage est divis en cinq rgions qui se
chevauchent, incluant le front, les yeux, le nez, la bouche et le menton. La technique MMC
est introduite en considrant chaque rgion comme un tat cach d'un modle MMC. Un
modle de visage est alors considr comme une squence d'observation constitue de cinq
tats, dont chacun peut tre modlis par une distribution gaussienne multi-variables, et les
transitions probabilistes entre les tats peuvent tre apprises partir des frontires entre les
rgions. Aprs que le MMC soit entran, un visage peut tre reconnu en calculant la
probabilit de sortie de son ordre d'observation. Linconvnient de cette mthode est
quelle est trop exigeante en termes dchantillons dapprentissage afin dassurer la
fiabilit de lestimation des paramtres.
Le et al. [Le04] ont prsent une mthode pour rendre la technique MMC applicable dans
le cas dun exemple dapprentissage. Deux facteurs ont contribu la faisabilit et
l'efficacit de leur mthode. D'abord, ils ont produit une grande collection de vecteurs
d'observation de chaque image, dans les deux directions verticale et horizontale,
agrandissant ainsi lensemble dapprentissage. Deuximement, l'Ondelette de Haar a t
applique l'image pour diminuer la dimension des vecteurs d'observation et amliorer la
robustesse. Leurs rsultats exprimentaux valus sur la base de donnes de visage frontal

51

Chapitre 2

Techniques de dtection et de reconnaissance de visages

.AR. montrent que la mthode propose surpasse les approches PCA, LDA et l'analyse de
caractristiques locales (LFA local feature analysis [Pen96]).

2.3.2.3 Discussion
Nous avons pass en revue les mthodes locales traitant le problme de la reconnaissance
de visages dans le cas dun seul exemple dapprentissage. Nous les avons classifi en deux
catgories principales : les mthodes base de caractristiques et les mthodes bases sur
lapparence locale. En ralit, ces deux catgories ne sont pas si diffrentes car les rgions
locales sont constitues dun ensemble de pixels parmi lesquels des points caractristiques
intressants peuvent tre dtects.
Bien que les mthodes locales aient prouv leur efficacit dans le cas dun seul exemple
dapprentissage, plusieurs problmes restent toujours non rsolus, comme par exemple le
choix des caractristiques locales qui nest pas du tout vident. De plus, les mthodes
locales sont robustes uniquement vis--vis dun nombre restreint de facteurs de variations.
Ainsi, la mthode EGBM est robuste certains changements d'expression, d'illumination et
de pose, mais pas aux occultations ; en revanche la mthode probabiliste locale et la
mthode SOM-Face sont robustes aux variations d'expression et aux occultations, mais pas
vis--vis des changements de pose. Une voie possible pour amliorer la robustesse d'un
systme de reconnaissance de visages peut rsider dans les mthodes hybrides qui
combinent diffrentes techniques de reconnaissance.

2.3.3 Mthodes Hybrides


Les mthodes hybrides sont des approches qui combinent les caractristiques holistiques et
locales afin damliorer les performances de la reconnaissance de visages. En effet, les
caractristiques locales et les caractristiques globales ont des proprits tout fait
diffrentes. On peut esprer pouvoir exploiter leur complmentarit pour amliorer la
classification. Le tableau 2.2 rcapitule qualitativement la diffrence entre les deux types
de caractristiques [Tan06].

52

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Facteurs de variations

Caractristiques locales Caractristiques globales

Illuminations [Hal99]

Trs sensible

Sensible

Expressions [Mar02][Tan05]

Pas sensible

Sensible

Pose [Hei01]

Sensible

Trs sensible

Bruit [Cos02]

Trs sensible

Sensible

Occlusion [Mar02][Tan05]

Pas sensible

Trs sensible

Tableau 2. 3. Comparaison des mthodes bases sur les caractristiques locales ou globales.

Nous pouvons voir que les caractristiques locales et globales ragissant diffremment
sensibles aux facteurs de variation. Par exemple, les changements d'illumination peuvent
avoir plus d'influence sur les caractristiques locales, tandis que les changements
d'expression ont plus d'impact sur les caractristiques holistiques. Ainsi, les mthodes
hybrides peuvent constituer une approche efficace pour rduire la complexit des
classifieurs et amliorer leur capacit de gnralisation. Malgr ces avantages, les travaux
de recherche dans ce domaine restent relativement peu nombreux, probablement en raison
des difficults mentionnes ci-dessus, tandis que les mthodes hybrides classiques (c'est-dire qui utilisent plusieurs exemples dapprentissage par personne), comme les modles
d'apparence flexibles [Lan95] ou le LFA hybride [Pen96], ne sont pas gnralement
appropries pour traiter le cas dun seul exemple dapprentissage.

2.3.3.1 Les Modles Actifs dApparence


[Lan95] a utilis la mthode dite Modle Actif dApparence (MAA) pour la
reconnaissance de visages. Le MAA prsent par [Coo01] constitue un outil dextraction
des caractristiques (signatures) reprsentant, la fois, la forme et la texture des visages.
La base dapprentissage de 400 images est annote trs prcisment et manuellement par
68 points caractristiques pour modliser la forme du visage. Approximativement 10,000
exemples de rgions faciales ont t utiliss. Le processus de classification est illustr par
la figure 2.7.

53

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Reprsentation
shape-free

Paramtre de
texture
Classification

Image
Ajustement du
originale. modle de forme

Forme du
visage

Paramtre de
forme

Figure 2. 9. Processus de reconnaissance de visages bas sur les Modles Actifs dApparence
[Lan95].

Chaque exemple est reprsent par un vecteur de forme x contenant les caractristiques du
visage. partir des vecteurs de forme de la base dapprentissage, une ACP est applique
afin dextraire les modes de variations principaux du vecteur de forme x, qui peuvent
ensuite tre estim par le vecteur x , tel que :

x # x - Pf b f

(2.16)

O x est la forme moyenne de la base dapprentissage. Le vecteur b f # PfT x correspond


la projection de x dans Pf , et constitue le vecteur des paramtres de forme. Les textures
des visages (valeurs des pixels en niveaux de gris) sont alors normalises au sens de leur
forme. On obtient un visage dit shape-free. Les textures sont dformes selon la forme
moyenne ( laide dun algorithme de triangulation par exemple). Pour chaque visage, on
obtient ainsi un vecteur de texture g, indpendant de la forme de visage. Une ACP est
appliqu sur ces vecteurs de texture. De mme, le vecteur g peut donc tre approxim par :

g # g - Pg bg

(1.17)

O bg est le vecteur de paramtres de texture associ au visage. Chaque image est donc
caractrise par ses vecteurs bf et bg, qui sont corrls. Afin de les dcolrer, on concatne
les vecteurs obtenus. On obtient alors le modle combin suivant :

x # x - Qf c

(2.18)

g # g - Qg c

(2.19)

54

Chapitre 2

Techniques de dtection et de reconnaissance de visages

O c est le vecteur dapparence contrlant la fois la forme et la texture du modle, et Qf


et Qg sont respectivement les matrices de projection de c dans les espaces de variations de
forme et de texture.
Pour un vecteur de paramtre c fix, on peut synthtiser limage de visage associe. Pour
cela, on gnre le visage shape-free correspondant, puis on procde sa dformation en
utilisant les points de contrle du vecteur x. Lorsquun visage requte doit tre reconnu, le
but est de dterminer le paramtre c optimal. Il sagit de la valeur c minimisant lerreur
entre limage originale et limage synthtise. Cette technique pressente le dsavantage de
reposer sur une procdure doptimisation coteuse, instable, instable et dpendant de
nombreux paramtres.
Enfin, nous pouvons noter que, d'un certain point de vue, les mthodes locales peuvent tre
considres comme des mthodes hybrides, puisque les informations globales sont utilises
d'une faon indirecte dans l'algorithme de reconnaissance. Dans la mthode probabiliste
locale [Mar02], par exemple, de nouveaux exemples dapprentissage pour chaque personne
sont d'abord produits avec la mthode holistique, la mthode locale est ensuite utilise pour
lidentification.
Dans le tableau (2.3) rsume les performances des diffrentes mthodes utilisant un seule
exemple pour lapprentissage.
Mthodes
(PC)2A [Wu02]
ACP2D [Yan04]
ACP Discriminant [Wan05]
ADLF modulaire [Che04]
Probabiliste Locales
modulaire
[Mar02]
--SOMface [Tan05]
---1D-DHMM [Le04]

Base de
donnes
FERET
AR
FERET
FERET
AR
AR

Nbr
personnes
200
100
256
200
200
100

Nbr
images
200
600
914
200
200
400

83.5
74.8
72
86.5
82.3
71

N/A
Expression
Expression
Expression

AR
AR
AR

100
100
120

600
400
1440

93.7
76
89.8

Expression
Occlusion
Expression,
Illumination

FERET

1196

1196

95%

Expression,
Illumination

EBGM [Wis97]

RR (%)

Variations

Occlusion

Tableau 2. 4. Comparaison des performances des mthodes utilisant un seule exemple pour
lapprentissage

55

Chapitre 2

Techniques de dtection et de reconnaissance de visages

2.4 Techniques 3D de reconnaissance de visages


Nous avons pass en revue les mthodes de reconnaissance 2D de visages. Malgr les
avances ralises ces dernires annes, les techniques de reconnaissance 2D de visages
robustes aux diffrents facteurs de variabilit (clairage, pose, occultation) sont loin dtre
dveloppes. La reconnaissance 3D de visages constitue une alternative prometteuse pour
surmonter ces problmes, surtout depuis lapparition de dispositifs dacquisition 3D
performant. L'avantage principal des approches bases modle 3D rside dans le fait que le
modle 3D conserve toutes les informations sur la gomtrie de visage, ce qui permet
davoir une reprsentation relle de ce dernier. Dans cette section, aprs avoir rapidement
voqu les systmes dacquisition 3D, nous prsenterons les travaux rcents sur la
reconnaissance 3D de visages.

2.4.1 Systmes dacquisition 3D


Gnralement le modle du visage est reprsent par des images 2.5D et 3D (voir figure
2.8). Limage 2.5D (image de profondeur) correspond une reprsentation
bidimensionnelle dun ensemble de points 3D (x,y,z) o chaque pixel dans le plan X-Y
stocke la valeur de sa profondeur z. On peut assimiler une image 2.5D une image en
niveau de gris o les pixels noirs correspondent au fond tandis que les pixels blancs
reprsentent les points de surface les plus proches de la camra. Par ailleurs, la mthode la
plus simple pour reprsenter un visage 3D est le maillage polygonal 3D, ce dernier
correspond une liste de points connects par des artes (polygones). Il existe plusieurs
techniques pour construire un maillage 3D, les plus utilises combinent des images 2.5D
ou bien exploitent des systmes dacquisition 3D tel que le scanner 3D.

Figure 2. 10. (a) Image texture (b) Image 2.5D (c) Image 3D

56

Chapitre 2

Techniques de dtection et de reconnaissance de visages

Diffrents systmes dacquisition sont utiliss pour la reconstruction 3D de visages


[Bou06]. Ces derniers peuvent tre dcomposs, en fonction des capteurs de vision qu'ils
utilisent, en deux grandes classes : la vision dite active et la vision dite passive.
! Nous appelons vision active tout systme de vision utilisant un capteur actif qui

permet d'illuminer les objets de la scne d'une manire particulire en projetant sur
leur surface des motifs structurs (un spot, un plan lumineux, une grille, etc.), ceci
permet den extraire des informations 3D indpendamment des conditions propres
d'clairage de la scne. Ainsi, l'objectif de la vision active est de rduire la
complexit des traitements effectuer pour reconstruire la scne. En effet, les
motifs projets sur la scne sont facilement identifiables [Hu89] linverse des
primitives naturelles tel que les contours. Le scanner 3D, par exemple, est un
systme de vision active en lumire structure qui est capable de scanner les formes
3D via un laser et les textures (couleur de la peau) via une camra simultanment.
! En Vision passive, la vision binoculaire ou vision stroscopique (utilisation de

deux camras fixes). La vision stroscopique sera a dtaille au chapitre 5.


Les techniques de reconnaissance 3D de visages peuvent tre regroupes en trois
catgories principales : approches bases modle, approches 3D, et approches
multimodales 2D + 3D.

2.4.2 Approches modle


Ces approches construisent, partir des points 3D, des modles de visages quelles
utilisent par la suite pour la reconnaissance. Blanz et al.[Bla03] [Bla02] ont propos une
mthode base sur un modle 3D morphable du visage. Lensemble des visages est
reprsent par un espace vectoriel [Vet97]. La base de donnes contient 100 visages
dhommes et 100 visages de femmes acquis avec un scanner laser CyberwareTM 3030PS.
Les points 3D des modles de visages gnrs sont reprsents par leurs coordonnes
cylindriques dfinies par rapport un axe vertical. Pour chaque visage de rfrence, les
coordonnes et les valeurs de texture de tous les sommets (n = 75 972) sont regroupes
pour former deux vecteurs : un vecteur de forme et un vecteur de texture. Une fois le
modle gnrique cr, ltape suivante consiste lajuster sur limage 2D partir des
paramtres de forme et de texture. La synthse d'image permet de rendre les nouvelles
positions projetes des sommets du modle 3D, laide l'illumination et la couleur

57

Chapitre 2

Techniques de dtection et de reconnaissance de visages

extraites. Enfin, ltape de reconnaissance est ralise en mesurant la distance de


Mahalanobis [Dud01] entre la forme et les paramtres de texture des modles dans la
galerie et le modle d'ajustement. L'identification a t value sur deux bases de donnes
dimages accs libre : CMU-PIE [Sim03] et FERET [Phi00]. Un taux de reconnaissance
de 95 % sur l'ensemble de donnes CMU-PIE et 95.9 % sur l'ensemble de donnes FERET
a t obtenu.

2.4.3 Approches 3D
Elles sont subdivises en deux catgories : les approches bases surface qui utilisent la
gomtrie de la surface du visage et les approches holistiques 3D.

2.4.3.1 Approches surface


Dans ce cas, le problme de la reconnaissance 3D de visages est celui de lalignement de
deux surfaces 3D qui modlisent les deux visages apparier. Lalgorithme gnralement
utilis est lalgorithme du plus proche voisin itr, ou ICP (Iterative Closest Point), qui a
t introduit par [Bes92]. Il consiste en une optimisation alterne d'appariements et de
transformations. Ainsi, partir d'une transformation initiale, les deux tapes suivantes sont
ritres :
! mise en correspondance (plus proche voisin) : on apparie chaque primitive du

modle transform avec la primitive la plus proche dans la scne.


! recalage : la transformation (translation + rotation) est gnralement calcule aux

sens des moindres carrs, surtout si l'on travaille avec des points. Si l'on possde
une information d'incertitude, on peut l'utiliser dans les tapes terminales pour
affiner la solution.
Une approche base sur l'algorithme ICP est donne par Cook et al [Coo04]. Ils utilisent
l'algorithme ICP pour tablir la correspondance entre les surfaces 3D afin de compenser
des erreurs dues la nature non rigide des visages. En effet, les visages sont compars en
employant un modle statistique, en loccurrence un Mlange de Modles Gaussiens
(MMG). La distribution des erreurs est alors paramtre. Les auteurs ont ralis des
expriences sur la base de donnes 3D RMA [Beu00], une base cre au sein du Signal and

Image Center du Royal Military Academy (Bruxelles - Belgique). Un dispositif de vision


active (structured light-based) est utilis pour l'acquisition. Cette base contient les images

58

Chapitre 2

Techniques de dtection et de reconnaissance de visages

de 120 individus, captures en deux sessions, sous formes de points 3D non maills. Un
taux d'identification de 97.33% a t obtenu. Irfanoglu et al. [Irf04] proposent une autre
approche qui utilise lalgorithme ICP pour mettre en correspondance les points
caractristiques de visages. Ils ont dvelopp une mthode pour obtenir un appariement
dense de points du maillage contenant les points prsents sur tous les visages, de sorte que
l'alignement de visage soit trivialement obtenu. Une fois que lappariement dense est
tabli, la distance PSD Point Set Distance, qui reprsente une approximation discrte du
volume entre les surfaces faciales, est employe pour calculer la distance entre deux
nuages diffrents de points. Dans leur exprimentation, les auteurs ont test l'algorithme
sur la base de donnes 3D RMA, ils ont relev un taux d'identification de 96,66%.
Quoique l'ICP soit un outil puissant pour valuer la similitude entre deux visages, les
mthodes bases ICP ne sont pas capables de traiter le problme de changement
d'expression, car elles considrent le visage 3D comme un objet rigide, ce qui nest pas le
cas dans la ralit. Pour rsoudre ce problme, plusieurs approches ont t dveloppes.
Moreno et al. [Mor03] proposent de segmenter le visage en plusieurs rgions en utilisant la
courbure gaussienne. Ainsi, chaque modle facial 3D est subdivis en 86 rgions
diffrentes grce un algorithme de segmentation qui exploite les signes de la mdiane et
des courbures gaussiennes pour isoler les rgions ayant des courbures significatives. Cet
espace de caractristiques est ensuite rduit pour augmenter l'efficacit de la mthode.
Enfin, un vecteur de caractristiques est cr pour chaque sujet. Les exprimentations ont
t menes sur un ensemble de 420 modles 3D de visages appartenant 60 sujets,
comprenant des images avec des variations de lumire, de rotation et d'expressions de
visages. Les auteurs ont obtenu un taux de reconnaissance de 78 %.
Le processus de segmentation peut aussi tre utilis pour traiter la reconnaissance de
visage comme un problme de reconnaissance d'objets non rigides, et ainsi amliorer la
robustesse de la reconnaissance face aux variations d'expressions. Chua et al. [Chu00] ont
remarqu que des rgions du visage, comme le nez, l'orbite de lil et le front subissent
beaucoup moins les dformations en cas de changements d'expressions. Ils identifient les
rgions faciales "rigides" en utilisant une comparaison "deux par deux" entre les signatures
de points [Chu97] pour diffrentes expressions de visage de la mme personne. Ainsi,
seulement les parties rigides sont stockes dans une base de donnes indexe. Les modles
de la base sont classs en fonction de leur similitude. Leur exprimentation a montr un

59

Chapitre 2

Techniques de dtection et de reconnaissance de visages

taux de reconnaissance de 100 % sur une base de donnes de 60 sujets et 4 variations


d'expressions de visage. Enfin, [Ben06] propose d'introduire une nouvelle mtrique
oriente rgion dans l'algorithme de lICP. Il sagit de segmenter un visage en plusieurs
rgions ayant des influences plus ou moins importantes sur la dformation de la forme 3D
du visage. Le calcul de la distance (similarit) est pondr en fonction de ces rgions en
donnant plus de poids aux rgions statiques qu'aux rgions mimiques du visage. Un taux de
reconnaissance de 97.56 % a t obtenu.

2.4.3.2 Approches holistiques 3D


Les techniques holistiques comme lACP ont t largement utilises dans la
reconnaissance faciale 2D. Plus rcemment, ces techniques ont t aussi tendues aux
donnes 3D de visage. Ainsi, Hesher et al. [Hes03] ont appliqu lACP sur une base de
donnes contenant 222 images de profondeur (37 personnes), avec six expressions faciales
diffrentes. Ils ont obtenu un taux de reconnaissance de 83%. Heseltine et al. [Hes04a]
[Hes04b] ont dvelopp deux approches qui appliquent lACP sur des reprsentations
tridimensionnelles du visage. La premire mthode [Hes04a] utilise lapproche base ACP
eigensurface sur des modles 3D maills de visage de la base de donnes de
lUniversit de York (The 3D Face Database, 2003). Elle arrive un taux de
reconnaissance de 87%. La deuxime approche est une extension de la mthode Ficherface
2D de Belhumeur [Bel97] aux donnes surfaciques de visage 3D. Les tests ont t
effectus sur une base de donnes contenant 1770 modles 3D maills de 280 sujets ayant
diffrentes poses et expressions faciales. Le taux de reconnaissance obtenu est de 88%.
Les techniques bases ACP ont galement t combines avec dautres mthodes de
classification, comme le modle cach de Markov (EHMM) puis appliques la
reconnaissance 3D de visages [Tsa04]. Enfin, dautres approches bases sur lAnalyse
Discriminante Linaire [Gok05] ou lAnalyse des Composantes Indpendantes [Kim03]
ont aussi t dveloppes pour l'analyse des donnes 3D de visages.

2.4.3.3 Approche gomtrique ou locale 3D


Par rapport aux approches holistiques , les techniques d'identification 3D du visage
bases sur les caractristiques faciales locales de type gomtriques restent relativement
peu dveloppes, alors que dans le mme temps des approches locales d'identification 2D,

60

Chapitre 2

Techniques de dtection et de reconnaissance de visages

telles que l Elastic Bunch Graph Matching (EBGM) [Wis97] et lanalyse locale de
caractristiques, connaissent un grand succs auprs des fournisseurs de donnes
(Recognition Vendors Test 2002 [Phi03]).Par ailleurs, les combinaisons des techniques de
reconnaissance 2D et 3D sont de plus en plus tudies. Ainsi la combinaison des approches
EBGM 2D et EBGM 3D (qui correspond une extension de la mthode EBGM 2D aux
images de profondeur de visage) a donne lieu une technique d'identification du visage
2D+3D trs efficace value sur la base FRGC [Hus05]. Cependant, lvaluation de cette
approche hybride a dmontr que les performances du EBGM 2D surpassent de manire
significative celles du EBGM 3D. Elle a aussi mis en avant le besoin de comprendre et
dutiliser les proprits discriminantes des caractristiques locales du visage afin de
concevoir des techniques efficaces de reconnaissance 3D de visage.
Dans [Lee05] les auteurs proposent un systme de reconnaissance de visage 3D utilisant
deux dispositifs diffrents dacquisition de donnes 3D : un scanner laser 3D et une
lumire structure. A partir des mesures 3D, huit points caractristiques du visage
(gomtriquement invariables) sont extraits puis utiliss pour calculer un vecteur
caractristique comprenant les distances et les angles entre ces points. Pour la phase de
reconnaissance, les auteurs ont implment deux algorithmes diffrents : le premier bas
profondeur (depth-based DP) et le second utilise les SVM (feature-based SVM). Les
rsultats exprimentaux (sur une base de 20 personnes) ont donn un taux de
reconnaissance de 95% pour la DP et de 96% pour la SVM.

2.4.4 Approches 3D+2D


Il sagit de techniques qui combinent des donnes 2D et 3D sur le visage pour amliorer les
performances et la robustesse de la reconnaissance. Rcemment, plusieurs approches
bases sur ce principe ont t dveloppes. Bronstein et al. [Bro03] ont propos une
mthode qui considre le visage comme une surface isomtrique. Ils se sont inspirs des
travaux de Schwart et al. [Sch89], les premiers employer la graduation
multidimensionnelle (MDS) pour projeter des surfaces corticales du cerveau sur un plan.
Zigelman et al. [Zig02] et Grossman et al. [Gro02] ont appliqu ce principe aux problmes
de mapping de texture et de l'aplatissement flatting de cortex bas sur les voxels. Une
gnralisation de cette approche pour l'identification d'objet a t prsente dans les
travaux d'Elad et de Kimmel [Ela01]. Ils ont dvelopp un algorithme efficace pour

61

Chapitre 2

Techniques de dtection et de reconnaissance de visages

construire une signature pour les surfaces isomtriques. Cette mthode est dsigne sous le
nom des formes canoniques bending-invariables . Elle calcule des distances
godsiques entre les points prlevs sur la surface faciale. En plus de limage 2D de
texture, les auteurs ont utilis une lumire structure pour acqurir des images de
profondeur (gomtrie) des visages. Limage est convertie en une surface triangule
(maillage triangulaire) puis lisse en utilisant les splines. La taille de la surface est ensuite
rduite approximativement 2000-2500 sommets. Enfin, la forme canonique bendinginvariable du visage est calcule puis aligne en utilisant la mthode dcrite dans [Bro03].
Les auteurs appliquent la technique eigenforms sur les vecteurs canoniques pour la
reconnaissance de visage. Cette mthode a t test sur une base de donnes contenant 220
images de 30 personnes (27 vraies personnes et 3 mannequins) ; un taux d'identification de
100 % est rapport.
Chang et al. [Cha03] ont men une tude exprimentale pousse qui leur a permis de
comparer et de combiner des donnes 2D et 3D pour la reconnaissance faciale. Un total de
275 sujets a t sollicit pour l'acquisition des visages. Les sujets ont t scanns l'aide
d'un scanner laser "Minolta Vivid 900" qui permet d'obtenir des images d'intensit 2D et de
profondeur 3D. Il est clair que durant le processus de dcision, certaines mtriques sont
plus ou moins appropries une modalit donne. Dans leur exprimentation, les auteurs
ont utilis la distance de Mahalanobis pour raliser la mise en correspondance (matching).
La mtrique utilise pour la fusion de donnes combine les distances dappariements
trouves sparment dans chaque espace. Il existe plusieurs mthodes pour combiner des
mtriques diffrentes afin d'obtenir la meilleure rgle de dcision, telle que la somme, la
multiplication, le minimum, la moyenne, etc.
La dcision multi-modale dveloppe par les auteurs peut tre rsume comme suit : dans
un premier temps, les images d'entre 2D (2D probe) et 3D sont apparies avec les images
des galeries 2D et 3D respectivement. Ceci permet d'obtenir deux ensembles de N
distances dans deux espaces diffrents, l'espace facial 2D et l'espace facial 3D. N est la
taille de la galerie d'images. Les distances 2D et 3D sont additionnes, et limage qui
donne la plus petite somme est slectionne. Plusieurs tests ont t mens pour valuer
cette mthode. Une premire exprimentation utilise des images anciennes des diffrents
sujets. Une autre exprience emploie un ensemble plus grand constitu de 676 images de
test prises lors de diffrentes sessions dacquisition espaces dans le temps. Le taux

62

Chapitre 2

Techniques de dtection et de reconnaissance de visages

didentification obtenu pour les deux expriences est approximativement gal : 99% pour
lapproche multi-modale 3D + 2D, 94% pour lapproche 3D seule, et 89% pour lapproche
2D seule. Le rsultat de lapproche multi-modale est obtenu en utilisant une somme
pondre des distances dans les espaces de visage 3D et 2D. Cette tude a dmontr, grce
l'utilisation de l'ACP sur les images 2D et 3D, que les donnes faciales 3D fournissent
des performances biomtriques bien meilleures que les donnes faciales 2D. Par ailleurs,
les auteurs ont dmontr aussi que la combinaison des donnes faciales 2D et 3D permet
d'augmenter d'une manire significative les performances de la reconnaissance.
Dans [Wan02] les auteurs ont dvelopp une approche 2D+3D combinant deux mthodes
de localisation. Une mthode qui utilise un filtre de Gabor [Wis97] pour localiser les points
dintrt 2D, et une deuxime mthode qui utilise lalgorithme de [Chu97] pour extraire les
points de signature 3D (voir figure 2.9).

Figure 2. 11. Choix de dix points : points 2D marqus par le " " et points 3D marqus par ""
[Wan02].

Les points 3D et les points de texture 2D ainsi obtenus sont projets chacun dans leur
propre sous-espace, en utilisant lACP, pour gnrer respectivement des vecteurs de forme
et de texture. Ces vecteurs sont regroups en un seul vecteur qui est normalis afin de
reprsenter limage faciale. Le processus didentification est bas sur une fonction de
similitude utilisant la mthode SVM. Les exprimentations, faisant participer 50 personnes
ayant des expressions faciales diffrentes pour des points de vue diffrents, ont dmontr
lefficacit de lalgorithme. Un taux reconnaissance de 90 % a t obtenu.

2.4.5 Conclusion
Dans ce chapitre, nous avons pass en revue les principales techniques de dtection et de
reconnaissance de visages. Le problme nest pas du mme niveau de complexit selon que
lon cherche dtecter un visage dans une image qui en contient un seul de taille peu
prs connue, ou que lon se place dans loptique dune dtection de multiples visages de

63

Chapitre 2

Techniques de dtection et de reconnaissance de visages

tailles variables. Dans le cadre de ce travail nous nous limiterons la dtection dun visage
unique dans une image, contexte du projet IV et les conclusions que nous exposons se
situent dans cette optique. Parmi les diffrentes caractristiques invariantes du visage
utilises pour la dtection, la couleur de la peau parat parmi les plus prometteuses. En
effet, les mthodes bases sur la couleur de la peau sont robustes aux occultations ainsi
quaux variations de la pose, de lchelle, et de lexpression. Ces mthodes restent
cependant peu robustes au changement dclairage. Toutefois, comme il est mentionn
dans [Kak06], des techniques comme le classifieur de Bayes ou bien les rseaux de
neurones peuvent conduire des performances satisfaisantes lorsquelles sont appliques
sur des bases de donnes de petites tailles. Nous avons montr que des approches qui
utilisent des prtraitements pralables, comme par exemples la correction de couleur
color constanty , permettent damliorer les performances de la dtection et constituent
une solution intressante au problme de lillumination. Dans le cadre de cette thse, nous
proposons une approche de dtection de visage base sur une segmentation couleur
adaptative qui traite le problme de lillumination.
Par ailleurs, nous avons classifi les techniques de reconnaissance 2D de visages en trois
grandes catgories : les approches globales, les approches locales et les approches
hybrides. Nous avons soulign que lACP permet de raliser un processus de
reconnaissance mme si lon ne possde quune seule image dune personne, ce qui nest
pas possible avec des mthodes telles que lanalyse discriminante linaire ou les Support
Vector Machine . Toutefois, nous avons soulev la difficult de lACP, et de ses
diffrentes extensions, grer les occultations et les variations de poses, dillumination et
dexpressions. Les approches locales ont prouv leur efficacit dans le cas dun seul
exemple dapprentissage, mais elles souffrent dun manque de robustesse (la mthode
EGBM, par exemple, nest pas robuste face aux occultations). Enfin, les approches
hybrides semblent intressantes pour rsoudre le problme de la robustesse, cependant
elles ne sont pas appropries pour linstant pour traiter le cas dun seul exemple
dapprentissage (tel que les modles d'apparence flexibles [Lan95] ou le LFA hybride
[Pen96]).
La reconnaissance 3D de visages constitue une alternative prometteuse pour rsoudre les
problmes de robustesse que connat la reconnaissance 2D. Cependant, elle na pas encore
atteint une certaine maturit, cause notamment de la lourdeur du processus dacquisition,

64

Chapitre 2

Techniques de dtection et de reconnaissance de visages

et de la non-disponibilit de grandes bases de donnes de visages 3D, accs libre, afin de


tester et dvaluer les techniques labores. Les approches de reconnaissance 3D de visage
dveloppes jusqu prsents sont soit des extensions dapproches 2D, comme lACP qui
en outre donne des rsultats plus prcis en 2D qu'en 3D, soit des adaptations dapproches
3D de reconnaissance de formes rigides, tel que lICP qui donnent des taux d'identification
plus intressants, mais dont linconvnient majeur reste linitialisation du recalage des
surfaces faciales. Par ailleurs, les algorithmes de reconnaissance 3D de visage bass sur les
caractristiques faciales locales ne sont pas fonds sur aucune tude de la structure du
visage. Les points dintrt du visage sont plutt choisis arbitrairement [Mor03, Lee05,
Wan02] ou bien correspondent une extension de caractristiques locales 2D [Hus05]. En
comparaison avec les images faciales 2D qui donnent des informations sur la texture
faciale, les modles faciaux 3D fournissent des informations riches sur la structure mme
du visage, ce qui rend le problme de reconnaissance 3D de visage fondamentalement
diffrent de celui de la reconnaissance 2D.
Enfin, nous avons soulign lavantage des techniques multi modales qui combinent des
donnes 2D et 3D de visages pour amliorer les performances et la robustesse de la
reconnaissance. Nous avons prsent quelques travaux qui ont clairement rapport des taux
de reconnaissance nettement suprieurs ceux des techniques de reconnaissance 2D et 3D
isoles.
Dans la suite de ce travail nous allons prsenter les tudes que nous avons faites dans le
cadre de la vrification didentit. Dans ce contexte suite aux travaux que nous avons
prsent dans ce chapitre 2, nous avons dcid dutiliser une stratgie de reconnaissance
base sur la combinaison 2D/3D. Dans le chapitre 4 nous dtaillerons le traitement ralis
permettant dextraire un visage, puis des rgions de

ce visage travers une

implmentation de lalgorithme de Ligne de Partage des Eaux sur des images couleur.
Dans le chapitre 5, nous mettons en avant lintrt de lACP modulaire sur les images 2D,
puis nous proposons une mthode de vrification didentit partir de donnes 3D, enfin
nous explorerons les possibilits de combinaison de ces deux types dinformation. Mais
avant nous allons prsenter les donnes utilises pour nos valuations. Cest ce qui fera
lobjet du chapitre 3.

65

Chapitre 3

Bases de donnes utilises

Chapitre 3
Bases de donnes utilises
3.1 Gnralit sur les bases de donnes existantes
Plusieurs bases de donnes contenant des informations qui permettent lvaluation des
systmes de reconnaissance de visages sont disponibles sur le march. Toutefois, ces bases de
donnes sont gnralement adaptes aux besoins de quelques algorithmes spcifiques de
reconnaissance. Le tableau (3.1) rcapitule les principales caractristiques de ces bases [Li05].
Il rsume, pour chacune delle, les conditions dacquisition des images de visages
(changements dillumination, de pose, dexpression faciale), la disponibilit ou non des
donnes 3D et aussi nombre de sessions dacquisition. Par ailleurs, plusieurs protocoles
exprimentaux ont t labors afin dvaluer le nombre important dalgorithmes de
reconnaissance proposs ces dernires annes. Des efforts particuliers de standardisation ont
t aussi dploys pour dfinir des protocoles dvaluation standardiss. Ainsi, la srie
dvaluations FERET [Phi89b] menes par le National Institue of Standards and
Technologie (NIST) a permis la comparaison entre neuf systmes de reconnaissance de
visages proposs par des institutions et des entreprises dans le contexte de lidentification et de
la vrification. Dautres valuations ont t effectues par la suite, notamment celles du Face
Recognition Vendor Test (FRVT) [Phi03].

66

Chapitre 3

Base

Bases de donnes utilises

de Nombre de Pose

Illumination

Facial

Temps

Expression

Donnes

donnes

personnes

3D

AR

116

non

BANCA

208

++

12

non

CAS-PEAL

66-1040

21

9-15

non

CMU Hyper

54

1-5

non

CMU PIE

68

13

43

non

Equinox IR

91

non

FERET

1199

9-20

non

Havard RL

10

77-84

non

KFDB

1000

16

non

MIT

15

non

MPI

200

oui

NDHID

300

10/13

oui

NIST MID

1573

--

non

ORL

10

--

--

--

non

UMIST

20

--

--

non

U.Texas

284

--

--

non

U.Oulu

125

16

non

XM2VTS

295

--

--

oui

Yale

15

non

Yale B

10

64

non

Tableau 3.1. Principales caractristiques des bases de visages. Le tableau contient le nombre de
personnes enregistr, le nombre de vues sous des poses et conditions dillumination diffrentes, ainsi
que le nombre de sessions au cours desquelles des vues dune mme personne ont pu tre collectes.
Les cas o lun des lments na pas t mesur, ou tait non contrl durant la prise de vue, est not
"--".

67

Chapitre 3

Bases de donnes utilises

En parallle, les protocoles dvaluation XM2VTS ont essentiellement t introduits pour


lvaluation des algorithmes multimodaux (voix, visage) et 3D, et ceci pour lauthentification
uniquement. Rcemment, le NIST a publi les rsultats du Face Recognition Grand
Challenge [FRGC02] (Le grand dfi de la reconnaissance faciale), un concours ouvert aux
chercheurs qui se composait dune double preuve, le FRVT 2006 [Phi07] (Face Recognition
Vendor Test, le test des fournisseurs de programmes de reconnaissance faciale) et le ICE (Iris
Challenge Evaluation, le dfi de liris).
Dans ce qui suit nous allons prsenter en dtails deux bases de donnes utilises dans le cadre
notre thse, savoir la base XM2VTS [Mes99] et la nouvelle base IV2. Nous prsenterons
aussi le protocole dvaluation de la phase 1 de dveloppement de IV2 [IV2].

3.2 La base XM2VTS [Mes99]


Cest une base multimodale dveloppe au sein du projet europen ACTS, elle contient des
images fixes, des squences vido et des images faciales 3D de 295 personnes. Elle est utilise
pour la vrification d'identit. La base de donnes XM2VTS a t ralise sur une longue
priode ce qui a permis dobtenir plusieurs images dune mme personnes et donc une grande
variabilit d'apparence (changement de coiffure, prsence et/ou absence de lunettes, etc). Par
contre, seules les expressions neutres ont t considres.
La base de donnes XM2VTS contient 4 sessions. Une session "parole" o les personnes
regardent vers le bas en lisant une phrase phontiquement quilibre. Une image de visage
avec une bouche ferme a t choisie. Deux sessions avec et sans lunettes ont t acquises
pour des sujets qui portent rgulirement des lunettes. La quatrime session correspond une
acquisition 3D de visages.
Pour la tche de vrification, un protocole standard destimation de performances a t
dvelopp. Appel Lausanne protocol splits randomly, il consiste sparer les individus en
deux classes, client et imposteur. Le groupe client contient 200 sujets, alors que le groupe
imposteur est divis en 25 imposteurs pour l'valuation et 70 imposteurs pour le test. Huit
images des quatre sessions sont utilises.
La base de donnes est divise en trois ensembles : apprentissage, valuation et test.
Lensemble apprentissage permet de construire les modles de clients. Lensemble test est

68

Chapitre 3

Bases de donnes utilises

utilis pour calculer les scores des clients et des imposteurs. En fonction de ces scores, un seuil
est choisi afin de dterminer si une personne est accepte ou non. D'aprs le protocole de
Lausanne le seuil est choisi telle manire ce que lensemble de test satisfasse certains
niveaux de performances. Finalement l'ensemble test est slectionn pour simuler un scnario
dauthentification rel o l'identit de limposteur est inconnue au systme. Enfin, l'ensemble
valuation est aussi utilis pour les expriences de fusion pour lapprentissage.
Nous avons utilise la base XM2VTS pour valuer notre approche dextraction du visage et
de ses caractristiques.

Figure 3. 1. Exemple dimages extraites de la base XM2VTS.

3.3 La base IV2 [IV2]


La base de donnes IV2 a t dveloppe dans le cadre du programme national TechnoVision,
cofinanc par les ministres de la recherche et de la dfense, lanc en 2004. Cette base
contient des donnes intressantes pour valuer diffrents types dalgorithmes, notamment sur
: la vrification par liris, par le visage 2D et 3D et par lanalyse de visages parlants, les
approches multimodales telles que iris/visage ou voix/visage, etc. La campagne d'acquisition a
commenc en aot 2005. La base IV2 comporte 482 identifiants, correspondant 365
personnes, dont 268 personnes enregistres sur une session, 77 enregistres sur 2 sessions, et

69

Chapitre 3

Bases de donnes utilises

20 enregistres sur 3 sessions. Un ensemble de 52 sujets disjoint de la base prcdente, a t


dfini pour la phase de dveloppement. Lavantage de IV2 par rapport aux autres bases est
quelle contient plus dinformations sur chaque individu : 5 Expressions faciales, 5 poses, avec
variation des conditions dclairage. Dautre part, chaque visage t acquis avec plusieurs
capteurs : un camscope numrique de haute rsolution pour lacquisition du visage parlant,
une Webcam pour une deuxime acquisition du visage parlant, 4 camras matricielles CCD
couleurs pour obtenir des informations de face et de profil permettre la reconstruction de ce
visage en 3D, et enfin un scanner laser pour le visage 3D et camra infrarouge pour les iris.

3.3.1 Protocoles dacquisition IV2


Pour chaque session .
Scanner 3D
8 vues : 1 face neutre, puis un droit et un gauche neutre (face, gauche, droite), face yeux
ferms, dans diffrentes expression (face souriante, face exprimant la surprise, face exprimant
le dgot et face neutre sans lumire continue du parapluie).
Webcam/Camscope
La webcam et le camscope dmarrent en mme temps. A ce moment-l le volontaire lit les
diffrentes phrases affiches dans la cabine. A la fin de la lecture, la personne regarde droite
(profil gauche), gauche (profil droit), au plafond et vers le plancher. Le camscope reste
allum pendant le point n3.
Bases stro
On commence en lumire maximum, la personne tant de face.
! 10 secondes en pleine lumire
! 10 12 secondes avec dcroissance de la lumire (avec 3 ou 4 paliers). La personne
tant toujours de face.
! 10 secondes maximum avec bascule sur les halognes, 5 secondes le droit et 5
secondes le gauche, la personne tant toujours de face.
! 10 15 secondes finales, on remet lclairage total et on demande la personne de
raliser un trajet visuel qui part du centre et qui va balayer les icnes prsentes dans la

70

Chapitre 3

Bases de donnes utilises

cabine. Lobjectif tant de susciter des variations dexpressions (face souriante, face
exprimant la surprise, face exprimant le dgot) chez le volontaire.
Iris
2 sessions par personne pour chacun des yeux gauche et droit.
! La premire session comprendra 10 images qualifies de chaque oeil prises sans
lunettes si le donateur porte des lunettes.
! La deuxime session sera prise avec lunettes, pour les donateurs en portant, et sans
lunettes pour les autres, dans des conditions identiques la premire session.
Le tableau 3.1 donne quelques points de comparaison entre la base de donnes FRGC et celle
dveloppe dans le cadre du projet IV2. Cette comparaison porte sur les aspects 3D. On peut
constater au vu de ce tableau quune plus grande variabilit de donnes est propose par la
base IV. De plus, dans la mesure o nous souhaitons utiliser la complmentarit des
informations 2D et 3D, il nous faut imprativement disposer de paires dimages acquises par
un capteur stro. Ainsi, partir des deux camras nous pouvons avoir une information 2D
(avec possibilit de redondance par utilisation des images gauches et droites) et en utilisant les
deux images simultanment ainsi que les donnes de calibration nous pouvons remonter
linformation 3D pour tout ou partie de limage.
Comparaison des donnes 3D
3D complet
Multi-vues (poses)
Illumination
Expressions
2D et 3D
Image Stro
Taille
Matriel (scanner 3D Minolta)

FRGC V1
non disponible
(1 pose frontale)
contrle
2 expressions
disponibles
non disponible
4000 scans
VI-910 (640480)

IV2
disponible
( 3 poses)
contrle/incontrle
5 expressions
disponibles
disponible
5000 scans
VI-300 (400400)

Tableau 3. 1 Comparaison des donnes 3D de la base FRGC V1 avec la base IV2

71

Chapitre 3

Bases de donnes utilises

3.3.2 Evaluation prliminaire


3.3.2.1 Donnes de test
Les donnes utilises dans cette phase de dveloppement sont celles de 52 personnes. Ces
donnes ont t acquises avant la mise au point du protocole dacquisition final.
3.3.2.2 Extraction des donnes
Une compagne dvaluations prliminaire t ralise partir des donnes de la base de
dveloppement. Lobtention des visages 2D a ncessit une phase d'extraction partir des
vidos disponibles (enregistrements camscope). Dix images par personne ont t extraites
(voir figure 3.2), de manire automatique laide du logiciel ImageGrab. Le format dimage
choisi est le format jpeg avec un facteur de qualit de 95. Les images sont espaces de 5
secondes partir du dbut de la squence.

Figure 3. 2. Exemple dextraction de 10 images dune personne dans al base de dveloppement.

3.3.2.3 Annotation et normalisation


Lannotation manuelle des fichiers ainsi collects (reprage des positions du nez et des yeux) a
t ralise sur plus de 500 images 2D. Lannotation constitue une phase pralable
indispensable pour la normalisation des images. Les images sont ensuite normalises l'aide
de l'algorithme de normalisation de la plateforme Biosecure 2005 [Bio04]. Ltape de
normalisation consiste raliser les oprations suivantes:
! Transformation des images couleur en images 256 niveaux de gris.

72

Chapitre 3

Bases de donnes utilises

! rotations du visage dans limage, de manire ce que laxe interoculaire soit


horizontal,
! mise lchelle de limage, de manire ce que laxe interoculaire soit gal 70 pixels
Remarquons que la rsolution finale des images a t fixe 200"220 et quaucune galisation
ni normalisation de la luminance ne sont ralises.

Figure 3.3. Normalisation des visages prsents (figure 3.1).

3.3.3 Protocoles
3.3.3.1 Comparaisons
Pour raliser les comparaisons, il a t dcid de procder plutt par liste de comparaisons
deux deux effectuer entre signatures. Ainsi, le logiciel de gnration de la liste de
comparaisons effectue un tirage alatoire qui garantit un nombre de comparaisons inter et
intra-classes identiques. 500 comparaisons dont 250 intra-classes ont t effectues.
Le nombre de comparaisons sera choisi en fonction du score attendu : pour avoir un test
statistiquement significatif, il faut que le nombre d'erreurs constates soit au moins d'une
dizaine. Ainsi, pour valuer un EER de 0.05, il faut au moins 200 comparaisons intra-classe
(et autant de comparaisons inter-classes).
3.3.3.2 Mtriques de performances
Pour les tests de performance nous avons utilis les notions suivantes :
Score : rsultat du calcul de comparaison entre deux signatures biomtriques.
Similarit : score normalis entre 0 et 1, reprsentant le degr de ressemblance entre deux
chantillons biomtriques.

73

Chapitre 3

Bases de donnes utilises

Distance : score reprsentant le degr de dissimilarit entre deux chantillons biomtriques.


Diffrentes distances sont classiquement utilises par les algorithmes biomtriques (L1 , L2,
cosine, etc )
Normalisation du score : opration consistant exprimer le score en termes de similarit.
Diffrentes mthodes de normalisation peuvent tre appliques. Dans notre cas nous avons
utilise la normalisation min et max pour normalise les scores, Nous notons le rsultat absolu
comparaison comme s, partir dun ensemble S de tout les scores pour la correspondante
recherche, et le score normalis correspondant comme Sn.
Normalisation min-max : cette mthode transforme les scores issus de la mise en
correspondance lintervalle [0, 1]. La quantit max(S) et min(S) spcifient les valeurs
extrmes de lventail des scores :
Sn $

s # min( S )
max( S ) # min( S )

(3.1)

3.3.4 Conclusion
Dans ce chapitre, nous avons donn un aperu global sur les bases de donnes existantes dans
le domaine de la biomtrie. Nous avons dtaill particulirement les bases de donnes
XM2VTS et IV2, qui seront utilises pour valuer lefficacit des algorithmes dvelopps dans
les chapitres suivants.

74

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Chapitre 4
Extraction de visage et de ses
caractristiques
4.1 Introduction
Les performances des systmes de reconnaissance de visage dpendent en grande partie de
lefficacit de la mthode de dtection de visages utilise. Dans le chapitre 2, nous avons
mis en vidence lintrt dune approche base sur lanalyse de la couleur de la peau pour
lextraction de visages, bien que les mthodes permettant de le faire soient en gnral peu
robustes aux variations dclairage comme nous lavons signal. Dautre part, le choix d'un
espace optimal de reprsentation pour classifier les couleurs d'une image n'est pas vident.
Parmi tous les espaces de couleur tests ces dix dernires annes [Xu06], aucun
nmerge spcialement. Il semble donc intressant d'tudier une approche diffrente. Dans
ce chapitre, nous allons prsenter une approche originale dextraction dun visage et de ses
caractristiques (yeux, nez, bouche) dans une image contenant un visage sur un fond
uniforme. Cette approche est base sur la segmentation de limage en rgion et sur
lanalyse de la couleur. Lalgorithme de segmentation que nous avons dvelopp possde
les atouts suivants :
! Il permet dobtenir de grandes rgions de couleurs homognes qui correspondent
aux diffrentes rgions du visage.

75

Chapitre 4

Extraction de visage et de ses rgions caractristiques

! Il est robuste aux variations dillumination, grce notre choix dutiliser lespace
couleur TLS, ainsi que des outils comme le gradient TLS.
! Il permet de classifier les pixels dimages en deux catgories : ceux ayant la couleur
de la peau et les pixels ayant une couleur diffrentes. La discrimination entre ces
deux catgories est rendue possible grce une segmentation morphologique de
limage couleur.
La robustesse de la dtection de visage face aux variations de luminosit, de poses et
dexpressions (surtout pour les caractristiques du visage face aux expressions). Ncessit
dune bonne prcision de la dtection pour aborder la phase dauthentification dans les
meilleures conditions.
Dans ce qui suit, nous dcrivons notre approche pour segmenter une image couleur en
rgions et extraire les principaux lments du visage. Cette approche est illustre par de
nombreux exemples.

4.2 Segmentation couleur du visage


La segmentation dimages fait partie des problmes classiques de la vision par ordinateur.
Une des applications principales de la segmentation est la reconnaissance de formes. En
effet, la dcomposition d'une image en lments moins complexes grce une
comprhension du contenu smantique de la scne reprsente permet d'identifier les
objets qui s'y trouvent.
La segmentation consiste raliser une partition de limage en sous-ensembles (rgions)
homognes. Ainsi, une rgion correspond un ensemble connexe de points de limage
ayant des proprits communes (intensit lumineuse, texture, couleur) qui les
diffrencient des pixels des rgions voisines. Cette partition est souvent difficile raliser
car peu dimages sont constitues uniquement de zones homognes. Il existe deux grandes
classes de mthodes [Coc95], celles qui extraient les zones homognes (rgions) et celles
qui extraient les zones de transition (contours).
La segmentation peut tre utilise aussi bien pour sparer les visages du fond que pour
isoler certaines structures faciales. Plusieurs recherches ont t menes dans ce domaine
sur des images en niveau de gris ou en couleur. La plupart des techniques de segmentation
couleur de visages utilisent la couleur de peau pour raliser la dtection du visage. En effet,

76

Chapitre 4

Extraction de visage et de ses rgions caractristiques

la peau occupe une petite zone bien dlimite dans l'espace des couleurs, ce qui facilite la
sparation entre les rgions de peau et les autres rgions de limage. Nous avons vu dans le
chapitre 2, que la distribution de la couleur de la peau est gnralement reprsente par un
modle paramtrique (tel que : le modle gaussien simple, le modle mlange gaussien, le
modle elliptique), ou bien par des rgles explicites.
Notre approche de segmentation du visage est base sur la mthode dite Ligne de Partage
des Eaux (LPE) dans lespace TLS. Ce choix se justifie par le fait que la LPE est trs
efficace pour segmenter des rgions convexes et fermes, ce qui est le cas du visage
humain. Tout dabord nous donnons une prsentation des outils morphologiques de
segmentation en particulier la ligne de partage des eaux, qui nous seront utiles par la suite.

4.3 Segmentation par Ligne de Partage des Eaux


La Ligne de Partage des Eaux a t propose initialement par Digabel et Lantujoul
[Dig78], puis amliore par Beucher et Lantujoul [Beu79]. Issue de la thorie de la
morphologie mathmatique, cette mthode est souvent utilise en segmentation d'images.
Elle utilise le principe de l'immersion pour effectuer la segmentation de l'image en rgions.

4.3.1 Principe de limmersion


Soit I l'image sur laquelle on souhaite calculer la Ligne de Partage des Eaux. L'image I est
considre comme une surface topographique (figure 4.1). Imaginons que cette surface soit
troue aux emplacements des minima rgionaux et qu'elle soit immerge dans un lac de
manire ce que le niveau des eaux monte une vitesse constante. L'eau remplira
progressivement les bassins du captage en commenant par le pixel ayant la plus basse
altitude. Chaque fois que les eaux venant de deux minima diffrents entrent en contact,
nous construisons un "barrage" pour les sparer. la fin de la procdure d'immersion,
chaque minimum sera compltement entour par des barrages qui dlimitent les eaux
appartenant au bassin versant associ. Ces barrages constituent ce quon appelle la Ligne
de Partage des Eaux.

77

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Figure 4. 1. Minima, bassins versants et ligne de partage des eaux.

4.3.1.1 Construction de la LPE


La formulation de la ligne de partage des eaux en termes dimmersion prsente lavantage
de fournir un algorithme direct pour sa construction. Avant de formaliser limmersion,
donnons quelques dfinitions [Beu79] :
Dfinition 1 : Une image de niveau de gris est une application f : D " N, o D est
2
lespace de points (D # Z ). Soit p un pixel, f(p) est la valeur du niveau de gris de p.

Dfinition 2 [Chemin godsique] : considrons lensemble X de la figure 4.2 Soient deux


points s, t appartenant cet ensemble. Une ligne ou un arc dextrmits s et t sera appels
chemin godsique sil vrifie les conditions suivantes :
! tre totalement inclus dans lensemble X ;
! correspondre au plus petit parcours entre s et t.

Figure 4. 2. Le plus court chemin godsique entre s et t.

Dfinition 3 [Zone dinfluence godsique - ZI] : Soit, dans R, l'ensemble X ' $X i , i & I %
form de I composantes connexes et compactes, toutes incluses dans le compact Y. La zone

78

Chapitre 4

Extraction de visage et de ses rgions caractristiques

dinfluence godsique de X i dans Y se dfinit comme le lieu des points de Y qui sont
godsiquement plus proches de X i que toutes les composantes connexes de X.

ZI Y ( X i ) ' $p & Y / d Y ( p , X i ) , d Y ( p , X j ) + j * i%

(4.1)

O dY est la distance godsique dans lensemble Y (figure 4.3).


Dfinition 4 [Squelette par zone dinfluence - SKIZ] : C'est la frontire entre les

diffrentes zones dinfluence (voir figure 4.3.).


n

SKIZ Y (X 1 ,......, X n ) ' Y \ - ZI Y (X i )


i '1

SKIZ (X)

(4.2)

Y
X1

ZIY ( X 2 )

X3
X2

Figure 4. 3. Exemple de SKIZ godsique.

Pour formaliser limmersion, nous utilisons les notations suivantes :


!

fh

.hmin , hmax ! est lensemble des pixels p

D, tel que f(p) " h.

#$ hmin et hmax reprsentent le minimum et le maximum de f, respectivement.


#$ CB(M) est le bassin versant associ au minimum local M.
#$ Les points du bassin versant dont laltitude est infrieure ou gale h sont dfinis
par :
CB h %M & ( CB %M & ' f h

79

(4.3)

Chapitre 4

#$

Extraction de visage et de ses rgions caractristiques

X h ( )i CBh%M i & reprsente l'union de tous les bassins versants qui ont une altitude
infrieure ou gale h.

#$ MINRh% f & est l'ensemble union des minima rgionaux dlvation h.


La simulation de linondation (immersion) se fait par construction des bassins, tape par
tape suite une augmentation progressive du niveau de l'eau.
La

premire

inondation

lieu

lorsque

leau

atteint

le

niveau

hmin : X h min ( f h min ( MINR h min %f & . Soit Y une composante connexe de f h *1 . Lorsque le
niveau deau monte du niveau h au niveau h+1, il y a trois cas de figure, pour grer cette
monte : f h *1 .
a) Y ' X h ( + ; dans ce cas Y est un nouveau minimum rgional daltitude h+1.
b) Y ' X h , + et est connexe ; dans ce cas Y est la dilatation du bassin versant
CBh %Y ' X h & . Ainsi CBh *1%Y ' X h & ( ZI Y %Y ' X h & .
c) Y ' X h , + et nest pas connexe (on note Zi ses composantes connexes). Dans ce
cas de figure Y est la runion des eaux provenant de plusieurs minima rgionaux.
Comme cette jonction nest pas autorise ; il faut donc construire la ligne de
partage des eaux, sparant ces diffrents bassins. Pour cela on construit des zones
dinfluence godsique :
X h *1 ( MINRh *1% f & - ZI h *1% X h &
a).

(4.4)

b).
Xh

c).
Xh

z1

z1
ZIY(z1)
Y

Figure 4. 4. Les diffrents cas de limmersion.

80

ZIY(z2)
Y

z2

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.3.2 Ligne de Partage des Eaux (daprs Vincent et Soille )


La premire implmentation de lalgorithme LPE par immersion a t introduite par
Vincent et Soille en 1991 [Vin91]. Lalgorithme propos met en application le principe de
limmersion. L'ide est de considrer des seuils successifs de limage et de calculer des
zones dinfluence godsiques dun niveau lautre le plus rapidement et le plus
exactement possible. Pour avoir un accs direct aux pixels dun niveau de seuil donn, un
tri initial des pixels dans lordre des niveaux de gris croissants est effectu. Cette premire
tape exploite le fait que le nombre de niveaux de gris possible dans limage est fixe : le tri
est ainsi effectu en temps linaire par rapport au nombre de pixels. La deuxime tape,
linondation, met en jeu des calculs successifs de zones dinfluence godsiques. Nous
allons dtailler cet algorithme dans la partie implmentation.
Lalgorithme de LPE gnre le plus souvent une sur-segmentation importante. La sursegmentation se produit cause du grand nombre de minima locaux non significatifs. Il
suffit de petites fluctuations du relief pour produire autant de minima locaux dans limage
du gradient. Afin de limiter la sur-segmentation, une solution consiste utiliser des
marqueurs. Linondation dbute alors non par les minima de limage, mais par lensemble
des marqueurs choisis, un par rgion segmenter. Linconvnient de cette mthode rside
dans la difficult dinitialiser les marqueurs. Ceci a conduit lapparition des approches de
Ligne de Partage des Eaux par fusion de rgions.

Pour contrer la sur-segmentation, plusieurs versions modifies de lalgorithme originel de


la LPE ont t proposes. Citons comme exemple lalgorithme de la LPE modifi par
Andrade [And97]. En effet, Andrade saffranchit de linitialisation des minima rgionaux
car ceux-ci sont construits au fur et mesure de linondation. Le problme de la sursegmentation est rgl au moment de la jonction de deux rgions : c'est--dire au moment
o lon rige un barrage qui sera la frontire entre deux rgions. La croissance de la rgion
continuera, mais on dcidera au moment de cette jonction si on fusionne ou non les deux
rgions en une seule. Cest cette approche que nous avons retenue. Nous donnerons plus de
prcisions sur le processus de fusion dans la partie implmentation de lalgorithme.

81

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.4 Approche segmentation de couleur propose


Un des objectifs que nous nous somme fixs est de mettre en place des outils efficaces
pour la segmentation de visage. Ces outils faciliteront linterprtation de limage pour
lextraction de visage et des rgions caractristiques. Pour atteindre cet objectif, il faut tout
dabord choisir un espace couleur adquat, ainsi que loprateur gradient le mieux adapt
aux besoins spcifis. Nous avons choisi dutiliser lespace couleur TLS (Teinte,
Luminance, Saturation) ainsi que gradient TLS pour avoir une robustesse aux variations
dillumination.
Nous proposons de modifier la mthode de fusion des bassins versants obtenus partir de
lalgorithme de lignes de partage des eaux (LPE) en ajoutant un critre bas sur la teinte.
Notre algorithme de segmentation de visage sexcute sur une image de la norme du
gradient et effectue une croissance de rgions en simulant linondation de limage de la
mme manire que lalgorithme de la Ligne de Partage des Eaux. Dans ce cas, chaque
minimum local de la norme du gradient est considr comme un germe de rgion, il
reprsente le cur dune rgion. Au fur et mesure de linondation, les pixels sont agrgs
aux supports des rgions.
Les diffrentes tapes qui constituent notre algorithme peuvent tre rsumes comme suit :
#$ Transformation de limage de lespace RVB lespace TLS
#$ Dtermination de limage de la norme du gradient TLS
#$ Simulation de linondation
#$ Fusion des bassins versants.
Dans les sections suivantes, nous allons tudier en dtail chacune de ces tapes, nous
prsenterons les algorithmes associs, ainsi que les rsultats obtenus sur des images relles.

4.4.1 Reprsentation de lespace TLS


Le systme TLS (Teinte, Luminance, Saturation) est proche de la perception humaine des
couleurs. Lintrt essentiel de cette reprsentation est quelle assure une dcorrlation
entre linformation de couleur et les autres composantes. Au lieu de donner les 3
composantes rouge, vert, bleu, l'utilisateur choisit une teinte (couleur dans un cercle

82

Chapitre 4

Extraction de visage et de ses rgions caractristiques

chromatique allant du rouge au violet, en passant successivement par l'orange, le jaune, le


vert et le bleu), une luminosit (couleur plus ou moins claire) et une saturation (couleur
plus ou moins intense). Dans un premier temps, on dtermine la couleur souhaite et la
luminosit dfinit la quantit de noir ou de blanc dans la couleur slectionne. Cela permet
de distinguer les couleurs claires des couleurs sombres. La saturation permet de mesurer la
puret des couleurs. Par exemple un rouge et un rose ne se distinguent que par la
composante saturation, alors que dans lespace RVB, il y a une corrlation leve entre les
trois composantes.
On calcule dabord trois composantes YC1C2, l'aide de la transformation matricielle :
3 Y 0 31 3
1C . ( 1 1
1 1. 1
12C 2 ./ 12 0

13

13 0
41 2
4 1 2 ..
3 2 4 3 2./

3R0
1V .
1 .
12 B ./

(4.5)

o Y est lintensit et (C1, C2) sont des composantes de chrominance.


Puis, les composantes Teinte (T), Luminance (L) et Saturation (S) sont ensuite obtenues
par les quations suivantes :

L ( Y ( %R * V * B & / 3

(4.6)

S ( C12

(4.7)

* C22

C3 = atan(C1/C2)

(4.8)

Si (C3> /2)
T = (( /2-C3)+ 2* )

(4.9)

Sinon
T=( /2-C3)

(4.10)

On note que la Teinte prend des valeurs cycliques qui peuvent tre reprsentes sur un
cercle (cf. figure 4.5):

83

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Rouge
0

Magenta

42

213

Bleu

170

Jaune

85
128

Vert

Cyan

Figure 4. 5. Reprsentation numrique circulaire de la teinte

4.4.2 Dtermination de limage de la norme du gradient TLS


Le calcul du gradient dune image couleur est une tape de prtraitement dont lobjectif est
de faciliter les tapes ultrieures de segmentation. Comme pour les images en niveaux de
gris, nous cherchons mettre en vidence les variations locales attaches aux pixels. De
nombreuses mthodes ont t proposes dans la littrature [Coc95]. Nous nous limiterons
la prsentation de lapproche vectorielle de Di Zenzo [DiZ86]. Cest celle que nous
emploierons dans notre implmentation.

4.4.2.1 Approche par gradient vectoriel de Di Zenzo


Lapproche propose par Di Zenzo est, le plus souvent, utilise dans les mthodes
demandant la dtermination de contours multi-composantes. Elle relve dune stratgie
essentiellement vectorielle qui traite en une seule opration lensemble des composantes.
Le pixel est alors considr comme un vecteur ( trois composantes dans le cas des images
couleur).
Le gradient scalaire est souvent mesur par la variation dintensit le long de la ligne de
plus grande pente. Di Zenzo reprend cette notion pour dfinir le gradient vectoriel. Sa
stratgie consiste considrer deux pixels voisins (A, Av), dans lespace de limage, une
distance unitaire lun de lautre. Leur position relative est repre par langle 5
(figure 4.6-a).
Il estime alors, en fonction de cet angle 5, la distance sparant ces deux vecteurs dans
lespace des composantes. La figure (3.6-b) illustre cette modlisation dans lespace TLS.

84

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Teinte

Luminance

Av

Saturation

Av

d2(x, y)

6L
Av

6T

Av

6S

Av

S
b - espace des composantes

a - espace de limage

Figure 4. 6. Modlisation du gradient multi composantes avec lapproche Di Zenzo.

La stratgie de Di Zenzo consiste calculer langle 5 qui maximise la distance d % x, y & .


2

La distance d % x, y & sexprime alors par :


2

d 2 %x, y& ( p cos 2 5 * qsin 2 5 * 2t sin 5 cos 5

(4.11)

avec :
2

< =T 9 < =L 9 < =S 9


p(:
7 *: 7 *: 7
; =x 8 ; =x 8 ; =x 8

t(

< =T 9 < =L 9 < =S 9


77 * :: 77 * :: 77
q ( ::
; =y 8 ; =y 8 ; =y 8

=T =T =L =L =S =S
>
*
>
*
>
=x =y =x =y =x =y

(4.12)

(4.13)

Le maximum de la distance est obtenu pour ( 5G ) qui est la direction du gradient et le


module carr du gradient ( Gvect ) :
5G ( 1 arctan<: 2t 97
2
; p 4q 8
2

G vect (

1
p*q*
2

%p * q &2

85

(4.14)

4 pq - t 2

&@

(4.15)

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Mise en uvre

Le gradient de Di Zenzo repose sur le calcul des quantits p, q et t qui font intervenir les
drives selon x et y dans chacun des plans. Ces quantits marginales peuvent donc tre
estimes en utilisant le gradient vectoriel TLS qui est dfini par les trois gradients
marginaux des composantes teinte, luminance et saturation. Pour calculer ces derniers,
nous avons utilis la mthode de Carron [Car95]. En effet, notre tude de la littrature
scientifique sur les techniques de segmentation dans lespace TLS nous a permis de
constater lintrt des travaux de Carron pour la segmentation dans cet espace, notamment
en prsence de bruit : linformation de Teinte possde une fiabilit variable qui dpend
du niveau de corrlation inter-composantes du bruit et, surtout, du niveau de Saturation
[Car95]
On peut rsumer ceci en dfinissant trois concepts sur la Saturation permettant de
caractriser la pertinence de la Teinte :
#$ Saturation faible : Teinte non significative.
#$ Saturation moyenne : Teinte peu significative.
#$ Saturation forte : Teinte significative.
Loriginalit de cette mthode rside dans le fait que le calcul du gradient est fonction de la
pertinence de la teinte. En effet, la teinte est une information dont la pertinence est
variable : lorsque la couleur est fortement sature, la teinte est une information fiable, peu
sensible au bruit, et, linverse, lorsque la saturation est faible, la teinte est trs sensible au
bruit et donc sa pertinence est mauvaise. En conclusion, privilgier la teinte lorsquelle est
pertinente, permet de ne pas prendre en compte les zones dombre.
Un coefficient A(S), fonction de la saturation, est donc construit, pour mesurer la
pertinence de la Teinte. Si la Saturation nintervient pas dans le calcul du gradient de la
Teinte, il ny aura pas de contour entre deux zones ayant des teintes identiques, pertinentes
et de Saturations diffrentes (exemple une zone rouge et une zone rose). Cette fonction est
dfinie algbriquement par la relation suivante :

A %S & ( 1 D BD 2 * arctg%C %S 4 S 0 &&!


Dans laquelle :

86

(4.16)

Chapitre 4

Extraction de visage et de ses rgions caractristiques

#$ S0 permet de dfinir un niveau de pertinence moyen de la Teinte li un niveau de


Saturation.
#$ ! rgle la pente de la fonction autour du niveau S0 et permet de doser le mlange
dans les situations o la pertinence accorde linformation de Teinte est moyenne
(figure 4.7).

A(S)

Figure 4. 7. Mesure de la pertinence de la teinte

Le coefficient pondrateur (S) doit tre une mesure globale des pertinences des Teintes de
tous les pixels intervenants dans le calcul des gradients des trois composantes : Teinte,
Saturation et Luminance. Le calcul du gradient en x et y est alors effectu de la manire
suivante :
x
y
G xT ( 6T %Ti ,T j &> M Sobel
, GYT ( 6T %Ti ,T j &> M Sobel

x
y
G xL ( %1 - p %S i , S j &&> %Li , L j &> M Sobel
, GYL ( %1 - p %S i , S j &&> %Li , L j &> M Sobel

x
y
G xS ( %1 - p %S i , S j &&> %S i , S j &> M Sobel
, GYS ( %1 - p %S i , S j &&> %S i , S j &> M Sobel

(4.17)

avec
x
y
MSobel
, MSobel
: loprateur gradient de Sobel en x et y

6T %Ti ,T j & ( p %S i , S j &> Ti 4 T j

mod ulo 255

87

(4.18)

Chapitre 4

Extraction de visage et de ses rgions caractristiques

p%Si , S j & ( A%Si & > A%S j & est la moyenne gomtrique des coefficients pondrateurs
entre deux pixels.

Ti 4 Tj

255

est la mesure de lcart de Teinte entre les deux curs de rgions (calcule

modulo 255, afin de rsoudre le problme de la reprsentation circulaire).


Les figures ci-dessous montrent un exemple des trois images T, L, S pour deux images
avec des clairages et des fonds diffrents. La figure (4.8b) illustre la capacit de la
composante Teinte liminer les contours dus aux variations dclairage (flche 1) et ne
tenir compte que des transitions significatives entre le fond et le visage (flche 2). Dans ce
cas, le facteur de pondration (S) va automatiquement privilgier le gradient de Teinte par
rapport aux autres composantes. Par contre dans la figure (4.9b), on voit bien que
linformation de Teinte nest pas pertinente (les transitions visage-fond sont invisibles), et
dans ce cas, le facteur de pondration va plutt privilgier la composante de Luminance.

1
2

(b)

(a)

(c)

(d)

(e)

Figure 4. 8. Les diffrentes composantes : teinte (b), luminance (c), saturation (d), gradient(e).

(a)

(b)

(c)

(d)

(e)

Figure 4. 9. Les diffrentes composantes : teinte (b), luminance (c), saturation (d), gradient(e).

4.4.3 Simulation de linondation daprs Vincent


4.4.3.1 Description gnrale
Nous avons utilis lalgorithme de LPE propos par [Vin91] pour crer les supports des
rgions. Cet algorithme est appliqu sur limage de la norme du gradient couleur obtenue
dans l'tape prcdente, il est dcompos en deux tapes :

88

Chapitre 4

Extraction de visage et de ses rgions caractristiques

a) Etape de tri

Elle consiste trier les pixels de l'image par ordre croissant de leur gradient. Parmi les
mthodes de tri existantes, Vincent et Soille ont choisi l'algorithme propos par E.J. Isaac
et R.C Singleton [Isa56]. Il s'agit d'un algorithme de tri distributif qui fait appel des
calculs dadresses. Cette technique suppose que les donnes trier soient des entiers. Il est
donc ncessaire de normaliser le gradient avant le tri. On choisi ici [0,255] comme
intervalle de normalisation.
L'algorithme de tri peut tre dcompos en trois tapes :
#$ Dtermination du tableau de distribution en frquence des normes du gradient dans
I, not H I lhistogramme de I :
E h, H I %h & ( nombre de pixels de I ayant pour gradient la valeur h

#$ Dtermination de lhistogramme cumul HC I de I :


E h, HCI %h& ( nombre de pixels de I ayant pour gradient la valeur " h
#$ Parcours exhaustif de limage I, au cours duquel tout pixel est mis directement dans
une cellule dans le tableau tri. Cette cellule est repre grce lhistogramme
cumul.
Notons alors n le nombre de pixels de l'image I, et hmin et hmax la plus petite et la plus
grande valeur de la norme du gradient respectivement. Le couple constitu du tableau tri
de pointeurs de pixels ( I t ) et de lhistogramme cumul permet, au cours de la phase
dimmersion, un accs direct aux pixels dune norme de gradient donne.
b) Etape dimmersion

Une fois le tri effectu, on passe linondation progressive des bassins versants de limage.
Supposons que cette inondation ait t accomplie jusqu un niveau donn h. chaque
niveau h la reconstruction godsique est ralise grce une file dattente. Lorsque
linondation a atteint le niveau h, tous les bassins versants dj dcouverts ont un label
grce au classement dans un tableau. Les pixels du niveau h+1 sont obtenus directement
partir de ce mme tableau. Lalgorithme leur affecte une valeur que l'on notera MASK.
Parmi ces pixels la valeur MASK, ceux qui ont un pixel dj tiquet dans leur

89

Chapitre 4

Extraction de visage et de ses rgions caractristiques

voisinage (8 connexits) sont placs dans la file dattente. partir de ceux-ci, on peut donc
se propager en largeur dabord dans les rgions la valeur MASK. Ainsi les zones
dinfluence sont construites une fois que la file dattente devient vide. Par ailleurs, il est
ncessaire deffectuer un deuxime passage sur limage pour affecter un label aux pixels
de niveau h+1 sans labels provenant des minima h+1. En effet, ces minima sont disjoints
des bassins versants de niveau h. Un label particulier WSHED est alors affect aux pixels
o les bassins versants essayent de fusionner. Il dsigne les pixels o se trouve la ligne de
partage des eaux.
Quelques exemples (figure 4.10-a) reprsentent des visages en couleur auxquels nous
avons appliqu l'algorithme dtaille de notre limplmentation de lalgorithme est donn
en annexe A) et o nous avons initialis lalgorithme avec tous les minima locaux de la
norme du gradient TLS.
Les bassins versants obtenus associs sont reprsents dans les figures (4.10-b)
respectivement. On note tout dabord que lalgorithme LPE permet dobtenir des contours
ferms, ce qui fait sa grande force. Par contres les rgions sont sur-segmentes et ne
peuvent pas tre utilises telles quelles pour analyser le visage.

(b)

(a)

Figure 4. 10. Images originales (a) et rsultats de limmersion (b).

90

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.4.4 Fusion des bassins versants


4.4.4.1 Principe
Pour supprimer les minima locaux non significatifs nous avons employ la mthode de
fusion des bassins versants propose par Andrade [And97] qui nest autre quune version
modifie de lalgorithme LPE non hirarchique de Vincent. En effet, Andrade introduit
dans lalgorithme originel de Vincent deux nouveaux paramtres pour contrler la fusion
des bassins versants : laire (nombre de pixels dans un bassin) et la profondeur (norme du
gradient du cur du bassin). Ces deux paramtres sont combins pour dfinir une rgle de
fusion qui permet dempcher ou dautoriser la fusion des bassins versants. Cette rgle de
fusion est ajoute dans lalgorithme LPE lendroit o deux bassins entrent en contact,
comme expliqu ci-dessous :
Au niveau h, les supports des rgions existantes sont tendus, par dilatation conditionnelle
des supports des rgions au niveau h-1, conditionnellement au niveau h. chaque
dilatation de niveau h, chaque pixel ayant au moins un voisin dj tiquet est trait. Les
tiquettes dun pixel dpendent des tiquettes de leurs voisins. Si tous les voisins ont la
mme tiquette, le pixel prendra cette tiquette. Sil y a au moins deux tiquettes
diffrentes, le pixel prendra lune des tiquettes et les deux rgions seront candidates la
fusion. Laire et la profondeur des bassins associs ces deux rgions sont examines : si
pour lun des bassins, lun ou lautre de ces attributs est infrieur des seuils dtermins, le
bassin le plus profond absorbe lautre. Cette mthode suppose que les pixels du niveau
courant aient t intgrs au support de la rgion, cest--dire que toutes les dilatations des
bassins du niveau courant aient t effectues, afin que laire totale soit prise en compte
dans la fusion. Par ailleurs, un bassin absorb nabsorbe jamais un autre bassin.
La figure 4.11 reprsente un exemple typique illustrant le principe de la fusion base sur
les paramtres daire et de profondeur des bassins versants explique ci-dessus. Elle
montre un profil unidimensionnel, partiellement inond, un niveau arbitraire. Imaginons
que le relief soit lentement inond partir de ses minima locaux. Aprs un certain temps, le
niveau dinondation atteint la ligne de sparation sur le flanc droit du bassin versant
marqu par son minimum M. partir de ce moment, leau se dverse dans un autre bassin,
la profondeur de ce bassin est donne par la diffrence entre le niveau dinondation et la
hauteur de son minimum M.

91

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Norme du gradient.

255

Bassin(M)
Profondeur (M)

M
Hauteur(M)

Profil unidimensionnel

Figure 4. 11. Principe de la fusion des bassins versants.

4.4.4.2 Notre approche


Nous proposons de modifier la rgle de fusion dAndrade en supprimant le critre de laire
des rgions et en le remplaant par le critre de la Teinte. En effet, dans notre application
laire nest pas un critre pertinent car les tailles des visages sont diffrentes dune image
une autre, par contre la teinte constitue un descripteur discriminant de la couleur de la
peau do lintrt de son utilisation. Ainsi, le critre de fusion que nous proposons
combine la pertinence de la teinte (critre de Carron) avec la profondeur (norme du
gradient du cur du bassin). Nous avons donc utilis la diffrence de niveaux entre les
curs des bassins candidats la fusion au lieu dutiliser les informations couleur lies aux
pixels. Lalgorithme de fusion propos est dtaill en annexe A.
Lide de base est de former un seul critre scalaire (not C) dhomognit mixant de
manire pondre les informations apportes par la Teinte et la Luminance. Or, comme
nous lavons vu prcdemment ( 4.4.2.2), la fiabilit de la Teinte est lie linformation
de Saturation S. Donc, lutilisation du coefficient A(s) va permettre de pondrer les
informations de Teinte et de Luminance (notes respectivement T et L) dans le critre
dhomognit C.

92

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Ce critre va indiquer la (ou les) composante(s) qui vont tre utilises pour la segmentation
en rgions. La figure 4.12 rsume la stratgie de choix de ces composantes suivant la
valeur du coefficient A$et donc suivant la Saturation.
A (S)
1

Pente
0.5

Saturation

S0

255

Teinte moyenne
Segmentation en
Teinte et Luminance

Teinte non pertinente


Segmentation en
Luminance

Teinte pertinente
Segmentation en Teinte

Figure 4. 12. Stratgie dutilisation des composantes TLS.

Soient Sn , Tn et Ln les informations de Saturation, Teinte et Luminance correspondant au


cur du n-ime bassin et B1 et B2 deux bassins candidats la fusion. Notre critre de
fusion est dfini par :

C %B1 , B2 & ( p%S 1 , S 2 & > T1 4 T2

255

4 %1 4 p%S 1 , S 2 && > L1 4 L2 " SeuilC

(4.19)

O :
#$ p%S1 , S 2 & ( A%S1 & > A%S 2 &

est

la moyenne gomtrique des coefficients

pondrateurs entre deux curs de rgions.


#$ SeuilC est le seuil dagrgation dterminant le prdicat dhomognit.
Le seuil dagrgation SeuilC doit tre adaptatif pour prendre en compte le problme de la
pertinence de la Teinte. Il est intressant de pouvoir disposer de diffrentes valeurs de seuil
dagrgation suivant que la mthode de segmentation utilise la Luminance ou la Teinte, en
dautres termes, un seuil dynamique qui varie en fonction de la pertinence de la teinte.

93

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Le seuil composite de fusion (not SeuilC) pour les deux bassins B1 et B2 est dfini de la
manire suivante [Car95] :

Seuil C %B1 , B2 & ( p %S 1 , S 2 & > S T * %1 4 p %S 1 , S 2 && > S L

(4.20)

O SL et ST sont deux seuils dtermins aprs analyse de lhistogramme de lhistogramme


de composante Saturation.
Pour de faibles niveaux de Saturation ( 4.4.4.3), le critre dhomognit tant alors
essentiellement bas sur la Luminance, le seuil composite dagrgation va prendre la
valeur SL. A linverse, pour de fortes Saturations, le critre dhomognit tant form par
la composante Teinte, le niveau du seuil dagrgation correspond la cette composante (c-d. ST).
Lalgorithme de fusion de deux bassins B1 et B2 est rsum comme suit : (Sprof est le seuil
qui dtermine la profondeur des bassins) :
h1 = M - B1.profondeur
h2 = M - B2.profondeur
Si (C(B1 , B) <= Seuilc(B1 , B)) &&( h1 < Sprof || h2 < Sprof)
{ Si (haut1 >= haut2)

//le bassin B1 absorbe le bassin B2


Mettre jour le bassin B1
Sinon (haut1 < haut2)
Le bassin B2 absorbe la bassin B1
Mettre jour le bassin B2 }

La figure 4.13 illustre sur deux exemples la segmentation obtenue par l'aide de notre
mthode. Nous remarquons que le visage est bien segment en rgions fermes et
distinctes correspondant aux diffrentes parties du visage (yeux, nez, bouche et sourcils)
cette segmentation est obtenue manuellement.

94

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Sprof

SL

S0

ST

Figure 4.13 (1)

25

10

50

150

Figure 4.13 (2)

15

50

160 176

Tableau 4. 1. Les diffrents seuils.

(1)

(2)

(a)

(b)

Figure 4. 13. Exemples de segmentation de visage : (a) images originales (b) images LPE modifi.

4.4.4.3 Dtermination des paramtres S0 et SL et ST


Pour permettre de dterminer les valeurs des paramtres S0, SL et ST, il est ncessaire de
faire une tude pralable de lhistogramme de la Saturation. Le problme principal de toute
mthode base sur le seuillage de lhistogramme est le choix des seuils (ou de l'intervalle
de seuillage). Avec un intervalle trop large, on obtient des faux positifs, c.--d. l'image
seuille contient des pixels qui ne font pas partie des objets d'intrt ; gnralement il s'agit
de bruit, ou des structures d'une autre nature, qui ont un niveau de gris proche de celui des
objets recherchs. Avec un intervalle trop troit, on obtient des faux ngatifs, c.--d.
certains objets d'intrt n'apparaissent pas, ou que partiellement, dans l'image seuille.

95

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Il existe de trs nombreuses mthodes de seuillage d'un histogramme [Ots79][Tsa95]


[Fu81]. La plupart de ces mthodes s'appliquent correctement si lhistogramme contient
rellement des pics spars. De plus, ces mthodes ont trs souvent t dveloppes pour
traiter le cas particulier de la segmentation en deux classes et leur gnralit face aux cas
multi-classes n'est que trs rarement garantie.
Algorithme :

Pour rgler ces seuils de manire automatique, nous avons appliqu la technique de multi
seuillage de Cheng et al. [Che97] sur lhistogramme de saturation. lorigine, cette
mthode permet dobtenir un nombre dsir de classes partir de l'histogramme de niveau
de gris de limage. Son principe est le suivant : l'histogramme original est liss (figure
3.14-a) par une fonction gaussienne ayant un paramtre de diffusion (F =1) de telle sorte
que les pics principaux de l'histogramme soient visibles. Le nombre de pics considrs
dans l'histogramme liss doit tre gal au nombre de sommets dans l'histogramme original.
Ensuite un filtrage passe-bas est appliqu sur lhistogramme liss afin dliminer les
sommets non signifiants, jusqu ce que le nombre de sommets restants soit gal au
nombre dsir de classes. Si par contre, le nombre de sommets de lhistogramme liss est
infrieur au nombre de classes, alors un filtrage passe-haut est appliqu pour produire plus
de sommets dans lhistogramme, il est rpt jusqu lobtention du nombre dsir de
classes. Les seuils correspondent alors aux valles de l'histogramme filtr (figure 4.14b).
Dans notre cas, nous avons fix le nombre dsir de classes 4 pour obtenir les trois seuils.
La figure 4.14 (a) prsente un exemple o le fond est dans les mmes gammes dintensit
et de teinte que le visage, Cette premire impression peut tre vrifie sur limage de la
teinte (voir figure 4.9b) o lon note une faible variation entre le fond et le visage. Dans ce
cas, linformation de teinte nest pas privilgie et la stratgie de segmentation est
principalement base sur la luminance.
La figure 4.14 (c) montre lhistogramme de la Saturation de limage 4.14 (b), qui est utilis
pour dterminer les paramtres de segmentation : S0 ST et SL. Nous avons appliqu la
mthode de Chang et nous avons obtenu le seuil maximal dutilisation de la luminance SL
gal 62, le seuil minimal dutilisation de la teinte ST gal 240 et S0=176. Enfin, pour
obtenir une pente assez forte nous avons choisi C = 0.01 pour A(S0) = 0.5, et avons fix le
seuil sur la profondeur 25.

96

Chapitre 4

Extraction de visage et de ses rgions caractristiques

1200

filtr
initial

1000

800

(a)

600

400

200

(b)

0
0

50

SL=62

100

150

200

S0 = 176

250

300

ST = 240

(c)

Figure 4. 14. (a) image originale (b) image de saturation (c) histogrammes de la saturation et seuils
obtenus avec la mthode de Cheng.

La figure 4.15 (a) prsente un exemple o le fond est uni de couleur bleu sombre. Cette
premire impression peut tre vrifie sur limage de la teinte (voir figure 4.9b) o lon
note une haute variation entre le fond et le visage. Dans ce cas, linformation de teinte est
privilgie et la stratgie de segmentation est principalement base sur teinte et la
luminance.
Nous avons obtenue le seuil maximal dutilisation de la luminance SL gale 58, le seuil
minimal dutilisation de la teinte ST gale 166 et S0=133 ( voir figure 4.14 (c)). Enfin,
pour obtenir une pente assez forte nous avons choisi
fix le seuil sur la profondeur 15.

97

= 0.45 pour !(S0) = 0.5, et avons

Chapitre 4

Extraction de visage et de ses rgions caractristiques

3000

filtr
initial
2500

2000

(a)

1500

1000

500

0
0

50

SL = 58

100

150

200

250

300

S0=132ST=166

(c)

(b)

Figure 4. 15. (a) image originale (b) image de saturation (c) histogrammes de la saturation et seuils
obtenus avec la mthode de Cheng.

4.4.5 Extraction de visage


Lalgorithme de LPE modifi permet dobtenir de grandes rgions homognes ce qui
facilite linterprtation de limage. De plus le rsultat de la segmentation est une image
dans laquelle chaque pixel est affect de ltiquette (ou label) correspondant au numro de
la rgion laquelle appartient le pixel dans limage initiale. partir de cette image
dtiquettes et de limage originale il est possible de dterminer les divers attributs
photomtriques : niveau moyen, variance, indices texturaux, et gomtriques : coordonnes
du centre de gravit, axe dinertie, de chaque rgion. Afin dextraire le visage partir de
limage segmente, nous avons combin deux informations : la taille et la teinte des
rgions obtenues. Une analyse des histogrammes de la teinte de 100 images de visages
(ethniques, variation de lillumination), nous a permis de dfinir lintervalle
dappartenance DT pour la teinte qui correspond la couleur de la peau. Nous avons trouv
DT = [1 - 40]. Pour chaque rgion segmente, nous avons calcul la moyenne de la teinte.
Parmi les rgions de couleur appartenant au domaine peau (dont la teinte moyenne
appartient DT) nous avons retenu celle qui a la taille maximale. Nous dcidons que cette
dernire correspond au visage selon la rgle suivante :

98

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Rgion visage " Si ((Taille Rgion = max) ET (Teinte # DT)

(4.21)

Nous avons appliqu notre algorithme sur des images relles qui prsentent diffrentes
conditions dacquisition (ombre, clairage variable, poses diffrentes). Les rsultats
obtenus (figures 4.16-b, 4.21-b, 4.22-b) illustrent le bon comportement de notre
algorithme. En effet, celui-ci arrive extraire la rgion du visage dans tous les cas de
figure, ce qui dmontre sa robustesse aux variations dclairage et de pose.

(a)

(b)

Figure 4. 16. (a) image originale, (b) rsultats dextraction du visage.

4.4.6 Extraction des rgions caractristiques du visage


Nous avons soulign dans la section 1.6.2 que lextraction des rgions caractristiques du
visage tel que les yeux, la bouche ou le nez, est une tape importante dans le processus de
reconnaissance faciale. Nous avons donc dvelopp une mthode pour lextraction des
zones caractristiques du visage qui exploite les rsultats obtenus par la segmentation. Elle
utilise la gomtrie du visage afin de classifier les rgions candidates en trois rgions
caractristiques : il droit, il gauche et bouche.

99

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.4.6.1 Modle du visage


Plusieurs techniques efficaces de localisation des rgions caractristiques faciales qui
utilisent la gomtrie du visage ont t dveloppes ces dernires annes. Jeng et al.
[Jen98] ont propos une approche base sur la configuration gomtrique des rgions
faciales. Leur mthode permet de dtecter des visages aussi bien en vue frontale
quincline. Cependant elle choue si la taille des visages est infrieure 80 pixels. Lin et
al [Lin99] ont dvelopp un algorithme de dtection de visages multiples dans des images
fond complexe. Ils supposent que, dans le cas dune vue frontale du visage, les centres
des yeux et le centre de la bouche forment un triangle isocle, alors que dans le cas dune
vue de profil cest le centre d'un oeil, lorifice de loreille, et le centre de la rgion bouche
qui forment un triangle. L'algorithme choue quand les images sont trop fonces ou bien
lorsque les yeux sont cachs par des cheveux. Nikolaidis et Pitas [Nik98] ont prsent une
approche combine qui utilise la transforme de Hough, le template matching , les
contours actifs et les proprits projectives de la gomtrie du visage. La transforme de
Hough permet de dtecter la rgion complte du visage, le template matching est utilis
pour identifier les rgions caractristiques du visage et les contours actifs servent extraire
les contours internes des rgions faciales Pour finir, les proprits projectives de la
gomtrie de visage permettent de dterminer, avec prcision, la pose du visage. Dans
[Cri04], les auteurs utilisent les Modles Actifs dApparence ou AAM (pour Active
Appearance Model) pour prdire la localisation des caractristiques faciales qui permettent
de faire correspondre au mieux rgion faciale et modle de visage pralablement appris.
Duffner et Garcia [Duf05] ont propos une mthode globale, base sur les rseaux de
neurones convolutionnels. Cette technique permet de dtecter rapidement et prcisment
les rgions caractristiques du visage de manire robuste jusqu 60 dans le plan image
et 30 profondeur, sur un fond complexe.
Les modles gomtriques de visage sont divers et varis. Chaque auteur construit son
modle en fonction des donnes dont il dispose. Toutefois, tous les modles exploitent,
dune manire ou dune autre, les distances discriminantes entre les rgions
caractristiques dun visage 2D (en vue frontale ou incline). Partant de ce constat, nous
avons construit notre modle gomtrique de visage (frontal) en utilisant la distance entre
les yeux $yeux, qui reprsente la distance de rfrence partir de laquelle les autres

100

Chapitre 4

Extraction de visage et de ses rgions caractristiques

paramtres du modle sont dduits. Le modle gomtrique de visage que nous utilisons
est prsent sur la figure 4.17. On dtermine successivement :
d) la droite L1 passant par les yeux, puis la position des yeux sur cette droite,
e) la droite L2 passant par la bouche, puis la position de la bouche sur cette droite.

$ yeux
L1
d(L1,L2)
L2

%&
Figure 4. 17. Modle gomtrique du visage.

Les diffrentes tapes de lalgorithme qui permettent dextraire ces trois rgions du visage
(les deux yeux et la bouche) sont dtailles ci-dessous.

4.4.6.2 Extraction des yeux


Tout dabord nous commenons par dterminer la droite caractristique L1 de la rgion des
yeux, pour cela nous parcourons les 1/3 de la rgion du visage binarise, note IM, de
gauche droite. Nous calculons pour chaque parcours le nombre de pixels gaux zro, la
droite L1 correspond au parcours ayant le maximum de pixels nuls. Ensuite, les rgions les
plus proches de la droite L1 sont dtermines. Pour se faire, nous calculons la distance
entre le centre de gravit de chaque rgion et la droite L1, les rgions retenues sont celles
dont la distance est infrieure un seuil donn (rgions Ri tels que : d (Ri, L1) < Th1, o
Th1 = 8 pixels). Lensemble des rgions retenues est classifi en deux classes, par la
mthode des k-means. Chaque classe correspond un il (il droit et il gauche). Les
rgions de chaque classe sont ensuite fusionnes et le centre de gravit de chaque il est
calcul. Enfin le rectangle englobant chaque il est dessin pour illustrer le rsultat de
lextraction.

101

Chapitre 4

Extraction de visage et de ses rgions caractristiques

(a)

(b)

(c)

(d)

Figure 4. 18. (a) image originale, (b) visage segment Is, (c) visage binaris IM, (d) les centres de
rgions yeux classifies.

102

Chapitre 4

Extraction de visage et de ses rgions caractristiques

La figure 4.19, montre un exemple du processus de fusion des rgions appartenant la


classe oeil droit.

Figure 4. 19. Processus de fusion des rgions appartenant lil droit.

4.4.6.3 Extraction de la rgion de la bouche


De mme, pour dterminer la rgion de la bouche nous commenons par dterminer la
droite caractristique L2 avec quation suivante, (voir figure 4.20 (a)) :
D(L1 ,L2 ) = 5/6 * $yeux

(4.22)

Enfin, nous avons appliqu les mmes traitements que prcdemment pour dterminer la
rgion de la bouche, savoir :
%& dtermination des rgions proches de la droite L2 un seuil donn (nous avons pris
marge de 8 pixels)
%& fusion des rgions retenues (voir figure 4.20 (a))
%& dessin du rectangle englobant la zone de la bouche (figure 3.20 (b)).

103

Chapitre 4

Extraction de visage et de ses rgions caractristiques

(b)

(a)

%&

Figure 4. 20. Rsultats dextraction des rgions caractristiques.

4.4.6.4 Rsultats visuels


Les figures 4.21 et 4.22 montrent quelques rsultats obtenus avec notre algorithme
dextraction de rgions caractristiques sur des images de visages sous diffrentes
conditions : changement d'illuminations et de pose, prsence d'artefacts visuels (barbe et
lunettes), et variation dans l'expression faciale. Les images originales proviennent des
bases XM2VTS et IV2.

104

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Base de donnes XM2VTS

+
+

(a)

(b)

(c)

Figure 4. 21. (a) image originale, (b) mask Visage (c) rgions extraites

105

Chapitre 4

Extraction de visage et de ses rgions caractristiques

Base de donnes IV2

+
+

+
+

(a)

(b)

(c)

Figure 4. 22. (a) image originale (b) mask visage (c) rgions extraites

106

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.4.6.5 Critres d'valuations


Lextraction de visages est un sous domaine de lanalyse et de la comprhension dimages.
Nous avons donc utilis deux critres ayant trait ce domaine que nous avons adapts au
cas de la localisation de visages, il sagit de :
Dtection positive

On appelle dtection positive une fentre dans limage qui, selon le dtecteur, contient
un objet caractristique.
Dtection ngative

Rciproquement, on appelle dtection ngative une fentre dans limage qui, selon le
dtecteur, ne contient pas dobjet caractristique.
Le taux des bonnes dtections positives (TBDP)

Le taux des dtections dp est le pourcentage des objets caractristiques pour lesquels on a
une dtection positive dans une srie dimages.
Le taux des mauvaises dtections ngatives (TMDN)

Le taux des mauvaises dtections fn est le pourcentage des objets caractristiques pour
lesquels on a une dtection ngative, dans une srie dimages. La relation entre le taux des
dtections dp et le taux des mauvaises dtections ngatives fn est :

fn ( 1' d p

(4.23)

4.4.6.6 Exprimentation et Rsultats


Dans notre cas, une dtection positive de visage sera estime de manire qualitative par la
prsence des yeux et de la bouche dans la fentre obtenue (voir figure 4.23-a). Pour les
yeux en considra quun il est convenablement dtect si la pupille est prsente dans la
fentre. Pour la bouche, le critre est exigeant car on veut disposer de limage de la bouche
entire dans la fentre.(voir figure 4.23).
Les images suivantes montrent des exemples de mauvaises et bonnes dtections pour le
visage, lil droit, loeil gauche et la bouche.

107

Chapitre 4

Extraction de visage et de ses rgions caractristiques

(a)

(b)

Figure 4. 23. (a) les bonnes dtections (b) les mauvaises dtections.

(a)

(b)

(c)

Figure 4. 24. (a,b) les bonnes dtections (c) les mauvaises dtections.

Nous avons appliqu notre approche sur 200 images de taille (256*256) de la base
XMVTS prsentant diffrentes variations d'apparence : barbe, lunette, variation
d'illumination.
XM2VTS /200

TBDP

visage

99%

bouche

97%

yeux

99%

Tableau 4. 2. Taux des bonnes dtections positives sur la base XM2VTS.

Par ailleurs, nous avons aussi appliqu notre approche sur une cinquantaine d'images de la
base IV2, acquises par une paire stroscopique de rsolution moyenne. Ces images
prsentent des variations significatives d'clairage (ombrage, illumination) de pose et dans
les expressions faciales.
IV2 /500

TBDP

visage

99%

bouche

98%

yeux

99%

Tableau 4. 3. Taux des bonnes dtections positives sur la base IV2.

108

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.4.7 Extraction et Normalisation des rgions pour la vrification de


visage
Nous avons appliqu notre mthode dextraction de caractristiques sur les 500 images de
la base IV2 de la premire phase dvaluation. Pour chaque image, nous avons extrait le
visage ainsi que les positions des yeux et de la bouche. Ces donnes brutes ne sont pas
directement exploitables par le module de reconnaissance du visage, un premier traitement
est ncessaire (voir figure 4.25-a), il consiste normaliser toutes les images de visage, en
utilisant les coordonnes des centres des yeux (voir figure 4.25-b). Enfin, pour extraire les
diffrentes rgions dintrt nous avons utilis le centre des yeux ainsi que la position de la
bouche (figure 4.25-c). Les paramtres y0 = 15 pixels et b0 = 20 pixels (voir figure 4.25-b)
dfinissent les hauteurs des rgions yeux et bouche respectivement, ils sont fixs
empiriquement. La rgion du nez correspond la diffrence entre la rgion visage
normalis et les rgions bouche et yeux.

y0

b0

(b)

(a)

(c)

Figure 4. 25. (a) Les caractristiques extraites avec notre mthode (b) visage normalis (c)
les rgions extraites.

109

Chapitre 4

Extraction de visage et de ses rgions caractristiques

4.4.8 Conclusion
Nous avons propos dans ce chapitre une mthode de segmentation base sur la ligne de
partage des eaux qui sapplique aux images couleurs afin dextraire la rgion du visage.
Elle est base sur le calcul du gradient TLS et prend en compte la pertinence de la teinte
lors de la fusion des bassins versants. Les rsultats obtenus dmontrent la robustesse au
bruit et aux variations de l'illumination. Lavantage de cette mthode est quelle utilise
diffrentes stratgies de segmentation en fonction de la valeur de la saturation (luminance,
luminance-teinte, teinte). Par ailleurs, nous avons propos un modle gomtrique simple
et efficace du visage qui nous a permis dextraire les trois rgions caractristiques du
visage, savoir : les deux yeux et la bouche. Nous avons valu les performances de notre
approche dextraction sur les deux bases de donnes XM2VTS et IV2. Bien que notre
critre dvaluation soit de nature qualitative et fonde uniquement sur la prsence des
composants essentiels du visage (yeux, nez et bouche), il nous a permis de valider
lefficacit de notre solution et sa relative robustesse aux diffrentes conditions
dacquisition. Cette approche sera utilise pour lextraction automatique des rgions du
visage dans les mthodes de reconnaissance 2D que nous allons dtailler dans le chapitre
suivant.

110

Chapitre 5

Reconnaissance de visage 2D/3D

Chapitre 5
Reconnaissance de visage 2D/3D

5.1 Introduction
Nous avons dcrit dans le chapitre 2 (section 2.3) plusieurs mthodes de reconnaissance
2D/3D de visage. La reconnaissance du visage 2D a atteint un haut niveau de
performances, mme avec lutilisation dun seul exemple dapprentissage. Bien que le
dernier rapport FRGC indique que de meilleures performances de reconnaissance
automatique des visages ont t obtenues par des systmes de vision plutt que par des
humains, ces rsultats font rfrence des conditions spcifiques (variations contrles).
Dans les conditions actuelles des travaux sur la reconnaissance faciale, le systme visuel
humain reste encore le plus robuste face aux diverses variations pouvant altrer le
processus didentification : changement des conditions d'clairage, variations de
lexpression faciale, et/ou de lorientation du visage, modifications de lapparence du
visage travers la prsence ou labsence de lunettes, barbe, maquillage. La rsolution de
ces verrous rendrait les techniques de reconnaissance 2D du visage beaucoup plus
attrayantes pour les besoins dauthentification et/ou de vrification didentit. Par ailleurs,
nous avons soulign que la reconnaissance faciale 3D a t identifie comme tant une
solution intressante aux problmes cits ci-dessus. Cependant, ces techniques nont pas

111

Chapitre 5

Reconnaissance de visage 2D/3D

encore atteint leur maturit. En effet, la plupart des bases de donnes de visages 3D,
utilises pour le Benchmarking , ne sont pas encore standardises et leurs dimensions
varient considrablement. De plus, le protocole exprimental et la mtrique utiliss, pour
valuer les performances de ces techniques, sont trs diffrents dun travail de recherche
un autre.
Bien que la reconnaissance 3D du visage soit une voie mergeante, il est ncessaire de
pouvoir comparer ses performances avec celles des techniques classiques dans un cadre
contrl o elle serait soumise au mme protocole dvaluation sur une grande base de
donnes. Ce besoin a incit les principaux fournisseurs de donnes biomtriques raliser
des tests sur des donnes 3D de visages. Ainsi, la dernire valuation du FRVT (FRVT
2006 (http://www.frvt.org/) ne sest pas limite aux techniques de reconnaissance 2D du
visage mais inclus aussi les techniques de reconnaissance 3D de visage (sur la base
FRGC). Afin de rpondre ces nouveaux besoins en matire d'valuation des techniques
de reconnaissance faciale 2D et 3D, il est ncessaire davoir une grande et riche base de
donnes contenant des visages acquis sous diffrentes conditions : variations
dexpressions, de poses et dclairage, etc. Dans notre cas, nous avons utilis la base de
donnes IV2 afin dvaluer les diffrentes approches labores pour la reconnaissance
2D/3D de visage.
Ce chapitre est divis en trois parties : dans la premire partie, nous dcrivons en dtail
notre technique dauthentification 2D ; nous donnons aussi les rsultats dvaluations
obtenus sur les donnes de la base IV2, aprs dtection de visage et extraction des
caractristiques par la mthode dcrite au chapitre 4. Dans la deuxime partie nous
prsentons notre approche 3D de reconnaissance base sur les mesures anthropomtriques
du visage. Enfin, dans la dernire partie de ce chapitre nous exposons une approche
hybride de reconnaissance du visage qui combine les approches 2D/3D.

5.2 Authentification de visage 2D


De nombreuses techniques 2D ont t dveloppes ces dernires annes, nous les avons
passes en revue dans le chapitre 2. Parmi elles, lAnalyse en Composantes Principales
(ACP) est une technique particulirement prise par les chercheurs de la communaut de la

112

Chapitre 5

Reconnaissance de visage 2D/3D

biomtrie. Elle est utilise soit de faon globale sur toute limage du visage, soit de faon
modulaire sur les diffrentes rgions faciales. De plus, plusieurs extensions de lACP ont
aussi t proposes et utilises pour la reconnaissance faciale. Par ailleurs, nous avons
soulign linfluence du nombre dexemples dapprentissage par personne sur les
performances de la reconnaissance, et avons indiqu que lACP reste une mthode efficace
et simple pour grer ce type de problme. Cest pour toutes ces raisons que nous avons
opt pour lACP dans notre approche 2D de reconnaissance du visage.
Nous commenons dabord par dtailler le principe des mthodes Eigenface et Eigenface
modulaire.

5.2.1 Eigenface globale


La technique Eigenface globale est une mthode trs utilise pour la reconnaissance de
visage. Sa popularit est due sa nature relativement simple, son fondement mathmatique
fort et ses rsultats bons.
Soit I(x,y) une image de dimension NN, et x un vecteur de dimension L

N 2 1. Soit S

l'ensemble de vecteurs reprsentant les images de visage dans la base de donnes de


dimension M. S est dfini par :

!x1 , x2 , ......................xM "

(5.1)

La mthode Eigenface est constitue de deux processus ou phases : un processus


dapprentissage et un processus de reconnaissance. Ces derniers peuvent tre rsums
comme suit :
Processus dapprentissage
- Dterminer la moyenne des vecteurs images, tel quel :

1 M
# xn
Mn1

- Calculer la diffrence entre les vecteurs image dentre xi et limage moyenne :

113

(5.2)

Chapitre 5

Reconnaissance de visage 2D/3D

&i

x i -$

1%i % M

(5.3)

- Dterminer un ensemble de M vecteurs orthogonaux un qui reprsentent le mieux la


distribution des donnes. Le kme vecteur uk est choisi telle que :
M

'

1
ukT & n
M#
n 1

(k

(5.4)

soit maximale. O u k , ( k sont respectivement les vecteurs propres et les valeurs propres de
la matrice de covariance C dfinie par :

1 M
# & n & Tn
Mn1

(5.5)

La figure (5.1) montre les cinq premires Eigenfaces associs aux plus grandes valeurs
propres, et calcules sur la base dapprentissage IV2 (pour 25 personnes).

Figure 5. 1. Exemple de dcomposition en Eigenfaces.

Processus de reconnaissance

Plusieurs travaux [Tur91] [Mar01] ont dmontr quen pratique, un nombre M < M de
Eigenfaces est gnralement suffisant pour identifier efficacement les visages. Les M
visages propres considrs correspondent aux plus grandes valeur propres (k car elles
encodent les directions dans lesquelles les variations sont les plus marques. Les premiers
visages propres reprsentent habituellement les diffrences dclairage ainsi que les
personnes portant des lunettes ou une barbe.
Le processus de reconnaissance se subdivise en trois tapes : limage d'entre I(N*N)
contenant le visage identifier est transforme en un vecteur X de dimension (N2*1) puis
compar avec le vecteur moyen$ dfini par lq. (5.2). La diffrence entre le vecteur X et

114

Chapitre 5

Reconnaissance de visage 2D/3D

le vecteur moyen $ est ensuite multiplie par lensemble des vecteurs propres uk pour
gnrer le vecteur de poids + XT , tel que :

.k

u kT ' X -$ ) k , 1,........., M '

+ XT

/.

,. 2 ,................,. M 1'

"

(5.6)
(5.7)

La classe de visages qui fournit la meilleure description de limage dentre est dtermine
en minimisant la mesure de similarit entre le poids + XT et les poids de la base
dapprentissage + xTk

1,..., M ' .

5.2.2 Eigenface modulaire


Afin de surmonter les problmes des variations dexpressions et dclairage, Pentland et al
[Pen94] ont propos dappliquer lACP de manire modulaire sur les diffrentes rgions
faciales (voir section 2.3). La motivation principale de cette approche est que les
diffrentes rgions faciales ne sont pas affectes de la mme manire par les diffrentes
sources de variabilit. Par exemple, les expressions faciales affectent plus la bouche que
les autres rgions faciales. Ainsi, par rapport la mthode Eigenface globale, la mthode
Eigenface modulaire ncessite une tape de prtraitement supplmentaire qui consiste
localiser les rgions dintrt lintrieur du visage lors des phases dapprentissage et de
reconnaissance. La prcision du module de dtection des caractristiques de visage est
donc cruciale pour les performances de cette mthode.
Phase dapprentissage : durant cette phase, les rgions du visage sont extraites puis

classes en un ensemble de rgions. LACP correspondante chaque rgion est ensuite


calcule en utilisant la mthode dapprentissage prsente dans la sous-section 5.2.1.
Phase de reconnaissance : pour chaque image dentre, les caractristiques de visage sont

tout dabord extraites puis utilises indpendamment par la procdure de reconnaissance


base Eigenfaces. Les distances ainsi obtenues de lensemble des sous-images sont ensuite
fusionnes pour gnrer un rsultat global de classification.

115

Chapitre 5

Reconnaissance de visage 2D/3D

5.2.3 Tests et Evaluations


Afin dtudier linfluence des diffrentes rgions du visage (yeux, nez, bouche,) sur la
reconnaissance dun individu, nous proposons une approche modulaire qui value lACP
sur un ou plusieurs classifieurs. Chaque classifieur correspond une rgion particulire du
visage. Le but est de dmontrer que cette combinaison ou fusion de classifieurs peut
nettement amliorer le taux de reconnaissance.
Nous avons ainsi men deux valuations pour analyser la prcision du module de dtection
du visage :

! La premire consiste valuer les mthodes Eigenface globale et modulaire sur les
rgions du visage extraites manuellement.

! La deuxime permet dvaluer ces mmes mthodes sur les rgions extraites, cette
fois-ci, avec notre mthode de dtection automatique de visage et des rgions
caractristiques.
Afin dobtenir des lments de comparaison, nous avons utilis le protocole dvaluation
de la phase prliminaire de IV2 (voir chapitre 3), savoir : 50 personnes, 10 images par
personnes, ce qui fait une base de 500 images. Nous avons spar les individus en deux
groupes de 25 : le premier groupe est utilis pour le test et le deuxime groupe pour
construire les classifieurs ACP (avec un seul exemple dapprentissage par personne). A
partir des 250 images (25"10) de la base de test, nous avons effectu 500 comparaisons
deux deux dont 250 comparaisons intra classes et 250 comparaisons inter-classes (voir
chapitre 3). Le taux de vrification est mesur avec le taux EER ainsi que lintervalle de
confiance (IC) associ 90%.
On obtient lintervalle de confiance [Ben03] CIFAR sur le taux de fausse acceptation via
lquation (1.3), :
CI FAR ( FAR ' ) .

1
NI

& FAR#1 % FAR $

116

(5.8)

Chapitre 5

Reconnaissance de visage 2D/3D

= 1,64 dcrit un intervalle de confiance 90%,

95% et

= 1.960 un intervalle de confiance

= 2.576 un intervalle de confiance 99%. On obtient pour les faux rejets :


CI FRR ( FRR ' ) .

1
NC

& FRR#1 % FRR $

(5.9)

o NI et NC sont les nombres daccs imposteur et client respectivement. On calcule


lintervalle de confiance du EER partir de lquation(5.10), tmpEER est indice EER o la
valeur FAR = FRR
CIEER =EER-100*(CIFAR(tmpEER)+ CIFRR(tmpEER))/2)

(5.10)

5.2.3.1 Evaluation 1 : Extraction manuelle


Pour ce test, Nous avons tout dabord men trois expriences diffrentes :

! La premire consiste valuer linfluence de la rsolution des images de visage sur


les performances du systme, elle permet de dterminer les rsolutions optimales.

! La deuxime consiste valuer linfluence des mesures de similarit sur les


performances du systme.

! La troisime exprience permet dvaluer les performances de la combinaison de


plusieurs classifieurs (visage, yeux, nez, bouche).
Exprience 1 : choix de la rsolution image

Nous avons redimensionn les images de visage normalises de taille (220"200) en


diffrentes rsolutions {15"13, 75"65, 100"90, 150"130}. Pour chaque rsolution, nous
avons effectu une comparaison entre les signatures (projections) associes aux vecteurs
image X = [X1,..Xn]T et Y = [Y1,..Yn]T selon la distance L1, appele distance de
Manhattan :
n

d L1 # X , Y $ ( * X i % Yi

(5.11)

i (1

Le tableau 5.1 montre les rsultats du taux EER obtenus pour les diffrentes valeurs de
rsolution ainsi que lintervalle de confiance et les temps de calcul. Nous remarquons
quune diminution de la rsolution, dans certain cas, nengendre pas une baisse

117

Chapitre 5

Reconnaissance de visage 2D/3D

significative du EER. Nous constatons aussi que le EER le plus faible est gal
0.0770.029, il correspond une rsolution de 100"90. Nous avons donc choisi de prendre
une rsolution de 75"65 qui donne un EER gal 0.0790.03, pour avoir un meilleur
compromis entre temps de calcul et prcision.
Visage 2D

15"13

75"65

100"90

150"130

220"200

EER

0.18

0.079

0.077

0.082

0.081

IC

0.04

0.029

0.028

0.029

0.029

Temps

21s

32s

46s

76s

137s

Tableau 5. 1 Les rsultats des EER, lintervalle de confiance 90% associ et le temps excution
pour lexprience 1.

Exprience 2 : choix des mesures de similarit

La deuxime exprience est mene sur des images ayant une rsolution de 75"65. Nous
avons compar trois distances : la distance L1 (quation 5.8), la distance L2 et la distance
Cosinus telles que :

! la distance L2, appele distance euclidienne, est dfinie par :


2

d L2 # X , Y $ ( * # X i % Yi $

(5.12)

i (1

! la mesure de similarit dangle ngatif (ou distance cosinus), entre les vecteurs Xi
et Yi est donne par :
d cos # X , Y $ (

118

*i (1 X i Yi
n
n
*i (1 X i2 *i (1Yi 2
n

(5.13)

Chapitre 5

Reconnaissance de visage 2D/3D

1
L1
L2
Cosinus

0.9
0.8
0.7
0.6

R
R
F

0.5
0.4
0.3
0.2
0.1
0
0

0.2

0.4

0.6

0.8

FAR
Figure 5. 2. Courbes DET : les rsultats sur la deuxime exprience.

La figure 5.2 montre la courbe DET pour les trois distances. Nous remarquons que les
distances L1 et L2 donnent de meilleurs rsultats que la distance Cosinus. Par ailleurs, les
rsultats des distances L1 et L2 sont trs similaires (EERL1= 0.0730.027 et EERL2 =
0.0790.028). Nous avons donc choisi dutiliser la distance L1 pour le reste de lvaluation
des performances.
Exprience 3 : combinaison des classifieurs

Nous avons extrait manuellement les rgions caractristiques en dcoupant le visage


normalise en trois parties distinctes : yeux, nez, et bouche. Nous avons appliqu une ACP
sur chacune des quatre rgions du visage, savoir: visage global, yeux, nez et bouche.
Pour la mthode Eigenface modulaire, les scores de la classification obtenus sur chacune
des rgions (visage, yeux, bouche et nez) sont fusionns. Pour tudier linfluence de
chaque rgion sur les performances de la reconnaissance, nous avons affect chaque
rgion un poids diffrent. Les rgions faciales partir desquelles sont construits les
classifieurs sont illustres dans la figure 5.3. Le classifieur 1 est construit partir de
limage globale du visage de taille 75"65. Le classifieur 2 est construit partir dune
rgion de taille 50"65 contenant les yeux et les sourcils, cest la rgion la plus stable du

119

Chapitre 5

Reconnaissance de visage 2D/3D

visage. Le troisime classifieur contient la rgion du nez de taille 35"65. Enfin, le


quatrime classifieur contient la rgion de la bouche de taille 35"65. Chaque classifieur est
pralablement construit en appliquant une ACP sur la base dapprentissage (25 personnes)
propre chaque rgion. Ceci permet dobtenir une matrice par rgion avec un nombre de
vecteurs propres associs.

(a)

(c)

(b)

(d)

Figure 5. 3. Rgions faciales utilises pour construire les quatre classifieurs.

Pour tudier linfluence de chaque rgion sur la classification, nous avons calcul son taux
EER. La figure (5.4) montre les rsultats obtenus pour les diffrentes rgions du visage.
1
bouche
nez
yeux
visage

0.9
0.8
0.7
0.6

R
R
F

0.5
0.4
0.3
0.2
0.1
0
0

0.2

0.4

0.6

0.8

FAR

Figure 5. 4. Courbe DET : des diffrents classifieurs.

Nous remarquons que la rgion bouche donne les plus mauvais rsultats (ERR =
0.210.042) en comparaison avec les rgions yeux (ERR = 0.140.035), nez (ERR =
0.100.031) et visage (ERR = 0.079 0.0281).

120

Chapitre 5

Reconnaissance de visage 2D/3D

La figure 5.5 montre la stratgie de la fusion des scores que nous avons adopte. La
classification de chaque image requte se fait de la manire suivante :

! Extraction des rgions.


! Calculer les signatures de limage requte.
! Comparer ces signatures avec les signatures du classifieur li la rgion utilisant la
distance L1. Nous obtenons ainsi quatre scores s1, s2, s3, s4 (un score par rgion).

! Les quatre scores sont ensuite fusionns pour calculer un score final de
classification.

Image
dentre

Classifieur 1
(Visage)

Score 1

Classifieur 2
(Yeux)

Score 2
Fusion des
scores

Extraction des
rgions.
Classifieur 3
(Nez)

Vrification.

Score 3

Classifieur 4
(Bouche)

Score 4

Figure 5. 5. Fusion des scores. La classification se fait grce des rgles permettant de combiner
les sorties des quatre classifieurs.

Pour trouver le meilleur compromis entre les rgions nous avons test plusieurs
combinaisons de fusion. Pour cela, nous avons utilise deux mthodes de fusion : la fusion
par somme directe et la fusion par somme pondre.
- La fusion des scores par une somme directe est dfinie par:

! Synv = Syeux + Snez +Sglobal


! Syn = Syeux + Snez
! Synb = Syeux + Snez + Sbouche

121

Chapitre 5

Reconnaissance de visage 2D/3D

La figure 5.6 montre les rsultats obtenus pour ces diffrentes combinaisons. Elle prsente
les courbes DET des fusions de scores. Nous remarquons que la fusion Synb (yeux, nez et
bouche) engendre le plus mauvais taux de EER = 0.0720.026. Par contre, la fusion des
scores des rgions yeux et nez donne le taux le plus faible (EER = 0.0460.021). Nous
avons aussi appliqu la fusion Synv dcrite dans [Pen94] qui combine les rgions des yeux
et du nez avec la rgion globale du visage, le taux ERR obtenu est gal 0.0500.022.
- la fusion par somme pondre (Matcher Weighting [Sne05]) des diffrents scores: les
pondrations sont assignes chaque classifieur en se basant sur le taux EER qui lui est
associ.
En notant le EER dun classifieur m comme rm , m = 1, 2,,M. o M est le nombre total
de classifieurs. La pondration

associe au classifieur m est donne par :


01 / M 1 . * rm +
) m ( / m (1 ,
rm

(5.14)

Notons que 1 m, *mM(1 ) m ( 1 et les pondrations sont inversement proportionnelles aux


erreurs correspondantes et sont par consquent plus grandes pour les classificateurs les plus
prcis. La quantit s m reprsente le score normalis pour le classificateur m. La fusion des
scores note Sp est calcule comme suit :
M

S p ( * ) m sm

(5.15)

m (1

A partir des valeurs des EER de chaque classifieurs (yeux, nez, bouche) trouves
prcdemment nous avons calcul les pondration
nous avons obtenu:

yeux=0.4461,

nez =

0.341 et

(m=1,2,3) en utilisant lquation (),

bouche=

0.212.Le score final Sp = 0.4461

*Syeux + 0.341* Snez + 0.212 *Sbouche, avec un taux EER = 0.57 0.024 pour :

122

Chapitre 5

Reconnaissance de visage 2D/3D

1
0.9

yeux+nez+bouche
yeux+nez+visage
yeux+nez

0.8

0.45*y+0.45*n+0.10*b
S
P

0.7

FRR

0.6
0.5
0.4
0.3
0.2
0.1
0
0

0.2

0.4

0.6

0.8

FAR

Figure 5. 6. Les courbes DET des diffrentes combinaisons de classifieurs.

En conclusion, cette exprience a dmontr quavec lextraction manuelle des rgions de


visage, la fusion nez et yeux donne le meilleur taux EER, soit 0.0460.021.

5.2.3.2 Evaluation 2 : Extraction automatique


Dans cette deuxime valuation, nous allons tudier linfluence du module de dtection
automatique de visage et de ses caractristiques (algorithme prsent dans le chapitre 4)
sur le systme de la reconnaissance faciale.
Nous avons valu les mthodes de reconnaissance 2D globale et modulaire en utilisant les
rgions images extraites automatiquement. Nous avons compar les rsultats obtenus avec
ceux de lvaluation 1 (extraction manuelle). La figure 5.7 montre les diffrentes courbes
DET des rgions du visage. Nous remarquons que dans tous les cas, le taux EER pour les
rgions extraites automatiquement est plus faible. Ainsi, par exemple, le taux EER pour la
rgion visage extraite automatiquement est infrieur de 2% celui de la rgion visage
extraite manuellement. Pour la rgion bouche cette baisse est de 0.7%.

123

Chapitre 5

Reconnaissance de visage 2D/3D

Par ailleurs, nous avons compar les rsultats de la fusion (voir figure 5.8) des classifieurs
dans le cas de lextraction automatique de rgions, nous avons constat que le taux a baiss
denviron 1%. Le taux le plus faible EER = 0.0440.021 correspond dans ce cas la fusion
pondre :
SP = 0.4511 * SNez +0.2911 * SYeux +0.2578 * SBouche

(5.16)

Ce rsultat, dmontre que mme si la rgion bouche possde un taux de vrification faible,
surtout lorsque la base de donnes contient des variations dexpressions, il ne faut pas
lexclure de la stratgie de fusion, il faut juste lui affecter une pondration plus faible.
Il est vrai que cette premire phase de test du projet IV2 ne donne pas les rsultats
dfinitifs, mais elle nous a permis de mettre en avant les performances de la fusion des
rgions caractristiques pour la reconnaissance faciale, et particulirement la fusion
pondres des rgions du nez, des yeux et de la bouche. Nous avons donc retenu cette
approche de fusion pour la mthode de reconnaissance hybride 2D+3D qui sera dcrite
dans la troisime partie de ce chapitre.
Rgion

EER IC

EER IC

Evaluation 2 : Extraction automatique

Evaluation 1 : Extraction manuelle

Yeux

0.1200338

0.140.035

Nez

0.079 0.0281

0.100.031

Bouche

0.140.035

0.210.042

Visage

0.059 0.0245

0.079 0.0281

Tableau 5. 2. Comparaison entre les taux EER obtenus dans les cas de lextraction automatique et
manuelle des rgions du visage.

124

Chapitre 5

Reconnaissance de visage 2D/3D

yeux

nezM

yeuxA

0.8

nez

0.8

0.6
FRR

FRR

0.6

0.4

0.4

0.2

0.2

0
0

0.2

0.4

0.6

0.8

0
0

0.2

0.4

FAR

0.6

0.8

FAR

bouche

visage

bouche

visage

0.8

0.8

0.6

FRR

FRR

0.6

0.4

0.4

0.2

0.2

0
0

0.2

0.4

0.6

0.8

0
0

0.2

0.4

FAR

0.6

0.8

FAR

Figure 5. 7. Courbes DET : rgionM extraction manuelle, rgionA extraction automatique.

0,08

0,079
0,072

0,07
0,06

0,059
0,046

EER

0,05

0,057

0,057
0,05

0,046

0,05
0,044

0,04
0,03
0,02
0,01
0
Visage

Nez+Yeux

N + Y+ V
2D _M

N +Y+B

*N+*Y+*B

2D_Auto

Figure 5. 8. Les diffrents rsultats de fusion de classifieurs.

125

Chapitre 5

Reconnaissance de visage 2D/3D

5.3 Vrification de visage 3D


Il existe plusieurs mthodes gomtriques ou locales de reconnaissance 2D de visage (voir
chapitre 2) robustes aux variations d'expression et aux occultations, mais pas vis--vis des
changements de pose [Tan06]. Par ailleurs, peu de travaux ont t publis sur des
approches gomtriques 3D, et comme nous lavons soulign dans le chapitre 2, dans ces
approches le choix des points caractristiques nest bas sur aucune tude de la structure du
visage humain [Hus05][Wan02][Lee05]. Dans cette partie nous proposons une mthode
gomtrique de reconnaissance base sur des mesures anthropologiques 3D de visage.
L'utilisation de linformation 3D de visage est motive par plusieurs raisons.
Premirement, le fait de travailler sur la forme purement gomtrique du visage, plutt que
sur la couleur et la texture des images, rend le systme de reconnaissance invariant
lillumination. Deuximement, il est plus facile de changer lorientation dun modle facial
3D dans lespace pour compenser les variations de poses, quun visage sur une image 2D.
Enfin, les informations de profondeur fournissent un atout supplmentaire pour la
reconnaissance. Cela dit, il est vident que la couleur et la texture sont aussi une source
riche dinformation qui pourrait contribuer amliorer les performances des systmes de
reconnaissance faciale. Ainsi, une combinaison des informations 3D et 2D du visage
permettrait de rduire le taux derreur cest que nous prsentons dans la section 5.4.
Nous allons tudier dans cette partie, la faisabilit dun systme de reconnaissance du
visage bas sur des donnes 3D seules, et comparer ses performances avec celles dun
systme de reconnaissance 2D classique. Pour cela, nous commencerons par prsenter une
tude sur lanthropomtrie. Ensuite nous expliciterons le choix de la signature 3D retenue
ainsi que lextraction et la reconstruction des points 3D. Enfin nous exposerons les
rsultats des diffrents tests dvaluation.

5.3.1 Etude de lanthropomtrie du visage


Le visage humain constitue la composante essentielle pour la reconnaissance dune
personne. Il est primordial alors dtudier sa morphologie, son anatomie et son valuation
au cours de sa croissance et du vieillissement pour en tirer les points les plus discriminants
et les plus stables. Les anthropologues ont men des tudes sur les caractristiques

126

Chapitre 5

Reconnaissance de visage 2D/3D

mtriques et descriptives du visage humain. Rcemment, Bennaceur et al. [Ben05] ont fait
une tude intressante sur le dveloppement du visage humain depuis la naissance jusqu
lge adulte. Les auteurs ont rsum les mensurations du visage quils ont appeles
donnes anthropomtriques du vivant et qui peuvent tre utilises pour lidentification
de visage.
Deux mthodologies anthropomtriques sont gnralement utilises [Ver04], la premire
adopte la comparaison des mesures ralises entre diffrents points anatomiques ou
construites sur les diffrentes photos. Pour assurer la validit de cette mthode, les photos
utilises doivent tre pralablement normalises la mme chelle. Cela est ralis en
fixant une distance de 6 cm entre les deux pupilles [Por00]. Les mesures sont ensuite prises
en utilisant un compas numrique (digital calipers). Les rsultats sont prsents dans une
table rcapitulative et pourront ainsi tre compars. La deuxime technique consiste
utiliser des indices et des angles calculs partir de mesures effectues entre des points
prcis, bien dfinis sur les diffrentes rgions faciales et reconnus pour leur stabilit,
permettant ainsi de travailler sans tenir compte de lchelle des photos utilises. Cette
technique est utilise pour mesurer les proportions cranio-facial. Ces proportions
correspondent des rapports de distances de paires de segments-de-droite entre des points
spcifiques sur le crne et des points faciaux [Far87]. Par exemple, l'indice nasal le plus
utilis est le rapport entre la largeur horizontale du nez et sa hauteur verticale. Les mesures
Cranio-faciales sont utilises dans diffrents domaines : dans la sculpture pour crer des
visages idaux bien proportionns, dans l'anthropologie pour analyser des restes humains
prhistoriques [Com60], et plus rcemment en vision par ordinateur (estimation de
lorientation de la tte [Hor97], dtection des points caractristiques de visage [Soh06]) et
en infographie [DeC98] pour crer des modles paramtriques de visages humains. Ds
1939, Hrdlicka a soulign l'importance des mesures faciales anthropomtriques pour
comparer des groupes de personnes ou des populations [Hrd39]. Malgr cela,
lanthropomtrie n'a pas t ou peu utilise par la communaut de biomtrie pour la
reconnaissance 3D de visage. Aprs une tude approfondie de la littrature antrieure sur
l'anthropomtrie, Farkas et al. ont rsum une liste de 129 proportions anthropomtriques
cranio-faciales de base ayant t employes pour des tches diffrentes [Far80]. Les
auteurs ont aussi enregistr la moyenne et lcart-type de ces indices en collectant des

127

Chapitre 5

Reconnaissance de visage 2D/3D

mesures sur 1312 sujets humains adultes appartenant des ethnies, sexes et tranches d'ge
diffrents. Dans [Far87] les auteurs ont slectionn 25 indices anthropomtriques (voir
l'annexe C). Ce choix fut motiv par le fait que les points repres devaient tre identifiables
sur des photographies.
Une des mthodes qui utilise les indices et les angles est la mthode de
craniophotocomparaison, mise au point par [Per96]. Cette technique consiste comparer
un crne avec une photographie (figure 5.9) dune personne disparue. La comparaison
prend en compte les valeurs indiciaires et angulaires permettant ainsi de travailler sans
tenir compte de lchelle des documents. Dans ce qui suit nous dcrivons cette mthode sur
un exemple concret, afin dillustrer le choix et le calcul des diffrent paramtres utiliss
pour la reconnaissance du visage. Sur la vue faciale du crne et sur la photographie du
sujet disparu (figure 5.9) sont positionns des points anatomiques qui, relis entre eux
selon des critres prcis, fournissent des paramtres (tableau 5.3), des indices et des valeurs
angulaires. Il est important de noter que ltude comparative ne prend jamais en compte la
comparaison des valeurs brutes dun mme paramtre sur les deux clichs mais celle des
rapports indiciaires confrontant les paramtres deux deux, dans chaque clich, ce qui
offre lavantage considrable de pouvoir travailler sur des instantans ntant pas la
mme chelle! La ressemblance entre le crne inconnu et la photographie va tre tablie en
prenant en compte la diffrence algbrique des valeurs indiciaires (ou angulaires). Ensuite
la somme algbrique (tableau 5.4) de lensemble des intervalles indiciaires est calcule
puis divise par le nombre dindices pris en compte : le rsultat ainsi obtenu (= moyenne
algbrique) va permettre lidentification (cest dire lassimilation crne inconnu / visage),
qui sera considre comme : fortement probable ( 90%) certaine ( 100%) dans le crneau
:-1/0/+1.

Figure 5. 9. Dessin au dioptrographe du Crne1 montrant les points et paramtres utiliss dans la
craniophotocomparaison

128

Chapitre 5

Reconnaissance de visage 2D/3D

Points

Paramtres

Pupille droite

Pupille gauche

AB
DE

Diamtre interpupillaire / plan du


regard
Ouverture de la bouche / plan occlusal

Nasion

Nasospinal

FF

Axe nasal

Gnathion*

Prognathion [point mentonnier]*

FH

Axe sagittal facial

Intersection FH / DE

Intersection FH / AB

Tableau 5. 3. Points et paramtres utiliss dans la craniophotocomparaison (daprs Desbois, Perrot


et Desbois, 2004)

Rsultats de la craniophotocomparaison crne 1/ Mr C (Figure 5.9)

Angles
FAD
GAD
FBE
GBE
ADH
BEH
Indices
ABx100/DE
FGx100/FC
AGx100/FC
ABx100/FH
AFx100/FC
Somme algbrique
Moyenne algbrique

Crne1
97
82
100
87
164
156

Mr C
87
85
93
81
158
160

Diffrence algbrique
10
-3
7
6
6
-4

122
10.48
40.63
48.03
41.94

141.46
10.81
40.24
56.86
40.95

-19.46
-0.33
0.39
-8.83
0.99
-5.44
-0.49

Tableau 5. 4. Angles et valeurs indiciaires pris en compte dans la craniophotocomparaison [Des04]

129

Chapitre 5

Reconnaissance de visage 2D/3D

Nous nous sommes inspirs de ces travaux pour dfinir les diffrents paramtres indiciaires
et angulaires utiliss dans notre approche de reconnaissance 3D.

5.3.2 Slection des points caractristiques


Le choix des points caractristiques du visage est trs critique pour les mthodes de
reconnaissance 3D. Ces points doivent tre discriminants et stables afin de permettre
lidentification de personnes sous diffrentes conditions dclairage, de poses et
dexpressions faciales. Pour dfinir les points les plus pertinents du visage, nous nous
sommes bass sur les rsultats des recherches de la psychologie cognitive sur le systme
visuel humain. En effet, ces recherches ont clairement mis en vidence limportance des
rgions des yeux, du nez et de la bouche pour l'identification faciale. Et donc les points
caractristiques utiliss doivent couvrir l'ensemble de ces trois rgions. Par ailleurs,
plusieurs recherches sur les mthodes gomtriques et locales 2D ont montr que la partie
suprieure du visage est la plus stable [Bru88][She81]. Les tests dvaluation que nous
avons effectus sur la base IV2 et prsents dans la section prcdente ont aussi dmontr
que la rgion de la bouche diminue considrablement le taux dauthentification surtout
lorsque la base contient des changements significatifs dexpressions. Partant de ce constat,
nous avons choisi les 12 points caractristiques (voir figure 5.11-a) suivants :
Rgion yeux

la diffrence de la mthode craniocomparaison , nous avons choisi les 6 points les


plus stables au lieu de deux points, car dans notre cas il sagit de personnes vivantes :

les quatre coins des yeux (P1, P3, P4, P6), deux centres pupilles (P2, P5).

Rgion nez

Pour quon puisse mesurer la largeur et la hauteur du nez nous avons choisi cinq points :

le nasion (P7), la pointe (P8), le subnasal (P10) et les deux extrmits du nez
(P9, P11).

130

Chapitre 5

Reconnaissance de visage 2D/3D

Rgion bouche

Nous avons choisi le point le plus stable en cas dexpression faciale, il sagit du point (P12)
obtenu partir de lintersection des deux droites, L1 reliant les deux chelons de la bouche
et L2(P7 ,P11). Il correspond au centre de la bouche.
La figure 5.10-a permet de visualiser ces 12 points.

5.3.3 La signature 3D
Lensemble des points caractristiques slectionns est utilis pour calculer une signature
qui doit permettre didentifier sans ambigut le visage de la personne en question.
La signature 3D (voir tableau 5.6) que nous avons mise au point permet de caractriser une
personne de faon unique. Elle correspond un vecteur de distances 3D, dindices et
dangles.

Nous

nous

sommes

bases

sur

plusieurs

travaux

de

recherche

[Ben05][Per96][Far87] pour choisir les paramtres gomtriques utiliss dans le calcul de


la signature 3D (voir tableau 5.5). Ainsi, selon Bennaceur [Ben05] les distances A1, A2, A3
correspondent des mensurations ayant une grande importance car elles permettent
dapprcier une partie de lquilibre craniofacial. Les distances B2 et B1 sont choisies pour
calculer le rapport entre le nez et la bouche [Far87]. Les distances B2 et D sont choisies
pour calculer lindice du nez. Enfin, comme nous ne travaillons pas sur des crnes mais sur
des visages de personnes vivantes, nous avons choisi de calculer les angles partir des
points les plus stables du visage (voir figure 5.12-c).
A1
A2
A3
1

7
8

10
12
L2
(a)

1 2

4 5 6
11

3 7

9
L1

8
10
12

B2
11

6
B1

2
9

7
8
10

4 5 6
11

12

D
(b)

(c)

Figure 5. 10. Points (a), paramtres (b) et angles (c) utiliss pour la cration dune signature 3D
facial.

131

Chapitre 5

Reconnaissance de visage 2D/3D

Les tableaux suivants rsument les lments de la signature propose :


Points

Paramtres

A1=dist(1-6)

Distance entre les coins extrieurs des yeux (la distance intercanthale externe)

A2=dist (2-5)

Distance interpupillaire

A3 =dist(3-4)

Distance entre les coins intrieurs des yeux (la distance intercanthale interne)

D =dist (9-11)

Distance entre les deux extrmits du nez (la largeur du nez)

B1 =dist (7-12)

Distance entre nasion et centre de la bouche

B2 =dist (7-10)

Distance entre nasion et le subnasal ou hauteur du nez

B3 =dist (3-9)

Distance entre le coin interne et lextrmit du nez

Tableau 5. 5. Les paramtres utiliss pour la cration de la signature 3D.


Signature

Paramtres

Distances

A1=dist(P1,P6)
A2 = dist(P2,P5)
A 3 =dist(P3,P4)
B1= dist(P7,P10)
100*A3/A1

Indices

100*B2/B1
100*D/ B2 (Indice du nez)
100*A2/B2
Angl(7-6-12)

Angles

Angl(9-7-11)
Angl(1-12-6)

Tableau 5. 6. La signature 3D propose

132

Chapitre 5

Reconnaissance de visage 2D/3D

5.3.4 Systme dacquisition de visage 3D


Linconvnient de la reconnaissance 3D du visage rside principalement dans le systme
dacquisition. Les systmes utiliss actuellement, comme le scanner laser, exigent une
coopration active de lutilisateur, ce dernier doit se tenir une distance prcise du scanner
et rester immobile durant un certain laps de temps. De plus, le cot de ces systmes reste
trs lev, et le temps dacquisition et du traitement des donnes 3D trop lent. Tous ces
inconvnients ont t pratiquement constats lors des acquisitions des visages 3D dans le
cadre du projet Techno vision IV2.
Dans le cadre de notre thse, nous proposons dutiliser la vision binoculaire ou vision
stroscopique (utilisation de deux camras fixes) pour gnrer les donnes 3D des
visages. La vision stroscopique se veut la plus proche possible de la stratgie perceptive
humaine, plaant les camras sur le mme axe de vision figure (5.11), dans une
configuration convergente. Chaque image droite et gauche reprsente la mme scne vue
sous un angle diffrent. La mise en correspondance entre les points des deux images
permet, par triangulation, de reconstruire la scne 3D.

Figure 5. 11. Systme stroscopique utilis

Il est vrai que la vision stroscopique souffre dun inconvnient majeur, savoir le
problme de lappariement des points dense ou non dense, de primitives extraits des
images gauche et droite. La prcision des modles reconstruits dpend essentiellement de
la prcision de la mise en correspondance. Ce problme est encore plus complexe dans le
cas du visage. Dans notre cas, ce problme ne se pose pas, car nous navons pas besoin de
reconstruire tout le visage mais uniquement quelques points caractristiques (exemple : les
coins des yeux).

133

Chapitre 5

Reconnaissance de visage 2D/3D

5.3.4.1 Calibration des cameras


Avant de commencer les acquisitions, nous avons tout dabord calibr les deux cameras.
Plusieurs mthodes de calibration existent dans la littrature [Zho00] [Tsa87]. Nous avons
utilis la mthode de Toscani [Fau93] dtaille dans lannexe B. Le calibrage consiste
calculer les paramtres intrinsques et extrinsques de la camra partir de points 3D dont
on connat la position dans un repre monde. Ce type d'objet aux coordonnes 3D connues
est appel mire de calibrage (voir figure 5.12). Le calibrage est alors ralis pour chaque
camra indpendamment. On obtient deux matrices de projection perspective qui
permettent de retrouver la gomtrie euclidienne, lorsque le mme point dans les deux
images droite et gauche est mis en correspondance. Les donnes ncessaires sont : les
coordonnes 3D de points dans l'espace monde et leurs correspondances 2D dans l'espace
image. En pratique, plus 8 correspondances (point 3D/pixel 2D) sont ncessaires pour
rsoudre ce systme d'quations et obtenir la matrice de projection affine. Dans notre cas
nous avons utilis 96 correspondances 2D/3D.

Figure 5. 12. Mire de calibration

5.3.4.2 Reconstruction des points 3D


La dtection automatique des points caractristiques du visage dans une image est un
problme complexe qui fait lobjet de recherches intensives. Nous avons cit dans le
chapitre 2 quelques travaux sur la reconnaissance 2D qui utilisent des mthodes
automatiques dextraction de points caractristiques [Bru93] [ Lee96] . Lobjectif de cette
thse tant de proposer puis valuer des mthodes de reconnaissance 2D/3D, nous navons

134

Chapitre 5

Reconnaissance de visage 2D/3D

donc pas abord le problme de la dtection automatique des points caractristiques, nous
les avons extraits manuellement sur les images gauche et droite de la paire stroscopique.

(a)

(b)

Figure 5. 13. Diffrents points choisis pour la reconstruction.

La mise en correspondance consiste trouver sur les deux images des paires de points
homologues. Dans un premier temps, il sagit de dtecter les points caractristiques dans
chacune des images (voir figure 5.13), puis dans un second temps, les points de la premire
image sont apparis avec les points de la seconde image.
Dans notre cas la phase de mise en correspondance des points est faite automatiquement
parce que les points caractristiques sont toujours extraits dans le mme ordre. Ces paires
de points images apparis sont ensuite utilises pour reconstruire les points 3D
correspondants [Fau93].
P

P2

P1
21

Lignes pipolaires

Mise en
correspondance

C1

22

C2

Figure 5. 14. Vision stroscopique.

135

Chapitre 5

Reconnaissance de visage 2D/3D

La connaissance des deux matrices de projection N, M des deux camras est suffisante
pour calculer les trois coordonnes dun point quelconque P, connaissant ses images p1 et
p2 (voir figure 5.14). En effet on peut crire la transformation mire/image ainsi :
0 su - 0 M 1
. + .
. sv + ( . M 2
. s + .M
/ , / 3

M 14 + 0 PM 24 + & .. ++
1
M 34 +, / ,

(5.17)

avec (u, v)t les coordonnes du point dans le repre image, s est un facteur dchelle,
Mi=(Mi1 Mi2 Mi3) et P=(X Y Z)t. En dveloppant lquation (5.15) on aura le systme

suivant :
6su ( M 1 P 7 M 14
3
5sv ( M 2 P 7 M 24
3s ( M P 7 M
3
34
4

(5.14)
(5.15)
(5.16)

- en remplaant (5.16) dans les deux quations (5.14) et (5.15), on obtient :

#M 1 % u 2 M 3 $P ( u 2 M 34 % M 14
#M 2 % v2 M 3 $P ( v2 M 34 % M 24

(5.18)

Pour la deuxime camra on aura un systme identique et une autre matrice de projection

N:

#N 1 % u 2 N 3 $P ( u 2 N 34 % N 14
#N 2 % v2 N 3 $P ( v2 N 34 % N 24

(5.19)

Finalement, on aura un systme quatre quations et trois inconnues qui sont les
coordonnes du point P :
6#M 1 % u1 M 3 $P ( u1 M 34 % M 14
3#M % v M $P ( v M % M
3 2
1
3
1
34
24
5
3#N 1 % u 2 N 3 $P ( u 2 N 34 % N 14
34#N 2 % v 2 N 3 $P ( v 2 N 34 % N 24

(5.20)

La solution de ce systme est faite par les moindres carrs en rsolvant lquation : AP=B

136

Chapitre 5

o :

Reconnaissance de visage 2D/3D

0 M 1 % u1 M 3 .
+
. M 2 % v1 M 3 +
A(.
N % u2 N3 +
. 1
+
. N %v N +
2
3 ,
/ 2

et

0 u1 M 34 % M 14 .
+
. v1 M 34 % M 24 +
B(.
u N % N 14 +
. 2 34
+
.v N %N +
24 ,
/ 2 34

La solution aux moindres carrs est alors donne par :

# $

P ( At A

%1

At B

(5.21)

5.3.5 Protocole dvaluation


Dans la littrature on parle souvent dvaluation des techniques de reconnaissance de
visages 3D sur des bases de visage 2.5D/3D. Afin dvaluer notre approche sur une vraie
base stroscopique nous avons utilis les donnes de la base IV2 car cest la seule base en
notre possession qui contient des images stroscopiques avec les mtadonnes associes
(notamment les matrices intrinsque et extrinsque des camras), des informations
essentielles pour la reconstruction 3D des points caractristiques.

5.3.5.1 Extraction des donnes


A partir des vidos de la base stro, nous avons extrait des images de 85 personnes. Pour
chaque personne nous avons pris 4 paires dimages (4 pour limage gauche et 4 pour
limage droite) sous des conditions diffrentes dexpression, dillumination et de pose (voir
figure 5.15).
Nous avons utilis le logiciel VirtualDub pour extraire les images gauche et droite partir
des squences vido. Il arrive que la synchronisation entre les deux camras soit
imparfaite. Nous avons du extraire toutes les images de la vido et choisir les images
gauche qui correspondent le mieux aux images droites. La rsolution des images ainsi
gnres est moyenne (650x480).
Pour chaque paire dimages de personne nous ralisons les oprations suivantes :

! extraction manuelle des points caractristiques 2D

137

Chapitre 5

Reconnaissance de visage 2D/3D

! reconstruction des points 3D


! cration de la signature 3D

a1

b1

a2

b2

Figure 5. 15. Images stro extraites de la base d'valuation IV2 : a) image droite, b) image gauche

5.3.5.2 Vrification 3D
La phase dextraction nous a permis de crer 340 signatures (4 signatures par personne).
Afin d'valuer nos algorithmes en mode de vrification, nous avons utilis une mesure de
similarit qui correspond une distance entre les vecteurs caractristiques des images de
test. Le nombre de comparaisons effectues est gal 510 dont 255 comparaisons intra
classes. Comme pour lapproche 2D nous avons galement choisi le taux EER pour
mesurer le taux de vrification.
Par ailleurs, afin dtudier la stabilit de la signature 3D nous proposons de calculer les
carts type intra-classe et inter-classe de chaque composante de la signature pour un
ensemble de 85 personnes. Le tableau 5.7 montre un exemple de signatures 3D dune
mme personne pour diffrentes expressions faciales.

138

Chapitre 5

Reconnaissance de visage 2D/3D

Signature
A1=dist(P1,P6)
A2 = dist(P2,P5)
A 3 =dist(P3,P4)
B1= dist(P7,P10)
100*A3/A1
100*B2/B1
100*D/ B2
100*A2/B2
Angl(9-7-11)
Angl(4-6-12)
Angl(1-12-6)

Mr C neutre

Mr C sourir

Mr C
surprise

90,167
64,519
37,987
50,028
122,41
45,325
121,63
58,454
43,395
66,643
47,972

90,88
64,897
38,536
50,217
120,11
46,003
120,55
59,451
44,76
64,706
48,17

91,608
63,981
36,913
50,71
124,69
44,393
127,65
56,011
44,525
64,201
46,741

Mr C dgout
88,157
64,692
38,335
50,303
125,34
42,793
129,74
55,033
49,393
67,491
45,093

Tableau 5.7. Exemple de signatures 3D dune mme personne pour diffrentes expressions faciales

Les rsultats de cette tude statistique sont rsums dans le tableau 5.8. Nous avons ainsi
dtermin, dune part, lcart type moyen inter classe de chaque mesure de la signature
pour les 85 personnes, et dautre part, lcart type moyen intra classe dune personne
neutre. Pour ltude intra classe, les carts types faibles caractrisent les mesures les plus
stables. Le tableau 5.8 montre que lcart entre les yeux (mesure A1) et la longueur du nez
(mesure B1) sont les mesures les plus stables. Par ailleurs, pour ltude intra classe, nous
remarquons que les carts type sont levs ce qui dmontrent linstabilit de la signature
pour caractriser deux personnes diffrentes.
Tableau 5. 8 Etudes statistique entre les mesures de la signature

Signature
A1=dist(P1,P6)
A2 = dist(P2,P5)
A 3 =dist(P3,P4)
B1= dist(P7,P10)
100*A3/A1
100*B2/B1
100*D/ B2
100*A2/B2
Angl(9-7-11)
Angl(4-6-12)
Angl(1-12-6)

Ecart type intra_classe

Ecart type inter_classe

1,45

3,44

0,29

2,44

0,65

3,11

0.20

6,12

1,78

9,99

1,55

2,66

2,2

4,84

1,45
1,23
1,1
1,02

4,55
2,34
1,9
2,8

139

Chapitre 5

Reconnaissance de visage 2D/3D

1
3D EER = 0.070

0.9
0.8
0.7
0.6

R
R
F

0.5
0.4
0.3
0.2
0.1
0
0

0.2

0.4

0.6

0.8

FAR
Figure 5. 16.Courbes DET : approches 3D.

5.3.5.3 Discussion
Les tests dvaluation de notre approche de reconnaissance 3D de visage sur une sous base
de IV2 nous ont permis dobtenir un EER trs satisfaisant, de lordre de 0.0700.026.
Nous avons utilis 510 comparaisons dont 255 comparaisons intra-classes. Par ailleurs,
nous avons compar nos rsultats avec ceux fournis par les premiers tests dvaluations de
IV2 sur des visages 3D (obtenus par scanner 3D). Ces tests utilisent 180 comparaisons de
signatures (dont 60 comparaisons intra-classes) correspondant des expressions
diffrentes, pour valuer deux algorithmes bass sur la mthode ICP, savoir :
R-ICP [Ben06] et ICP (implment par notre partenaire TALES). Le tableau (5.7) rsume
les taux EER raliss par les trois approches. Nous remarquons que notre mthode
(anthropomtrie 3D) donne un EER satisfaisant (EER=0.0700.026, figure 5.16) en
comparaison avec les taux EER des deux autres approches. Toutefois, ce test prsente une
difficult, lie au fait que lon compare des approches diffrentes qui utilisent des capteurs
dacquisition et un nombre de signatures diffrentes. Nanmoins, il nous a permis de

140

Chapitre 5

Reconnaissance de visage 2D/3D

mettre en vidence les performances de notre approche gomtrique et de dmontrer


quelles taient comparables aux performances des approches de reconnaissance du visage
3D.
Nb de comparaison

180 avec expression

510 avec expression

Intra-classe : 60

Intra-classe : 255

Approches

R-ICP

ICP

anthropomtrie 3D

EER

0.067

0.083

0.070

Tableau 5. 7. Les taux EER obtenus par les diffrentes approches 3D.

Comme nous lavons dj mentionn dans les chapitres prcdents, il existe de multiples
facteurs qui peuvent entraner une baisse du taux de vrification, notamment les variations
de lexpression et de la pose. Dans notre cas, des facteurs supplmentaires dus la nature
mme de notre approche peuvent sajouter et ainsi diminuer un peu plus le taux de
vrification. En effet :

! la dtection des points caractristiques nest pas vidente malgr le fait quelle soit
ralise manuellement, et ce cause de la mauvaise qualit des images de la base et
de la variation de lillumination (visage ombr).

! les points 3D reconstruits par strovision sont moins prcis que les points du
visage 3D acquis avec un scanner laser.

! la base dimages stroscopiques sur laquelle nous avons effectue nos tests
contient un grand nombre dimages de visage prsentant des variations importantes
de pose et dexpression alors que la base de visage 3D est construite partir des
mesures du scanner laser sur des visages presque figs.
Dans la section suivante nous allons aborder lapproche multimodale qui combine les
informations 2D et 3D du visage pour la reconnaissance faciale.

141

Chapitre 5

Reconnaissance de visage 2D/3D

5.4 Vrifications de visage 2D/3D


Plusieurs tudes rcentes ont montr que la fusion des deux modalits (2D et 3D) amliore
nettement le taux de reconnaissance et d'authentification de visage [Bow06]. Il existe
gnralement deux faons pour combiner les modalits 2D et/ou 3D. La premire consiste
combiner des donnes de mme nature (2D ou 3D). Dans ce cas un seul type dextracteur
de signatures est utilis. Dans notre approche modulaire, par exemple, lextracteur employ
est bas sur lACP. La deuxime consiste utilise des donnes de nature diffrente, et donc
fait appel des extracteurs de signatures diffrents.
Dans les sections prcdentes, nous avons prsent en particulier deux approches pour la
reconnaissance du visage (2D et 3D). La premire est une approche 2D modulaire base
sur la fusion des scores, elle utilise une somme pondre des scores de reconnaissance des
trois rgions du visage : yeux, nez et bouche. La deuxime est une approche 3D base sur
une signature anthropomtrique 3D. Nous proposons ici de combiner ces deux approches
afin de mettre en uvre une nouvelle approche multimodale 2D/3D pour la reconnaissance
du visage. La figure (5.17) montre un exemple de donnes utilises pour la reconnaissance
multimodale de visage. Il sagit des trois rgions : yeux, nez et bouche, et des 12 points
3D.

8
9

10

11

12

(a)

(b)

(c)

(d)

Figure 5. 17. Exemple des 4 donnes choisis pour la reconnaissance du visage

La figure (5.18) illustre le schma de principe de la mthode multimodale 2D-3D. Le


systme commence par extraire les trois rgions dintrt du visage (yeux, nez, bouche)
partir de limage dentre droite. Ensuite il calcule un score pour chaque type de donnes

142

Chapitre 5

Reconnaissance de visage 2D/3D

dentre. Le classifieur n 1 travaille partir de limagette contenant les yeux et les sourcils
(de taille 50"65). Le classifieur n2 travaille partir de limagette du nez de taille 40"65,
et enfin, le classifieur n 3 travaille partir de limagette de la bouche de taille 35"65. Par
ailleurs, le systme utilise les deux images dentre, droite et gauche afin de reconstruire
les points dintrt 3D du visage lesquels sont ensuite utiliss pour calculer la signature
3D. Un 4me score est calcul partir de cette signature 3D.
Pour les trois classifieurs 2D (yeux, nez et bouche) nous utilisons la somme pondre (voir
section 5.2.3.1), nous obtenons :
S2D = 0.3112* SNez +0.3371*SYeux +0.3517* SBouche
Le score S2D est ensuite fusionn avec le score 3D en utilisant la mthode de la somme
pondre. Le rsultat final de cette fusion donne le score de la mthode multimodale 2D3D.

dentre

Extraction des
rgions.

Score 1

Classifieur 2
(nez)

Score 2

Classifieur 3
(bouche)

Score 3

Crations des
signatures.

Score 4

Fusion des
scores

Fusion

Images

Classifieur 1
(Yeux)

Vrification.

Images droites
dentre
Reconstruction
des points 3D.
Images gauches
dentre

Figure 5. 18. Schma de principe de lapproche multi modale 2D-3D

5.4.1 Evaluation de la mthode propose


Nous avons pris pour chaque image 2D la signature 3D qui lui correspond. La sous-base
utilise dans ce cas est la mme que celle utilise pour la mthode de vrification 3D
(c'est--dire 85 personnes, 4 images par personne). Nous avons tout normalis les images
143

Chapitre 5

Reconnaissance de visage 2D/3D

puis extrait les rgions caractristiques en suivant la procdure dcrite dans la section
(5.2.3.2).

!
Figure 5. 19. Exemples dimages utilises pour lvaluation de lapproche 2D-3D.

Par ailleurs, pour construire les trois classifieurs 2D des trois rgions (yeux, nez et bouche)
nous avons pris au hasard 33 personnes (diffrentes des 85 personnes de la base de test), un
exemple par personne pour la base dapprentissage. Enfin, nous avons considr les mmes
comparaisons que pour la mthode de vrification 3D, savoir 510 comparaisons dont 255
intra classes.

5.4.2 Comparaison des approches 2D, 3D et 2D/ 3D


Nous avons effectu une premire comparaison entre lapproche 2D modulaire et
lapproche 3D. La figure (5.20) montre les courbes DET obtenues.

144

Chapitre 5

Reconnaissance de visage 2D/3D

1
2D modulaire
3D
2D globale

0.9
0.8
0.7
0.6

R
R
F

0.5
0.4
0.3
0.2
0.1
0
0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

FAR
Figure 5. 20. Courbes DET : Comparaison entre les approches, 2D modulaire, 2D globale et 3D

Nous remarquons que lapproche 2D globale donne le plus mauvais taux EER =
0.280.0490 et le taux EER de lapproche modulaire gal 0.210.042. Ce rsultat nous a
permit de dfinir une stratgie de fusion des scores 2D et 3D, en affectant un poids plus
important au score 3D car celui-ci prsente un EER plus petit (EER3D< EER2D) (voir
figure 5.19). Ainsi :
S2D+3D = )1 *S2D + )2 *S3D
Les valeurs des coefficients de pondration )1 et )2 sont dtermines en utilisant
lquation (5.14). Nous avons obtenu )1 = 0.25 et )2 =0.75, et un taux EER = 0.0550.023.
Les taux obtenus pour les approches 2D et 3D seules sont EER2D = 0.210.042 et EER3D =
0.0700.026 (voir figure 5.21).
Ce rsultat illustre que la combinaison des informations 2D et 3D amliore nettement le
taux de vrification, surtout lorsque la base de donnes utilise contient des variations
significatives de poses et dexpressions (ce qui est le cas de notre base).

145

Chapitre 5

Reconnaissance de visage 2D/3D

1
2D
3D
2D/3D

0.9
0.8
0.7
0.6

R
R
F

0.5
0.4
0.3
0.2
0.1
0
0

0.2

0.4

0.6

0.8

FAR
Figure 5. 21. Les Taux ERR des diffrentes approches.

5.4.3 Identification visage


Pour complter le protocole de test, nous proposons dans cette section d'valuer nos
diffrents algorithmes en mode didentification. Pour cela, nous avons construit une
matrice de similarit dans laquelle les signatures de test indexent les lignes et les signatures
dvaluation indexent les colonnes (ou inversement). Nous avons aussi compar un autre
mode dagrgation, en loccurrence le vote la majorit (VM) [Kit98], avec la rgle de la
somme pondre (SP). Enfin, nous avons compar les taux de reconnaissance obtenus en
utilisant le score cumul (Cumulative Match Characteristics). En effet, il peut tre utile de
savoir si le bon choix se trouve dans les N premiers choix, notamment pour les
applications daide la dcision.

5.4.3.1 Stratgie de la somme pondre (SP)


Dans le tableau (5.7), nous avons donn, pour les trois approches, le taux de
reconnaissance RR (Rank-one Recognition Rate) qui se limite au premier rang dans la liste
trie des personnes. Nous constatons que lapproche 2D+3D donne le meilleur taux de
reconnaissance et qu partir du Rang 3 ce taux atteint les 100 %.

146

Chapitre 5

Reconnaissance de visage 2D/3D

Taux de reconnaissance
RR %

2D
73 %

3D
69 %

2D+3D
92%

Taux de reconnaissance cumul (%)

Tableau 5. 8. Rsultats de la reconnaissance : taux de reconnaissance au rang 1.

Rang
Figure 5. 22. Comparaison des courbes CMC de 2D, 3D et 2D/3D, sur la sous-base IV2. Un visage
est reconnu au rang r si une vue du mme visage est parmi ses r plus proches voisins.

5.4.3.2 Stratgie Vote la majorit (VM)


Le vote la majorit consiste assigner limage de test lidentit laquelle elle est le
plus frquemment associe. En cas dambigut la signature 3D est le vainqueur. Le
tableau (5.8) rsume les rsultats obtenus. Nous constatons que la somme pondre (SP)
donne le meilleur taux de reconnaissance RR (92%), ce qui nous conforte dans notre choix
de la loi de fusion des scores.

Taux de reconnaissance
RR %

2D/3D - VM
83 %

2D/3D - SP
92%

Tabeau 5. 9. Rsultats de la reconnaissance : taux de reconnaissance au rang 1.

147

Chapitre 5

Reconnaissance de visage 2D/3D

Taux de reconnaissance
cumul (%)
Recognition rate

100

2D/3D Somme
2D/3D Vote M

98
96
94
92
90
88
86
84
82

10

15

20

25

30

35

40

45

50

Rank

Rang

Figure 5. 23. Comparaison des courbes CMC 2D/3D (Vote la majorit) et 2D/3D (Somme
pondre), sur la sous-base IV2 phase 2.

5.5 Discussion et Conclusion


Dans ce chapitre, nous avons prsent trois approches de reconnaissance du visage, en
loccurrence une approche 2D modulaire, une approche 3D et une approche multimodale
2D/3D. Nous avons utilis la base de donnes du projet IV2 afin de tester et dvaluer nos
mthodes. Lapproche ACP modulaire a t value sur la base de donnes de la phase
prliminaire de IV2, nous avons constat quelle donne les meilleures performances. En
effet, lapproche modulaire permet de mieux grer linfluence des conditions dacquisition
sur les diffrentes rgions de visage.
Par ailleurs, nous avons dmontr que, lorsque notre module de dtection automatique de
visage et de ses caractristiques est utilis au lieu dune dtection manuelle des rgions, les
performances de la reconnaissance 2D sont nettement amliores.
Enfin, nous avons mis en vidence les performances nettement suprieures de lapproche
multi-modale 2D-3D par rapport aux approches 2D modulaire et 3D.Lapproche 2D+3D
permet de rduire considrablement le taux de vrification (EER = 0.050.023) et
daugmenter le taux didentification (92%).

148

Conclusion et Perspectives

Dans cette thse, nous avons trait deux problmatiques majeures et complmentaires
rencontres en reconnaissance de visage. Il sagit, dune part de lextraction automatique de
visage et de ses rgions caractristiques, et dautre part de la reconnaissance du visage.
La difficult de lextraction de visage et de ses caractristiques est due principalement aux
variations des conditions dclairage. Nous avons donc propos une nouvelle approche
dextraction qui sadapte aux changements de lillumination et de pose. Dans un premier
temps, un algorithme efficace de segmentation couleur de visage dans lespace TLS (Teinte,
Luminance, Saturation) est appliqu sur limage afin de dterminer les rgions dintrt du
visage. Pour cela, nous avons modifi la mthode de fusion des bassins versants obtenus
partir de lalgorithme de lignes de partage des eaux (LPE) en ajoutant un critre bas sur la
pertinence de la teinte. Nous avons dfini un domaine de la peau sur lespace de la teinte afin
dextraire la rgion visage partir de limage segmente. La mthode propose pour
lextraction des zones du visage combine une classification base sur la mthode de kmeans
avec une approche gomtrique afin didentifier deux rgions caractristiques du visage, en
loccurrence les yeux et la bouche. Nous avons valu notre approche sur deux bases de
donnes : la base XM2VTS caractrise par une grande variabilit d'apparence (lunettes,
barbe, etc.), et la base IV2 caractrise par une variabilit de la lumire et de la pose.
Par ailleurs, nous avons pu travailler sur le problme de la reconnaissance de visage 2D/3D,
dans le contexte de la vrification, grce la base de donnes multimodale IV2. Nous avons
ainsi valu linfluence de la dtection de rgions sur la reconnaissance de visage. Pour cela,
nous avons dabord extrait les rgions du visage manuellement puis de manire automatique
149

en utilisant notre approche dextraction, et nous avons compar les rsultats de reconnaissance
obtenus sur ces rgions. Nous avons appliqu les mthodes classiques EigenFace et
EigenFace modulaire et avons tudi diffrentes combinaisons pour la fusion des scores
de reconnaissance. Les rsultats obtenus ont montr que lapproche modulaire donne les
meilleures performances, nous lavons donc utilise dans la suite de notre travail.
Lorsquon parle dinformations 3D, on sous-entend des mesures relles effectues sur la
structure anatomique du visage : c'est lanthropomtrie faciale, une discipline consacre
ltude des proportions du visage humain partir de son observation anatomique et
physiologique. Nous avons propos une approche locale 3D de reconnaissance de visage
base sur des mesures anthropomtriques correspondants des distances, des indices et des
angles. Nous avons utilis un systme stroscopique qui repose sur deux camera fixes pour
construire les points dintrt 3D de visage.
Enfin, nous avons propos une approche multimodale 2D/3D qui repose sur la fusion
pondre

des

scores

de

lapproche

EigenFace

modulaire

avec

la

signature

anthropomtriques 3D de visage. Nous avons valu nos approches de reconnaissance 3D et


2D/3D sur une sous-bases de IV2 qui contient des images stroscopiques de visage. Nous
avons obtenus des rsultats trs intressants en comparaison avec les techniques classiques de
reconnaissance 2D de visage.
Les perspectives de ce travail sont nombreuses : dans un premier temps, nous souhaitons
amliorer le module dextraction automatique de visage et de ses caractristiques.
Actuellement, nous avons dfini un domaine fixe de couleur de la peau dans lespace teinte.
Or, comme la teinte est lie la saturation qui elle-mme dpend de lillumination, nous
pensons que choisir un domaine variable pour la couleur de la peau amliorait la robustesse de
la mthode de dtection vis--vis des changements dillumination. Dans un deuxime temps,
nous allons travailler sur lautomatisation des approches de reconnaissance labores. Pour
cela nous proposons de dvelopper des techniques automatiques de dtection de points
dintrt. Des techniques de type template matching ou bases snakes mriteraient dtre
explores. Enfin, Une valuation plus pousse permettrait une meilleure validation des
approches dveloppes. Pour cela, nous allons utiliser la totalit de la base IV2 et allons
comparer les rsultats de la reconnaissance base strovision avec la reconnaissance base
sur les donnes 3D fournies par le scanner laser.

150

Annexe A

Algorithmes

Annexe A
Algorithmes
Dans cette annexe nous prsentons les diffrents algorithmes proposs :

Algorithme: Tri des pixels par norme du gradient croissants


-

Entre : I, image numrique ;

Sortie : HCI histogramme cumul,

It
-

tableau tri de (pointeur de) pixels dfini sur

DI

Initialisations :

hmin , hmax : extrema de la norme du gradient dans I ;

H I : tableau valeurs entires indexes sur hmin, hmax ;


$ h # hmin , hmax ! , H I h! " 0 ;
HC I hmin ! " 0 ;
-

Pour tout pixel p# DI {

/*Histogramme*/

H I I % p &! " H I I % p &! ' 1 ; }


-

Pour h = hmin + 1 hmax {

/* Histogramme cumul */

HCI h! " HCI h(1! ' H h(1! ; }

151

Annexe A

Algorithmes

Les structures de donnes utilises sont les mmes que dans [Vin91].
)* Une image dtiquettes
)* Une file dattente FIFO qui stocke les dilatations successives
Algorithme : Ligne de Partage des Eaux

# define MASK
# define WSHED

-2 /* valeur initiale affecte chaque niveau */


0 /* valeaur finale des pixels de la LPE */

# define INQUEUE 3 /* valeur dun pixel lors de son insertion dans la file*/
)* - Entre: I, image numrique ;

- Sortie: J, image des bassins versants tiquets ;


label : 1,2,3, etc. Les pixels de la LPE sont mis WSHED = 0 ;
)* Initialisations :

- $ p # DJ , J % p & " (1 ;
- label_courant " 0;
-

flag : variable boolenne

)* Fait appel la fonction Tri

Soit hmin et hmax les valeurs extrmales de I;


)* Pour h = hmin hmax {

/* SKIZ godsique du niveau h 1 dans le niveau h */


-

Pour tout pixel p tel que I % p & = h {

/* Ces pixels sont accessibles directement grce au tri initial*/


J % p & " MASK ;

Si - p ' # N G % p & tel que J % p ' & , 0 ou J % p ' & + WSHED {


J % p & " INQUEUE; fifo_ajouter(p); }

}
-

Tant que fifo_vide() = faux {


p " fifo_retirer() ;
Pour tout pixel p' # NG% p& {

152

Annexe A

Algorithmes

Si J % p' & , 0 {
/* p' appartient un bassin dj tiquet */
Si %J % p& + INQUEUE ou %J % p& + WSHED et flag +vrai&&
J % p & " J % p' & ;

sinon si % J % p& , 0 et J % p& . J % p'&& {


J % p& " WSHED;

flag " faux ;


}}
sinon si J % p ' & + WSHED {
si J % p & + INQUEUE {
J % p& " WSHED;

flag " vrai ; }


}
sinon si J % p ' & + MASK {
J % p ' & " INQUEUE;

fifo_ajouter( p' ) ;}
} }}
/ * De nouveaux minima sont-il apparus ? */
- Pour tout pixel p tel que I(p) = h {
Si J % p & + MASK {
label_courant " label courant + 1 ;
fifo_add(p) ;
J(p) " label_courant ;
Tant que fifo_vide() = faux {
p' " fifo_retirer() ;

pour tout pixel p" # N G % p" & {


Si J % p" & + MASK { fifo_add( p " ) ; J( p " ) " label_courant ;}
}}}}}

153

Annexe A

Algorithmes

Cette version de lalgorithme LPE utilise la variable flag afin dobtenir une ligne de
partage des eaux exacte. En effet, si la variable flag navait pas t disponible on peut avoir
un problme dpaississement de la LPE , comme illustr dans la figure A.1.
Deux minima
lintrieur dun
grand plateau

Bassin versant N 1

LPE paisse
Bassin versant N2

Figure A.1. Si lon affectait systmatiquement la valeur WSHED tout pixel ayant un
pixel la valeur WSHED dans son voisinage, on pourrait observer des lignes de partage
des eaux paisses . La dissymtrie des bassins versants tracs ci dessus provient du fait
que les voisins du minimum situ en haut droite ont t placs dans la file dattente avant
ceux de lautre minimum.

154

Annexe B

Calibration de la camra

Annexe B
Calibration de la Camra
Dans cette annexe nous allons dcrire le modle gomtrique associ au processus de
saisie d'images l'aide d'une camra [Hor95]. Ce modle est caractris par un certain
nombre de paramtres que nous allons estimer par calibration. Le modle le plus utilis
pour modliser une camra est le modle stnop, ce dernier modlise une projection
perspective avec un centre de projection F et un plan image (cf. figure B.1).

Z
Repre
Scne (mire)

Plan
image
v

Y
z

B (X,Y,Z) repre scne


(x,y,z) repre camra

O(u0,v0) : point central

Repre
camra

b(u,v)
repre image
(xc,yc,zc) repre camra

F : centre focale
f distance focale
y

Figure B.1 : le modle gomtrique d'une camra

155

Annexe B

Calibration de la camra

Le modle gomtrique de la camra est donc caractris par deux transformations:


1. une projection perspective qui transforme un point 3D en un point image 2D.
2. une transformation rigide du repre li la camra au repre li l'image.

B.1

La projection perspective

Un point B de l'espace se projette dans le plan image de la camra suivant une droite
passant par B et le centre focale (centre de projection) F (cf. figure B.1).
Considrons un repre centr sur le centre de projection F et dont l'axe z soit orthogonal au
plan image qu'on appellera repre camra. Soient (x,y,z) les coordonne du point B dans le
repre camra et (xc, yc, zc) les coordonnes, dans le mme repre, du projet de B dans le
plan image.
La projection perspective peut se modliser sous la forme matricielle :

% sxc " % 1 0
#
#
# syc # 0 1
# sz '# 0 0
# c #
# s #0 0
$ ! $+ ( ( *

0 0" % x "
#
0 0 #y
&
1 0 #z
#
1
0 ! #$ 1 !
f
( ()

(B.1)

B.2

Transformation camra/image

Les points image sont mesurs en pixels. Afin de pouvoir crire la matrice de
transformation du repre camra au repre image, nous introduisons les paramtres
suivants : (u0,v0) les coordonnes de F (en pixels) dans le repre image, ku le facteur
d'chelle vertical (pixels/mm) et kv le facteur d'chelle horizontal. La transformation du
repre camra au repre image s'crit alors (pour le point b) :

% su " % ,ku 0
#
#
# sv '# 0 kv
#s # 0
$ ! $+ ( (( 0*

0
0
0
( (

B.3

%x "
u0 " # c
#y
v0 &# c
z
1 ! ## c
() $ 1 !

(B.2)

Les paramtres intrinsques

En multipliant les matrices K et P (projection perspective suivie d'une transformation


affine) nous pouvons crire les quations du modle gomtrique de la camra, soit la

156

Annexe B

Calibration de la camra

relation entre les coordonnes camra (x,y,z) du point B et les coordonnes image (u,v) du
point b :
% x"
% su " % -u 0 u0 0 " #
#
#
#y
# sv '# 0 -v v0 0 &#
# s # 0 0 1 0 #z
$ ! $+ ( (( * ( ( () ! # 1
$ !

(B.3)

Ic

Ce modle comporte quatre paramtres : -u ',ku .f , -v 'kv.f , u0 et v0 . Ce sont les


paramtres intrinsques de la camra, ils sont associs la nature du capteur utilis : sa
focale f, la taille de la matrice du capteur et la gomtrie des capteurs lmentaires qui
forment la matrice de photo-transistors (ku,kv). Ce sont ses paramtres qui vont tre estims
par calibration.

B.3

Les paramtres extrinsques

Afin de dterminer les paramtres du modle de la camra, nous allons placer devant la
camra une mire (un objet talon) : un ensemble de points dont les coordonnes sont
parfaitement connues dans un repre de la mire qui est diffrent du repre camra (cf.
figure B.1). Chaque point de la mire se projette dans l'image et on mesure ses coordonnes
dans le repre image. La transformation mire/image se dcompose donc en une
transformation mire/camra suivie d'une projection et suivie enfin d'une transformation
camra/image. La transformation mire/camra se compose d'une rotation et d'une
translation :
% x " % r11 r12
#
#
# y '# r21 r22
# z #r r
$ ! $ 31 32

r13 " % X " % t x "


#
#
r23 &# Y .# t y
r33 ! #$ Z ! #$ tz !

(B.4)

La transformation rigide (rotation et translation peut s'crire sous la forme d'une


transformation homogne :
% r11 r12
#
#r r
A'# 21 22
r r
# 31 32
#0 0
$

r13 tx "
r23 t y % R T "
'#
r33 t z #$ 0 1 !
0 1!

157

(B.5)

Annexe B

Calibration de la camra

Cette matrice reprsente les paramtres extrinsques de la camra. Ce sont les paramtres
du dplacement rigide entre le repre de la mire et le repre camra.

B.4

La transformation mire/image

Nous pouvons maintenant crire la transformation mire/image sous la forme d'une matrice
(3/4) appele matrice de projection perspective et qui peut se dcomposer comme suit :
% -u r1 .u0r2 -ut x .u0tz "
#
M ' I c & A'# -v r2 .v0r3 -vt y .v0t z
#
r3
tz
$
!

(B.6)

Dans cette formule la matrice A a t crite sous une forme compacte en utilisant la
notation r1 '0r11 r12

r13 1 :
% r1 tx "
#
#r t
A'# 2 y
r t
# 3 z
#0 1
$
!

(B.7)

M est la matrice de projection perspective et elle peut, en gnral, s'crire sous la forme
suivante :
%X"
m13 m14 " #
#Y
m23 m24 &#
Z
m32 m34 ! ##
$1!

% su " % m11 m12


#
#
# sv '# m21 m22
# s #m
$ ! $ 31 m32

(B.8)

Dans cette formule (X,Y,Z) sont les coordonnes du point B dans le repre de la mire.
Cette matrice peut galement s'crire sous une forme plus simple :
% m1
#
M '# m2
#m
$ 3

avec mi '0mi1 mi2

m14 "
m24
m34 !

(B.9)

mi3 1 . En identifiant M avec IcA, en tenant compte des proprits

d'orthornormalit de la rotation, on obtient un ensemble d'quations qui permettent de


calculer les paramtres intrinsques et extrinsques en fonction des coefficients de M. On
obtient :

158

Annexe B

Calibration de la camra

5r3 'm3
2u 'm &m
2 0 1 3
2v0 'm2 &m3
2
2-u ', m1/m3
22-v ' m2/m3
4 1
2r1 ' - u 0m1 ,u0m3 1
2r2 ' -1 0m2 ,v0m3 1
2 1v
2tx ' -u 0m14 ,u0m34 1
2t ' 1 0m ,v m 1
2 y - v 24 0 34
23tz 'm34

(B.10)

Afin de trouver les paramtres intrinsques et extrinsques de la camra on doit donc :


1. estimer les coefficients de la matrice de projection M et
2. extraire les paramtres de la camra partir de ces coefficients grce aux formules
donnes par l'quation (B.10)

B.5

Estimation des coefficients de la matrice M

En utilisant l'quation (A.8) on peut crire les coordonnes image d'un point de la scne.
On obtient :
u'

m11 X .m12Y . m13Z . m14


m31 X . m32Y . m33Z .m34

(B.11)

v'

m21 X .m22Y .m23Z .m14


m31 X .m32Y . m33Z .m34

(B.12)

La matrice de projection M comporte 12 coefficients, or chaque points 3D de la mire


fournit 2 quations (une pour u et l'autre pour v). Il nous faut donc au minimum 6 points
distincts pour estimer les coefficients de la matrice de projection M. Ainsi pour n points on
obtient 2n quations issues du rarrangement des quations (B.11) et (B.12) sous forme de
combinaisons linaires des mij, qu'on peut rcrire sous forme matricielle :

159

Annexe B

Calibration de la camra

%
#
# X i Yi
#0 0
#
#
$

Zi

X i Yi

Zi

0 ,ui X i
1 ,vi X i

,uiYi
,viYi

% m11 "
#
# m12
#m
# 13
# m14
% 6"
"#
m21 #
#
,ui Zi
#u m
&# m22 '# i 34
vi m34
,vi Zi #
# m23 ## 6
$
!
!#
m24
#
# m31
#m
## 32
$ m33 !

(B.13)

ou bien:
(B.14)

K 2n!11.x11 u2n

Le systme dfini par l'quation (B.13) est un systme homogne : afin d'obtenir une
solution non triviale on fixe le paramtre m34=1. Ce faisant, on fixe arbitrairement la
translation tz entre le repre de la mire et la camra 1. Ceci introduit un inconvnient. En
effet, les paramtres du modle de la camra ne sont calculs qu' un facteur multicatif
prs, soit tz=m34.
Pour rsoudre ce problme, nous avons choisi une mthode d'estimation lgrement
diffrente de celle prsente dans l'quation (B.13). Il s'agit de la mthode dite de
"Faugeras-Toscani".
En calculant explicitement les coefficients de M en fonction des matrices qui la composent
(Ic et A) on trouve la relation suivante :

m3

2
2
2
m31
" m32
" m33
1

(B.15)

En utilisant cette contrainte, on peut rcrire l'quation (B.13) sous une forme diffrente:
B2n!9 x9 "C2n!3 x3 0

(B.16)

avec

B2n!9

(
&
& X i Yi
&0 0
&
&
'

Zi
0

1
0

*
0 0
X i Yi
*

0
Zi

%
#
0 )ui #
1 )vi #
#
#
$

C2n!3

(
&
& )ui X i
& )v X
& i i
&
'

*
)uiYi
)viYi
*

%
#
)ui Zi #
)vi Zi #
#
#
$

On dcompose par ailleurs x11 en deux inconnues (cette fois-ci on intgre m34 comme
inconnue) :

160

Annexe B

Calibration de la camra

x9 +m1 m14

m2

m34 ,

m24

et

x3 +m3 ,

On cherche donc minimiser le critre Q :


Q B2n!9 x9 "C2n!3 x3

(B.17)

avec la contrainte supplmentaire de l'quation (B.15), on peut rcrire (B.17) sous la


forme:
2

Q Bx9 "Cx3 "- 1) x3

(B.18)

Minimiser Q revient dterminer les zros de ses drives suivant x3 et x9, on obtient alors
deux quations:
1 2Q Bt Bx " BtCx 0
9
3
.. 2x9
0 2Q
.
C tCx3 "C t Bx9 )-x3 0
./ 2x3

(B.19)

d'o on obtient :

1 x ) Bt B )1BtCx
3
. 9
.
0 Dx3 -x3
.
)1 t
t
t
t
. D C C -C B B B B C
/

(B.20)

D est une matrice symtrique dfinie positive, elle a donc des valeurs propres relles et
positives. x3 est dtermin par le vecteur propre associ la plus petite valeur propre - de
D.
La dtermination des paramtres mij doit donc suivre l'algorithme suivant :
1. Calculer les valeurs propres de D.
2. Choisir la plus petite des valeurs propres - pour minimiser le critre Q.
3. Obtenir le vecteur propre qui lui est associ, puis le normaliser pour ainsi obtenir x3
avec x3 1 .
4. Puis calculer x9 partir de la premire quation de (B.20).
La matrice M est donc compose des valeurs extraites de x3 et x9. Etant donn que le signe
de x3 n'est pas dfini, on a deux solutions, M et M. On peut en choisir une parmi ces
solutions en utilisant le fait que l'objet de calibration se trouve devant la camra et non pas
derrire la camra. Dans ce cas on doit avoir m34=tz>0.

161

Annexe C

Indices anthropomtriques

Annexe C
Indices anthropomtriques
Le tableau C.1 prsente les diffrentes proportions utilises par Farkas [Eld06]

162

Annexe C

Indices anthropomtriques

Annexe C
Indices anthropomtriques
Le tableau C.1 prsente les diffrentes proportions utilises par Farkas [Eld06]

162

Rfrences

[Adi97]

Y. Adini, Y. Moses, S. Ullman, Face recognition: The problem of


compensating for changes in illumination direction. IEEE Trans. Patt. Anal.
Mach. Intell. 19, 721732, 1997.

[And97]

M. C. De Andrade, G. Bertrand, A. Araujo, "Segmentation of microscopic


images by flooding simulation : A catchment basins merging algorithm".
Proc. Of the ISI/SPIE Symp. On Electronic Imaging, Science &
Technology, San-Jose-CA, USA, 1997.

[Ben03]

S. Bengio. An Asynchronous Hidden Markov Model for Audio-Visual


Speech Recognition. Dans S. BECKER, S. THRUN, et K. OBERMAYER,
diteurs, Advances in Neural Information Processing Systems 15, pages
12131220. MIT Press, 2003.

[Ben05]

S. Bennaceur, A.-S. Petavy-Blanc, J. Chauve, S. Louafi, J. Hanss.


Morphologie cphalique humaine. Donnes anthropomtriques du vivant.
EMCStomatologie, 1, pages 85103, 2005.

[Ben06]

B. BenAmor. Thse Contributions la modlisation et la reconnaissance


faciales 3D, Ecole Centrale de Lyon, 2006.

[Bel97]

P. Belhumeur, J. Hespanha, D. Kriegman, Eigenfaces vs. fisherfaces:


recognition using class specific linear projection, IEEE Trans. Pattern Anal.
Mach. Intell. 19 (7) 711720, 1997.

[Bel05]

R. Belaroussi, L. Prevost, M. Milgram. Classifier combination for face


localization in color images, M., ICIAP', 2005.

[Bes92]

P.J. Besl, N.D. McKay. A Method for Registration of 3-D Shapes, IEEE
Trans. Pattern Anal. Mach. Intell., 14(2) :239{256, ISSN 0162-8828. 1992.

[Beu79]

S. Beucher, C. Lantuejoul, "Use of watersheds in contour detection". In


Proc. International Work-shop on Image Processing, Real-Time Edge and
Motion Detection/Estimation, Rennes, sept.1979.

[Beu00]

C. Beumier, M. Acheroy. Automatic 3D face authentication. In: Proc. Image


and Vision Computing, Vol. 18(4), pp. 315321, 2000

[Bio04]

http://www.biosecure.info/

[Bla01]

D. Blackburn, M. Bone, P. J Phillips. Face recognition vendor test 2000.


Tech. rep. http://www.frvt.org, 2001.

163

[Bla02]

V. Blanz, R. Sami, V. Thomas, Face identification across different poses


and illuminations with a 3d morphable model. Proc. IEEE International
Conference on Automatic Face and Gesture Recognition, pp. 202207,
2002.

[Bla03]

V. Blanz, T. Vetter, Face recognition based on fitting a 3D morphable


model, IEEE Transactions on Pattern Analysis and Machine Intelligence 25,
10631074, 2003.

[Bow06]

K.W. Bowyer et al. A survey of approaches and challenges in 3D and multimodal 3D + 2D face recognition. Computer Vision and Image
Understanding 101; 115; 2006.

[Bra00]

J. Brand, J. Mason, A comparative assessment of three approaches to pixel


level human skin-detection, ICPR01, 10561059, 2000.

[Bra05]

G. Bradski, A. Kaehler and V. Pisarevsky, "Learning-Based Computer


Vision with OpenCV." Intel Technology Journal, May 2005.

[Bro01]

D. Brown, I. Craw, J. Lewthwaite. A SOM based approach to skin detection


with application in real time systems, BMVC01, 2001.

[Bro03]

M.A. Bronstein, M.M. Bronstein, R. Kimmel. Expression-Invariant 3D Face


Recognition. Proc. Audio & Video-based Biometric Person Authentication
(AVBPA), Lecture Notes in Comp. Science 2688, Springer, pp. 62-69,
2003.

[Bru88].

V. Bruce. Recognizing faces. Lawrence Erlbaum Associates, London, U.K,


1988.

[Bru93]

R. Brunelli, T. Poggio. Face recognition: features versus templates. IEEE


Trans. Pattern Anal. Mach. Intell, pp-10421062, 1993.

[Car95]

T. Carron, Segmentation d'images couleur dans la base Teinte Luminance


Saturation : approche numrique et symbolique. Phd Thesis, Universit de
Savoie, Dcembre 1995.

[Cha97]

C.C. Chang, L.L. Wang. A fast multilevel thresholding method based on


lowpass and highpass filtering. Pattern Recognition Letters 18(14): 14691478, 1997.

[Cha99]

D. Chai, K.N. Ngan. Face segmentation using skin-color map in videophone


applications, IEEE Trans. Circuits Syst. Video Technol.9 (4) 1999.

[Cha03]

K. Chang, K. Bowyer, P. Flynn, Face Recognition using 2D and 3D facial


data. In: Proc. ACM Workshop on Multimodal User Authentication
December, pp. 2532, 2003.

[Che04]

S.C. Chen, J. Liu, Z.-H. Zhou, MakinG. FLDA applicable to face


recognition with one sample per person, Pattern Recognition 37 (7), 1553
1555, 2004.

[Chu97]

C.S. Chua, R. Jarvis. Point signature: A new representation for 3d object


recognition. Internat. J. Computer Vision 25 (1), 6385, 1997.

[Chu00]

C.S. Chua, F. Han, Y.K. Ho. 3D human face recognition using point
signature. In: Proc. 4th IEEE Internat. Conf. on Automatic Face and Gesture
Recognition (FG 2000) Grenoble, France, March, pp. 233238, 2000.

164

[Coc95]

J.P. Cocquerez, S. Philipp, " Analyse dimage : filtrage et segmentation ",


MASSON, Paris, France, 1995.

[CNN02]

CNN World News. Schiphol Backs Eye Scan Security. Available at


http://www.cnn.com/2002/WORLD/europe/03/27/schiphol.security/, March
27, 2002.

[Com60]

J. Comas. Manual of Physical Anthropology. Charles C. Thomas, 1960.

[Coo96]

T.F. Cootes and C.J. Taylor. Locating Faces Using Statistical Feature
Detectors. Proc. Second Intl Conf. Automatic Face and Gesture
Recognition, pp. 204-209, 1996.

[Coo01]

T.F. Cootes, G.J. Edwards, C.J. Taylor, Active appearance models, IEEE
Trans. Pattern Anal. Mach. Intell. 23 (6), 681685, 2001.

[Coo04]

J.Cook, V.Chandran, S.Sridharan, C. Fookes. Face recognition from 3D data


using iterative closest point algorithm and Gaussian mixture models. In:
Proc. 2nd Internat. Symposium on 3D Data Processing, Visualization and
Transmission (3DPVT 2004), Thessaloniki, Greece, 69 September, 2004.

[Cos02]

N.P. Costen, T.F. Cootes, C.J. Taylor. Compensating for ensemble specific
effects when building facial models, Image Vision Comput. 20 673682,
2002.

[Cri04]

D. Cristinacce, T.F. Cootes. A comparison of shape constrained facial


feature detectors. Automatic Face and Gesture Recognition, Proceedings.
Sixth IEEE, 375- 380, 2004.

[Dau99]

J. Daugman. Recognizing Persons by Their Iris Patterns. In A. K. Jain, R.


Bolle, and S. Pankanti, editors, Biometrics: Personal Identification in a
Networked Society, pp. 103-121, Kluwer Academic Publishers, 1999.

[DeC98]

D. DeCarlo, D. Metaxas, and M. Stone. An anthropometric face model


using variational techniques. In SIGGRAPH, pages 6774, 1998.

[Dig78]

H. Digabel, C.Lantuejoul. " Iterative algorithms". In Actes du Second


Symposium Europen d'Analyse Quantitative des Microstructures en
Sciences des Matriaux, Biologie et Medecine, Caen,4-7 October 1977
(1978).

[Dem77]

A. P. Dempster, N. M. Laird, D. B. Rubin. Maximum Likelihood from


Incomplete Data via the EM Algorithm Journal of the Royal Statistical
Society. Series B (Methodological), Vol. 39, No. 1, pp. 1-38,1977.

[DeS95]

L. C. De Silva, K. Aizawa, and M. Hatori, Detection and tracking of facial


features by using a facial feature model and deformable circular template,
IEICE Trans. Inform. Systems E78D(9), 11951207, 1995.

[Des04]

Y. Desbois, R. Perrot, C. Debois. Incidence de locclusion dentaire lors


dune craniophotocomparaison : propos dun cas. Paleobios, Vol. 13,
2004.

[DiZ86]

S. Di Zenzo, "A note on the gradient of a multi-image", CVGIP : Graphics


and image processing, pp 116-125, 1986.

[Dud01]

R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification, second ed.
John Wiley & Sons, 2001.

165

[Duf05]

S. Duffner, C. Garcia, A Connexionist Approach for Robust and Precise


Facial Feature Detection in Complex Scenes , Fourth International
Symposium on Image and Signal Processing and Analysis (ISPA 2005),
Zagreb, Croatie, Septembre 2005.

[Dui95]

R.P.W. Duin. Small sample size generalization, in: G. Borgefors (Eds.),


SCIA95, Proceeding of the Ninth Scandinavian Conference on Image
Analysis, vol. 2, Uppsala, Sweden, 69, pp. 957964, 1995.

[Edl06]

R. Edler, P. Agarwal, D. Wertheim, D. Greenhill. The use of anthropometric


proportion indices in the measurement of facial attractiveness. The European
Journal of Orthodontics 28(3):274-281, 2006.

[ECU]

http://www.some.ecu. au/~sphung.

[Ela01]

A. Elad, R. Kimmel. Bending Invariant Representations for. Surfaces,


Proc. Computer Vision and Pattern Recognition (CVPR), 2001

[Far80]

L.G. Farkas, W. Bryson, J. Klotz. Is photogrammetry of the face reliable?


Plastic and Reconstructive Surgery 66: 346 355, 1980.

[Far87]

L. G. Farkas. Anthropometric Facial Proportions in Medicine.Thomas


Books, 1987.

[Fau93]

O. Faugeras, Three-Dimensional Computer Vision: a Geometric Viewpoint,


MIT press, 1993.

[Fer01]

R. Fraud, O.J. Bernier, J.E. Viallet, M. Collobert. "A Fast and Accurate
Face Detector Based on Neural Networks," IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 23, no. 1, pp. 42-53, January, 2001.

[FRGC02]

The Face Recognition Grand Challenge. http//frvt.org/FRGC/.

[Fu81]

S.K. Fu, J.K. Mu. A survey on image segmentation. Pattern Recognit. 13(1),
3-16, 1981.

[Gar99]

C. Garcia, G. Tziritas. Face detection using quantized skin color regions


merging and wavelet packet analysis, IEEE Trans. Multimedia 1 (3) 264
277, 1999.

[Gar04]

C. Garcia, M. Delakis. Convolutional Face Finder: A Neural Architecture


for Fast and Robust Face Detection IEEE Trans. PAMI, vol. 26, no. 11,
Nov, 2004.

[Gok05]

B. Gokberk, A.A. Salah, L. Akarun, Rank-based decision fusion for 3D


shape-based face recognition, in: International Conference on Audio- and
Video-based Biometric Person Authentication (AVBPA 2005), LNCS, vol.
3546, pp. 10191028, 2005.

[Gom02]

G. Gomez, E. Morales, Automatic feature construction and a simple rule


induction algorithm for skin detection, Proceedings of Workshop on
Machine Learning in Computer Vision, pp. 3138, 2002.

[Gre01]

H. Greenspan, J. Goldberger, I. Eshet. Mixture model for facecolor


modeling and segmentation, Pattern Recognition Lett. 22 (14) 15251536,
2001.

166

[Gro02]

R. Grossman, N. Kiryati, R. Kimmel. Computational surface flattening: a


voxel-based approach, IEEE Trans. PAMI, 24, pp. 433-441, 2002.

[Gro01].

R. Gross, J. Shi, J. Cohn. Quo Vadis Face Recognition?. Third Workshop on


Empirical Evaluation Methods in Computer Vision, December, 2001.

[Hal99]

P. W. Hallinan, G. G. Gorden, A. L. Yuille, P. Giblin and D. Mumford.


Two-and Three-dimensional Patterns of the Face, A K Peters, Ltd., Natick,
MA, 1999.

[He05]

X. He, X. Yan, Y. Hu, p. Niyogi, H. Zhang. Face recognition using


Laplacianfaces, IEEE Trans. Pattern Anal. Mach. Intell. 27 (3) 328340,
2005.

[Hei01]

B. Heisele, T. Serre, M. Pontil, T. Poggio. Component-based face detection,


in: Proceedings, IEEE Conference on Computer Vision and Pattern
Recognition, vol. 1, pp. 657662, 2001.

[Hes03]

C. Hesher, A. Srivastava, G. Erlebacher. A novel technique for face


recognition using range imaging. In ISSPA, pp. 201-204, 2003.

[Hes04a]

T. Heseltine, N. Pears, J. Austin. Three-dimensional face recognition: An


eigensurface approach. In: Proc. Internat. Conf. on Image Processing (ICIP
2004), October, Singapore, 2004a.

[Hes04b]

T. Heseltine, N. Pears, J. Austin. Three-dimensional face recognition: A


fischersurface approach. In: Proc. Image Analysis and Recognition: Internat.
Conf. (ICIAR 2004), Porto, Portugal (SeptemberOctober) 2004b.

[Hor95]

R. Horaud, O. Monga. Vision par ordinateur. Editions Herms, 1995.

[Hor97]

T. Horprasert, Y. Yacoob, and L. S. Davis. An anthropometric shape model


for estimating head orientation. In 3rd International Workshop on Visual
Form, Capri, Italy, May 1997.

[Hrd39]

A. Hrdlicka. Practical Anthropometry. Wister Institute of Anatomy and


Biology, Philadelphia, 1939.

[Hsu02]

R.L. Hsu, M. Abdel-Mottaleb, A.K. Jain, Face detection in color images,


IEEE Trans. Pattern Anal. Machine Intell. 24 (5) 696706, 2002.

[Hu89]

G. Hu, G. Stockma. 3-D surface solution using structured light and


constraint propagation. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 11(4):390-402, 1989.

[Hua03]

J. Huang, B. Heisele, V. Blanz. Component-based face recognition with 3D


morphable models, in: Proceedings, International Conference on Audio- and
Video-Based Person Authentication, 2003.

[Hus05]

M.Husken, M.Brauckmann, S.Gehlen, and C. Vonder Malsburg. Strategies


and benefits of fusion of 2D and 3D face recognition. In Computer Vision
and Pattern Recognition, IEEE Computer Society Conference on, (3)-174
174, 2005.

[IBG]

International Biometric Group, <http://www.biometricgroup.com/>.

167

[Irf04]

M.O. Irfanoglu, B. Gokberk, L. Akarun. 3D shape-based face recognition


using automatically registered facial surfaces. In: Proc. 17th Internat. Conf.
on Pattern Recognition (ICPR2004), Cambridge, pp. 183186, 2004.

[Isa56]

E. J. Isaac , R. C. Singleton, Sorting by Address Calculation, Journal of the


ACM (JACM), v.3 n.3, p.169-174, July 1956

[IV2]

IV2 website : http://lsc.univ-evry.fr/techno/iv2/PageWeb-IV2.html.

[Jai82]

A.K. Jain, B. Chandrasekaran. Dimensionality and sample size


considerations in pattern recognition practice, in: P.R. Krishnaiah, L.N.
Kanal (Eds.), Handbook of Statistics, vol. 2, pp. 835855, 1982.

[Jai87]

A.K. Jain, B. Chandrasekaran. Dimensionality and sample size


considerations in pattern recognition practice, in: P.R. Krishnaiah, L.N.
Kanal (Eds.), Handbook of Statistics, vol. 2, North-Holland, Amsterdam,
pp. 835855, 1987.

[Jai04]

A.K. Jain, R. Arun, P. Salil. An Introduction to Biometric Recognition.


IEEE Transactions on Circuits and Systems for Video Technology, Special
Issue on Image- and Video-Based Biometrics, Vol. 14, No. 1, January 2004.

[Jen98]

S.-H. Jeng, H. Y. M. Yao, C. C. Han, M. Y. Chern and Y. T. Liu. Facial


Feature Detection Using Geometrical Face Model: An Efficient Approach.
Pattern Recognition, 31(3), pp. 273-282, 1998.

[Jon99]

M. J.Jones, and J. M. Rehg. Statistical color models with application to skin


detection. In Proc. of the CVPR 99, vol. 1, 274280,1999.

[Jon02]

M. J. Jones and J. M. Rehg. Statistical Color Models with Application to


Skin Detection. Int. J. Computer Vision 46(1), pp. 81-96, 2002.

[Jun04]

H.C. Jung, B.W. Hwang, S.W. Lee. Authenticating corrupted face image
based on noise model, Proceedings of the Sixth IEEE International
Conference on Automatic Face and Gesture Recognition, 2004, 272pp.

[Kak04]

P. Kakumanu, S. Makrogiannis, R. Bryll, S. Panchanathan, and N.


Bourbakis. Image chromatic adaptation using ANNs for skin color
adaptation, Proceedings of the 16th IEEE International Conference on Tools
with Artificial Intelligence, ICTAI04.

[Kak06]

P. Kakumanu. A face detection and facial expression recognition method


applicable to assistive technologies and biometrics, PhD Dissertaion, CSE
Department, Wright State University, 2006.

[Kan73]

T. Kanade. Picture Processing by Computer Complex and Recognition of


Human Faces, PhD thesis, Kyoto Univ., 1973.

[Kel70]

M.D. Kelly. Visual identification of people by computer, Technical Report


AI-130, Stanford AI Project, Stanford, CA, 1970.

[Kep02]

B. Kepenekci, F.B. Tek, G. Bozdagi Akar. Occluded face recognition based


on Gabor wavelets, ICIP 2002, Rochester, NY, MP-P3.10. , September
2002.

[Kim03]

T.K. Kim, H. Kim, W. Hwang, S.C. Kee, J. Kittler. Independent component


analysis in a facial local residue space. In: Proc. IEEE Computer Society

168

Conference on Computer Vision and Pattern Recognition, Vol. 1 (June), pp.


579586, 2003.
[Kit98]

J. Kittler, M. Hatef, R. Duin, and J. Matas, On Combining Classifiers. IEEE


Transactions on Pattern Analysis and Machine Intelligence, Vol. 20, No. 3,
226-239, Mar. 1998.

[Koh97]

T. Kohonen. Self-Organizing Map, second ed., Springer, Berlin, 1997.

[Kot97]

C. Kotropoulos and I. Pitas. Rule-Based Face Detection in Frontal Views.


Proc. Intl Conf. Acoustics, Speech and Signal Processing, vol. 4, pp. 25372540, 1997.

[Lad93]

M. Lades, J. Vorbruggen, J. Buhmann, J. Lange, Malsburg von der, R.


Wurtz. Distortion invariant object recognition in the dynamic link
architecture, IEEE Trans. Comput. 42 (3) (1993) 300311.

[Lan95]

A. Lanitis, C.J. Taylor, T.F. Cootes. Automatic face identification system


using flexible appearance models, Image Vis. Comput. 13 (5) 393401,
1995.

[Law97]

S. Lawrence, C.L. Giles, A. Tsoi, A. Back. Face recognition: a


convolutional neural-network approach, IEEE Trans. Neural Networks 8 (1)
98113, 1997.

[Le04]

H.S. Le, H. Li. Recognizing frontal face images using hidden Markov
models with one training image per person, Proceedings of the 17th
International Conference on Pattern Recognition (ICPR04), vol. 1, pp. 318
321, 2004.

[Lee96]

T.S. Lee, Image representation using 2-d Gabor wavelets, IEEE Trans.
Pattern Anal. Mach. Intell. 18 (10) 959971, 1996.

[Lee02]

J.Y. Lee, S. I. Yoo. An elliptical boundary model for skin color detection. In
Proc. of the International Conference on Imaging Science, Systems, and
Technology, 2002.

[Lee05]

Y. Lee, H. Song, U. Yang, H. Shin, and K. Sohn. Local feature based 3d


face recognition. In Audio- and Video-based Biometric Person
Authentication, 2005 International Conference on, LNCS, 3546-909918,
2005.

[Li99]

S.Z. Li, J. Lu. Face recognition using the nearest feature line method, IEEE
Trans. Neural Networks 10 (2) 439443, 1999.

[Li04]

S.Z. Li, Z.Q. Zhang. FloatBoost Learning and Statistical Face Detection,
PAMI(26), No. 9, pp. 1112-1123, 2004.

[Li05]

S.Z. Li, A.K. Jain. Handbook Of Face Recognition. Springer, 2005.

[Lin99]

C. Lin and J. Wu. Automatic facial feature extraction by genetic algorithm.


IEEE Transactions on Image Processing, 8(6):834--845, June 1999.

[Liu00]

C. Liu, H. Wechsler, Evolutionary pursuit and its application to face


recognition, IEEE Trans. Pattern Anal. Mach. Intell. 22 (6) 570582, 2000.

169

[Lu03]

J. Lu, K.N. Plataniotis, A.N. Venetsanopoulos, Face recognition using


kernel direct discriminant analysis algorithms, IEEE Trans. Neural
Networks 14 (1) 117126, 2003.

[Man92]

B.S. Manjunath, R. Chellappa, C.V.D. Malsburg, A feature based approach


to face recognition, in: Proceedings, IEEE Conference on Computer Vision
and Pattern Recognition, vol. 1, pp. 373378, 1992.

[Mar01]

A. Martinez, A.C. Kak. PCA versus LDA. IEEE Trans. Pattern Anal. Mach.
Intell. 23 (2) 228233, 2001.

[Mar02]

A.M. Martinez, Recognizing imprecisely localized, partially occluded, and


expression variant faces from a single sample per class, IEEE Trans. Pattern
Anal. Mach. Intell. 25 (6) (2002) 748763.

[Mar03]

B. Martinkauppi, M. Soriano, M. Pietikinen, Detection of skin color under


changing illumination: a comparative study, 12th Interenational Conference
on Image Analysis and Processing, 2003.

[Mar98|

A.M Martnez, R. Banavente. The AR face database. Tech. Report 24 CVC


Barcelone, Espagne, June 1998.

[Mes99]

K. Messer, J. Matas, J. Kittler, J.Luettin, and G. Maitre. XM2VTSDB: The


Extended M2VTS Database. In Proceedings, International Conference on
Audio- and Video-Based Person Authentication. 7277, 1999.

[Mog97]

B. Moghaddam, A. Pentland, Probabilistic visual learning for object


representation, IEEE Trans. Pattern Anal. Mach. Intell. 19 (7) 696710,
1997

[Mor03]

A.B. Moreno, A.Sanchez, J.F.VelezDiaz. Face recognition using 3D


surface-extracted descriptors. In: Proc. Irish Machine Vision and Image,
(IMVIP03), September, 2003.

[Nik98]

A. Nikolaidis, and I. Pitas, "Facial feature extraction and determination of


pose," in Proc. of the 1998 NOBLESSE Workshop on Nonlinear Model
Based Image Analysis, 1998.

[Oja02]

T. Ojala, M. Pietikinen, T. Menp, Multiresolution gray-scale and


rotation invariant texture classification with local binary patterns, IEEE
Trans. Pattern Anal. Mach. Intell. 24 971987, 2002.

[Oli61]

G .Olivier. Morphologie et types humains. Vigot Frres, 1961, 171 pages.

[OTo93]

A.J. OToole, H. Abdi, Low-dimensional representation of faces in higher


dimensions of the face space, Opt. Soc. Am. 10 (3), 405411,1993.

[Ots79]

N.A Otsu. thresholding selection method from gray-level histogram. IEEE


Trans. Syst. Man Cybernet. 9(1), 62-66,1979.

[Pee03]

P. Peer, J. Kovac, F. Solina. Human skin colour clustering for face


detection. In submitted to EUROCON 2003 International Conference on
Computer as a Tool, 2003.

[Pen94]

A. Pentland, B. Moghaddam , and T. Starner. View-based and modular


eigenspaces for face recognition. In Proceedings, IEEE Conference, 1994

170

[Pen96]

P. Penev, J. Atick, Local feature analysis: a general statistical theory for


object representation, Netw.: Comput. Neural Syst. 7 477500, 1996.

[Per96]

R .Perrot. Use of Anthropological Methods in the Identification of


unknown Individuals : Human Remains and Armed Robbers. 14th Meeting
of the International Association of Forensic Sciences , Tokyo, Japan, 1996.

[Phi98a]

P.J. Phillips, Support vector machines applied to face recognition, Adv.


Neural Inform. Process. Syst. 11 (03) 809, 1998.

[Phi98b]

P. J. Phillips, H.Wechseler, J.Huang, and P. Rauss. The FERET database


and evaluation procedure for face-recognition algorithms. Image Vis.
Comput. 16, 295306, 1998b.

[Phi00]

P.J. Phillips, H. Hyeonjoon, S. Rizvi, P. Rauss. The FERET Evaluation


Methodology for Face-Recognition Algorithms. IEEE Transactions on
Pattern Analysis and Machine Intelligence, Vo. 22, No. 10, Octobre 2000.

[Phi03]

P. J. Phillips, P. J.Grother, R. J.Micheals, D. M. Blackbrun, E. Tabassi, and


J. M. Bone. Face recognition vendor test 2002: Evaluation report. NISTIR
6965. Available online at http://www.frvt.org, 2003.

[Phi07]

P.J. Phillips, and al. FRVT2006 and ICE2006 Large Scale Results. NIST
Report, March 2007

[Por00]

G. Porter, G. Doran. An anatomical and photographic technique for forensic


facial identification. Forensic Science International 114. Pages: 97-105,
2000.

[Pra07]

S. Prabhakar, J. Kittler, D. Maltoni, L. OGorman, and T. Tan. Introduction


to the Special Issue on Biometrics: Progress and Directions , IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 29, no. 4,
April 2007.

[Pri05]

J.R. Price, R.Jeffery, T.F. Gee, F. Timothy. Face recognition using direct,
weighted linear discriminant analysis and modular subspaces, PR(38), No.
2, pp. 209-219, February 2005.

[Rau91]

S.J. Raudys, A.K. Jain, Small sample size effects in statistical pattern
recognition: recommendations for practitioners, IEEE Trans. Pattern Anal.
Mach. Intell. 13 (3) 252264, 1991.

[Riz98]

S. A. Rizvi, P. J. Phillips, H.A. Moon. Verification protocol and statistical


performance analysis for face recognition algorithms. In Proceedings, IEEE
Conference on Computer Vision and Pattern Recognition. 833838, 1998.

[Roe 98]

G. Roethenbaugh. An Introduction to Biometrics and General History,


Biometrics Explained, Section 1, 1998.

[Row98]

H. A. Rowley, S. Baluja, et T. Kanade, "Neural Network based Face


Detection", IEEE Trans, Pattern Anal. Mach, Intell, 23-38, January 1998

[Sam93]

F. Samaria, Face segmentation for identification using hidden Markov


models, in: British Machine Vision Conference, BMVA Press, pp. 399408,
1993.

[Sam94]

F. Samaria, A. Harter, Parameterisation of a stochastic model for human


face identification, in: F.L. Sarasota (Ed.), Proceedings of Second IEEE

171

Workshop on Applications of Computer Vision, pp. 138142, December


1994.
[Sch00]

H. Schneiderman and T. Kanade.A Statistical Method for 3D Object


Detection Applied to Faces and Cars. PhD thesis, RI, 2000.

[Sch00a]

H. Schneiderman and T. Kanade, A Statistical Method for 3D Object


Detection Applied to Faces and Cars Proc. IEEE Conf. Computer Vision
and Pattern Recognition, vol. 1, pp. 746-751, 2000.

[She81]

J.W. Shepherd, G.M. Davidies, H.D. Ellis, Studies of cue saliency, in: G.M.
Davies, H.D. Ellis, J.W. Shepherd (Eds.), Perceiving and Remembering
aces, Academic Press, London, UK, 1981.

[Sim02]

T. Sim, S. Baker, M. Bsat, The CMU pose illumination and expression


(PIE) database, in: Proceedings of the Fifth International Conference on
Automatic Face and Gesture Recognition, 2002.

[Sin94]

P. Sinha, Object Recognition via Image Invariants: A Case Study,


Investigative Ophthalmology and Visual Science, vol. 35, no. 4, pp. 17351740, 1994.

[Sin95]

P. Sinha, Processing and Recognizing 3D Forms, PhD thesis,


Massachusetts Inst. of Technology, 1995.

[Sin06]

P. Sinha, B. Balas, Y. Ostrovsky, R. Russell. Face Recognition by Humans:


19 Results all Computer Vision Researchers Should Know About.
Proceedings of the IEEE,1948-1962, 2006.

[Sir87]

L. Sirovich, M. Kirby, Low-dimensional procedure for the characterization


of human faces, J. Opt. Soc. Am. A 4 (3) (1987) 519524.

[Sne05]

R. Snelick, U. Uludag, A. Mink, M. Indovina, A. Jain. Large-Scale


Evaluation of Multimodal Biometric Authentication Using State-of-the-Art
Systems. IEEE Transactions on Pattern Analysis and Machine Intelligence,
vol. 27, no. 3, pp. 450-455, Mar., 2005.

[Sob96]

K. Sobottka, I. Pitas. Extraction of facial regions and features using color


and shape information. In: Proc. 13th Internat. Conf. Pattern Recognition,
Vienna, Austria, pp. 421-425, 1996.

[Sob98]

K. Sobottka, I. Pitas, A novel method for automatic face segmentation,


facial feature extraction and tracking, Signal Process. Image Commun. 12,
263281,1998.

[Soh06]

A.S.M. Sohail, P. Bhattacharya. Localization of Facial Feature Regions


Using Anthropometric Face Model. In: First International Conference on
Multidisciplinary Information Sciences and Technologies, 2006.

[Tan06]

X. Tana, C. Songcan. Face recognition from a single image per


person:Asurvey. PatternRecognition,2006.

[Tan05]

X. Tan, S.C. Chen, Z.-H. Zhou, F. Zhang, Recognizing partially occluded,


expression variant faces from single training image per person with SOM
and soft kNN ensemble, IEEE Trans. Neural Networks 16 (4) 875886,
2005.

172

[Ter98a]

J.C. Terrillon, M. David, and S. Akamatsu, Automatic Detection of Human


Faces in Natural Scene Images by Use of a Skin Color Model and Invariant
Moments, Proc. Third Intl Conf. Automatic Face and Gesture
Recognition, pp. 112-117, 1998.

[Ter98b]

J.C. Terrillon, M. David, and S. Akamatsu. Detection of Human Faces in


Complex Scene Images by Use of a Skin Color Model and Invariant
Fourier-Mellin Moments, Proc. Intl Conf. Pattern Recognition, pp. 13501355, 1998.

[Tur91]

M. Turk and A. Pentland. Eigenfaces for Recognition, J. Cognitive


Neuroscience, vol. 3, no. 1, pp. 71-86, 1991.

[Tsa87]

R. Y. Tsai, "A versatile camera calibration technique for high-accuracy 3D


machine vision metrology using off-the-shelf TV cameras and lens" IEEE J.
Robotics Automation, vol. RA-3, no. 4, pp. 323-344, 1987.

[Tsa95]

D.M. Tsai. A fast thresholding selection procedure for multimodal and


unimodal histograms. Pattern Recognit. Lett. 16(6), 653-666,1995.

[Tsa04]

F. Tsalakanidou, S. Malassiotis, M. Strintzis, Integration of 2D and 3D


images for enhanced face authentication, in: Sixth International Conference
on Automated Face and Gesture Recognition, pp. 266271, 2004.

[Ver04]

F. Ventura, A. Zacheo, A. Ventura. Computerised anthropomorphometric


analysis of images : case report. Forensic Science International 146s, pages
S211-S213, 2004.

[Vet97]

T. Vetter and T. Poggio, Face recognition by elastic bunch graph


matching, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 19,
no. 7, pp. 733742, 1997.

[Vez03]

V. Vezhnevets, V. Sazonov, A. Andreeva. A Survey on Pixel-Based Skin


Color Dection Techniques, Proc. Graphicon-2003 pp. 85-92, Moscow,
Russia, September 2003.

[Vin91]

L. Vincent, P. Soille, "Watersheds in digital space : an efficient algorithm


based on immersion simulation". IEEE Trans on PAMI, 13 (6), pp 563-598,
1991.

[Vio01]

P. Viola, M. Jones. Rapid object detection using a boosted cascade of simple


features. In Proceedings, IEEE Conference on Computer Vision and Pattern
Recognition, 2001.

[Vis05]

M. Visani, C. Garcia, J.M. Jolion, Bilinear Discriminant Analysis for Face


Recognition. Dans Proceedings of the International Conference on
Advances in Pattern Recognition (ICAPR 2005), volume 2, pages 247-256,
Aot 2005.

[Wan02]

Y. Wang, C. Chua, and Y. Ho. Facial feature detection and face recognition
from 2D and 3D images. Pattern Recognition Letters, 23:11911202, 2002.

[Wan03]

X. Wang, X. Tang, Unified subspace analysis for face recognition,


Proceedings of the Ninth IEEE International Conference on Computer
Vision, 2003, pp. 679686.

173

[Wan05]

J. Wang, K.N. Plataniotis, A.N. Venetsanopoulos, Selecting discriminant


eigenfaces for face recognition, Pattern Recognition Lett. 26 (10) 1470
1482, 2005.

[War89]

E. L.Wartz, A. Shaw, E. Wolfson. A numerical solution to the generalized


mapmaker's problem: flattening nonconvex polyhedral surfaces, IEEE
Trans. PAMI, 11, pp. 1005-1008, 1989.

[Wis97]

L. Wiskott, R. Fellous, N. Kruger, C. von Malsburg. Face recognition by


elastic bunch graph matching, IEEE Trans. Pattern Anal. Mach. Intell. 775
779, July 1997.

[Wu02]

J. Wu, Z.-H. Zhou. Face recognition with one training image per person,
Pattern Recognition Lett. 23 (14) (2002) 17111719.

[Yan94]

G. Yang and T. S. Huang. Human Face Detection in Complex


Background, Pattern Recognition, vol. 27, no. 1, pp. 53-63, 1994.

[Yan98a]

W. Yang, A. Waibel Lu. Skin-color modeling and adaptation, ACCV98,


1998.

[Yan98b]

M.H. Yang, N. Ahuja. Detecting human faces in color images, ICIP98,


1998.

[Yan99]

M.H. Yang, N. Ahuja. Gaussian Mixture model for human skin color and its
application in image and video databases, Proceedings of SPIE: Conference
on Storage and Retrieval for Image and Video Databases, vol. 3656, pp.
458466, 1999.

[Yan02]

Ming-Hsuan Yang, David J. Kriegman et Narendra Ahuja. Detecting faces


in images : A survey. Dans IEEE Transactions on Pattern Analysis and
Machine Intelligence, volume 24(1), pages 3458, 2002.

[Yan04]

J.Yang, D. Zhang, A.F. Frangi, J.Yang, Two-dimensional PCA: a new


approach to appearance-based face representation and recognition, IEEE
Trans. Pattern Anal. Mach. Intell. 131137,2004.

[Yow97]

K.C. Yow and R. Cipolla, Feature-Based Human Face Detection, Image


and Vision Computing, vol. 15, no. 9, pp. 713-735, 1997.

[Yui92]

A. Yuille, P. Hallinan, and D. Cohen, Feature Extraction from Faces Using


Deformable Templates, Intl J. Computer Vision, vol. 8, no. 2, pp. 99-111,
1992.

[Xu06]

Z. Xu, M. Zhu. Color-based skin detection: survey and evaluation. MultiMedia Modelling Conference Proceedings, 2006 12th International.
Hangzhou, China; 2006.

[Zha97]

J. Zhang, Y. Yan, M. Lades, Face recognition: eigenface, elastic matching


and neural nets, Proc. IEEE 85 (9) (1997) 14231435.

[Zha99]

W. Zhao, R. Chellappa, P.J. Phillips, Subspace linear discriminant analysis


for face recognition, Technical Report CAR-TR-914, Center for Automation
Research, University of Maryland, 1999.

[Zig02]

G. Zigelman, R. Kimmel, N. Kiryati. Texture mapping using surface


flattening via multi-dimensional scaling, IEEE Trans. Visualization and
Comp. Graphics, 8, pp. 198-207, 2002.

174

Vous aimerez peut-être aussi