Académique Documents
Professionnel Documents
Culture Documents
THSE
pour obtenir le titre de
Remerciements
Introduction ............................................................................................................6
1.2
1.3
1.4
1.4.1
1.4.2
Test didentification......................................................................................13
1.5
1.6
1.7
1.7.1
Dtection de visage.......................................................................................17
1.7.2
1.7.3
La reconnaissance de visage.........................................................................19
1.8
1.8.1
1.8.2
1.8.3
Expressions faciales......................................................................................20
1.8.4
1.8.5
1.9
Conclusion ............................................................................................................21
Introduction ......................................................................................................... 22
2.2
2.2.1
2.2.2
2.2.3
2.2.4
2.2.5
2.2.6
2.3
2.3.1
2.3.2
2.3.3
Mthodes Hybrides...................................................................................... 52
2.4
2.4.1
2.4.2
2.4.3
Approches 3D .............................................................................................. 57
2.4.4
Approches 3D+2D....................................................................................... 61
2.4.5
Conclusion ................................................................................................... 63
3.2
3.3
3.3.1
3.3.2
3.3.3
Protocoles .....................................................................................................73
3.3.4
Conclusion ....................................................................................................74
Introduction ......................................................................................................... 75
4.2
4.3
4.3.1
4.3.2
4.4
4.4.1
4.4.2
4.4.3
4.4.4
4.4.5
4.4.6
4.4.7
4.4.8
5.2
5.2.1
5.2.2
5.2.3
5.3
5.3.1
5.3.2
5.3.3
5.3.4
5.3.5
5.4
5.4.1
5.4.2
5.4.3
5.5
B.2
B.3
B.3
B.4
B.5
Annexe C
Indices anthropomtriques......................................................................... 162
Rfrences ................................................................................................... 163
Figure 2.8. Exemple : (a) une image du visage originale, (b) sa projection (SOM-Face) et
(c) image reconstruite [Tan05]. ........................................................................................... 50
Figure 2. 9. Processus de reconnaissance de visages bas sur les Modles Actifs
dApparence [Lan95]........................................................................................................... 53
Figure 2. 10. (a) Image texture (b) Image 2.5D (c) Image 3D ............................................ 56
Figure 2. 11. Choix de dix points : points 2D marqus par le " " et points 3D marqus par
"" [Wan02]. ....................................................................................................................... 62
Figure 3. 1. Exemple dimages extraites de la base XM2VTS............................................ 65
Figure 3. 2. Exemple dextraction de 10 images dune personne dans al base de
dveloppement..................................................................................................................... 68
Figure 3.3. Normalisation des visages prsents (figure 3.1).............................................. 69
Figure 4. 1. Minima, bassins versants et ligne de partage des eaux. ................................... 78
Figure 4. 2. Le plus court chemin godsique entre s et t. .................................................. 78
Figure 4. 3. Exemple de SKIZ godsique.......................................................................... 79
Figure 4. 4. Les diffrents cas de limmersion. ................................................................... 80
Figure 4. 5. Reprsentation numrique circulaire de la teinte ............................................. 84
Figure 4. 6. Modlisation du gradient multi composantes avec lapproche Di Zenzo. ....... 85
Figure 4. 7. Mesure de la pertinence de la teinte................................................................ 87
Figure 4. 8. Les diffrentes composantes : teinte (b), luminance (c), saturation (d),
gradient(e)............................................................................................................................ 88
Figure 4. 9. Les diffrentes composantes : teinte (b), luminance (c), saturation (d),
gradient(e)............................................................................................................................ 88
Figure 4. 10. Images originales (a) et rsultats de limmersion (b)..................................... 90
Figure 4. 11. Principe de la fusion des bassins versants...................................................... 92
Figure 4. 12. Stratgie dutilisation des composantes TLS. ................................................ 93
Figure 4. 13. Exemples de segmentation de visage : (a) images originales (b) images LPE
modifi................................................................................................................................. 95
Figure 4. 14. (a) image originale (b) image de saturation (c) histogrammes de la saturation
et seuils obtenus avec la mthode de Cheng........................................................................ 97
Figure 4. 15. (a) image originale (b) image de saturation (c) histogrammes de la saturation
et seuils obtenus avec la mthode de Cheng........................................................................ 98
Figure 4. 16. (a) image originale, (b) rsultats dextraction du visage................................ 99
Figure 4. 17. Modle gomtrique du visage. ................................................................... 101
Figure 4. 18. (a) image originale, (b) visage segment Is, (c) visage binaris IM, (d) les
centres de rgions yeux classifies. ................................................................................... 102
Figure 4. 19. Processus de fusion des rgions appartenant lil droit............................ 103
Figure 4. 20. Rsultats dextraction des rgions caractristiques...................................... 104
Figure 4. 21. (a) image originale, (b) mask Visage (c) rgions extraites .......................... 105
Figure 4. 22. (a) image originale (b) mask visage (c) rgions extraites ............................ 106
Figure 4. 23. (a) les bonnes dtections (b) les mauvaises dtections. ............................... 108
Figure 4. 24. (a,b) les bonnes dtections (c) les mauvaises dtections.............................. 108
Figure 4. 25. (a) Les caractristiques extraites avec notre mthode (b) visage normalis (c)
les rgions extraites. .......................................................................................................... 109
Figure 5. 1. Exemple de dcomposition en Eigenfaces..................................................... 114
Figure 5. 2. Courbes DET : les rsultats sur la deuxime exprience. .............................. 118
Figure 5. 3. Rgions faciales utilises pour construire les quatre classifieurs................... 119
Figure 5. 4. Courbe DET : des diffrents classifieurs. ...................................................... 120
Figure 5. 5. Fusion des scores. La classification se fait grce des rgles permettant de
combiner les sorties des quatre classifieurs....................................................................... 121
Figure 5. 6. Les courbes DET des diffrentes combinaisons de classifieurs..................... 122
Figure 5. 7. Courbes DET : rgionM extraction manuelle, rgionA extraction automatique.
........................................................................................................................................... 124
Figure 5. 8. Les diffrents rsultats de fusion de classifieurs............................................ 125
Introduction Gnrale
Introduction Gnrale
De nos jours on parle de plus en plus de l'inscurit dans divers secteurs ainsi que des
moyens informatiques mettre en uvre pour contrer cette tendance : le contrle d'accs
aux ordinateurs, le-commerce, les oprations bancaires bass sur lidentification du
demandeur, etc. Il existe traditionnellement deux manires didentifier un individu. La
premire mthode est base sur une connaissance priori "knowledge-based" de la
personne telle que, par exemple, la connaissance de son code PIN qui permet dactiver un
tlphone portable. La seconde mthode est base sur la possession d'un objet
"token-based". Il peut sagir dune pice didentit, dune clef, dun badge, etc. Ces deux
modes didentification peuvent tre utiliss de manire complmentaire afin dobtenir une
scurit accrue comme dans le cas de la carte bleue. Cependant, elles ont chacune leurs
faiblesses. Dans le premier cas, le mot de passe peut tre oubli par son utilisateur ou bien
devin par une autre personne. De plus une personne sur quatre seulement fait l'effort
d'appliquer les consignes de scurit avant de retirer de l'argent (regarder derrire soi,
cacher le clavier avec sa main lors de la saisie du code secret, etc.). Dans le second cas, le
badge (ou la pice didentit ou la clef) peut tre perdu ou vol. Les caractristiques
biomtriques sont une solution alternative aux deux modes didentification prcdents.
Lavantage de ces caractristiques biomtriques est dtre universelles, cest--dire
prsentes chez toutes les personnes identifier. Dautre part, elles sont mesurables et
uniques : deux personnes ne peuvent possder exactement la mme caractristique. Elle
sont aussi permanentes ce qui signifie quelles ne varient pas ou peu au cours du temps.
Lintrt des applications utilisant la biomtrie se rsume en deux classes : faciliter le
mode de vie, viter la fraude.
Introduction Gnrale
La reconnaissance faciale fait partie des techniques biomtriques. On remarque que dans la
vie quotidienne chacun de nous identifie tout au long de la journe diffrents visages. Ainsi
lorsque nous rencontrons une personne, notre cerveau va chercher dans notre mmoire et
vrifier si cette personne est rpertorie ou non. La difficult de la reconnaissance de
visage par ordinateur varie normment suivant que les conditions dacquisition. Dans un
environnement contrl, des paramtres tels que larrire plan, la direction et lintensit des
sources lumineuses, langle de la prise de vue, la distance de la camra au sujet sont des
paramtres matriss par le systme. Dans un environnement non contrl, une srie de
prtraitements sont souvent ncessaires avant de faire la reconnaissance proprement
parler. Il faut tout dabord dtecter la prsence ou labsence de visage dans limage. Le
visage doit ensuite tre segment. Enfin, si nous travaillons sur un flux vido, le systme
doit suivre le visage dune image la suivante.
Plusieurs mthodes ont t dveloppes pour la reconnaissance de visage 2D. Cependant,
elles prsentent un certain nombre de limitations lies l'orientation du visage ou la pose,
lclairage, lexpression faciale, aux occultations, etc. Ces dernires annes, on parle de
plus en plus des techniques de reconnaissance de visage 3D comme une solution
alternative pour rsoudre les problmes cits ci-dessus. En effet, la richesse de
linformation fournie par les mesures 3D permet de reconstruire la forme tridimensionnelle
du visage. Ce type de reprsentation du visage est invariant aux changements
dillumination et de pose. Dans cette thse nous proposons de dvelopper une technique
bimodale 2D-3D de reconnaissance faciale qui combine des mesures anthropologiques 3D
du visage avec une technique 2D base sur lAnalyse en Composantes Principales ou ACP.
Lintrt dune telle approche est dexploiter les avantages des deux techniques (2D et 3D)
afin damliorer le taux de reconnaissance.
Notre but tant de dvelopper un systme dauthentification de visage simple et efficace
dans le cadre du projet IV, il est ncessaire de travailler tous les niveaux du systme
(dtection, extraction des caractristiques et reconnaissance) en apportant des
contributions pertinentes diffrents points de la chane de traitement. Ainsi, nous avons
commenc par dvelopper une technique bas niveau pour la localisation de
visage
unique sur fond uniforme par un procd simple, et le plus robuste possible aux variations
dclairage, do l exploitation de techniques de traitements d'images couleur classiques
ou il s agit de travailler sur une segmentation couleur robuste. Cette approche est base sur
Introduction Gnrale
Lextraction de la rgion du visage partir de limage segmente est une tape primordiale
dans le processus de reconnaissance faciale. Lalgorithme dextraction doit tre efficace et
doit fournir, sans aucune ambigut, la rgion du visage dans limage. Nous avons propos
une mthode originale base sur la classification de la couleur de la peau, pour extraire la
rgion du visage partir de limage segmente. Pour cela, nous avons tabli deux rgles
empiriques : la premire est base sur une mthode explicite qui dfini un domaine
dappartenance de la couleur de la peau dans le plan Teinte. La deuxime rgle dfinie la
taille minimale des rgions considres. Par ailleurs, nous avons dfini un modle
gomtrique pour extraire les rgions caractristiques du visage. Ce modle est bas sur les
distances interoculaires et yeux-bouche et permet de classifier trois rgions
pertinentes du visage, savoir la rgion il droit , la rgion il gauche et la rgion
bouche .
Une autre contribution de cette thse a consist dvelopper une technique 2D de
reconnaissance du visage base sur lAnalyse en Composante Principale qui prend en
entre, non pas limage entire du visage, mais les imagettes correspondant aux trois
rgions caractristiques du visage (les yeux, le nez et la bouche) et dmontrer que cette
mthode donne des taux de reconnaissance aussi bons que limage complte.
Dautre part, nous pensons que lanthropomtrie par sa matrise de lanatomie du visage
humain peut apporter des informations complmentaires pour amliorer la reconnaissance
faciale. En effet, les anthropologues ont t les premiers tudier de faon scientifique la
morphologie humaine en gnral et celle de la tte et du visage en particulier et cela en
utilisant des critres descriptifs et des caractres mtriques. Nous proposons de dfinir des
mesures anthropomtriques faciales partir de points caractristiques 3D du visage,
lesquels sont reconstruits par strovision. Ces mesures correspondent des valeurs
indiciaires et angulaires caractrisant les diffrentes rgions du visage. Une mthode
Introduction Gnrale
Introduction Gnrale
extraction de visage et
extractions des rgions caractristiques. Les rsultats obtenus chaque tape sont examins
et des conclusions en sont tires.
Dans le cinquime chapitre, nous nous intressons lexploitation des informations 2D et
3D du visage comme moyen biomtrique pour lauthentification de personnes. Dans un
premier temps, nous dcrivons le dispositif dacquisition que nous avons choisi. Il se
compose dune paire stroscopique pour lacquisition dimages 2D et la reconstruction de
donnes 3D. Ensuite, nous dtaillons les diffrentes approches de reconnaissance faciale
que nous avons labores, savoir : lapproche 2D base ACP, lapproche 2D modulaire,
lapproche 3D et lapproche bimodale 2D-3D. Nous prsentons les rsultats exprimentaux
obtenus par chaque mthode et analysons les performances.
Enfin, la conclusion gnrale rsumera nos contributions et donnera quelques perspectives
sur les travaux futurs.
Chapitre 1
Chapitre 1
Les Systmes Biomtriques
1.1 Introduction
La biomtrie consiste identifier une personne partir dune ou de plusieurs
caractristiques physiologiques (empreintes digitales, visage, iris, contour de la main, etc.),
ou comportementales (signature, dmarche, etc.). Etymologiquement, la biomtrie
humaine est synonyme danthropologie physique [Oli61].
! Lempreinte digitale
! La gomtrie de la main
! Liris
! La rtine
Chapitre 1
! Le visage
! La dynamique de frappe au clavier
! La reconnaissance vocale
! La dynamique des signatures
! LADN
! ..
Chapitre 1
! Le mode denrlement est une phase dapprentissage qui a pour but de recueillir
des informations biomtriques sur les personnes identifier. Plusieurs campagnes
dacquisitions de donnes peuvent tre ralises afin dassurer une certaine
robustesse au systme de reconnaissance aux variations temporelles des donnes.
Pendant cette phase, les caractristiques biomtriques des individus sont saisies par
un capteur biomtrique, puis reprsentes sous forme numrique (signatures), et
enfin stockes dans la base de donnes. Le traitement li lenrlement na pas de
contrainte de temps, puisquil seffectue hors-ligne .
! Le mode d'identification est une comparaison "un N", dans lequel le systme
reconnat un individu en lappariant avec un des modles de la base de donnes. La
personne peut ne pas tre dans la base de donnes. Ce mode consiste associer une
identit une personne. En d'autres termes, il rpond des questions du type: Qui
suis-je ? .
Chapitre 1
Capteur
Biomtriques
Cration dune
signature
Extraction
des donnes
Base de
donnes
Le processus denrlement
1
modle
Identit proclame
Capteur
Biomtriques
Cration dune
signature
Extraction
des donnes
Comparaison
1:1
Vrai / faux
Le processus de vrification
Capteur
Biomtriques
N
modles
Comparaison
1:N
Cration dune
signature
Extraction
des donnes
Utilisateur identifi ou
Utilisateur non identifi
Le processus didentification
Figure 1.2. Principaux modules dun systme biomtrique ainsi que les diffrentes modes.
Les diffrents modules qui composent un systme biomtrique sont reprsents sur la
figure 1.2 ; leur fonctionnement peut tre rsum comme suit :
! Module extraction des donnes : extrait les informations pertinentes partir des
donnes biomtriques brutes, par exemple des images de visage ou des rgions
caractristiques de visage ;
! Module base de donnes : stocke les modles biomtriques des utilisateurs enrls.
Chapitre 1
! cot : doit tre modr. cet gard nous pouvons dire que la reconnaissance
faciale ne ncessite pas une technologie coteuse. En effet, la plupart des systmes
fonctionnent en utilisant un appareil photo numrique de qualit standard.
! effort : requis par l'utilisateur lors de la saisie de mesures biomtriques, et qui doit
tre rduit le plus possible. La reconnaissance faciale est la technique biomtrique
la plus facile utiliser car non contraignante.
Les rsultats de cette tude peuvent tre prsents comme suit :
! les techniques les moins "intrusives" aux plus "intrusives" : la voix, la frappe sur le
clavier, la signature, la main, le visage, l'empreinte digitale, l'iris et enfin la rtine.
10
Chapitre 1
! les techniques les plus fiables aux moins fiables: l'iris, la rtine, l'empreinte digitale,
le visage, la main, la voix, et enfin un niveau quivalent, la frappe sur le clavier et
la signature.
! les techniques les moins coteuses aux plus coteuses: la frappe sur le clavier, la
voix, la signature, l'empreinte digitale, le visage, la main, la rtine et enfin l'iris.
! les techniques les plus faciles d'utilisation aux plus difficiles: le visage, la signature,
l'iris, la frappe sur le clavier, la voix, l'empreinte digitale, la main et enfin la rtine.
Si S #X Q , X t $ ( *
Sinon
#I , X $ ) '&ww
Q
11
(1.1)
Chapitre 1
Taux derreur
FAR
*!
ERR
Source: Mansfield, T. et al. (2001),
Biometric Product Testing Final Report
Figure 1.4. Courbe du point d'quivalence des erreurs dans un systme biomtrique.
12
Chapitre 1
FRR
EER
FAR
#I , X $ ) '&I
Q
o I1,..,IN
% I N .1
,#
Si max S X Q , X I k
k
$- ( * , k ) 1, ..., N ,
Sinon
(1.2)
Match Characteristics (CMC) qui reprsente la probabilit que le bon choix se trouve
parmi les N premiers [Phi00].Comme lillustre la figure 1.5.
13
Chapitre 1
Taux didentification
50 images
Rang
14
Chapitre 1
15
Chapitre 1
Transaction on PAMI (voir tableau 1.1). Nous constatons que la reconnaissance faciale
arrive largement en tte avec un pourcentage de 33% du nombre total de publications. Ceci
dmontre bien lintrt scientifique pour cette technique.
Article (%)
Visage
Empreintes
Multimodale
Iris
digitale
Performance
Autres
Evaluation
Soumission
33%
17%
16%
9%
4%
21%
Acceptation
33%
16%
16%
11%
5%
20%
Tableau 1. 1. Rpartition des articles sur les techniques biomtriques soumis et accepts dans la
revue IEEE PAMI.
16
Chapitre 1
doivent, par consquence, tre optimises pour amliorer les performances du systme
global.
Image/vido
Simultanment
Dtection de visage
Extraction des
caractristiques
Reconnaissance de
visage
Identification / vrification
Figure 1. 7. Les tapes de la reconnaissance de visage.
Dans ce qui suit nous allons dtailler chaque tape du systme de reconnaissance faciale, et
nous prsenterons les principales difficults rencontres.
17
Chapitre 1
! Les occultations : les visages peuvent tre partiellement occults par d'autres
objets. En effet, dans une image contenant un groupe de personnes par exemple,
des visages peuvent partiellement masquer d'autres visages.
18
Chapitre 1
19
Chapitre 1
20
Chapitre 1
1.9 Conclusion
Dans ce chapitre, nous avons prsent les technologies utilises dans les systmes
biomtriques pour lidentification de personnes. Nous avons aussi donn un aperu sur les
techniques de mesure de leurs performances. Cette tude nous a permis de constater que la
reconnaissance de visage suscite de plus en plus lintrt de la communaut scientifique,
car elle prsente plusieurs challenges et verrous technologiques. Enfin, nous avons mis en
vidence les diffrentes difficults inhrentes la reconnaissance automatique de visages,
ce qui nous a permis de bien dfinir les problmatiques traites dans cette thse,
notamment linvariance lillumination. Les techniques utilises aux diffrentes tapes de
la reconnaissance de visage sont dtailles dans le chapitre suivant.
21
Chapitre 2
Chapitre 2
Techniques de dtection et de
reconnaissance de visages
2.1 Introduction
Comme nous lavons voqu au chapitre prcdent, un systme automatique de
reconnaissance de visages se dcompose en trois sous-systmes : dtection de visage,
extraction des caractristiques et reconnaissance de visages. La mise en oeuvre dun
systme automatique et fiable de reconnaissance faciale est un verrou technologique qui
nest toujours pas rsolu. Dans ce chapitre, nous prsenterons un tat de lart sur les
techniques de dtection de visage. Nous dtaillerons en particulier les mthodes bases sur
la couleur de la peau. Nous exposerons aussi les mthodes de reconnaissance de visage 2D
et 3D. Enfin, nous terminerons le chapitre par une synthse des mthodes et techniques
tudies.
22
Chapitre 2
y #1
x #1
23
Chapitre 2
Yuille et al. [Yui92] ont utilis un template dformable pour modliser les caractristiques
faciales. Ce template adapte un modle lastique, connu a priori, aux caractristiques
faciales (e.g., yeux). Dans cette approche les caractristiques faciales sont dcrites par des
templates paramtriques. Une fonction d'nergie est dfinie pour lier les contours, les
sommets et les valles dans l'image d'entre aux paramtres correspondants dans le
template. Le meilleur ajustement du modle lastique est trouv en minimisant une
fonction d'nergie des paramtres. Bien que leurs rsultats exprimentaux dmontrent une
bonne performance pour le suivi de caractristiques non rigides, un inconvnient de cette
24
Chapitre 2
approche est que le template dformable doit tre initialis dans la proximit de l'objet
d'intrt.
Pour dtecter les caractristiques faciales pour la reconnaissance de visage, Brunelli et
Peggio[Bru93] ont utilis, pour chaque rgion extraite, un dtecteur appropri. Ils se sont
aussi inspirs de la mthode de Kanade [Kan73] dcrite dans le paragraphe 2.2.1.
Pour les rgions yeux, nez et bouche, ils utilisent la direction du gradient vertical et
horizontal. La bouche et le nez sont localiss en utilisant des stratgies similaires. La
position verticale est dtermine grce aux standards anthropomtriques. Dabord, une
estimation fine de leur position relle est obtenue en cherchant les pics de la projection
horizontale du gradient vertical pour le nez, et les valles de la projection horizontale de
lintensit pour la bouche
La position des sourcils et leur paisseur peuvent tre trouves par une analyse similaire.
La recherche est une fois encore limite la fentre dintrt, juste au-dessus des yeux, et
les sourcils sont trouvs en utilisant la carte du gradient vertical. Le dtecteur du sourcil
cherche les pairs de pics du gradient ayant des directions opposes.
25
Chapitre 2
26
Chapitre 2
27
Chapitre 2
de la densit de contours (mesure par le rapport noir/blanc le long des plans horizontaux).
La longueur entre le haut du visage et le plan de l'oeil est alors utilise comme une
longueur de rfrence pour construire un template facial flexible. Ce template
couvrant des caractristiques telles que les yeux et la bouche est initialis partir de
limage dentre. La forme initiale du template est obtenue en utilisant la longueur
anthropomtrique en respectant la longueur de rfrence. Le template flexible est alors
ajust par rapport aux positions finales des caractristiques en utilisant un algorithme de
rglage fin qui emploie une fonction de cot base contour. Les auteurs rapportent un taux
de 82% de russite pour la dtection de toutes les caractristiques faciales dans le cas de
visages quasi-frontaux (<30) sur un fond homogne. Bien que l'algorithme russisse
dtecter les caractristiques dethnies diffrentes puisquil qu'il ne se base pas sur les
informations de niveaux de gris et de couleur, il narrive pas cependant dtecter
correctement ces caractristiques si l'image du visage contient des lunettes ou bien si les
cheveux couvrent le front.
Par ailleurs, Yow et Cipolla [Yow97] ont dvelopp une mthode base sur lextraction de
points d'intrts (les maximas locaux de la drive seconde d'un filtre gaussien). Ces points
sont ensuite utiliss pour raliser une dtection de contours qui sont leur tour groups en
rgions. Le regroupement des contours est bas sur un critre de proximit et un critre de
similarit en orientation et en paisseur. A partir de chaque rgion, lalgorithme dfinit
alors un vecteur pour lequel il calcule la moyenne et la matrice de covariance par rapport
aux diffrents vecteurs des modles. Le critre d'appartenance un lment du visage
s'appuie sur la distance de Mahalanobis: Les diffrents candidats sont alors groups en se
basant sur un modle de connaissance indiquant leur position relative. Chaque composant
du visage est enfin analys avec un rseau bayesien. L'intrt de cette mthode est qu'elle
peut dtecter des visages dans diverses poses. On a un taux de russite de 85%.
28
Chapitre 2
Dtecteur de visages
CMU
CMU-125
86,2%/23
MIT
MIT-20
84,5%/8
94,4%/65
Fraud et al [Fer01]
86%/8
88,4%/31
Garcia et al [Gar04]
90,3/8
77,8%/5
90,5/8
90,1/7
90,2/5
Dans le cadre de cette thse, nous nous intressons en particulier aux techniques de
dtection de visages bases sur lanalyse de la couleur de la peau. La section suivante,
prsentera une tude dtaille sur ces techniques, ce qui nous permettra de situer notre
approche par rapport aux travaux existants.
la
faon
dont
les
couleurs
sont
gnralement
codes
29
Chapitre 2
30
Chapitre 2
explicites, les mthodes non paramtriques, les mthodes paramtriques, et les mthodes
semi paramtriques. Toutes ces approches pratiquent une phase d'apprentissage sur un
nombre dimages reprsentatives pour calculer une densit de probabilit de la couleur
peau.
(2.1)
31
Chapitre 2
afin de crer de nouveaux ensembles dattributs pour les composantes RGB. Une rgle de
dcision, semblable lquation (2.1) qui ralise la meilleure identification possible, est
estime pour chaque ensemble d'attributs. Ils ont obtenu des rsultats meilleurs que ceux
qui sont obtenus avec un classifieur de Bayes dfini dans l'espace RGB.
couleur.
! Calculer la probabilit conditionnelle pour chaque couleur de peau et de non peau.
! Utiliser la rgle de Bayes afin de calculer la probabilit pour qu'un pixel
dtections correctes et les dtections fausses donnes par la courbe ROC (Receiver
Operating Characteristic). Il est appliqu la carte de probabilit et permet
dextraire les rgions peau.
32
Chapitre 2
reprsente sous la forme dun modle gaussien simple (MGS) parfois elliptique, ou par un
mlange de modles gaussiens (GMM) pour traduire son caractre multimodal.
Plusieurs travaux sur la modlisation de la distribution de la couleur de peau ont utilis un
mlange de Gaussiennes dfini par :
n
k #1
!2 * * $d , k
P!C ; ) , , $ # " + k
exp (0.5!C ( ) k $
!, k $(1 !C ( ) k $
(2.2)
33
Chapitre 2
elliptique de frontire . Les auteurs ont compar leur modle avec les modles MGS et
MMG six composantes, appliqus sur la base de donnes de Compaq [Jon99]. Ils ont
obtenu des performances lgrement meilleures. Cependant, l'inconvnient du modle
elliptique de frontire rside dans le fait que son utilisation est limite la classification
binaire.
Hsu [Hsu02] propose de combiner une technique de correction de couleur avec la dtection
de la couleur de peau, pour localiser le visage dans une image. La correction de couleur
permet dliminer leffet de la rflexion et de la variation de lillumination dans limage.
La technique de compensation dclairage utilise ce quon appelle un blanc de rfrence
. Elle est base sur lhypothse quune image contient toujours du blanc. Les pixels blancs
sont reconnus en utilisant une correction non-linaire Gamma de la valeur de luminance. Si
le pourcentage des pixels blancs dpasse 5 % sur 100 pixels, on applique alors une
correction de couleur sur limage. Cette correction sapplique sur les coefficients des trois
axes RGB.
Enfin, pour dtecter la couleur de peau on utilise un MGS dans lespace modifi CbCr, qui
est obtenu partir dune transformation non linaire applique lespace YCbCr.
Linconvnient de cette mthode de correction rside dans la difficult dfinir les
hypothses de dpart [Mar03].
34
Chapitre 2
performances du dtecteur SOM sont infrieures celles qui sont obtenues par la mthode
base sur les histogrammes RGB, dveloppe dans [Jon99]. Nanmoins, le dtecteur SOM
ncessite moins de paramtres et il est plus efficace pour les applications en temps rel.
Certains auteurs ont galement propos un apprentissage automatique des couleurs
reprsentant la peau laide de rseaux neuronaux. Ceux-ci peuvent tre entrans partir
dchantillons de pixels reprsentant la peau (et non-peau), pralablement convertis dans
lespace de couleur YCrCb. Par ailleurs, dautres espaces de couleurs ont aussi t utiliss
dans ce contexte. Kakumanu et al. [Kak04][Kak06] ont employ un rseau de neurones
pour modliser la constance de la couleur the color constancy . Leur rseau de neurones
possde trois couches et permet destimer lillumination de la peau. Il prend en entre un
histogramme deux composants r et g (voir section 2.2.1.1) et donne en sortie les
illuminations de la peau dans l'espace r, g. Ce rseau de neurones est entran sur une base
de donnes de 255 images, et test sur 71. Les images utilises fournissent un grand choix
d'illuminations, de diffrents arrires plans et de sources de lumire non blanches. Enfin,
une technique de seuillage simple est utilise pour dtecter la peau partir de ce rseau de
neurones.
35
Chapitre 2
L'ellipse est une forme gomtrique simple qui permet de modliser grossirement
un visage. Une THG est donc ralise sur l'image des orientations de gradients afin
de dtecter une ellipse verticale d'excentricit donne. Il en rsulte un tableau de
vote dont le maximum correspond la position dans limage du point le plus
susceptible dtre le centre de lellipse.
! un dtecteur colorimtrique bas sur une modlisation statistique de la teinte chair
36
Chapitre 2
Dans le tableau (2.1) les performances des diffrentes mthodes appliques cette base de
donnes, sont prsents. Il donne le taux des vrais positifs (TP) et le taux des faux positifs
(FP). Bien que les mthodes utilisent la base de donnes de manire diffrente pour dfinir
les images dapprentissage et les images de test, et emploient diffrentes stratgies
dapprentissage, ce tableau donne une image assez fidle des performances obtenues par
ces mthodes [Kak06].
Mthodes
Espace couleur
TP
FP
RGB
90%
14.2%
RGB
93.4%
19.8%
MMG [Jon99]
RGB
90%
~15.5%
SOM [Bro01]
TLS
78%
32%
CIE-xy
90%
20.9%
MGS [Lee02]
CbCr
90%
33.3%
MMG [Lee02]
IQ
90%
30%
Thresholding of I axis[Bra00]
YIQ
94.7%
30.2%
MGS [Hsu02]
YCbCr
96%
37
Chapitre 2
! Les humains peuvent reconnatre des visages familiers dans des images de faible
rsolution.
! La capacit de tolrer les dgradations des images augmente avec la familiarit
! Les informations haute frquence seules, soit les contours, sont insuffisantes pour
pour la reconnaissance
! La forme du visage est gnralement code de manire caricaturale
! La pigmentation du visage est aussi importante que sa forme
! La couleur joue un rle important spcialement lorsque la forme est dgrade
! Les changements dillumination influencent la capacit de gnralisation
! Le mouvement des visages semble faciliter la reconnaissance de manire
consquente
! Le systme visuel progresse dune stratgie locale vers une stratgie holistique au
38
Chapitre 2
dimension trs grande de lespace image quelle ncessite [Jai82, Jai87, Rau91], ce qui
rend trs difficile la classification.
Ainsi, une image 100 100, par exemple, est reprsente par un vecteur de dimension 104
[Dui95]. Comme le nombre dimages dapprentissage pour chaque personne doit tre au
moins gal dix fois la dimension du vecteur [Jai82], il faut 105 images par personne,
nombre assez exorbitant. En pratique, on na pas besoin de tant de photos pour dvelopper
un modle fidle pour lapparence du visage dune personne. Des techniques de rduction
de dimension sont gnralement employes. Une des techniques les plus utilises dans
l'identification de visage est l'Analyse en Composantes Principales (ACP).
Une mthode trs populaire, base sur la technique ACP, est la mthode eigenface
[Sir87, Tur91]. Son principe est le suivant : tant donn un ensemble dimages de visages
exemples, il sagit tout dabord de trouver les composantes principales de ces visages. Ceci
revient dterminer les vecteurs propres de la matrice de covariance forme par
lensemble des images exemples. Chaque visage exemple peut alors tre dcrit par une
combinaison linaire de ces vecteurs propres. Pour construire la matrice de covariance,
chaque image de visage est transforme en vecteur. Chaque lment du vecteur correspond
lintensit lumineuse dun pixel. Cette mthode sera prsente avec davantage de dtails
dans le chapitre 5.
Dans [Wan03], les auteurs ont dmontr que la matrice de covariance C peut scrire :
C #CI - CE
(2.12)
39
Chapitre 2
la dernire image (Figure 2.1) pour le test et ont choisi alatoirement les n premires
images (n <= 9) pour l'apprentissage.
Taux didentification
Figure 2.3. Les dix vues d'une personne dans la base de donnes ORL.
Figure 2.4. Taux d'identification moyen en fonction du nombre dexemples dapprentissage par
personne [Wan03].
Cette procdure a t rpte vingt fois. La figure 2.2 montre que la performance de la
mthode eigenface baisse avec la diminution du nombre dexemples dapprentissage pour
chaque personne. Dans le cas extrme, si seulement un exemple dapprentissage par
personne est utilis, le taux d'identification moyen de l'eigenface tombe en dessous de
65 %. Ce taux atteint 95 % quand on utilise neuf exemples dapprentissage par personne.
Pendant la dernire dcennie, plusieurs chercheurs ont dvelopp diverses extensions de la
mthode eigenface , comme leigenface probabiliste [Mog97], les mthodes bases sur
lAnalyse Discriminante Linaire (ADL) [Bel97, Zha99, Lu03], la Machine Vecteur
Support (SVM) [Phi98], la mthode de la ligne caractristique [Li99], et Laplacianfaces
[He05]. Ces approches possdent des performances suprieures celles qui sont donnes
par la mthode eigenface basique. Cependant, ceci nest plus vrai si un seul exemple
dapprentissage par personne est disponible, en raison du fait que la plupart de ces
techniques vont, soit se rduire lapproche eigenface basique, ou bien ne fonctionnent
plus. Ces mthodes peuvent tre rsumes comme suit [Tan06] :
40
Chapitre 2
! les mthodes bases sur lAnalyse Discriminante Linaire (ADL) dterminent les
directions de projection les plus discriminantes dans leigenspace. Pour cela, elles
maximisent les variations inter-personne par rapport aux variations intra-personne.
Cependant, si un seul exemple dapprentissage par personne est utilis, c'est--dire
si les variations intra classes nulles, alors les performances de lADL deviennent
faibles par rapport celles qui sont donnes par leigenface [Mar01]. Afin de
remdier ce problme, Zhao et al. [Zha99] ont propos de remplacer la matrice de
dispersion intra-personne par une matrice constante. Ainsi, la mthode base ADL
se rduit alors la mthode eigenface.
! Lapproche Probabiliste [Mog97] transforme le problme d'identification de visage
nombre dexemples dapprentissage par personne. Dans le cas d'un exemple par
personne, ces mthodes se ramnent encore la mthode eigenface .
! Les mthodes SVM [Phi98] et ligne de caractristiques [Li99] sont des mthodes
41
Chapitre 2
HI ( x ) # " I ! x , y $
(2.13)
y #1
m
VI ( y ) # " I !x, y $
(2.14)
x #1
Les deux projections refltent la distribution des caractristiques faciales saillantes utiles pour
l'identification de visage. Elles permettent de gnrer une carte de projection (figure 2.3b).
Limage obtenue partir de ces projections est ensuite combine avec limage originale pour
gnrer une image plus riche en information (figure 2.3c). Cette dernire est dfinie par :
M p ( x, y ) # HI (x)VI (y)/J
(2.15)
Figure 2. 5. (a) image originale (b) carte de projection ; (c) image combine.
42
Chapitre 2
La figure 2.4 montre un exemple dimages corrompues gnres partir dune image
originale en variant les valeurs des paramtres de bruit. Les auteurs ont utilis 137 images
de visage de cartes d'identit ayant une rsolution de 300 dpi pour valuer leur mthode.
Les rsultats exprimentaux montrent que le taux d'erreur est seulement de 1.32 %,
indiquant que la mthode peut significativement amliorer la similitude entre les images
dgrades et les images d'apprentissage.
43
Chapitre 2
L'approche fisherface [Bel97] est une extension de la mthode eigenface. Son but est de
trouver un sous-espace plus discriminant dans l'eigenspace pour la reconnaissance de
visages. Cependant, lapproche fisherface ne marche pas lorsquun seul exemple est utilis
pour lapprentissage, car dans ce cas aussi la dispersion intra-classes est nulle.
Afin de rsoudre ce problme, Wang et al. [Wan05] ont propos une mthode qui calcule
la dispersion intra-classes partir de plusieurs sujets diffrents. Les auteurs justifient leur
choix par le fait que l'tre humain prsente une dispersion intra-classes semblable. Un
ensemble gnrique dimages dapprentissage, avec des exemples multiples par personne,
est collect. Il est utilis pour calculer la dispersion intra-personne. Une mthode
semblable celle de Fischer est ensuite implmente, elle permet de dterminer les
vecteurs propres les plus discriminants pour l'identification. Cette mthode a t value
sur un sous-ensemble de la base de donnes FERET avec 256 sujets. Une marge de
performance suprieure de 10 % sur la mthode eigenface traditionnelle a t obtenue.
En utilisant lAnalyse en Composantes Principales Bidimensionnelles [Yan04], Visani et
Garcia [Vis05] ont propos une nouvelle mthode base sur lalgorithme ADL Bilinaire.
Ils ont test leur technique sur la base Asian Face Image Database PF01, qui contient des
prises de vues de 75 personnes dont aucune ne porte de lunettes, avec des conditions
dillumination neutres. Les images sont normalises. La base dapprentissage contient
quatre vues par personne pour 60 des 75 personnes de la base, avec une expression faciale
neutre et une pose frontale. Le taux de reconnaissance rapport par les auteurs est suprieur
celui de leigenface, de fisherface, et de lACP2D.
2.3.1.3 Discussion
Bien que les mthodes holistiques aient eu beaucoup de succs, leur inconvnient majeur
rside dans le fait quelles utilisent uniquement des photos 2D dapparence faciale. Or, on
sait qu'une telle reprsentation est sensible aux changements d'expression, d'illumination et
de poses. Une manire dviter ce problme consiste utiliser des reprsentations faciales
locales. En effet, les caractristiques locales ne sont gnralement pas aussi sensibles aux
changements dapparence que les caractristiques globales.
44
Chapitre 2
Elles sont bases sur lextraction de la position relative des lments qui constituent le
visage (tel que le nez, la bouche et les yeux). La plupart des approches gomtriques
utilisent des points d'intrt (comme les coins de la bouche et des yeux). Au dbut des
annes 1990, Brunelli et Poggio [Bru93] ont dcrit un systme de reconnaissance faciale
qui extrait automatiquement 35 caractristiques gomtriques du visage. La similitude est
calcule laide de classifieurs de Bayes. Un taux d'identification de 90 % sur une base de
donnes de 47 sujets a t rapport par les auteurs. Le cot de stockage des techniques
gomtriques est trs bas compar celui des autres techniques. Toutefois, les approches
purement gomtriques prsentent quelques inconvnients, notamment :
! les caractristiques gomtriques sont gnralement difficiles extraire, surtout
tandis que d'autres informations utiles comme les niveaux de gris de l'image ne sont
pas du tout exploites.
45
Chapitre 2
Plutt que dutiliser des mthodes purement gomtriques, certains chercheurs ont choisi
de reprsenter les caractristiques locales du visage sous forme de graphes. Manjunath et
al. [Man92] ont propos une mthode de dtection de caractristiques locales du visage,
base sur la dcomposition en ondelettes de Gabor [Lee96]. La reconnaissance de visages
est alors formule comme un problme de mise en correspondance de graphes. L'efficacit
de cette mthode a t valide sur un ensemble de donnes de visage de 86 sujets,
contenant des variations d'expression et de pose, Un taux de reconnaissance de 90% en
moyenne a t rapporte dmontrant la robustesse de cette approche.
Cependant, une fois construit, le graphe topologique ne peut pas tre modifi. Or, les
images de visage changent facilement dapparence en raison des diffrentes variations
(illumination, expression, pose, etc.), et du coup un schma de graphe topologique fixe
n'est plus adquat.
Elastic Graph Matching
En se basant sur cette observation, Lades et al. [Lad93] ont propos un graphe topologique
lastique connu sous le nom de Elastic Graph Matching. Les auteurs utilisent pour cela
une grille rgulire, place sur les images de visages. Les caractristiques extraites sont des
coefficients de Gabor. Les noeuds de la grille sont lis lastiquement. L'lasticit permet
d'accommoder des distorsions d'objet et des changements de point de vue. La mise en
correspondance est excute en deux tapes. Ce systme peut sadapter aux changements
modrs de taille et dorientation du visage.
Elastic Buch Graph Matching
46
Chapitre 2
47
Chapitre 2
Dans [Pen94], Pentland et al. ont introduit lapproche des Modular Eigenspase . Les
rgions faciales utilises sont : la totalit du visage, les yeux et le nez. Une ACP est
applique sur chacune de ces rgions et les rsultats de classifications obtenus sont
agrgs. La bouche tant trop sensible des changements dexpression faciale, sa prise en
compte engendre une baisse du taux de reconnaissance. Cette approche peut tre qualifie
dhybride, puisquelle utilise la fois des caractristiques globales et locales. Les auteurs
ont montr quelle est plus efficace que les techniques globales ou strictement locales
appliques sparment.
Comme expliqu ci-dessus, les mthodes bases ADL chouent si un seul chantillon par
classe est utilis. Chen et al. [Che04] ont propos dappliquer la mthode ADL sur un
exemple de petite taille. Ils ont partitionn chaque image de visage en un ensemble
dimagettes de mme dimension (figure 2.5).
48
Chapitre 2
Pour chaque classe, des chantillons composs de toutes les imagettes partitionnes sont
produits pour lapprentissage. Enfin, la mthode ADLF (Analyse Discriminante Linaire
Fisher) est applique au chantillons nouvellement produits. Cette mthode a t value
sur un sous-ensemble de donnes FERET contenant 200 personnes avec une image
d'apprentissage par personne : un taux d'identification de 86.5 % a t atteint.
Dans [Pri05], Price et Gee ont introduit une technique modulaire base sur une variante de
lADL. Les rgions slectionnes sont : la rgion faciale dans son ensemble, une bande
faciale (de mme largeur que la rgion faciale) stalant du front jusquau-dessous du nez,
et une bande faciale contenant les yeux. Les rsultats exprimentaux montrent que cette
approche est plus performante que les techniques des eigenfaces et des fisherfaces, elle est
notamment robuste aux changements dans les conditions dillumination du visage,
dexpression faciale et doccultation.
2.3.2.2.2 Les approches probabilistes Locales modulaires
49
Chapitre 2
Une approche probabiliste plutt qu'une approche de vote est utilise pour mesurer la
similitude dun appariement donn. Les tests sur un jeu de 2600 images ont montr que
l'approche probabiliste locale ne rduit pas la prcision mme pour 16 des visages
partiellement occults. Cependant, le mlange de Gaussiennes utilis dans cette mthode
est de nature paramtrique, il dpend de lhypothse que la distribution puisse tre
fidlement reprsente avec les exemples donns.
Bien quun certain nombre dexemples soit synthtiquement produit comme dcrit cidessus, les cots de calcul et de stockage avec la procdure de production des exemples
virtuels peuvent tre trs levs (par exemple 6615 exemples par individu dans [Mar02])
quand la base de donnes de visage est trs grande.
Tan et al. [Tan05] ont tendu l'approche probabiliste locale en proposant une mthode
alternative pour reprsenter le sous-espace de visages en utilisant la carte SOM (SelfOrganizing Map) [Koh97]). Plus spcifiquement, chaque image I de visage est d'abord
divise en M diffrents sous blocs locaux Ri
M
i #1
utilisant tous les sous-blocs obtenus partir de toutes les images d'apprentissage
disponibles, sans tenir compte des classes. Chaque sous-bloc Ri de la mme image I de
visage est ensuite mapp avec les units qui correspondent le mieux (BMU : best matching
units) selon la stratgie suivante : le plus proche voisin, dans la SOM 2D de lespace
topologique, est dfini comme un vecteur de position li = {xi, yi}. Tous les vecteurs de
position du mme visage sont groups en un ensemble, c'est--dire I # &l i %i #1 # &xi , y i %i #1 ,
M
(a)
(b)
(c)
Figure 2.8. Exemple : (a) une image du visage originale, (b) sa projection (SOM-Face) et (c) image
reconstruite [Tan05].
50
Chapitre 2
Les mthodes mentionnes ci-dessus ne considrent pas explicitement le rapport entre les
caractristiques locales. Une autre faon intressante d'incorporer des informations
globales est la mthode base sur les Modles de Markov Cach (MMC). Plutt que de
traiter limage de visage comme un graphe topologique statique o les caractristiques
locales reprsentent les nuds, la mthode base sur les MMC caractrise le modle de
visage comme un processus alatoire dynamique avec un ensemble de paramtres.
Samaria et al. [Sam93] ont illustr l'utilit des techniques MMC dans l'identification de
visages. Dans leur mthode, un modle de visage est divis en cinq rgions qui se
chevauchent, incluant le front, les yeux, le nez, la bouche et le menton. La technique MMC
est introduite en considrant chaque rgion comme un tat cach d'un modle MMC. Un
modle de visage est alors considr comme une squence d'observation constitue de cinq
tats, dont chacun peut tre modlis par une distribution gaussienne multi-variables, et les
transitions probabilistes entre les tats peuvent tre apprises partir des frontires entre les
rgions. Aprs que le MMC soit entran, un visage peut tre reconnu en calculant la
probabilit de sortie de son ordre d'observation. Linconvnient de cette mthode est
quelle est trop exigeante en termes dchantillons dapprentissage afin dassurer la
fiabilit de lestimation des paramtres.
Le et al. [Le04] ont prsent une mthode pour rendre la technique MMC applicable dans
le cas dun exemple dapprentissage. Deux facteurs ont contribu la faisabilit et
l'efficacit de leur mthode. D'abord, ils ont produit une grande collection de vecteurs
d'observation de chaque image, dans les deux directions verticale et horizontale,
agrandissant ainsi lensemble dapprentissage. Deuximement, l'Ondelette de Haar a t
applique l'image pour diminuer la dimension des vecteurs d'observation et amliorer la
robustesse. Leurs rsultats exprimentaux valus sur la base de donnes de visage frontal
51
Chapitre 2
.AR. montrent que la mthode propose surpasse les approches PCA, LDA et l'analyse de
caractristiques locales (LFA local feature analysis [Pen96]).
2.3.2.3 Discussion
Nous avons pass en revue les mthodes locales traitant le problme de la reconnaissance
de visages dans le cas dun seul exemple dapprentissage. Nous les avons classifi en deux
catgories principales : les mthodes base de caractristiques et les mthodes bases sur
lapparence locale. En ralit, ces deux catgories ne sont pas si diffrentes car les rgions
locales sont constitues dun ensemble de pixels parmi lesquels des points caractristiques
intressants peuvent tre dtects.
Bien que les mthodes locales aient prouv leur efficacit dans le cas dun seul exemple
dapprentissage, plusieurs problmes restent toujours non rsolus, comme par exemple le
choix des caractristiques locales qui nest pas du tout vident. De plus, les mthodes
locales sont robustes uniquement vis--vis dun nombre restreint de facteurs de variations.
Ainsi, la mthode EGBM est robuste certains changements d'expression, d'illumination et
de pose, mais pas aux occultations ; en revanche la mthode probabiliste locale et la
mthode SOM-Face sont robustes aux variations d'expression et aux occultations, mais pas
vis--vis des changements de pose. Une voie possible pour amliorer la robustesse d'un
systme de reconnaissance de visages peut rsider dans les mthodes hybrides qui
combinent diffrentes techniques de reconnaissance.
52
Chapitre 2
Facteurs de variations
Illuminations [Hal99]
Trs sensible
Sensible
Expressions [Mar02][Tan05]
Pas sensible
Sensible
Pose [Hei01]
Sensible
Trs sensible
Bruit [Cos02]
Trs sensible
Sensible
Occlusion [Mar02][Tan05]
Pas sensible
Trs sensible
Tableau 2. 3. Comparaison des mthodes bases sur les caractristiques locales ou globales.
Nous pouvons voir que les caractristiques locales et globales ragissant diffremment
sensibles aux facteurs de variation. Par exemple, les changements d'illumination peuvent
avoir plus d'influence sur les caractristiques locales, tandis que les changements
d'expression ont plus d'impact sur les caractristiques holistiques. Ainsi, les mthodes
hybrides peuvent constituer une approche efficace pour rduire la complexit des
classifieurs et amliorer leur capacit de gnralisation. Malgr ces avantages, les travaux
de recherche dans ce domaine restent relativement peu nombreux, probablement en raison
des difficults mentionnes ci-dessus, tandis que les mthodes hybrides classiques (c'est-dire qui utilisent plusieurs exemples dapprentissage par personne), comme les modles
d'apparence flexibles [Lan95] ou le LFA hybride [Pen96], ne sont pas gnralement
appropries pour traiter le cas dun seul exemple dapprentissage.
53
Chapitre 2
Reprsentation
shape-free
Paramtre de
texture
Classification
Image
Ajustement du
originale. modle de forme
Forme du
visage
Paramtre de
forme
Figure 2. 9. Processus de reconnaissance de visages bas sur les Modles Actifs dApparence
[Lan95].
Chaque exemple est reprsent par un vecteur de forme x contenant les caractristiques du
visage. partir des vecteurs de forme de la base dapprentissage, une ACP est applique
afin dextraire les modes de variations principaux du vecteur de forme x, qui peuvent
ensuite tre estim par le vecteur x , tel que :
x # x - Pf b f
(2.16)
g # g - Pg bg
(1.17)
O bg est le vecteur de paramtres de texture associ au visage. Chaque image est donc
caractrise par ses vecteurs bf et bg, qui sont corrls. Afin de les dcolrer, on concatne
les vecteurs obtenus. On obtient alors le modle combin suivant :
x # x - Qf c
(2.18)
g # g - Qg c
(2.19)
54
Chapitre 2
Base de
donnes
FERET
AR
FERET
FERET
AR
AR
Nbr
personnes
200
100
256
200
200
100
Nbr
images
200
600
914
200
200
400
83.5
74.8
72
86.5
82.3
71
N/A
Expression
Expression
Expression
AR
AR
AR
100
100
120
600
400
1440
93.7
76
89.8
Expression
Occlusion
Expression,
Illumination
FERET
1196
1196
95%
Expression,
Illumination
EBGM [Wis97]
RR (%)
Variations
Occlusion
Tableau 2. 4. Comparaison des performances des mthodes utilisant un seule exemple pour
lapprentissage
55
Chapitre 2
Figure 2. 10. (a) Image texture (b) Image 2.5D (c) Image 3D
56
Chapitre 2
permet d'illuminer les objets de la scne d'une manire particulire en projetant sur
leur surface des motifs structurs (un spot, un plan lumineux, une grille, etc.), ceci
permet den extraire des informations 3D indpendamment des conditions propres
d'clairage de la scne. Ainsi, l'objectif de la vision active est de rduire la
complexit des traitements effectuer pour reconstruire la scne. En effet, les
motifs projets sur la scne sont facilement identifiables [Hu89] linverse des
primitives naturelles tel que les contours. Le scanner 3D, par exemple, est un
systme de vision active en lumire structure qui est capable de scanner les formes
3D via un laser et les textures (couleur de la peau) via une camra simultanment.
! En Vision passive, la vision binoculaire ou vision stroscopique (utilisation de
57
Chapitre 2
2.4.3 Approches 3D
Elles sont subdivises en deux catgories : les approches bases surface qui utilisent la
gomtrie de la surface du visage et les approches holistiques 3D.
sens des moindres carrs, surtout si l'on travaille avec des points. Si l'on possde
une information d'incertitude, on peut l'utiliser dans les tapes terminales pour
affiner la solution.
Une approche base sur l'algorithme ICP est donne par Cook et al [Coo04]. Ils utilisent
l'algorithme ICP pour tablir la correspondance entre les surfaces 3D afin de compenser
des erreurs dues la nature non rigide des visages. En effet, les visages sont compars en
employant un modle statistique, en loccurrence un Mlange de Modles Gaussiens
(MMG). La distribution des erreurs est alors paramtre. Les auteurs ont ralis des
expriences sur la base de donnes 3D RMA [Beu00], une base cre au sein du Signal and
58
Chapitre 2
de 120 individus, captures en deux sessions, sous formes de points 3D non maills. Un
taux d'identification de 97.33% a t obtenu. Irfanoglu et al. [Irf04] proposent une autre
approche qui utilise lalgorithme ICP pour mettre en correspondance les points
caractristiques de visages. Ils ont dvelopp une mthode pour obtenir un appariement
dense de points du maillage contenant les points prsents sur tous les visages, de sorte que
l'alignement de visage soit trivialement obtenu. Une fois que lappariement dense est
tabli, la distance PSD Point Set Distance, qui reprsente une approximation discrte du
volume entre les surfaces faciales, est employe pour calculer la distance entre deux
nuages diffrents de points. Dans leur exprimentation, les auteurs ont test l'algorithme
sur la base de donnes 3D RMA, ils ont relev un taux d'identification de 96,66%.
Quoique l'ICP soit un outil puissant pour valuer la similitude entre deux visages, les
mthodes bases ICP ne sont pas capables de traiter le problme de changement
d'expression, car elles considrent le visage 3D comme un objet rigide, ce qui nest pas le
cas dans la ralit. Pour rsoudre ce problme, plusieurs approches ont t dveloppes.
Moreno et al. [Mor03] proposent de segmenter le visage en plusieurs rgions en utilisant la
courbure gaussienne. Ainsi, chaque modle facial 3D est subdivis en 86 rgions
diffrentes grce un algorithme de segmentation qui exploite les signes de la mdiane et
des courbures gaussiennes pour isoler les rgions ayant des courbures significatives. Cet
espace de caractristiques est ensuite rduit pour augmenter l'efficacit de la mthode.
Enfin, un vecteur de caractristiques est cr pour chaque sujet. Les exprimentations ont
t menes sur un ensemble de 420 modles 3D de visages appartenant 60 sujets,
comprenant des images avec des variations de lumire, de rotation et d'expressions de
visages. Les auteurs ont obtenu un taux de reconnaissance de 78 %.
Le processus de segmentation peut aussi tre utilis pour traiter la reconnaissance de
visage comme un problme de reconnaissance d'objets non rigides, et ainsi amliorer la
robustesse de la reconnaissance face aux variations d'expressions. Chua et al. [Chu00] ont
remarqu que des rgions du visage, comme le nez, l'orbite de lil et le front subissent
beaucoup moins les dformations en cas de changements d'expressions. Ils identifient les
rgions faciales "rigides" en utilisant une comparaison "deux par deux" entre les signatures
de points [Chu97] pour diffrentes expressions de visage de la mme personne. Ainsi,
seulement les parties rigides sont stockes dans une base de donnes indexe. Les modles
de la base sont classs en fonction de leur similitude. Leur exprimentation a montr un
59
Chapitre 2
60
Chapitre 2
telles que l Elastic Bunch Graph Matching (EBGM) [Wis97] et lanalyse locale de
caractristiques, connaissent un grand succs auprs des fournisseurs de donnes
(Recognition Vendors Test 2002 [Phi03]).Par ailleurs, les combinaisons des techniques de
reconnaissance 2D et 3D sont de plus en plus tudies. Ainsi la combinaison des approches
EBGM 2D et EBGM 3D (qui correspond une extension de la mthode EBGM 2D aux
images de profondeur de visage) a donne lieu une technique d'identification du visage
2D+3D trs efficace value sur la base FRGC [Hus05]. Cependant, lvaluation de cette
approche hybride a dmontr que les performances du EBGM 2D surpassent de manire
significative celles du EBGM 3D. Elle a aussi mis en avant le besoin de comprendre et
dutiliser les proprits discriminantes des caractristiques locales du visage afin de
concevoir des techniques efficaces de reconnaissance 3D de visage.
Dans [Lee05] les auteurs proposent un systme de reconnaissance de visage 3D utilisant
deux dispositifs diffrents dacquisition de donnes 3D : un scanner laser 3D et une
lumire structure. A partir des mesures 3D, huit points caractristiques du visage
(gomtriquement invariables) sont extraits puis utiliss pour calculer un vecteur
caractristique comprenant les distances et les angles entre ces points. Pour la phase de
reconnaissance, les auteurs ont implment deux algorithmes diffrents : le premier bas
profondeur (depth-based DP) et le second utilise les SVM (feature-based SVM). Les
rsultats exprimentaux (sur une base de 20 personnes) ont donn un taux de
reconnaissance de 95% pour la DP et de 96% pour la SVM.
61
Chapitre 2
construire une signature pour les surfaces isomtriques. Cette mthode est dsigne sous le
nom des formes canoniques bending-invariables . Elle calcule des distances
godsiques entre les points prlevs sur la surface faciale. En plus de limage 2D de
texture, les auteurs ont utilis une lumire structure pour acqurir des images de
profondeur (gomtrie) des visages. Limage est convertie en une surface triangule
(maillage triangulaire) puis lisse en utilisant les splines. La taille de la surface est ensuite
rduite approximativement 2000-2500 sommets. Enfin, la forme canonique bendinginvariable du visage est calcule puis aligne en utilisant la mthode dcrite dans [Bro03].
Les auteurs appliquent la technique eigenforms sur les vecteurs canoniques pour la
reconnaissance de visage. Cette mthode a t test sur une base de donnes contenant 220
images de 30 personnes (27 vraies personnes et 3 mannequins) ; un taux d'identification de
100 % est rapport.
Chang et al. [Cha03] ont men une tude exprimentale pousse qui leur a permis de
comparer et de combiner des donnes 2D et 3D pour la reconnaissance faciale. Un total de
275 sujets a t sollicit pour l'acquisition des visages. Les sujets ont t scanns l'aide
d'un scanner laser "Minolta Vivid 900" qui permet d'obtenir des images d'intensit 2D et de
profondeur 3D. Il est clair que durant le processus de dcision, certaines mtriques sont
plus ou moins appropries une modalit donne. Dans leur exprimentation, les auteurs
ont utilis la distance de Mahalanobis pour raliser la mise en correspondance (matching).
La mtrique utilise pour la fusion de donnes combine les distances dappariements
trouves sparment dans chaque espace. Il existe plusieurs mthodes pour combiner des
mtriques diffrentes afin d'obtenir la meilleure rgle de dcision, telle que la somme, la
multiplication, le minimum, la moyenne, etc.
La dcision multi-modale dveloppe par les auteurs peut tre rsume comme suit : dans
un premier temps, les images d'entre 2D (2D probe) et 3D sont apparies avec les images
des galeries 2D et 3D respectivement. Ceci permet d'obtenir deux ensembles de N
distances dans deux espaces diffrents, l'espace facial 2D et l'espace facial 3D. N est la
taille de la galerie d'images. Les distances 2D et 3D sont additionnes, et limage qui
donne la plus petite somme est slectionne. Plusieurs tests ont t mens pour valuer
cette mthode. Une premire exprimentation utilise des images anciennes des diffrents
sujets. Une autre exprience emploie un ensemble plus grand constitu de 676 images de
test prises lors de diffrentes sessions dacquisition espaces dans le temps. Le taux
62
Chapitre 2
didentification obtenu pour les deux expriences est approximativement gal : 99% pour
lapproche multi-modale 3D + 2D, 94% pour lapproche 3D seule, et 89% pour lapproche
2D seule. Le rsultat de lapproche multi-modale est obtenu en utilisant une somme
pondre des distances dans les espaces de visage 3D et 2D. Cette tude a dmontr, grce
l'utilisation de l'ACP sur les images 2D et 3D, que les donnes faciales 3D fournissent
des performances biomtriques bien meilleures que les donnes faciales 2D. Par ailleurs,
les auteurs ont dmontr aussi que la combinaison des donnes faciales 2D et 3D permet
d'augmenter d'une manire significative les performances de la reconnaissance.
Dans [Wan02] les auteurs ont dvelopp une approche 2D+3D combinant deux mthodes
de localisation. Une mthode qui utilise un filtre de Gabor [Wis97] pour localiser les points
dintrt 2D, et une deuxime mthode qui utilise lalgorithme de [Chu97] pour extraire les
points de signature 3D (voir figure 2.9).
Figure 2. 11. Choix de dix points : points 2D marqus par le " " et points 3D marqus par ""
[Wan02].
Les points 3D et les points de texture 2D ainsi obtenus sont projets chacun dans leur
propre sous-espace, en utilisant lACP, pour gnrer respectivement des vecteurs de forme
et de texture. Ces vecteurs sont regroups en un seul vecteur qui est normalis afin de
reprsenter limage faciale. Le processus didentification est bas sur une fonction de
similitude utilisant la mthode SVM. Les exprimentations, faisant participer 50 personnes
ayant des expressions faciales diffrentes pour des points de vue diffrents, ont dmontr
lefficacit de lalgorithme. Un taux reconnaissance de 90 % a t obtenu.
2.4.5 Conclusion
Dans ce chapitre, nous avons pass en revue les principales techniques de dtection et de
reconnaissance de visages. Le problme nest pas du mme niveau de complexit selon que
lon cherche dtecter un visage dans une image qui en contient un seul de taille peu
prs connue, ou que lon se place dans loptique dune dtection de multiples visages de
63
Chapitre 2
tailles variables. Dans le cadre de ce travail nous nous limiterons la dtection dun visage
unique dans une image, contexte du projet IV et les conclusions que nous exposons se
situent dans cette optique. Parmi les diffrentes caractristiques invariantes du visage
utilises pour la dtection, la couleur de la peau parat parmi les plus prometteuses. En
effet, les mthodes bases sur la couleur de la peau sont robustes aux occultations ainsi
quaux variations de la pose, de lchelle, et de lexpression. Ces mthodes restent
cependant peu robustes au changement dclairage. Toutefois, comme il est mentionn
dans [Kak06], des techniques comme le classifieur de Bayes ou bien les rseaux de
neurones peuvent conduire des performances satisfaisantes lorsquelles sont appliques
sur des bases de donnes de petites tailles. Nous avons montr que des approches qui
utilisent des prtraitements pralables, comme par exemples la correction de couleur
color constanty , permettent damliorer les performances de la dtection et constituent
une solution intressante au problme de lillumination. Dans le cadre de cette thse, nous
proposons une approche de dtection de visage base sur une segmentation couleur
adaptative qui traite le problme de lillumination.
Par ailleurs, nous avons classifi les techniques de reconnaissance 2D de visages en trois
grandes catgories : les approches globales, les approches locales et les approches
hybrides. Nous avons soulign que lACP permet de raliser un processus de
reconnaissance mme si lon ne possde quune seule image dune personne, ce qui nest
pas possible avec des mthodes telles que lanalyse discriminante linaire ou les Support
Vector Machine . Toutefois, nous avons soulev la difficult de lACP, et de ses
diffrentes extensions, grer les occultations et les variations de poses, dillumination et
dexpressions. Les approches locales ont prouv leur efficacit dans le cas dun seul
exemple dapprentissage, mais elles souffrent dun manque de robustesse (la mthode
EGBM, par exemple, nest pas robuste face aux occultations). Enfin, les approches
hybrides semblent intressantes pour rsoudre le problme de la robustesse, cependant
elles ne sont pas appropries pour linstant pour traiter le cas dun seul exemple
dapprentissage (tel que les modles d'apparence flexibles [Lan95] ou le LFA hybride
[Pen96]).
La reconnaissance 3D de visages constitue une alternative prometteuse pour rsoudre les
problmes de robustesse que connat la reconnaissance 2D. Cependant, elle na pas encore
atteint une certaine maturit, cause notamment de la lourdeur du processus dacquisition,
64
Chapitre 2
implmentation de lalgorithme de Ligne de Partage des Eaux sur des images couleur.
Dans le chapitre 5, nous mettons en avant lintrt de lACP modulaire sur les images 2D,
puis nous proposons une mthode de vrification didentit partir de donnes 3D, enfin
nous explorerons les possibilits de combinaison de ces deux types dinformation. Mais
avant nous allons prsenter les donnes utilises pour nos valuations. Cest ce qui fera
lobjet du chapitre 3.
65
Chapitre 3
Chapitre 3
Bases de donnes utilises
3.1 Gnralit sur les bases de donnes existantes
Plusieurs bases de donnes contenant des informations qui permettent lvaluation des
systmes de reconnaissance de visages sont disponibles sur le march. Toutefois, ces bases de
donnes sont gnralement adaptes aux besoins de quelques algorithmes spcifiques de
reconnaissance. Le tableau (3.1) rcapitule les principales caractristiques de ces bases [Li05].
Il rsume, pour chacune delle, les conditions dacquisition des images de visages
(changements dillumination, de pose, dexpression faciale), la disponibilit ou non des
donnes 3D et aussi nombre de sessions dacquisition. Par ailleurs, plusieurs protocoles
exprimentaux ont t labors afin dvaluer le nombre important dalgorithmes de
reconnaissance proposs ces dernires annes. Des efforts particuliers de standardisation ont
t aussi dploys pour dfinir des protocoles dvaluation standardiss. Ainsi, la srie
dvaluations FERET [Phi89b] menes par le National Institue of Standards and
Technologie (NIST) a permis la comparaison entre neuf systmes de reconnaissance de
visages proposs par des institutions et des entreprises dans le contexte de lidentification et de
la vrification. Dautres valuations ont t effectues par la suite, notamment celles du Face
Recognition Vendor Test (FRVT) [Phi03].
66
Chapitre 3
Base
de Nombre de Pose
Illumination
Facial
Temps
Expression
Donnes
donnes
personnes
3D
AR
116
non
BANCA
208
++
12
non
CAS-PEAL
66-1040
21
9-15
non
CMU Hyper
54
1-5
non
CMU PIE
68
13
43
non
Equinox IR
91
non
FERET
1199
9-20
non
Havard RL
10
77-84
non
KFDB
1000
16
non
MIT
15
non
MPI
200
oui
NDHID
300
10/13
oui
NIST MID
1573
--
non
ORL
10
--
--
--
non
UMIST
20
--
--
non
U.Texas
284
--
--
non
U.Oulu
125
16
non
XM2VTS
295
--
--
oui
Yale
15
non
Yale B
10
64
non
Tableau 3.1. Principales caractristiques des bases de visages. Le tableau contient le nombre de
personnes enregistr, le nombre de vues sous des poses et conditions dillumination diffrentes, ainsi
que le nombre de sessions au cours desquelles des vues dune mme personne ont pu tre collectes.
Les cas o lun des lments na pas t mesur, ou tait non contrl durant la prise de vue, est not
"--".
67
Chapitre 3
68
Chapitre 3
utilis pour calculer les scores des clients et des imposteurs. En fonction de ces scores, un seuil
est choisi afin de dterminer si une personne est accepte ou non. D'aprs le protocole de
Lausanne le seuil est choisi telle manire ce que lensemble de test satisfasse certains
niveaux de performances. Finalement l'ensemble test est slectionn pour simuler un scnario
dauthentification rel o l'identit de limposteur est inconnue au systme. Enfin, l'ensemble
valuation est aussi utilis pour les expriences de fusion pour lapprentissage.
Nous avons utilise la base XM2VTS pour valuer notre approche dextraction du visage et
de ses caractristiques.
69
Chapitre 3
70
Chapitre 3
cabine. Lobjectif tant de susciter des variations dexpressions (face souriante, face
exprimant la surprise, face exprimant le dgot) chez le volontaire.
Iris
2 sessions par personne pour chacun des yeux gauche et droit.
! La premire session comprendra 10 images qualifies de chaque oeil prises sans
lunettes si le donateur porte des lunettes.
! La deuxime session sera prise avec lunettes, pour les donateurs en portant, et sans
lunettes pour les autres, dans des conditions identiques la premire session.
Le tableau 3.1 donne quelques points de comparaison entre la base de donnes FRGC et celle
dveloppe dans le cadre du projet IV2. Cette comparaison porte sur les aspects 3D. On peut
constater au vu de ce tableau quune plus grande variabilit de donnes est propose par la
base IV. De plus, dans la mesure o nous souhaitons utiliser la complmentarit des
informations 2D et 3D, il nous faut imprativement disposer de paires dimages acquises par
un capteur stro. Ainsi, partir des deux camras nous pouvons avoir une information 2D
(avec possibilit de redondance par utilisation des images gauches et droites) et en utilisant les
deux images simultanment ainsi que les donnes de calibration nous pouvons remonter
linformation 3D pour tout ou partie de limage.
Comparaison des donnes 3D
3D complet
Multi-vues (poses)
Illumination
Expressions
2D et 3D
Image Stro
Taille
Matriel (scanner 3D Minolta)
FRGC V1
non disponible
(1 pose frontale)
contrle
2 expressions
disponibles
non disponible
4000 scans
VI-910 (640480)
IV2
disponible
( 3 poses)
contrle/incontrle
5 expressions
disponibles
disponible
5000 scans
VI-300 (400400)
71
Chapitre 3
72
Chapitre 3
3.3.3 Protocoles
3.3.3.1 Comparaisons
Pour raliser les comparaisons, il a t dcid de procder plutt par liste de comparaisons
deux deux effectuer entre signatures. Ainsi, le logiciel de gnration de la liste de
comparaisons effectue un tirage alatoire qui garantit un nombre de comparaisons inter et
intra-classes identiques. 500 comparaisons dont 250 intra-classes ont t effectues.
Le nombre de comparaisons sera choisi en fonction du score attendu : pour avoir un test
statistiquement significatif, il faut que le nombre d'erreurs constates soit au moins d'une
dizaine. Ainsi, pour valuer un EER de 0.05, il faut au moins 200 comparaisons intra-classe
(et autant de comparaisons inter-classes).
3.3.3.2 Mtriques de performances
Pour les tests de performance nous avons utilis les notions suivantes :
Score : rsultat du calcul de comparaison entre deux signatures biomtriques.
Similarit : score normalis entre 0 et 1, reprsentant le degr de ressemblance entre deux
chantillons biomtriques.
73
Chapitre 3
s # min( S )
max( S ) # min( S )
(3.1)
3.3.4 Conclusion
Dans ce chapitre, nous avons donn un aperu global sur les bases de donnes existantes dans
le domaine de la biomtrie. Nous avons dtaill particulirement les bases de donnes
XM2VTS et IV2, qui seront utilises pour valuer lefficacit des algorithmes dvelopps dans
les chapitres suivants.
74
Chapitre 4
Chapitre 4
Extraction de visage et de ses
caractristiques
4.1 Introduction
Les performances des systmes de reconnaissance de visage dpendent en grande partie de
lefficacit de la mthode de dtection de visages utilise. Dans le chapitre 2, nous avons
mis en vidence lintrt dune approche base sur lanalyse de la couleur de la peau pour
lextraction de visages, bien que les mthodes permettant de le faire soient en gnral peu
robustes aux variations dclairage comme nous lavons signal. Dautre part, le choix d'un
espace optimal de reprsentation pour classifier les couleurs d'une image n'est pas vident.
Parmi tous les espaces de couleur tests ces dix dernires annes [Xu06], aucun
nmerge spcialement. Il semble donc intressant d'tudier une approche diffrente. Dans
ce chapitre, nous allons prsenter une approche originale dextraction dun visage et de ses
caractristiques (yeux, nez, bouche) dans une image contenant un visage sur un fond
uniforme. Cette approche est base sur la segmentation de limage en rgion et sur
lanalyse de la couleur. Lalgorithme de segmentation que nous avons dvelopp possde
les atouts suivants :
! Il permet dobtenir de grandes rgions de couleurs homognes qui correspondent
aux diffrentes rgions du visage.
75
Chapitre 4
! Il est robuste aux variations dillumination, grce notre choix dutiliser lespace
couleur TLS, ainsi que des outils comme le gradient TLS.
! Il permet de classifier les pixels dimages en deux catgories : ceux ayant la couleur
de la peau et les pixels ayant une couleur diffrentes. La discrimination entre ces
deux catgories est rendue possible grce une segmentation morphologique de
limage couleur.
La robustesse de la dtection de visage face aux variations de luminosit, de poses et
dexpressions (surtout pour les caractristiques du visage face aux expressions). Ncessit
dune bonne prcision de la dtection pour aborder la phase dauthentification dans les
meilleures conditions.
Dans ce qui suit, nous dcrivons notre approche pour segmenter une image couleur en
rgions et extraire les principaux lments du visage. Cette approche est illustre par de
nombreux exemples.
76
Chapitre 4
la peau occupe une petite zone bien dlimite dans l'espace des couleurs, ce qui facilite la
sparation entre les rgions de peau et les autres rgions de limage. Nous avons vu dans le
chapitre 2, que la distribution de la couleur de la peau est gnralement reprsente par un
modle paramtrique (tel que : le modle gaussien simple, le modle mlange gaussien, le
modle elliptique), ou bien par des rgles explicites.
Notre approche de segmentation du visage est base sur la mthode dite Ligne de Partage
des Eaux (LPE) dans lespace TLS. Ce choix se justifie par le fait que la LPE est trs
efficace pour segmenter des rgions convexes et fermes, ce qui est le cas du visage
humain. Tout dabord nous donnons une prsentation des outils morphologiques de
segmentation en particulier la ligne de partage des eaux, qui nous seront utiles par la suite.
77
Chapitre 4
Dfinition 3 [Zone dinfluence godsique - ZI] : Soit, dans R, l'ensemble X ' $X i , i & I %
form de I composantes connexes et compactes, toutes incluses dans le compact Y. La zone
78
Chapitre 4
dinfluence godsique de X i dans Y se dfinit comme le lieu des points de Y qui sont
godsiquement plus proches de X i que toutes les composantes connexes de X.
ZI Y ( X i ) ' $p & Y / d Y ( p , X i ) , d Y ( p , X j ) + j * i%
(4.1)
SKIZ (X)
(4.2)
Y
X1
ZIY ( X 2 )
X3
X2
fh
79
(4.3)
Chapitre 4
#$
X h ( )i CBh%M i & reprsente l'union de tous les bassins versants qui ont une altitude
infrieure ou gale h.
premire
inondation
lieu
lorsque
leau
atteint
le
niveau
hmin : X h min ( f h min ( MINR h min %f & . Soit Y une composante connexe de f h *1 . Lorsque le
niveau deau monte du niveau h au niveau h+1, il y a trois cas de figure, pour grer cette
monte : f h *1 .
a) Y ' X h ( + ; dans ce cas Y est un nouveau minimum rgional daltitude h+1.
b) Y ' X h , + et est connexe ; dans ce cas Y est la dilatation du bassin versant
CBh %Y ' X h & . Ainsi CBh *1%Y ' X h & ( ZI Y %Y ' X h & .
c) Y ' X h , + et nest pas connexe (on note Zi ses composantes connexes). Dans ce
cas de figure Y est la runion des eaux provenant de plusieurs minima rgionaux.
Comme cette jonction nest pas autorise ; il faut donc construire la ligne de
partage des eaux, sparant ces diffrents bassins. Pour cela on construit des zones
dinfluence godsique :
X h *1 ( MINRh *1% f & - ZI h *1% X h &
a).
(4.4)
b).
Xh
c).
Xh
z1
z1
ZIY(z1)
Y
80
ZIY(z2)
Y
z2
Chapitre 4
81
Chapitre 4
82
Chapitre 4
13
13 0
41 2
4 1 2 ..
3 2 4 3 2./
3R0
1V .
1 .
12 B ./
(4.5)
L ( Y ( %R * V * B & / 3
(4.6)
S ( C12
(4.7)
* C22
C3 = atan(C1/C2)
(4.8)
Si (C3> /2)
T = (( /2-C3)+ 2* )
(4.9)
Sinon
T=( /2-C3)
(4.10)
On note que la Teinte prend des valeurs cycliques qui peuvent tre reprsentes sur un
cercle (cf. figure 4.5):
83
Chapitre 4
Rouge
0
Magenta
42
213
Bleu
170
Jaune
85
128
Vert
Cyan
84
Chapitre 4
Teinte
Luminance
Av
Saturation
Av
d2(x, y)
6L
Av
6T
Av
6S
Av
S
b - espace des composantes
a - espace de limage
(4.11)
avec :
2
t(
=T =T =L =L =S =S
>
*
>
*
>
=x =y =x =y =x =y
(4.12)
(4.13)
G vect (
1
p*q*
2
%p * q &2
85
(4.14)
4 pq - t 2
&@
(4.15)
Chapitre 4
Mise en uvre
Le gradient de Di Zenzo repose sur le calcul des quantits p, q et t qui font intervenir les
drives selon x et y dans chacun des plans. Ces quantits marginales peuvent donc tre
estimes en utilisant le gradient vectoriel TLS qui est dfini par les trois gradients
marginaux des composantes teinte, luminance et saturation. Pour calculer ces derniers,
nous avons utilis la mthode de Carron [Car95]. En effet, notre tude de la littrature
scientifique sur les techniques de segmentation dans lespace TLS nous a permis de
constater lintrt des travaux de Carron pour la segmentation dans cet espace, notamment
en prsence de bruit : linformation de Teinte possde une fiabilit variable qui dpend
du niveau de corrlation inter-composantes du bruit et, surtout, du niveau de Saturation
[Car95]
On peut rsumer ceci en dfinissant trois concepts sur la Saturation permettant de
caractriser la pertinence de la Teinte :
#$ Saturation faible : Teinte non significative.
#$ Saturation moyenne : Teinte peu significative.
#$ Saturation forte : Teinte significative.
Loriginalit de cette mthode rside dans le fait que le calcul du gradient est fonction de la
pertinence de la teinte. En effet, la teinte est une information dont la pertinence est
variable : lorsque la couleur est fortement sature, la teinte est une information fiable, peu
sensible au bruit, et, linverse, lorsque la saturation est faible, la teinte est trs sensible au
bruit et donc sa pertinence est mauvaise. En conclusion, privilgier la teinte lorsquelle est
pertinente, permet de ne pas prendre en compte les zones dombre.
Un coefficient A(S), fonction de la saturation, est donc construit, pour mesurer la
pertinence de la Teinte. Si la Saturation nintervient pas dans le calcul du gradient de la
Teinte, il ny aura pas de contour entre deux zones ayant des teintes identiques, pertinentes
et de Saturations diffrentes (exemple une zone rouge et une zone rose). Cette fonction est
dfinie algbriquement par la relation suivante :
86
(4.16)
Chapitre 4
A(S)
Le coefficient pondrateur (S) doit tre une mesure globale des pertinences des Teintes de
tous les pixels intervenants dans le calcul des gradients des trois composantes : Teinte,
Saturation et Luminance. Le calcul du gradient en x et y est alors effectu de la manire
suivante :
x
y
G xT ( 6T %Ti ,T j &> M Sobel
, GYT ( 6T %Ti ,T j &> M Sobel
x
y
G xL ( %1 - p %S i , S j &&> %Li , L j &> M Sobel
, GYL ( %1 - p %S i , S j &&> %Li , L j &> M Sobel
x
y
G xS ( %1 - p %S i , S j &&> %S i , S j &> M Sobel
, GYS ( %1 - p %S i , S j &&> %S i , S j &> M Sobel
(4.17)
avec
x
y
MSobel
, MSobel
: loprateur gradient de Sobel en x et y
87
(4.18)
Chapitre 4
p%Si , S j & ( A%Si & > A%S j & est la moyenne gomtrique des coefficients pondrateurs
entre deux pixels.
Ti 4 Tj
255
est la mesure de lcart de Teinte entre les deux curs de rgions (calcule
1
2
(b)
(a)
(c)
(d)
(e)
Figure 4. 8. Les diffrentes composantes : teinte (b), luminance (c), saturation (d), gradient(e).
(a)
(b)
(c)
(d)
(e)
Figure 4. 9. Les diffrentes composantes : teinte (b), luminance (c), saturation (d), gradient(e).
88
Chapitre 4
a) Etape de tri
Elle consiste trier les pixels de l'image par ordre croissant de leur gradient. Parmi les
mthodes de tri existantes, Vincent et Soille ont choisi l'algorithme propos par E.J. Isaac
et R.C Singleton [Isa56]. Il s'agit d'un algorithme de tri distributif qui fait appel des
calculs dadresses. Cette technique suppose que les donnes trier soient des entiers. Il est
donc ncessaire de normaliser le gradient avant le tri. On choisi ici [0,255] comme
intervalle de normalisation.
L'algorithme de tri peut tre dcompos en trois tapes :
#$ Dtermination du tableau de distribution en frquence des normes du gradient dans
I, not H I lhistogramme de I :
E h, H I %h & ( nombre de pixels de I ayant pour gradient la valeur h
Une fois le tri effectu, on passe linondation progressive des bassins versants de limage.
Supposons que cette inondation ait t accomplie jusqu un niveau donn h. chaque
niveau h la reconstruction godsique est ralise grce une file dattente. Lorsque
linondation a atteint le niveau h, tous les bassins versants dj dcouverts ont un label
grce au classement dans un tableau. Les pixels du niveau h+1 sont obtenus directement
partir de ce mme tableau. Lalgorithme leur affecte une valeur que l'on notera MASK.
Parmi ces pixels la valeur MASK, ceux qui ont un pixel dj tiquet dans leur
89
Chapitre 4
voisinage (8 connexits) sont placs dans la file dattente. partir de ceux-ci, on peut donc
se propager en largeur dabord dans les rgions la valeur MASK. Ainsi les zones
dinfluence sont construites une fois que la file dattente devient vide. Par ailleurs, il est
ncessaire deffectuer un deuxime passage sur limage pour affecter un label aux pixels
de niveau h+1 sans labels provenant des minima h+1. En effet, ces minima sont disjoints
des bassins versants de niveau h. Un label particulier WSHED est alors affect aux pixels
o les bassins versants essayent de fusionner. Il dsigne les pixels o se trouve la ligne de
partage des eaux.
Quelques exemples (figure 4.10-a) reprsentent des visages en couleur auxquels nous
avons appliqu l'algorithme dtaille de notre limplmentation de lalgorithme est donn
en annexe A) et o nous avons initialis lalgorithme avec tous les minima locaux de la
norme du gradient TLS.
Les bassins versants obtenus associs sont reprsents dans les figures (4.10-b)
respectivement. On note tout dabord que lalgorithme LPE permet dobtenir des contours
ferms, ce qui fait sa grande force. Par contres les rgions sont sur-segmentes et ne
peuvent pas tre utilises telles quelles pour analyser le visage.
(b)
(a)
90
Chapitre 4
91
Chapitre 4
Norme du gradient.
255
Bassin(M)
Profondeur (M)
M
Hauteur(M)
Profil unidimensionnel
92
Chapitre 4
Ce critre va indiquer la (ou les) composante(s) qui vont tre utilises pour la segmentation
en rgions. La figure 4.12 rsume la stratgie de choix de ces composantes suivant la
valeur du coefficient A$et donc suivant la Saturation.
A (S)
1
Pente
0.5
Saturation
S0
255
Teinte moyenne
Segmentation en
Teinte et Luminance
Teinte pertinente
Segmentation en Teinte
255
(4.19)
O :
#$ p%S1 , S 2 & ( A%S1 & > A%S 2 &
est
93
Chapitre 4
Le seuil composite de fusion (not SeuilC) pour les deux bassins B1 et B2 est dfini de la
manire suivante [Car95] :
(4.20)
La figure 4.13 illustre sur deux exemples la segmentation obtenue par l'aide de notre
mthode. Nous remarquons que le visage est bien segment en rgions fermes et
distinctes correspondant aux diffrentes parties du visage (yeux, nez, bouche et sourcils)
cette segmentation est obtenue manuellement.
94
Chapitre 4
Sprof
SL
S0
ST
25
10
50
150
15
50
160 176
(1)
(2)
(a)
(b)
Figure 4. 13. Exemples de segmentation de visage : (a) images originales (b) images LPE modifi.
95
Chapitre 4
Pour rgler ces seuils de manire automatique, nous avons appliqu la technique de multi
seuillage de Cheng et al. [Che97] sur lhistogramme de saturation. lorigine, cette
mthode permet dobtenir un nombre dsir de classes partir de l'histogramme de niveau
de gris de limage. Son principe est le suivant : l'histogramme original est liss (figure
3.14-a) par une fonction gaussienne ayant un paramtre de diffusion (F =1) de telle sorte
que les pics principaux de l'histogramme soient visibles. Le nombre de pics considrs
dans l'histogramme liss doit tre gal au nombre de sommets dans l'histogramme original.
Ensuite un filtrage passe-bas est appliqu sur lhistogramme liss afin dliminer les
sommets non signifiants, jusqu ce que le nombre de sommets restants soit gal au
nombre dsir de classes. Si par contre, le nombre de sommets de lhistogramme liss est
infrieur au nombre de classes, alors un filtrage passe-haut est appliqu pour produire plus
de sommets dans lhistogramme, il est rpt jusqu lobtention du nombre dsir de
classes. Les seuils correspondent alors aux valles de l'histogramme filtr (figure 4.14b).
Dans notre cas, nous avons fix le nombre dsir de classes 4 pour obtenir les trois seuils.
La figure 4.14 (a) prsente un exemple o le fond est dans les mmes gammes dintensit
et de teinte que le visage, Cette premire impression peut tre vrifie sur limage de la
teinte (voir figure 4.9b) o lon note une faible variation entre le fond et le visage. Dans ce
cas, linformation de teinte nest pas privilgie et la stratgie de segmentation est
principalement base sur la luminance.
La figure 4.14 (c) montre lhistogramme de la Saturation de limage 4.14 (b), qui est utilis
pour dterminer les paramtres de segmentation : S0 ST et SL. Nous avons appliqu la
mthode de Chang et nous avons obtenu le seuil maximal dutilisation de la luminance SL
gal 62, le seuil minimal dutilisation de la teinte ST gal 240 et S0=176. Enfin, pour
obtenir une pente assez forte nous avons choisi C = 0.01 pour A(S0) = 0.5, et avons fix le
seuil sur la profondeur 25.
96
Chapitre 4
1200
filtr
initial
1000
800
(a)
600
400
200
(b)
0
0
50
SL=62
100
150
200
S0 = 176
250
300
ST = 240
(c)
Figure 4. 14. (a) image originale (b) image de saturation (c) histogrammes de la saturation et seuils
obtenus avec la mthode de Cheng.
La figure 4.15 (a) prsente un exemple o le fond est uni de couleur bleu sombre. Cette
premire impression peut tre vrifie sur limage de la teinte (voir figure 4.9b) o lon
note une haute variation entre le fond et le visage. Dans ce cas, linformation de teinte est
privilgie et la stratgie de segmentation est principalement base sur teinte et la
luminance.
Nous avons obtenue le seuil maximal dutilisation de la luminance SL gale 58, le seuil
minimal dutilisation de la teinte ST gale 166 et S0=133 ( voir figure 4.14 (c)). Enfin,
pour obtenir une pente assez forte nous avons choisi
fix le seuil sur la profondeur 15.
97
Chapitre 4
3000
filtr
initial
2500
2000
(a)
1500
1000
500
0
0
50
SL = 58
100
150
200
250
300
S0=132ST=166
(c)
(b)
Figure 4. 15. (a) image originale (b) image de saturation (c) histogrammes de la saturation et seuils
obtenus avec la mthode de Cheng.
98
Chapitre 4
(4.21)
Nous avons appliqu notre algorithme sur des images relles qui prsentent diffrentes
conditions dacquisition (ombre, clairage variable, poses diffrentes). Les rsultats
obtenus (figures 4.16-b, 4.21-b, 4.22-b) illustrent le bon comportement de notre
algorithme. En effet, celui-ci arrive extraire la rgion du visage dans tous les cas de
figure, ce qui dmontre sa robustesse aux variations dclairage et de pose.
(a)
(b)
99
Chapitre 4
100
Chapitre 4
paramtres du modle sont dduits. Le modle gomtrique de visage que nous utilisons
est prsent sur la figure 4.17. On dtermine successivement :
d) la droite L1 passant par les yeux, puis la position des yeux sur cette droite,
e) la droite L2 passant par la bouche, puis la position de la bouche sur cette droite.
$ yeux
L1
d(L1,L2)
L2
%&
Figure 4. 17. Modle gomtrique du visage.
Les diffrentes tapes de lalgorithme qui permettent dextraire ces trois rgions du visage
(les deux yeux et la bouche) sont dtailles ci-dessous.
101
Chapitre 4
(a)
(b)
(c)
(d)
Figure 4. 18. (a) image originale, (b) visage segment Is, (c) visage binaris IM, (d) les centres de
rgions yeux classifies.
102
Chapitre 4
(4.22)
Enfin, nous avons appliqu les mmes traitements que prcdemment pour dterminer la
rgion de la bouche, savoir :
%& dtermination des rgions proches de la droite L2 un seuil donn (nous avons pris
marge de 8 pixels)
%& fusion des rgions retenues (voir figure 4.20 (a))
%& dessin du rectangle englobant la zone de la bouche (figure 3.20 (b)).
103
Chapitre 4
(b)
(a)
%&
104
Chapitre 4
+
+
(a)
(b)
(c)
Figure 4. 21. (a) image originale, (b) mask Visage (c) rgions extraites
105
Chapitre 4
+
+
+
+
(a)
(b)
(c)
Figure 4. 22. (a) image originale (b) mask visage (c) rgions extraites
106
Chapitre 4
On appelle dtection positive une fentre dans limage qui, selon le dtecteur, contient
un objet caractristique.
Dtection ngative
Rciproquement, on appelle dtection ngative une fentre dans limage qui, selon le
dtecteur, ne contient pas dobjet caractristique.
Le taux des bonnes dtections positives (TBDP)
Le taux des dtections dp est le pourcentage des objets caractristiques pour lesquels on a
une dtection positive dans une srie dimages.
Le taux des mauvaises dtections ngatives (TMDN)
Le taux des mauvaises dtections fn est le pourcentage des objets caractristiques pour
lesquels on a une dtection ngative, dans une srie dimages. La relation entre le taux des
dtections dp et le taux des mauvaises dtections ngatives fn est :
fn ( 1' d p
(4.23)
107
Chapitre 4
(a)
(b)
Figure 4. 23. (a) les bonnes dtections (b) les mauvaises dtections.
(a)
(b)
(c)
Figure 4. 24. (a,b) les bonnes dtections (c) les mauvaises dtections.
Nous avons appliqu notre approche sur 200 images de taille (256*256) de la base
XMVTS prsentant diffrentes variations d'apparence : barbe, lunette, variation
d'illumination.
XM2VTS /200
TBDP
visage
99%
bouche
97%
yeux
99%
Par ailleurs, nous avons aussi appliqu notre approche sur une cinquantaine d'images de la
base IV2, acquises par une paire stroscopique de rsolution moyenne. Ces images
prsentent des variations significatives d'clairage (ombrage, illumination) de pose et dans
les expressions faciales.
IV2 /500
TBDP
visage
99%
bouche
98%
yeux
99%
108
Chapitre 4
y0
b0
(b)
(a)
(c)
Figure 4. 25. (a) Les caractristiques extraites avec notre mthode (b) visage normalis (c)
les rgions extraites.
109
Chapitre 4
4.4.8 Conclusion
Nous avons propos dans ce chapitre une mthode de segmentation base sur la ligne de
partage des eaux qui sapplique aux images couleurs afin dextraire la rgion du visage.
Elle est base sur le calcul du gradient TLS et prend en compte la pertinence de la teinte
lors de la fusion des bassins versants. Les rsultats obtenus dmontrent la robustesse au
bruit et aux variations de l'illumination. Lavantage de cette mthode est quelle utilise
diffrentes stratgies de segmentation en fonction de la valeur de la saturation (luminance,
luminance-teinte, teinte). Par ailleurs, nous avons propos un modle gomtrique simple
et efficace du visage qui nous a permis dextraire les trois rgions caractristiques du
visage, savoir : les deux yeux et la bouche. Nous avons valu les performances de notre
approche dextraction sur les deux bases de donnes XM2VTS et IV2. Bien que notre
critre dvaluation soit de nature qualitative et fonde uniquement sur la prsence des
composants essentiels du visage (yeux, nez et bouche), il nous a permis de valider
lefficacit de notre solution et sa relative robustesse aux diffrentes conditions
dacquisition. Cette approche sera utilise pour lextraction automatique des rgions du
visage dans les mthodes de reconnaissance 2D que nous allons dtailler dans le chapitre
suivant.
110
Chapitre 5
Chapitre 5
Reconnaissance de visage 2D/3D
5.1 Introduction
Nous avons dcrit dans le chapitre 2 (section 2.3) plusieurs mthodes de reconnaissance
2D/3D de visage. La reconnaissance du visage 2D a atteint un haut niveau de
performances, mme avec lutilisation dun seul exemple dapprentissage. Bien que le
dernier rapport FRGC indique que de meilleures performances de reconnaissance
automatique des visages ont t obtenues par des systmes de vision plutt que par des
humains, ces rsultats font rfrence des conditions spcifiques (variations contrles).
Dans les conditions actuelles des travaux sur la reconnaissance faciale, le systme visuel
humain reste encore le plus robuste face aux diverses variations pouvant altrer le
processus didentification : changement des conditions d'clairage, variations de
lexpression faciale, et/ou de lorientation du visage, modifications de lapparence du
visage travers la prsence ou labsence de lunettes, barbe, maquillage. La rsolution de
ces verrous rendrait les techniques de reconnaissance 2D du visage beaucoup plus
attrayantes pour les besoins dauthentification et/ou de vrification didentit. Par ailleurs,
nous avons soulign que la reconnaissance faciale 3D a t identifie comme tant une
solution intressante aux problmes cits ci-dessus. Cependant, ces techniques nont pas
111
Chapitre 5
encore atteint leur maturit. En effet, la plupart des bases de donnes de visages 3D,
utilises pour le Benchmarking , ne sont pas encore standardises et leurs dimensions
varient considrablement. De plus, le protocole exprimental et la mtrique utiliss, pour
valuer les performances de ces techniques, sont trs diffrents dun travail de recherche
un autre.
Bien que la reconnaissance 3D du visage soit une voie mergeante, il est ncessaire de
pouvoir comparer ses performances avec celles des techniques classiques dans un cadre
contrl o elle serait soumise au mme protocole dvaluation sur une grande base de
donnes. Ce besoin a incit les principaux fournisseurs de donnes biomtriques raliser
des tests sur des donnes 3D de visages. Ainsi, la dernire valuation du FRVT (FRVT
2006 (http://www.frvt.org/) ne sest pas limite aux techniques de reconnaissance 2D du
visage mais inclus aussi les techniques de reconnaissance 3D de visage (sur la base
FRGC). Afin de rpondre ces nouveaux besoins en matire d'valuation des techniques
de reconnaissance faciale 2D et 3D, il est ncessaire davoir une grande et riche base de
donnes contenant des visages acquis sous diffrentes conditions : variations
dexpressions, de poses et dclairage, etc. Dans notre cas, nous avons utilis la base de
donnes IV2 afin dvaluer les diffrentes approches labores pour la reconnaissance
2D/3D de visage.
Ce chapitre est divis en trois parties : dans la premire partie, nous dcrivons en dtail
notre technique dauthentification 2D ; nous donnons aussi les rsultats dvaluations
obtenus sur les donnes de la base IV2, aprs dtection de visage et extraction des
caractristiques par la mthode dcrite au chapitre 4. Dans la deuxime partie nous
prsentons notre approche 3D de reconnaissance base sur les mesures anthropomtriques
du visage. Enfin, dans la dernire partie de ce chapitre nous exposons une approche
hybride de reconnaissance du visage qui combine les approches 2D/3D.
112
Chapitre 5
biomtrie. Elle est utilise soit de faon globale sur toute limage du visage, soit de faon
modulaire sur les diffrentes rgions faciales. De plus, plusieurs extensions de lACP ont
aussi t proposes et utilises pour la reconnaissance faciale. Par ailleurs, nous avons
soulign linfluence du nombre dexemples dapprentissage par personne sur les
performances de la reconnaissance, et avons indiqu que lACP reste une mthode efficace
et simple pour grer ce type de problme. Cest pour toutes ces raisons que nous avons
opt pour lACP dans notre approche 2D de reconnaissance du visage.
Nous commenons dabord par dtailler le principe des mthodes Eigenface et Eigenface
modulaire.
N 2 1. Soit S
(5.1)
1 M
# xn
Mn1
113
(5.2)
Chapitre 5
&i
x i -$
1%i % M
(5.3)
'
1
ukT & n
M#
n 1
(k
(5.4)
soit maximale. O u k , ( k sont respectivement les vecteurs propres et les valeurs propres de
la matrice de covariance C dfinie par :
1 M
# & n & Tn
Mn1
(5.5)
La figure (5.1) montre les cinq premires Eigenfaces associs aux plus grandes valeurs
propres, et calcules sur la base dapprentissage IV2 (pour 25 personnes).
Processus de reconnaissance
Plusieurs travaux [Tur91] [Mar01] ont dmontr quen pratique, un nombre M < M de
Eigenfaces est gnralement suffisant pour identifier efficacement les visages. Les M
visages propres considrs correspondent aux plus grandes valeur propres (k car elles
encodent les directions dans lesquelles les variations sont les plus marques. Les premiers
visages propres reprsentent habituellement les diffrences dclairage ainsi que les
personnes portant des lunettes ou une barbe.
Le processus de reconnaissance se subdivise en trois tapes : limage d'entre I(N*N)
contenant le visage identifier est transforme en un vecteur X de dimension (N2*1) puis
compar avec le vecteur moyen$ dfini par lq. (5.2). La diffrence entre le vecteur X et
114
Chapitre 5
le vecteur moyen $ est ensuite multiplie par lensemble des vecteurs propres uk pour
gnrer le vecteur de poids + XT , tel que :
.k
+ XT
/.
,. 2 ,................,. M 1'
"
(5.6)
(5.7)
La classe de visages qui fournit la meilleure description de limage dentre est dtermine
en minimisant la mesure de similarit entre le poids + XT et les poids de la base
dapprentissage + xTk
1,..., M ' .
115
Chapitre 5
! La premire consiste valuer les mthodes Eigenface globale et modulaire sur les
rgions du visage extraites manuellement.
! La deuxime permet dvaluer ces mmes mthodes sur les rgions extraites, cette
fois-ci, avec notre mthode de dtection automatique de visage et des rgions
caractristiques.
Afin dobtenir des lments de comparaison, nous avons utilis le protocole dvaluation
de la phase prliminaire de IV2 (voir chapitre 3), savoir : 50 personnes, 10 images par
personnes, ce qui fait une base de 500 images. Nous avons spar les individus en deux
groupes de 25 : le premier groupe est utilis pour le test et le deuxime groupe pour
construire les classifieurs ACP (avec un seul exemple dapprentissage par personne). A
partir des 250 images (25"10) de la base de test, nous avons effectu 500 comparaisons
deux deux dont 250 comparaisons intra classes et 250 comparaisons inter-classes (voir
chapitre 3). Le taux de vrification est mesur avec le taux EER ainsi que lintervalle de
confiance (IC) associ 90%.
On obtient lintervalle de confiance [Ben03] CIFAR sur le taux de fausse acceptation via
lquation (1.3), :
CI FAR ( FAR ' ) .
1
NI
116
(5.8)
Chapitre 5
95% et
1
NC
(5.9)
(5.10)
d L1 # X , Y $ ( * X i % Yi
(5.11)
i (1
Le tableau 5.1 montre les rsultats du taux EER obtenus pour les diffrentes valeurs de
rsolution ainsi que lintervalle de confiance et les temps de calcul. Nous remarquons
quune diminution de la rsolution, dans certain cas, nengendre pas une baisse
117
Chapitre 5
significative du EER. Nous constatons aussi que le EER le plus faible est gal
0.0770.029, il correspond une rsolution de 100"90. Nous avons donc choisi de prendre
une rsolution de 75"65 qui donne un EER gal 0.0790.03, pour avoir un meilleur
compromis entre temps de calcul et prcision.
Visage 2D
15"13
75"65
100"90
150"130
220"200
EER
0.18
0.079
0.077
0.082
0.081
IC
0.04
0.029
0.028
0.029
0.029
Temps
21s
32s
46s
76s
137s
Tableau 5. 1 Les rsultats des EER, lintervalle de confiance 90% associ et le temps excution
pour lexprience 1.
La deuxime exprience est mene sur des images ayant une rsolution de 75"65. Nous
avons compar trois distances : la distance L1 (quation 5.8), la distance L2 et la distance
Cosinus telles que :
d L2 # X , Y $ ( * # X i % Yi $
(5.12)
i (1
! la mesure de similarit dangle ngatif (ou distance cosinus), entre les vecteurs Xi
et Yi est donne par :
d cos # X , Y $ (
118
*i (1 X i Yi
n
n
*i (1 X i2 *i (1Yi 2
n
(5.13)
Chapitre 5
1
L1
L2
Cosinus
0.9
0.8
0.7
0.6
R
R
F
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
FAR
Figure 5. 2. Courbes DET : les rsultats sur la deuxime exprience.
La figure 5.2 montre la courbe DET pour les trois distances. Nous remarquons que les
distances L1 et L2 donnent de meilleurs rsultats que la distance Cosinus. Par ailleurs, les
rsultats des distances L1 et L2 sont trs similaires (EERL1= 0.0730.027 et EERL2 =
0.0790.028). Nous avons donc choisi dutiliser la distance L1 pour le reste de lvaluation
des performances.
Exprience 3 : combinaison des classifieurs
119
Chapitre 5
(a)
(c)
(b)
(d)
Pour tudier linfluence de chaque rgion sur la classification, nous avons calcul son taux
EER. La figure (5.4) montre les rsultats obtenus pour les diffrentes rgions du visage.
1
bouche
nez
yeux
visage
0.9
0.8
0.7
0.6
R
R
F
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
FAR
Nous remarquons que la rgion bouche donne les plus mauvais rsultats (ERR =
0.210.042) en comparaison avec les rgions yeux (ERR = 0.140.035), nez (ERR =
0.100.031) et visage (ERR = 0.079 0.0281).
120
Chapitre 5
La figure 5.5 montre la stratgie de la fusion des scores que nous avons adopte. La
classification de chaque image requte se fait de la manire suivante :
! Les quatre scores sont ensuite fusionns pour calculer un score final de
classification.
Image
dentre
Classifieur 1
(Visage)
Score 1
Classifieur 2
(Yeux)
Score 2
Fusion des
scores
Extraction des
rgions.
Classifieur 3
(Nez)
Vrification.
Score 3
Classifieur 4
(Bouche)
Score 4
Figure 5. 5. Fusion des scores. La classification se fait grce des rgles permettant de combiner
les sorties des quatre classifieurs.
Pour trouver le meilleur compromis entre les rgions nous avons test plusieurs
combinaisons de fusion. Pour cela, nous avons utilise deux mthodes de fusion : la fusion
par somme directe et la fusion par somme pondre.
- La fusion des scores par une somme directe est dfinie par:
121
Chapitre 5
La figure 5.6 montre les rsultats obtenus pour ces diffrentes combinaisons. Elle prsente
les courbes DET des fusions de scores. Nous remarquons que la fusion Synb (yeux, nez et
bouche) engendre le plus mauvais taux de EER = 0.0720.026. Par contre, la fusion des
scores des rgions yeux et nez donne le taux le plus faible (EER = 0.0460.021). Nous
avons aussi appliqu la fusion Synv dcrite dans [Pen94] qui combine les rgions des yeux
et du nez avec la rgion globale du visage, le taux ERR obtenu est gal 0.0500.022.
- la fusion par somme pondre (Matcher Weighting [Sne05]) des diffrents scores: les
pondrations sont assignes chaque classifieur en se basant sur le taux EER qui lui est
associ.
En notant le EER dun classifieur m comme rm , m = 1, 2,,M. o M est le nombre total
de classifieurs. La pondration
(5.14)
S p ( * ) m sm
(5.15)
m (1
A partir des valeurs des EER de chaque classifieurs (yeux, nez, bouche) trouves
prcdemment nous avons calcul les pondration
nous avons obtenu:
yeux=0.4461,
nez =
0.341 et
bouche=
*Syeux + 0.341* Snez + 0.212 *Sbouche, avec un taux EER = 0.57 0.024 pour :
122
Chapitre 5
1
0.9
yeux+nez+bouche
yeux+nez+visage
yeux+nez
0.8
0.45*y+0.45*n+0.10*b
S
P
0.7
FRR
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
FAR
123
Chapitre 5
Par ailleurs, nous avons compar les rsultats de la fusion (voir figure 5.8) des classifieurs
dans le cas de lextraction automatique de rgions, nous avons constat que le taux a baiss
denviron 1%. Le taux le plus faible EER = 0.0440.021 correspond dans ce cas la fusion
pondre :
SP = 0.4511 * SNez +0.2911 * SYeux +0.2578 * SBouche
(5.16)
Ce rsultat, dmontre que mme si la rgion bouche possde un taux de vrification faible,
surtout lorsque la base de donnes contient des variations dexpressions, il ne faut pas
lexclure de la stratgie de fusion, il faut juste lui affecter une pondration plus faible.
Il est vrai que cette premire phase de test du projet IV2 ne donne pas les rsultats
dfinitifs, mais elle nous a permis de mettre en avant les performances de la fusion des
rgions caractristiques pour la reconnaissance faciale, et particulirement la fusion
pondres des rgions du nez, des yeux et de la bouche. Nous avons donc retenu cette
approche de fusion pour la mthode de reconnaissance hybride 2D+3D qui sera dcrite
dans la troisime partie de ce chapitre.
Rgion
EER IC
EER IC
Yeux
0.1200338
0.140.035
Nez
0.079 0.0281
0.100.031
Bouche
0.140.035
0.210.042
Visage
0.059 0.0245
0.079 0.0281
Tableau 5. 2. Comparaison entre les taux EER obtenus dans les cas de lextraction automatique et
manuelle des rgions du visage.
124
Chapitre 5
yeux
nezM
yeuxA
0.8
nez
0.8
0.6
FRR
FRR
0.6
0.4
0.4
0.2
0.2
0
0
0.2
0.4
0.6
0.8
0
0
0.2
0.4
FAR
0.6
0.8
FAR
bouche
visage
bouche
visage
0.8
0.8
0.6
FRR
FRR
0.6
0.4
0.4
0.2
0.2
0
0
0.2
0.4
0.6
0.8
0
0
0.2
0.4
FAR
0.6
0.8
FAR
0,08
0,079
0,072
0,07
0,06
0,059
0,046
EER
0,05
0,057
0,057
0,05
0,046
0,05
0,044
0,04
0,03
0,02
0,01
0
Visage
Nez+Yeux
N + Y+ V
2D _M
N +Y+B
*N+*Y+*B
2D_Auto
125
Chapitre 5
126
Chapitre 5
mtriques et descriptives du visage humain. Rcemment, Bennaceur et al. [Ben05] ont fait
une tude intressante sur le dveloppement du visage humain depuis la naissance jusqu
lge adulte. Les auteurs ont rsum les mensurations du visage quils ont appeles
donnes anthropomtriques du vivant et qui peuvent tre utilises pour lidentification
de visage.
Deux mthodologies anthropomtriques sont gnralement utilises [Ver04], la premire
adopte la comparaison des mesures ralises entre diffrents points anatomiques ou
construites sur les diffrentes photos. Pour assurer la validit de cette mthode, les photos
utilises doivent tre pralablement normalises la mme chelle. Cela est ralis en
fixant une distance de 6 cm entre les deux pupilles [Por00]. Les mesures sont ensuite prises
en utilisant un compas numrique (digital calipers). Les rsultats sont prsents dans une
table rcapitulative et pourront ainsi tre compars. La deuxime technique consiste
utiliser des indices et des angles calculs partir de mesures effectues entre des points
prcis, bien dfinis sur les diffrentes rgions faciales et reconnus pour leur stabilit,
permettant ainsi de travailler sans tenir compte de lchelle des photos utilises. Cette
technique est utilise pour mesurer les proportions cranio-facial. Ces proportions
correspondent des rapports de distances de paires de segments-de-droite entre des points
spcifiques sur le crne et des points faciaux [Far87]. Par exemple, l'indice nasal le plus
utilis est le rapport entre la largeur horizontale du nez et sa hauteur verticale. Les mesures
Cranio-faciales sont utilises dans diffrents domaines : dans la sculpture pour crer des
visages idaux bien proportionns, dans l'anthropologie pour analyser des restes humains
prhistoriques [Com60], et plus rcemment en vision par ordinateur (estimation de
lorientation de la tte [Hor97], dtection des points caractristiques de visage [Soh06]) et
en infographie [DeC98] pour crer des modles paramtriques de visages humains. Ds
1939, Hrdlicka a soulign l'importance des mesures faciales anthropomtriques pour
comparer des groupes de personnes ou des populations [Hrd39]. Malgr cela,
lanthropomtrie n'a pas t ou peu utilise par la communaut de biomtrie pour la
reconnaissance 3D de visage. Aprs une tude approfondie de la littrature antrieure sur
l'anthropomtrie, Farkas et al. ont rsum une liste de 129 proportions anthropomtriques
cranio-faciales de base ayant t employes pour des tches diffrentes [Far80]. Les
auteurs ont aussi enregistr la moyenne et lcart-type de ces indices en collectant des
127
Chapitre 5
mesures sur 1312 sujets humains adultes appartenant des ethnies, sexes et tranches d'ge
diffrents. Dans [Far87] les auteurs ont slectionn 25 indices anthropomtriques (voir
l'annexe C). Ce choix fut motiv par le fait que les points repres devaient tre identifiables
sur des photographies.
Une des mthodes qui utilise les indices et les angles est la mthode de
craniophotocomparaison, mise au point par [Per96]. Cette technique consiste comparer
un crne avec une photographie (figure 5.9) dune personne disparue. La comparaison
prend en compte les valeurs indiciaires et angulaires permettant ainsi de travailler sans
tenir compte de lchelle des documents. Dans ce qui suit nous dcrivons cette mthode sur
un exemple concret, afin dillustrer le choix et le calcul des diffrent paramtres utiliss
pour la reconnaissance du visage. Sur la vue faciale du crne et sur la photographie du
sujet disparu (figure 5.9) sont positionns des points anatomiques qui, relis entre eux
selon des critres prcis, fournissent des paramtres (tableau 5.3), des indices et des valeurs
angulaires. Il est important de noter que ltude comparative ne prend jamais en compte la
comparaison des valeurs brutes dun mme paramtre sur les deux clichs mais celle des
rapports indiciaires confrontant les paramtres deux deux, dans chaque clich, ce qui
offre lavantage considrable de pouvoir travailler sur des instantans ntant pas la
mme chelle! La ressemblance entre le crne inconnu et la photographie va tre tablie en
prenant en compte la diffrence algbrique des valeurs indiciaires (ou angulaires). Ensuite
la somme algbrique (tableau 5.4) de lensemble des intervalles indiciaires est calcule
puis divise par le nombre dindices pris en compte : le rsultat ainsi obtenu (= moyenne
algbrique) va permettre lidentification (cest dire lassimilation crne inconnu / visage),
qui sera considre comme : fortement probable ( 90%) certaine ( 100%) dans le crneau
:-1/0/+1.
Figure 5. 9. Dessin au dioptrographe du Crne1 montrant les points et paramtres utiliss dans la
craniophotocomparaison
128
Chapitre 5
Points
Paramtres
Pupille droite
Pupille gauche
AB
DE
Nasion
Nasospinal
FF
Axe nasal
Gnathion*
FH
Intersection FH / DE
Intersection FH / AB
Angles
FAD
GAD
FBE
GBE
ADH
BEH
Indices
ABx100/DE
FGx100/FC
AGx100/FC
ABx100/FH
AFx100/FC
Somme algbrique
Moyenne algbrique
Crne1
97
82
100
87
164
156
Mr C
87
85
93
81
158
160
Diffrence algbrique
10
-3
7
6
6
-4
122
10.48
40.63
48.03
41.94
141.46
10.81
40.24
56.86
40.95
-19.46
-0.33
0.39
-8.83
0.99
-5.44
-0.49
129
Chapitre 5
Nous nous sommes inspirs de ces travaux pour dfinir les diffrents paramtres indiciaires
et angulaires utiliss dans notre approche de reconnaissance 3D.
les quatre coins des yeux (P1, P3, P4, P6), deux centres pupilles (P2, P5).
Rgion nez
Pour quon puisse mesurer la largeur et la hauteur du nez nous avons choisi cinq points :
le nasion (P7), la pointe (P8), le subnasal (P10) et les deux extrmits du nez
(P9, P11).
130
Chapitre 5
Rgion bouche
Nous avons choisi le point le plus stable en cas dexpression faciale, il sagit du point (P12)
obtenu partir de lintersection des deux droites, L1 reliant les deux chelons de la bouche
et L2(P7 ,P11). Il correspond au centre de la bouche.
La figure 5.10-a permet de visualiser ces 12 points.
5.3.3 La signature 3D
Lensemble des points caractristiques slectionns est utilis pour calculer une signature
qui doit permettre didentifier sans ambigut le visage de la personne en question.
La signature 3D (voir tableau 5.6) que nous avons mise au point permet de caractriser une
personne de faon unique. Elle correspond un vecteur de distances 3D, dindices et
dangles.
Nous
nous
sommes
bases
sur
plusieurs
travaux
de
recherche
7
8
10
12
L2
(a)
1 2
4 5 6
11
3 7
9
L1
8
10
12
B2
11
6
B1
2
9
7
8
10
4 5 6
11
12
D
(b)
(c)
Figure 5. 10. Points (a), paramtres (b) et angles (c) utiliss pour la cration dune signature 3D
facial.
131
Chapitre 5
Paramtres
A1=dist(1-6)
Distance entre les coins extrieurs des yeux (la distance intercanthale externe)
A2=dist (2-5)
Distance interpupillaire
A3 =dist(3-4)
Distance entre les coins intrieurs des yeux (la distance intercanthale interne)
D =dist (9-11)
B1 =dist (7-12)
B2 =dist (7-10)
B3 =dist (3-9)
Paramtres
Distances
A1=dist(P1,P6)
A2 = dist(P2,P5)
A 3 =dist(P3,P4)
B1= dist(P7,P10)
100*A3/A1
Indices
100*B2/B1
100*D/ B2 (Indice du nez)
100*A2/B2
Angl(7-6-12)
Angles
Angl(9-7-11)
Angl(1-12-6)
132
Chapitre 5
Il est vrai que la vision stroscopique souffre dun inconvnient majeur, savoir le
problme de lappariement des points dense ou non dense, de primitives extraits des
images gauche et droite. La prcision des modles reconstruits dpend essentiellement de
la prcision de la mise en correspondance. Ce problme est encore plus complexe dans le
cas du visage. Dans notre cas, ce problme ne se pose pas, car nous navons pas besoin de
reconstruire tout le visage mais uniquement quelques points caractristiques (exemple : les
coins des yeux).
133
Chapitre 5
134
Chapitre 5
donc pas abord le problme de la dtection automatique des points caractristiques, nous
les avons extraits manuellement sur les images gauche et droite de la paire stroscopique.
(a)
(b)
La mise en correspondance consiste trouver sur les deux images des paires de points
homologues. Dans un premier temps, il sagit de dtecter les points caractristiques dans
chacune des images (voir figure 5.13), puis dans un second temps, les points de la premire
image sont apparis avec les points de la seconde image.
Dans notre cas la phase de mise en correspondance des points est faite automatiquement
parce que les points caractristiques sont toujours extraits dans le mme ordre. Ces paires
de points images apparis sont ensuite utilises pour reconstruire les points 3D
correspondants [Fau93].
P
P2
P1
21
Lignes pipolaires
Mise en
correspondance
C1
22
C2
135
Chapitre 5
La connaissance des deux matrices de projection N, M des deux camras est suffisante
pour calculer les trois coordonnes dun point quelconque P, connaissant ses images p1 et
p2 (voir figure 5.14). En effet on peut crire la transformation mire/image ainsi :
0 su - 0 M 1
. + .
. sv + ( . M 2
. s + .M
/ , / 3
M 14 + 0 PM 24 + & .. ++
1
M 34 +, / ,
(5.17)
avec (u, v)t les coordonnes du point dans le repre image, s est un facteur dchelle,
Mi=(Mi1 Mi2 Mi3) et P=(X Y Z)t. En dveloppant lquation (5.15) on aura le systme
suivant :
6su ( M 1 P 7 M 14
3
5sv ( M 2 P 7 M 24
3s ( M P 7 M
3
34
4
(5.14)
(5.15)
(5.16)
#M 1 % u 2 M 3 $P ( u 2 M 34 % M 14
#M 2 % v2 M 3 $P ( v2 M 34 % M 24
(5.18)
Pour la deuxime camra on aura un systme identique et une autre matrice de projection
N:
#N 1 % u 2 N 3 $P ( u 2 N 34 % N 14
#N 2 % v2 N 3 $P ( v2 N 34 % N 24
(5.19)
Finalement, on aura un systme quatre quations et trois inconnues qui sont les
coordonnes du point P :
6#M 1 % u1 M 3 $P ( u1 M 34 % M 14
3#M % v M $P ( v M % M
3 2
1
3
1
34
24
5
3#N 1 % u 2 N 3 $P ( u 2 N 34 % N 14
34#N 2 % v 2 N 3 $P ( v 2 N 34 % N 24
(5.20)
La solution de ce systme est faite par les moindres carrs en rsolvant lquation : AP=B
136
Chapitre 5
o :
0 M 1 % u1 M 3 .
+
. M 2 % v1 M 3 +
A(.
N % u2 N3 +
. 1
+
. N %v N +
2
3 ,
/ 2
et
0 u1 M 34 % M 14 .
+
. v1 M 34 % M 24 +
B(.
u N % N 14 +
. 2 34
+
.v N %N +
24 ,
/ 2 34
# $
P ( At A
%1
At B
(5.21)
137
Chapitre 5
a1
b1
a2
b2
Figure 5. 15. Images stro extraites de la base d'valuation IV2 : a) image droite, b) image gauche
5.3.5.2 Vrification 3D
La phase dextraction nous a permis de crer 340 signatures (4 signatures par personne).
Afin d'valuer nos algorithmes en mode de vrification, nous avons utilis une mesure de
similarit qui correspond une distance entre les vecteurs caractristiques des images de
test. Le nombre de comparaisons effectues est gal 510 dont 255 comparaisons intra
classes. Comme pour lapproche 2D nous avons galement choisi le taux EER pour
mesurer le taux de vrification.
Par ailleurs, afin dtudier la stabilit de la signature 3D nous proposons de calculer les
carts type intra-classe et inter-classe de chaque composante de la signature pour un
ensemble de 85 personnes. Le tableau 5.7 montre un exemple de signatures 3D dune
mme personne pour diffrentes expressions faciales.
138
Chapitre 5
Signature
A1=dist(P1,P6)
A2 = dist(P2,P5)
A 3 =dist(P3,P4)
B1= dist(P7,P10)
100*A3/A1
100*B2/B1
100*D/ B2
100*A2/B2
Angl(9-7-11)
Angl(4-6-12)
Angl(1-12-6)
Mr C neutre
Mr C sourir
Mr C
surprise
90,167
64,519
37,987
50,028
122,41
45,325
121,63
58,454
43,395
66,643
47,972
90,88
64,897
38,536
50,217
120,11
46,003
120,55
59,451
44,76
64,706
48,17
91,608
63,981
36,913
50,71
124,69
44,393
127,65
56,011
44,525
64,201
46,741
Mr C dgout
88,157
64,692
38,335
50,303
125,34
42,793
129,74
55,033
49,393
67,491
45,093
Tableau 5.7. Exemple de signatures 3D dune mme personne pour diffrentes expressions faciales
Les rsultats de cette tude statistique sont rsums dans le tableau 5.8. Nous avons ainsi
dtermin, dune part, lcart type moyen inter classe de chaque mesure de la signature
pour les 85 personnes, et dautre part, lcart type moyen intra classe dune personne
neutre. Pour ltude intra classe, les carts types faibles caractrisent les mesures les plus
stables. Le tableau 5.8 montre que lcart entre les yeux (mesure A1) et la longueur du nez
(mesure B1) sont les mesures les plus stables. Par ailleurs, pour ltude intra classe, nous
remarquons que les carts type sont levs ce qui dmontrent linstabilit de la signature
pour caractriser deux personnes diffrentes.
Tableau 5. 8 Etudes statistique entre les mesures de la signature
Signature
A1=dist(P1,P6)
A2 = dist(P2,P5)
A 3 =dist(P3,P4)
B1= dist(P7,P10)
100*A3/A1
100*B2/B1
100*D/ B2
100*A2/B2
Angl(9-7-11)
Angl(4-6-12)
Angl(1-12-6)
1,45
3,44
0,29
2,44
0,65
3,11
0.20
6,12
1,78
9,99
1,55
2,66
2,2
4,84
1,45
1,23
1,1
1,02
4,55
2,34
1,9
2,8
139
Chapitre 5
1
3D EER = 0.070
0.9
0.8
0.7
0.6
R
R
F
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
FAR
Figure 5. 16.Courbes DET : approches 3D.
5.3.5.3 Discussion
Les tests dvaluation de notre approche de reconnaissance 3D de visage sur une sous base
de IV2 nous ont permis dobtenir un EER trs satisfaisant, de lordre de 0.0700.026.
Nous avons utilis 510 comparaisons dont 255 comparaisons intra-classes. Par ailleurs,
nous avons compar nos rsultats avec ceux fournis par les premiers tests dvaluations de
IV2 sur des visages 3D (obtenus par scanner 3D). Ces tests utilisent 180 comparaisons de
signatures (dont 60 comparaisons intra-classes) correspondant des expressions
diffrentes, pour valuer deux algorithmes bass sur la mthode ICP, savoir :
R-ICP [Ben06] et ICP (implment par notre partenaire TALES). Le tableau (5.7) rsume
les taux EER raliss par les trois approches. Nous remarquons que notre mthode
(anthropomtrie 3D) donne un EER satisfaisant (EER=0.0700.026, figure 5.16) en
comparaison avec les taux EER des deux autres approches. Toutefois, ce test prsente une
difficult, lie au fait que lon compare des approches diffrentes qui utilisent des capteurs
dacquisition et un nombre de signatures diffrentes. Nanmoins, il nous a permis de
140
Chapitre 5
Intra-classe : 60
Intra-classe : 255
Approches
R-ICP
ICP
anthropomtrie 3D
EER
0.067
0.083
0.070
Tableau 5. 7. Les taux EER obtenus par les diffrentes approches 3D.
Comme nous lavons dj mentionn dans les chapitres prcdents, il existe de multiples
facteurs qui peuvent entraner une baisse du taux de vrification, notamment les variations
de lexpression et de la pose. Dans notre cas, des facteurs supplmentaires dus la nature
mme de notre approche peuvent sajouter et ainsi diminuer un peu plus le taux de
vrification. En effet :
! la dtection des points caractristiques nest pas vidente malgr le fait quelle soit
ralise manuellement, et ce cause de la mauvaise qualit des images de la base et
de la variation de lillumination (visage ombr).
! les points 3D reconstruits par strovision sont moins prcis que les points du
visage 3D acquis avec un scanner laser.
! la base dimages stroscopiques sur laquelle nous avons effectue nos tests
contient un grand nombre dimages de visage prsentant des variations importantes
de pose et dexpression alors que la base de visage 3D est construite partir des
mesures du scanner laser sur des visages presque figs.
Dans la section suivante nous allons aborder lapproche multimodale qui combine les
informations 2D et 3D du visage pour la reconnaissance faciale.
141
Chapitre 5
8
9
10
11
12
(a)
(b)
(c)
(d)
142
Chapitre 5
dentre. Le classifieur n 1 travaille partir de limagette contenant les yeux et les sourcils
(de taille 50"65). Le classifieur n2 travaille partir de limagette du nez de taille 40"65,
et enfin, le classifieur n 3 travaille partir de limagette de la bouche de taille 35"65. Par
ailleurs, le systme utilise les deux images dentre, droite et gauche afin de reconstruire
les points dintrt 3D du visage lesquels sont ensuite utiliss pour calculer la signature
3D. Un 4me score est calcul partir de cette signature 3D.
Pour les trois classifieurs 2D (yeux, nez et bouche) nous utilisons la somme pondre (voir
section 5.2.3.1), nous obtenons :
S2D = 0.3112* SNez +0.3371*SYeux +0.3517* SBouche
Le score S2D est ensuite fusionn avec le score 3D en utilisant la mthode de la somme
pondre. Le rsultat final de cette fusion donne le score de la mthode multimodale 2D3D.
dentre
Extraction des
rgions.
Score 1
Classifieur 2
(nez)
Score 2
Classifieur 3
(bouche)
Score 3
Crations des
signatures.
Score 4
Fusion des
scores
Fusion
Images
Classifieur 1
(Yeux)
Vrification.
Images droites
dentre
Reconstruction
des points 3D.
Images gauches
dentre
Chapitre 5
puis extrait les rgions caractristiques en suivant la procdure dcrite dans la section
(5.2.3.2).
!
Figure 5. 19. Exemples dimages utilises pour lvaluation de lapproche 2D-3D.
Par ailleurs, pour construire les trois classifieurs 2D des trois rgions (yeux, nez et bouche)
nous avons pris au hasard 33 personnes (diffrentes des 85 personnes de la base de test), un
exemple par personne pour la base dapprentissage. Enfin, nous avons considr les mmes
comparaisons que pour la mthode de vrification 3D, savoir 510 comparaisons dont 255
intra classes.
144
Chapitre 5
1
2D modulaire
3D
2D globale
0.9
0.8
0.7
0.6
R
R
F
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
FAR
Figure 5. 20. Courbes DET : Comparaison entre les approches, 2D modulaire, 2D globale et 3D
Nous remarquons que lapproche 2D globale donne le plus mauvais taux EER =
0.280.0490 et le taux EER de lapproche modulaire gal 0.210.042. Ce rsultat nous a
permit de dfinir une stratgie de fusion des scores 2D et 3D, en affectant un poids plus
important au score 3D car celui-ci prsente un EER plus petit (EER3D< EER2D) (voir
figure 5.19). Ainsi :
S2D+3D = )1 *S2D + )2 *S3D
Les valeurs des coefficients de pondration )1 et )2 sont dtermines en utilisant
lquation (5.14). Nous avons obtenu )1 = 0.25 et )2 =0.75, et un taux EER = 0.0550.023.
Les taux obtenus pour les approches 2D et 3D seules sont EER2D = 0.210.042 et EER3D =
0.0700.026 (voir figure 5.21).
Ce rsultat illustre que la combinaison des informations 2D et 3D amliore nettement le
taux de vrification, surtout lorsque la base de donnes utilise contient des variations
significatives de poses et dexpressions (ce qui est le cas de notre base).
145
Chapitre 5
1
2D
3D
2D/3D
0.9
0.8
0.7
0.6
R
R
F
0.5
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
FAR
Figure 5. 21. Les Taux ERR des diffrentes approches.
146
Chapitre 5
Taux de reconnaissance
RR %
2D
73 %
3D
69 %
2D+3D
92%
Rang
Figure 5. 22. Comparaison des courbes CMC de 2D, 3D et 2D/3D, sur la sous-base IV2. Un visage
est reconnu au rang r si une vue du mme visage est parmi ses r plus proches voisins.
Taux de reconnaissance
RR %
2D/3D - VM
83 %
2D/3D - SP
92%
147
Chapitre 5
Taux de reconnaissance
cumul (%)
Recognition rate
100
2D/3D Somme
2D/3D Vote M
98
96
94
92
90
88
86
84
82
10
15
20
25
30
35
40
45
50
Rank
Rang
Figure 5. 23. Comparaison des courbes CMC 2D/3D (Vote la majorit) et 2D/3D (Somme
pondre), sur la sous-base IV2 phase 2.
148
Conclusion et Perspectives
Dans cette thse, nous avons trait deux problmatiques majeures et complmentaires
rencontres en reconnaissance de visage. Il sagit, dune part de lextraction automatique de
visage et de ses rgions caractristiques, et dautre part de la reconnaissance du visage.
La difficult de lextraction de visage et de ses caractristiques est due principalement aux
variations des conditions dclairage. Nous avons donc propos une nouvelle approche
dextraction qui sadapte aux changements de lillumination et de pose. Dans un premier
temps, un algorithme efficace de segmentation couleur de visage dans lespace TLS (Teinte,
Luminance, Saturation) est appliqu sur limage afin de dterminer les rgions dintrt du
visage. Pour cela, nous avons modifi la mthode de fusion des bassins versants obtenus
partir de lalgorithme de lignes de partage des eaux (LPE) en ajoutant un critre bas sur la
pertinence de la teinte. Nous avons dfini un domaine de la peau sur lespace de la teinte afin
dextraire la rgion visage partir de limage segmente. La mthode propose pour
lextraction des zones du visage combine une classification base sur la mthode de kmeans
avec une approche gomtrique afin didentifier deux rgions caractristiques du visage, en
loccurrence les yeux et la bouche. Nous avons valu notre approche sur deux bases de
donnes : la base XM2VTS caractrise par une grande variabilit d'apparence (lunettes,
barbe, etc.), et la base IV2 caractrise par une variabilit de la lumire et de la pose.
Par ailleurs, nous avons pu travailler sur le problme de la reconnaissance de visage 2D/3D,
dans le contexte de la vrification, grce la base de donnes multimodale IV2. Nous avons
ainsi valu linfluence de la dtection de rgions sur la reconnaissance de visage. Pour cela,
nous avons dabord extrait les rgions du visage manuellement puis de manire automatique
149
en utilisant notre approche dextraction, et nous avons compar les rsultats de reconnaissance
obtenus sur ces rgions. Nous avons appliqu les mthodes classiques EigenFace et
EigenFace modulaire et avons tudi diffrentes combinaisons pour la fusion des scores
de reconnaissance. Les rsultats obtenus ont montr que lapproche modulaire donne les
meilleures performances, nous lavons donc utilise dans la suite de notre travail.
Lorsquon parle dinformations 3D, on sous-entend des mesures relles effectues sur la
structure anatomique du visage : c'est lanthropomtrie faciale, une discipline consacre
ltude des proportions du visage humain partir de son observation anatomique et
physiologique. Nous avons propos une approche locale 3D de reconnaissance de visage
base sur des mesures anthropomtriques correspondants des distances, des indices et des
angles. Nous avons utilis un systme stroscopique qui repose sur deux camera fixes pour
construire les points dintrt 3D de visage.
Enfin, nous avons propos une approche multimodale 2D/3D qui repose sur la fusion
pondre
des
scores
de
lapproche
EigenFace
modulaire
avec
la
signature
150
Annexe A
Algorithmes
Annexe A
Algorithmes
Dans cette annexe nous prsentons les diffrents algorithmes proposs :
It
-
DI
Initialisations :
/*Histogramme*/
/* Histogramme cumul */
151
Annexe A
Algorithmes
Les structures de donnes utilises sont les mmes que dans [Vin91].
)* Une image dtiquettes
)* Une file dattente FIFO qui stocke les dilatations successives
Algorithme : Ligne de Partage des Eaux
# define MASK
# define WSHED
# define INQUEUE 3 /* valeur dun pixel lors de son insertion dans la file*/
)* - Entre: I, image numrique ;
- $ p # DJ , J % p & " (1 ;
- label_courant " 0;
-
}
-
152
Annexe A
Algorithmes
Si J % p' & , 0 {
/* p' appartient un bassin dj tiquet */
Si %J % p& + INQUEUE ou %J % p& + WSHED et flag +vrai&&
J % p & " J % p' & ;
fifo_ajouter( p' ) ;}
} }}
/ * De nouveaux minima sont-il apparus ? */
- Pour tout pixel p tel que I(p) = h {
Si J % p & + MASK {
label_courant " label courant + 1 ;
fifo_add(p) ;
J(p) " label_courant ;
Tant que fifo_vide() = faux {
p' " fifo_retirer() ;
153
Annexe A
Algorithmes
Cette version de lalgorithme LPE utilise la variable flag afin dobtenir une ligne de
partage des eaux exacte. En effet, si la variable flag navait pas t disponible on peut avoir
un problme dpaississement de la LPE , comme illustr dans la figure A.1.
Deux minima
lintrieur dun
grand plateau
Bassin versant N 1
LPE paisse
Bassin versant N2
Figure A.1. Si lon affectait systmatiquement la valeur WSHED tout pixel ayant un
pixel la valeur WSHED dans son voisinage, on pourrait observer des lignes de partage
des eaux paisses . La dissymtrie des bassins versants tracs ci dessus provient du fait
que les voisins du minimum situ en haut droite ont t placs dans la file dattente avant
ceux de lautre minimum.
154
Annexe B
Calibration de la camra
Annexe B
Calibration de la Camra
Dans cette annexe nous allons dcrire le modle gomtrique associ au processus de
saisie d'images l'aide d'une camra [Hor95]. Ce modle est caractris par un certain
nombre de paramtres que nous allons estimer par calibration. Le modle le plus utilis
pour modliser une camra est le modle stnop, ce dernier modlise une projection
perspective avec un centre de projection F et un plan image (cf. figure B.1).
Z
Repre
Scne (mire)
Plan
image
v
Y
z
Repre
camra
b(u,v)
repre image
(xc,yc,zc) repre camra
F : centre focale
f distance focale
y
155
Annexe B
Calibration de la camra
B.1
La projection perspective
Un point B de l'espace se projette dans le plan image de la camra suivant une droite
passant par B et le centre focale (centre de projection) F (cf. figure B.1).
Considrons un repre centr sur le centre de projection F et dont l'axe z soit orthogonal au
plan image qu'on appellera repre camra. Soient (x,y,z) les coordonne du point B dans le
repre camra et (xc, yc, zc) les coordonnes, dans le mme repre, du projet de B dans le
plan image.
La projection perspective peut se modliser sous la forme matricielle :
% sxc " % 1 0
#
#
# syc # 0 1
# sz '# 0 0
# c #
# s #0 0
$ ! $+ ( ( *
0 0" % x "
#
0 0 #y
&
1 0 #z
#
1
0 ! #$ 1 !
f
( ()
(B.1)
B.2
Transformation camra/image
Les points image sont mesurs en pixels. Afin de pouvoir crire la matrice de
transformation du repre camra au repre image, nous introduisons les paramtres
suivants : (u0,v0) les coordonnes de F (en pixels) dans le repre image, ku le facteur
d'chelle vertical (pixels/mm) et kv le facteur d'chelle horizontal. La transformation du
repre camra au repre image s'crit alors (pour le point b) :
% su " % ,ku 0
#
#
# sv '# 0 kv
#s # 0
$ ! $+ ( (( 0*
0
0
0
( (
B.3
%x "
u0 " # c
#y
v0 &# c
z
1 ! ## c
() $ 1 !
(B.2)
156
Annexe B
Calibration de la camra
relation entre les coordonnes camra (x,y,z) du point B et les coordonnes image (u,v) du
point b :
% x"
% su " % -u 0 u0 0 " #
#
#
#y
# sv '# 0 -v v0 0 &#
# s # 0 0 1 0 #z
$ ! $+ ( (( * ( ( () ! # 1
$ !
(B.3)
Ic
B.3
Afin de dterminer les paramtres du modle de la camra, nous allons placer devant la
camra une mire (un objet talon) : un ensemble de points dont les coordonnes sont
parfaitement connues dans un repre de la mire qui est diffrent du repre camra (cf.
figure B.1). Chaque point de la mire se projette dans l'image et on mesure ses coordonnes
dans le repre image. La transformation mire/image se dcompose donc en une
transformation mire/camra suivie d'une projection et suivie enfin d'une transformation
camra/image. La transformation mire/camra se compose d'une rotation et d'une
translation :
% x " % r11 r12
#
#
# y '# r21 r22
# z #r r
$ ! $ 31 32
(B.4)
r13 tx "
r23 t y % R T "
'#
r33 t z #$ 0 1 !
0 1!
157
(B.5)
Annexe B
Calibration de la camra
Cette matrice reprsente les paramtres extrinsques de la camra. Ce sont les paramtres
du dplacement rigide entre le repre de la mire et le repre camra.
B.4
La transformation mire/image
Nous pouvons maintenant crire la transformation mire/image sous la forme d'une matrice
(3/4) appele matrice de projection perspective et qui peut se dcomposer comme suit :
% -u r1 .u0r2 -ut x .u0tz "
#
M ' I c & A'# -v r2 .v0r3 -vt y .v0t z
#
r3
tz
$
!
(B.6)
Dans cette formule la matrice A a t crite sous une forme compacte en utilisant la
notation r1 '0r11 r12
r13 1 :
% r1 tx "
#
#r t
A'# 2 y
r t
# 3 z
#0 1
$
!
(B.7)
M est la matrice de projection perspective et elle peut, en gnral, s'crire sous la forme
suivante :
%X"
m13 m14 " #
#Y
m23 m24 &#
Z
m32 m34 ! ##
$1!
(B.8)
Dans cette formule (X,Y,Z) sont les coordonnes du point B dans le repre de la mire.
Cette matrice peut galement s'crire sous une forme plus simple :
% m1
#
M '# m2
#m
$ 3
m14 "
m24
m34 !
(B.9)
158
Annexe B
Calibration de la camra
5r3 'm3
2u 'm &m
2 0 1 3
2v0 'm2 &m3
2
2-u ', m1/m3
22-v ' m2/m3
4 1
2r1 ' - u 0m1 ,u0m3 1
2r2 ' -1 0m2 ,v0m3 1
2 1v
2tx ' -u 0m14 ,u0m34 1
2t ' 1 0m ,v m 1
2 y - v 24 0 34
23tz 'm34
(B.10)
B.5
En utilisant l'quation (A.8) on peut crire les coordonnes image d'un point de la scne.
On obtient :
u'
(B.11)
v'
(B.12)
159
Annexe B
Calibration de la camra
%
#
# X i Yi
#0 0
#
#
$
Zi
X i Yi
Zi
0 ,ui X i
1 ,vi X i
,uiYi
,viYi
% m11 "
#
# m12
#m
# 13
# m14
% 6"
"#
m21 #
#
,ui Zi
#u m
&# m22 '# i 34
vi m34
,vi Zi #
# m23 ## 6
$
!
!#
m24
#
# m31
#m
## 32
$ m33 !
(B.13)
ou bien:
(B.14)
K 2n!11.x11 u2n
Le systme dfini par l'quation (B.13) est un systme homogne : afin d'obtenir une
solution non triviale on fixe le paramtre m34=1. Ce faisant, on fixe arbitrairement la
translation tz entre le repre de la mire et la camra 1. Ceci introduit un inconvnient. En
effet, les paramtres du modle de la camra ne sont calculs qu' un facteur multicatif
prs, soit tz=m34.
Pour rsoudre ce problme, nous avons choisi une mthode d'estimation lgrement
diffrente de celle prsente dans l'quation (B.13). Il s'agit de la mthode dite de
"Faugeras-Toscani".
En calculant explicitement les coefficients de M en fonction des matrices qui la composent
(Ic et A) on trouve la relation suivante :
m3
2
2
2
m31
" m32
" m33
1
(B.15)
En utilisant cette contrainte, on peut rcrire l'quation (B.13) sous une forme diffrente:
B2n!9 x9 "C2n!3 x3 0
(B.16)
avec
B2n!9
(
&
& X i Yi
&0 0
&
&
'
Zi
0
1
0
*
0 0
X i Yi
*
0
Zi
%
#
0 )ui #
1 )vi #
#
#
$
C2n!3
(
&
& )ui X i
& )v X
& i i
&
'
*
)uiYi
)viYi
*
%
#
)ui Zi #
)vi Zi #
#
#
$
On dcompose par ailleurs x11 en deux inconnues (cette fois-ci on intgre m34 comme
inconnue) :
160
Annexe B
Calibration de la camra
x9 +m1 m14
m2
m34 ,
m24
et
x3 +m3 ,
(B.17)
(B.18)
Minimiser Q revient dterminer les zros de ses drives suivant x3 et x9, on obtient alors
deux quations:
1 2Q Bt Bx " BtCx 0
9
3
.. 2x9
0 2Q
.
C tCx3 "C t Bx9 )-x3 0
./ 2x3
(B.19)
d'o on obtient :
1 x ) Bt B )1BtCx
3
. 9
.
0 Dx3 -x3
.
)1 t
t
t
t
. D C C -C B B B B C
/
(B.20)
D est une matrice symtrique dfinie positive, elle a donc des valeurs propres relles et
positives. x3 est dtermin par le vecteur propre associ la plus petite valeur propre - de
D.
La dtermination des paramtres mij doit donc suivre l'algorithme suivant :
1. Calculer les valeurs propres de D.
2. Choisir la plus petite des valeurs propres - pour minimiser le critre Q.
3. Obtenir le vecteur propre qui lui est associ, puis le normaliser pour ainsi obtenir x3
avec x3 1 .
4. Puis calculer x9 partir de la premire quation de (B.20).
La matrice M est donc compose des valeurs extraites de x3 et x9. Etant donn que le signe
de x3 n'est pas dfini, on a deux solutions, M et M. On peut en choisir une parmi ces
solutions en utilisant le fait que l'objet de calibration se trouve devant la camra et non pas
derrire la camra. Dans ce cas on doit avoir m34=tz>0.
161
Annexe C
Indices anthropomtriques
Annexe C
Indices anthropomtriques
Le tableau C.1 prsente les diffrentes proportions utilises par Farkas [Eld06]
162
Annexe C
Indices anthropomtriques
Annexe C
Indices anthropomtriques
Le tableau C.1 prsente les diffrentes proportions utilises par Farkas [Eld06]
162
Rfrences
[Adi97]
[And97]
[Ben03]
[Ben05]
[Ben06]
[Bel97]
[Bel05]
[Bes92]
P.J. Besl, N.D. McKay. A Method for Registration of 3-D Shapes, IEEE
Trans. Pattern Anal. Mach. Intell., 14(2) :239{256, ISSN 0162-8828. 1992.
[Beu79]
[Beu00]
[Bio04]
http://www.biosecure.info/
[Bla01]
163
[Bla02]
[Bla03]
[Bow06]
K.W. Bowyer et al. A survey of approaches and challenges in 3D and multimodal 3D + 2D face recognition. Computer Vision and Image
Understanding 101; 115; 2006.
[Bra00]
[Bra05]
[Bro01]
[Bro03]
[Bru88].
[Bru93]
[Car95]
[Cha97]
[Cha99]
[Cha03]
[Che04]
[Chu97]
[Chu00]
C.S. Chua, F. Han, Y.K. Ho. 3D human face recognition using point
signature. In: Proc. 4th IEEE Internat. Conf. on Automatic Face and Gesture
Recognition (FG 2000) Grenoble, France, March, pp. 233238, 2000.
164
[Coc95]
[CNN02]
[Com60]
[Coo96]
T.F. Cootes and C.J. Taylor. Locating Faces Using Statistical Feature
Detectors. Proc. Second Intl Conf. Automatic Face and Gesture
Recognition, pp. 204-209, 1996.
[Coo01]
T.F. Cootes, G.J. Edwards, C.J. Taylor, Active appearance models, IEEE
Trans. Pattern Anal. Mach. Intell. 23 (6), 681685, 2001.
[Coo04]
[Cos02]
N.P. Costen, T.F. Cootes, C.J. Taylor. Compensating for ensemble specific
effects when building facial models, Image Vision Comput. 20 673682,
2002.
[Cri04]
[Dau99]
[DeC98]
[Dig78]
[Dem77]
[DeS95]
[Des04]
[DiZ86]
[Dud01]
R.O. Duda, P.E. Hart, and D.G. Stork, Pattern Classification, second ed.
John Wiley & Sons, 2001.
165
[Duf05]
[Dui95]
[Edl06]
[ECU]
http://www.some.ecu. au/~sphung.
[Ela01]
[Far80]
[Far87]
[Fau93]
[Fer01]
R. Fraud, O.J. Bernier, J.E. Viallet, M. Collobert. "A Fast and Accurate
Face Detector Based on Neural Networks," IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 23, no. 1, pp. 42-53, January, 2001.
[FRGC02]
[Fu81]
S.K. Fu, J.K. Mu. A survey on image segmentation. Pattern Recognit. 13(1),
3-16, 1981.
[Gar99]
[Gar04]
[Gok05]
[Gom02]
[Gre01]
166
[Gro02]
[Gro01].
[Hal99]
[He05]
[Hei01]
[Hes03]
[Hes04a]
[Hes04b]
[Hor95]
[Hor97]
[Hrd39]
[Hsu02]
[Hu89]
[Hua03]
[Hus05]
[IBG]
167
[Irf04]
[Isa56]
[IV2]
[Jai82]
[Jai87]
[Jai04]
[Jen98]
[Jon99]
[Jon02]
[Jun04]
H.C. Jung, B.W. Hwang, S.W. Lee. Authenticating corrupted face image
based on noise model, Proceedings of the Sixth IEEE International
Conference on Automatic Face and Gesture Recognition, 2004, 272pp.
[Kak04]
[Kak06]
[Kan73]
[Kel70]
[Kep02]
[Kim03]
168
[Koh97]
[Kot97]
[Lad93]
[Lan95]
[Law97]
[Le04]
H.S. Le, H. Li. Recognizing frontal face images using hidden Markov
models with one training image per person, Proceedings of the 17th
International Conference on Pattern Recognition (ICPR04), vol. 1, pp. 318
321, 2004.
[Lee96]
T.S. Lee, Image representation using 2-d Gabor wavelets, IEEE Trans.
Pattern Anal. Mach. Intell. 18 (10) 959971, 1996.
[Lee02]
J.Y. Lee, S. I. Yoo. An elliptical boundary model for skin color detection. In
Proc. of the International Conference on Imaging Science, Systems, and
Technology, 2002.
[Lee05]
[Li99]
S.Z. Li, J. Lu. Face recognition using the nearest feature line method, IEEE
Trans. Neural Networks 10 (2) 439443, 1999.
[Li04]
S.Z. Li, Z.Q. Zhang. FloatBoost Learning and Statistical Face Detection,
PAMI(26), No. 9, pp. 1112-1123, 2004.
[Li05]
[Lin99]
[Liu00]
169
[Lu03]
[Man92]
[Mar01]
A. Martinez, A.C. Kak. PCA versus LDA. IEEE Trans. Pattern Anal. Mach.
Intell. 23 (2) 228233, 2001.
[Mar02]
[Mar03]
[Mar98|
[Mes99]
[Mog97]
[Mor03]
[Nik98]
[Oja02]
[Oli61]
[OTo93]
[Ots79]
[Pee03]
[Pen94]
170
[Pen96]
[Per96]
[Phi98a]
[Phi98b]
[Phi00]
[Phi03]
[Phi07]
P.J. Phillips, and al. FRVT2006 and ICE2006 Large Scale Results. NIST
Report, March 2007
[Por00]
[Pra07]
[Pri05]
J.R. Price, R.Jeffery, T.F. Gee, F. Timothy. Face recognition using direct,
weighted linear discriminant analysis and modular subspaces, PR(38), No.
2, pp. 209-219, February 2005.
[Rau91]
S.J. Raudys, A.K. Jain, Small sample size effects in statistical pattern
recognition: recommendations for practitioners, IEEE Trans. Pattern Anal.
Mach. Intell. 13 (3) 252264, 1991.
[Riz98]
[Roe 98]
[Row98]
[Sam93]
[Sam94]
171
[Sch00a]
[She81]
J.W. Shepherd, G.M. Davidies, H.D. Ellis, Studies of cue saliency, in: G.M.
Davies, H.D. Ellis, J.W. Shepherd (Eds.), Perceiving and Remembering
aces, Academic Press, London, UK, 1981.
[Sim02]
[Sin94]
[Sin95]
[Sin06]
[Sir87]
[Sne05]
[Sob96]
[Sob98]
[Soh06]
[Tan06]
[Tan05]
172
[Ter98a]
[Ter98b]
[Tur91]
[Tsa87]
[Tsa95]
[Tsa04]
[Ver04]
[Vet97]
[Vez03]
[Vin91]
[Vio01]
[Vis05]
[Wan02]
Y. Wang, C. Chua, and Y. Ho. Facial feature detection and face recognition
from 2D and 3D images. Pattern Recognition Letters, 23:11911202, 2002.
[Wan03]
173
[Wan05]
[War89]
[Wis97]
[Wu02]
J. Wu, Z.-H. Zhou. Face recognition with one training image per person,
Pattern Recognition Lett. 23 (14) (2002) 17111719.
[Yan94]
[Yan98a]
[Yan98b]
[Yan99]
M.H. Yang, N. Ahuja. Gaussian Mixture model for human skin color and its
application in image and video databases, Proceedings of SPIE: Conference
on Storage and Retrieval for Image and Video Databases, vol. 3656, pp.
458466, 1999.
[Yan02]
[Yan04]
[Yow97]
[Yui92]
[Xu06]
Z. Xu, M. Zhu. Color-based skin detection: survey and evaluation. MultiMedia Modelling Conference Proceedings, 2006 12th International.
Hangzhou, China; 2006.
[Zha97]
[Zha99]
[Zig02]
174