Vous êtes sur la page 1sur 144

Ministre de l'enseignement suprieur et de la

recherche scientifique

Ecole nationale suprieure dinformatique (ESI- EX INI)
En collaboration avec le
Centre de recherche des technologies avances
(CDTA)
Alger



Mmoire de fin d'tude

Pour l'obtention du diplme d'ingnieur d'tat en informatique

Option: Systmes informatiques

Thme
Conception et ralisation dune Plateforme de fusion
biomtrique en score base des machines
vecteurs de support (SVM)


Ralis par : M. ROUIDI Houssam



Promotion: 2007/2008



Remerciements



Nos remerciements et nos profondes gratitudes vont nos promoteurs
Messieurs HARIZI Farid et BENGHERABI Messaoud pour leur encadrement, leur
suivi et leurs conseils tout au long de cette priode.


Nous remercions aussi Monsieur le directeur du centre de recherche des
technologies avances CDTA de nous avoir accueilli ainsi que tout le personnel
quon a eu la chance de ctoyer.


Nous tenons aussi remercier mesdames et messieurs les membres du jury
pour leur prcieux temps accord ltude de notre mmoire.


Nos remerciements et notre gratitude vont aux professeurs et enseignants de
lINI ainsi que ses tudiants, en particulier ELHADDAD Mohamed, et son
personnel ctoys tout au long de notre cursus universitaire.


Que toute personne ayant uvr de prs ou de loin la ralisation de ce projet
par une quelconque forme de contribution, trouve ici le tmoignage de notre
plus profonde reconnaissance.


Abrviations
DCT : Discret Cosine Transform.
EER : Equal Error Rate.
FAR : False Acceptation Rate.
FRR : False Rejection Rate.
TFR : Taux de Faux Rejet.
TFA : Taux de Fausse Acceptation.
GMM : Gaussian Mixtures Models.
ORL : Olivetti Research Laboratory.
EM : Expectation Maximization.
MFCC : Mel-Frequencies Cepstral Coefficients.
VAD : Voice Activity Detection.
VQ : Vector Quantization.
QLQ: Quadric-Line-Quadric.
LBG : Linde, Buzo et Gray
ROC: Receiver Operating Characteristic
UBM: Universal Background model
FA: Fuse Acceptation
FR : Faux rejet
FFT : Fast Fourrier Transform.
RAL : Reconnaissance du locuteur.
iDCT : inverse Discret Cosine Transform.
HMM : Hidden Markov Model.
MV : Maximum de Vraisemblance.
RNV : Les Rseaux de Neurones Virtuels.
MLP : Multi-Layer Perceptron.
TID : Taux dIdentification
SVM : Support vector machines


Liste des figures
Figure I.1 : architecture dun systme biomtrique .................................................................8
Figure I.2 : Comparaison ente techniques biomtriques ......................................................11
Figure I.3 : distribution de scores ..........................................................................................12
Figure I.4 : la courbe ROC ....................................................................................................13
Figure I.5 : niveaux de fusion dans les systmes multimodaux .............................................15
Figure II.1 : Structure gnrale dun systme VAL ................................................................23
Figure II.1 : visualisation d'un signal de parole .....................................................................26
Figure II.2 : filtre de praccentuation ....................................................................................27
Figure II.3 : comparaison entre la fentre de Hamming et Blackman ....................................30
Figure II.4 : lchelle Mel .......................................................................................................32
Figure II.5: Calcul des coefficients MFCC .............................................................................33
Figure III.1 : Processus dun systme de reconnaissance de visages .................................37
Figure III.2 : Distribution frquentielle des coefficients DCT [38] ...........................................47
Figure III.3 : Schma du parcours dune matrice en zigzag ..................................................49
Figure IV.1 : Exemple d'utilisation du mlange. ....................................................................55
Figure IV.2 : Diffrentes approches de calcul du modle UBM .............................................58
Figure V.1 : Configuration de 3 points par les droites de 2 .................................................63
Figure V.2 : Donnes linairement sparables .....................................................................65
Figure V.3 : Vecteurs de support ..........................................................................................66
Figure V.4 : Sparation par un noyau linaire .......................................................................69
Figure V.5 : Sparation par un noyau polynomial .................................................................70
Figure V.6 : sparation de donnes non linairement sparable par un noyau RBF .............71
Figure VI.1 : Architecture du systme ...................................................................................78
Figure VI.2 : Diagramme de squence en mode Apprentissage ...........................................80
Figure VI.3 : Diagramme de squence en mode vrification .................................................81
Figure VI.4: Diagramme de squence en mode identification ...............................................82
Figure VI.4 : Interaction entre les classes en mode Apprentissage .......................................85
Figure VI.5 : Interaction entre les classes en mode Test ......................................................85
Figure VI.6 : Visualisation dun signal vocal ..........................................................................92
Figure VI.6 : Acquisition dune image partir de la WebCam ...............................................92
Figure VII.6 : linarit de la sparation ............................................................................... 109
Figure VII.9 : Distribution des scores clients et imposteurs ................................................. 111
Figure B.1 : Exemple dhistogramme dune image [20] ...................................................... 127
Figure B.2 : Exemple de normalisation dhistogramme [20] ............................................... 129
Figure B.3 : Exemple dgaliseur dhistogramme ............................................................... 130
Figure B.4 : Exemple de filtre moyenne [17] ...................................................................... 131
Figure B.5 : Exemple de filtre gaussien [17] ...................................................................... 132
Figure B.6 : Exemple de filtre Mdian [20] ........................................................................ 133
Figure B.7 : Exemple du filtre de Nagao [18] ..................................................................... 133




Liste des tableaux


Tableau V.1 : comparaison entre les trois algorithmes .........................................................75
Tableau VI.1 : Implmentation du module VOICE ................................................................88
Tableau VI.2 : Implmentation du module FACE ..................................................................88
Tableau VI.3 : implmentation du module GMMModlisation ...............................................89
Tableau VI.4 : implmentation du module StatisticsTools .....................................................90
Tableau VI.5 : implmentation du module FUSION ..............................................................91
Tableau VII.1 : gnration des scores pour la base TIMIT de 40 personnes ........................97
Tableau VII.5 : Configurations du classificateur SVM ......................................................... 101
Tableau VII.6 : EER et taux didentification ......................................................................... 101
Tableau VII.7 : EER et taux didentification ......................................................................... 102
Tableau VII.8 : EER et taux didentification ......................................................................... 103
Tableau VII.12 : EER pour le classificateur SVM ................................................................ 108
Tableau VII.13 : EER et taux didentification ....................................................................... 110
Tableau VII.14 : EER et taux didentification ....................................................................... 111
Tableau VII.15 : EER aprs diffrentes fusion et normalisations ........................................ 112
Tableau VII.16 : EER pour le classificateur SVM ................................................................ 113




Sommaire
Introduction gnrale : .........................................................................................................1
Chapitre I : Gnralits sur la biomtrie et les systmes biomtriques ...........................3
I.1 Gnralits sur la biomtrie : .............................................................................................4
I.1.1 Introduction : ...............................................................................................................4
I.1.3 Domaines dapplication : .............................................................................................5
I.2 Les systmes biomtriques : .............................................................................................6
I.2.1Dfinition : ....................................................................................................................6
I.2.2 Architecture dun systme biomtrique :[3] ..................................................................7
I.2.3 Types de systmes biomtriques :[4] ..........................................................................8
I.2.3.1 Systmes comportementaux : ..............................................................................8
I.2.3.2 Les systmes morphologiques : ...........................................................................9
I.2.4 Comparaison entre les types de systmes biomtriques : .........................................10
I.2.5 Evaluation et performances des systmes biomtriques : .........................................11
I.2.5.1 Performance dun systme didentification :[4] .......................................................11
I.2.5.2 Performances dun systme de vrification : .......................................................12
I.2.6 Systmes biomtriques multimodaux : ......................................................................13
I.2.6.1 Pourquoi la multimodalit ? ................................................................................13
I.2.6.2 Niveaux de fusion : .............................................................................................14
I.2.6.3 Mthodes et techniques de fusion : ....................................................................16
I.2.6.4 Fusion base des mthodes non paramtriques :[9].........................................17
I.2.6.4.1 Fusion en dcision :.................................................................................................. 17
I.2.6.4.2 Fusion en score : ...................................................................................................... 17
I.2.6.5 Fusion base des mthodes paramtriques : ....................................................18
I.2.6.5.1 Fusion en dcision :.................................................................................................. 19
I.2.6.5.2 Fusion en score : ...................................................................................................... 19
I.2.7 Normalisation des scores :[15] ..................................................................................19
I.2.7.1 Normalisation Min-Max : .....................................................................................20
I.2.7.2 Normalisation Z-score :.......................................................................................20
I.3 Conclusion :.....................................................................................................................20
Chapitre II : Reconnaissance automatique du locuteur...................................................22
II.1 Introduction : ...................................................................................................................23
II.2 Structure gnrale dun systme de vrification du locuteur : .........................................23
II.3 Analyse acoustique et extraction des paramtres : .........................................................24



II.3.1Introduction : .............................................................................................................24
II.3.2 Production de la parole et acquisition du signal : ......................................................24
II.3.3 Prtraitement : ........................................................................................................26
II.3.3.1 Dcoupage en trames : .....................................................................................26
II.3.3.2 Praccentuation :...............................................................................................27
II.3.3.3 limination du silence : ......................................................................................28
II.3.3.4 Fentrage : ........................................................................................................29
II.3.4 Extraction des paramtres :[17]................................................................................31
II.3.4.1 Analyse cepstrale : ............................................................................................31
II.3.4.2 Filtrage Mel: .......................................................................................................31
II.3.4.3 Paramtres MFCC : ...........................................................................................32
II.3.5 Paramtres dynamiques : ........................................................................................33
II.3.6 Post-traitement : .......................................................................................................33
II.4 Conclusion :....................................................................................................................34
Chapitre III : Reconnaissance de visages .........................................................................35
III.1 Introduction : ..................................................................................................................36
III.2 Motivation : (pourquoi la reconnaissance de visages ?) ................................................36
III.3 Processus de reconnaissance de visages : ...................................................................37
III.3.1 Le monde physique : (Lextrieur) ...........................................................................38
III.3.2 LAcquisition de limage : .........................................................................................38
III.3.3 Les prtraitements : ................................................................................................38
III.3.4 Lextraction de paramtres : ....................................................................................38
III.3.5 La classification : (Modlisation)..............................................................................39
III.3.5 Lapprentissage: ......................................................................................................39
III.3.6 La dcision : ............................................................................................................39
III.4 Approches utilises dans les systmes de reconnaissance de visages : ......................39
III.4.1 Les approches globales :[7] ....................................................................................39
III.4.1.a Lanalyse en Composantes Principales (PCA) : ................................................40
III.4.1.b Lanalyse Discriminante Linaire (LDA) : .........................................................40
III.4.1.c Les rseaux de neurones (RNA) : .....................................................................41
III.4.1.d Mlange de gaussiennes (GMM) : ...................................................................41
III.4.1.e Lapproche statistique et lapproche probabiliste: ..............................................41
III.4.2 Les approches locales : ..........................................................................................42
III.4.2.a Hidden Markov Models (HMM): ........................................................................42
III.4.2.b Eigen objects (EO): ..........................................................................................42



III.4.2.c LElastic Bunch Graph Matching (EBGM): ........................................................43
III.4.2.d Lappariement de gabarits: ..............................................................................43
III.4.3 Les approches hybrides : .....................................................................................43
III.5 La transforme en cosinus discrte : (DCT) ...................................................................44
III.5.1 Introduction : ..........................................................................................................44
III.5.2 historique : .............................................................................................................44
III.5.3 Motivation : (Pourquoi la DCT ?) ............................................................................44
III.5.4 Dfinition : ..............................................................................................................44
III.5.5 Principe et formulation :..........................................................................................45
III.5.5.1 La DCT une dimension : ...................................................................................45
III.5.5.2 La DCT deux dimensions :............................................................................46
III.5.6 Proprits de la DCT : ............................................................................................46
III.5.6.1 Dcorrlation : .................................................................................................46
III.5.6.2 Compression dinformations : ..........................................................................47
III.5.6.3 Sparabilit : ...................................................................................................47
III.5.6.4 Symtrie : ........................................................................................................47
III.5.6.5 Orthogonalit : .................................................................................................48
III.6 Conclusion:....................................................................................................................49
Chapitre IV : Modlisation GMM ........................................................................................50
VI.1 Introduction : .................................................................................................................51
VI.2 Motivation :....................................................................................................................51
VI.3 Modlisation par Mlanges de Gaussiennes GMM :.....................................................51
VI.3.1 Dfinition : ..............................................................................................................51
VI.3.2 Modle du mlange : ..............................................................................................51
VI.3.3 Apprentissage du Modle : .....................................................................................52
VI.3.4 Estimation du modle GMM par EM : .....................................................................52
VI.5 Dcision : ......................................................................................................................55
VI.5.1 Identification : .........................................................................................................55
VI.5.2 Vrification : ............................................................................................................56
VI.5.3 Modlisation des imposteurs par GMM : .................................................................57
IV.5 Conclusion : .................................................................................................................58
Chapitre V : Classification par les machines vecteurs de support (SVM) ...................59
V.1 Introduction : ..................................................................................................................60
V.2 Thorie des Machines Vecteurs de Support :[29] ........................................................60
V.2.1 Formulation :............................................................................................................60



V.2.2 Minimisation du risque structurel : ............................................................................60
V.2.3 Dimension Vapnik-Chervonenkis : ...........................................................................62
V.2.4 Classification binaire par hyperplan : .......................................................................63
V.2.5 Cas de donnes linairement sparables : ..............................................................64
V.2.6 Cas de donnes non-linairement sparables : .......................................................66
V.2.7 Les fonction Noyaux : ..............................................................................................68
V.2.7.1 Introduction du noyau : ......................................................................................68
V.2.7.2 Condition de Mercer : ........................................................................................69
V.2.7.3 Exemples de noyaux : .......................................................................................69
V.3 Rsolution du problme li lapprentissage dune machine vecteurs de support : ....71
V.3.1 Les condition KKT :[40][29] ......................................................................................72
V.3.2 Algorithme dapprentissage du SVM : ......................................................................72
V.3.3 La mthode Chunking : ............................................................................................73
V.3.4 La mthode de dcomposition : ...............................................................................74
V.3.5 La mthode dOptimisation Squentielle Minimale (SMO) :[40]................................74
V.3.6 Comparaison entre les trois mthodes :...................................................................75
V.4 Conclusion : ...................................................................................................................75
Chapitre VI : Conception et ralisation .............................................................................76
VI.2 Conception (Architecture du systme): .........................................................................77
VI.2.1 Phase dApprentissage : .........................................................................................79
VI.2.3 Phase de test : ........................................................................................................80
VI.2.3.1 Vrification : .....................................................................................................80
VI.2.3.2 Identification : ...................................................................................................81
V.2.4 Structure gnrale du systme : ..............................................................................82
VI.2.4.1 module dacquisition : .......................................................................................82
V.2.4.2 module de modlisation : ..................................................................................82
VI.2.4.3 Module denregistrement: ................................................................................84
VI.2.4.4 Module de normalisation : ...............................................................................84
VI.2.4.5 Module de fusion : ............................................................................................84
VI.2.4.6 Module SVM :...................................................................................................84
VI.2.5 interaction entre les modules du systme : .............................................................84
VI.2.5.1 Interaction en mode apprentissage : ................................................................84
VI.2.5.2 Interaction en mode Test : ................................................................................85
VI .3 Implmentation et ralisation du systme : ..................................................................86
VI.3.1 Outils de tests : .......................................................................................................86



VI.3.2 Outils de dveloppement : ......................................................................................86
VI.3.3 Implmentation du systme : ..................................................................................87
VI.3.3.1 Le module VOICE: ...........................................................................................87
VI.3.3.2 Le module FACE : ............................................................................................88
VI.3.3.3 Le module GMMModlisation : .........................................................................89
VI.3.3.4 Le Module StatisticTools : ................................................................................89
VI.3.3.5 Le module FUSION : ........................................................................................90
VI.3.4 Prsentation de lapplication : .................................................................................91
VI.4 Conclusion : ..................................................................................................................93
Chapitre VII : Test et valuation des rsultats ..................................................................94
VII.1 Introduction : ................................................................................................................95
VII.2 Donnes utilise pour raliser les tests : ......................................................................95
VII.3 Protocole dvaluation : ................................................................................................96
VII.4.1 reconnaissance monomodale : ............................................................................ 101
VII.4.1.1 reconnaissance de locuteur pour la base TIMIT de 100 personnes : ............. 101
VII.4.1.2 reconnaissance de locuteur pour la base TIMIT de 40 personnes : ............... 102
VII.4.1.3 reconnaissance de visages pour la base ORL de 40 personnes : ................. 103
VII.4.2 reconnaissance bimodale pour la base TIMIT-ORL de 40 personnes : ................ 104
VII.4.3 reconnaissance bimodale avec la mthode SVM : ............................................... 107
VII.4.4 Conclusion des tests sur TIMIT-ORL : ................................................................. 109
VII.4.5 Test sur une base relle : .................................................................................... 109
VII.4.6.1 Reconnaissance de locuteur : ....................................................................... 110
VII.4.6.2 Reconnaissance de visages : ........................................................................ 111
VII.4.6.3 Reconnaissance bimodale : .......................................................................... 111
VII.4.6.4 Conclusion des tests : ................................................................................... 113
VII.5 Conclusion : ............................................................................................................... 113
Conclusion Gnrale : ..................................................................................................... 114
Bibliographie .................................................................................................................... 116
Annexes ............................................................................................................................ 119
Lalgorithme EM (Expectation-Maximisation) ..................................................................... 120
Gnralits sur le traitement dimages ............................................................................... 126


Introduction gnrale
1

Introduction gnrale :
Dans un monde o la scurit des individus est devenue un souci majeur, le besoin
de se protger augmente jour aprs jour. En effet, vu le dveloppement permanent et
important de la socit dans tous ces aspects, les outils de surveillance et de contrle
classique savoir ceux relatifs la mthode base sur la connaissance tel que le mot de
passe ou bien base sur la possession tels que les badges, les pices didentits, cls,
savrent inefficaces.
En effet, ces diffrents laissez-passer peuvent tre perdus ou mme vols. Dans le cas
du mot de passe, celui-ci peut facilement tre oubli par son utilisateur ou bien devin par
une autre personne. De plus ces mots de passes sont souvent archivs dans un bureau par
lorganisation, or ceci est une faille certaine dans le systme de scurit.
Pour pallier ces diffrents problmes dinefficacit et de non scurit, lhomme a fait
rfrence une nouvelle technique de reconnaissance qui a fait son apparition et ne cesse
de crotre depuis 1997 : il sagit des contrles daccs par les systmes biomtriques.
La biomtrie est en effet une alternative aux deux prcdents modes didentification
(connaissance, possession). Elle consiste identifier une personne partir de ses
caractristiques physiques ou comportementales. Le visage, les empreintes digitales, liris,
sont des exemples de caractristiques physiques. La voix, lcriture, le rythme de frappe sur
un clavier, etc. sont des caractristiques comportementales. Lavantage principal de cette
technique est que ces caractristiques sont propres chaque individu et ne souffrent donc
pas des faiblesses des mthodes bases sur une connaissance ou une possession. En effet,
un attribut physique ou comportemental ne peut tre oubli ou perdu et sont trs difficiles
deviner, voler et dupliquer.

Si autrefois, ces mthodes taient surtout utilises par les services de scurit tel que la
police, aujourdhui un individu a besoin dtre identifi dans une multitude de contextes
essentiellement ceux dont la scurit est ncessaire. Pour cela, diffrentes techniques
dauthentifications bases sur les caractristiques physiques de lutilisateur ont t
dveloppes, ceci a donn lieu la naissance de plusieurs produits que lon peut trouver
sur le march.


Introduction gnrale
2


Dans ce travail, on essayera de dvelopper un systme de fusion biomtrique en scores
bas sur la reconnaissance du visage et la voix, cest un systme trs rpandu au monde
grce sa simplicit et son efficacit. En effet, le visage et la voix sont certainement les
caractristiques biomtriques que lon utilise le plus naturellement pour sidentifier. Le but
dun systme de reconnaissance bimodale de visages et de voix est dautomatiser certaines
applications telles que la tlsurveillance, laccs des endroits scuriss, etc.

Pour automatiser cette fusion, plusieurs mthodes et approches ont t adoptes pour
la fusion en scores. A titre dexemple, les mthodes de fusion fixes qui nont pas besoin
dapprentissage mais qui souffre galement de souplesse car ces mthodes traitent les
scores dune manire indiffrente. Lobjectif de notre travail est de dvelopper et
implmenter une mthode rcente de fusion en score intitule Classificateur large
marge SVM. Cette approche a prouv son supriorit dans le domaine de la classification
automatique [40] car et avant tout il sagit dune mthode de fusion dite entraine, cela veut
dire que la classification par cette dernire tient compte dun apprentissage supervis qui
laide adapter son systme lenvironnement o elle opre, ensuite, elle bnficie dune
thorie de minimisation du risque structurel qui garantie une gnralisation sur un ensemble
de donnes diffrent de celui qui a servi pour lapprentissage. Le prsent mmoire est
organis comme suit :

Dans le premier chapitre, nous donnerons des notions gnrales sur la biomtrie et les
systmes de reconnaissance dindividus ainsi sur les systmes biomtriques multimodaux.
Dans le second, nous exposerons la reconnaissance automatique du locuteur en se
concentrant sur les techniques spcifiques pour la voix (MFCC). Ensuite, dans le troisime
chapitre, nous parlerons galement de la reconnaissance de visages en mettant en relief la
DCT qui nous fournit les donnes essentielles pour authentifier un visage. Aprs, le
quatrime chapitre portera sur la modlisation GMM utilise dans les deux systmes
prcdents, suivie de la partie conception du systme dans le cinquime chapitre. Et enfin,
on prsentera les tests et les rsultats obtenus aprs lvaluation de notre systme dans le
sixime chapitre et on terminera par une conclusion gnrale.














Chapitre I : Gnralits sur la biomtrie et les
systmes biomtriques










Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
4

I.1 Gnralits sur la biomtrie :
I.1.1 Introduction :
Savoir dterminer de manire la fois efficace et exacte lidentit dun individu est
devenu un problme critique dans notre socit. En effet, bien que nous ne nous en
rendions pas toujours compte, notre identit est vrifie quotidiennement par de multiples
organisations : lorsque nous utilisons notre carte bancaire, lorsque nous accdons notre
lieu de travail, lorsque nous nous connectons un rseau informatique, etc. Il existe
traditionnellement deux manires didentifier un individu.
La premire mthode est base sur une connaissance (knowledge-based). Cette
connaissance correspond par exemple au mot de passe utilis au dmarrage dune session
Unix ou au code qui permet dactiver un tlphone portable. La seconde mthode est base
sur une possession (token-based). Il peut sagir dune pice didentit, une clef, un badge,
etc. Ces deux modes didentification peuvent tre utiliss de manire complmentaire afin
dobtenir une scurit accrue. Cependant, elles ont leurs faiblesses respectives. Dans le
premier cas, le mot de passe peut tre oubli par son utilisateur ou bien devin par une autre
personne. Dans le second cas, le badge (ou la pice didentit ou la clef) peut tre perdu ou
vol.
La biomtrie est une alternative aux deux prcdents modes didentification. Elle
consiste identifier une personne partir de ses caractristiques physiques ou
comportementales. Le visage, les empreintes digitales, liris, etc. sont des exemples de
caractristiques physiques. La voix, lcriture, le rythme de frappe sur un clavier, etc. sont
des caractristiques comportementales. Ces caractristiques, quelles soient innes comme
les empreintes digitales ou bien acquises comme la signature, sont attaches chaque
individu et ne souffrent donc pas des faiblesses des mthodes bases sur une connaissance
ou une possession. En effet, un attribut physique ou comportemental ne peut tre oubli
mais il risque de changer lgrement avec le temps.
I.1.2 Dfinition :

La biomtrie est un ensemble de procds automatiss de reconnaissance des
caractristiques morphologiques, biologiques et comportementales, cest la rencontre entre
des techniques numriques, des donnes biologiques du corps humain et un impratif de la
socit contemporaine : identifier facilement et srement des personnes , en effet, le terme
biomtrie est un anglicisme drivant du terme biometrics. [1]
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
5

Autre dfinition stipule que le mot franais biomtrie dfinit ltude mathmatique des
variations biologiques lintrieur dun groupe dtermin.
Chaque caractristique biomtrique est appele modalit, ainsi, un systme biomtrique
bas sur une modalit est dit monomodal, un autre bas sur plusieurs caractristiques est
appel multimodal.
Gnralement, on distingue trois catgories de mthodes de reconnaissance biomtriques :
1. les mthodes bases sur les caractristiques comportementales : la dynamique de la
signature, la frappe sur un clavier, la manire de marcher etc.
2. les mthodes bases sur les caractristiques morphologiques : empreintes digitales,
forme de la main, la rtine, liris etc.
3. les mthodes bases sur les caractristiques biologiques : ADN, salive et odeur.
Quant au mode de fonctionnement dun systme biomtrique, on distingue :
1. identification : procd permettant de dterminer lidentit dune personne dans un
groupe fini. Cest la rponse la question : qui est cette personne ? le systme
reoit lchantillon biomtrique quil le compare tous les chantillons stocks dans
la base de donnes biomtrique, sil y a correspondance, lidentit de lutilisateur est
tablie.
2. Authentification (vrification) : procd permettant de vrifier lidentit dune
personne. cest la rponse la question : est-ce que cette personne est X ? Il
comprend deux tapes : premirement, lutilisateur fournit un identifiant (id) au
systme qui reprsente une identit proclame. Ensuite, lutilisateur fournit son
chantillon qui va tre compar seulement lchantillon correspondant lutilisateur
(id) contenu dans la base de donnes du systme, sil y a correspondance,
lutilisateur est bien celui qui prtend ltre.

I.1.3 Domaines dapplication :

On peut distinguer quatre grands types dapplications de la biomtrie : le contrle
daccs (access control), lauthentification des transactions (transaction authentification), la
rpression (law enforcement) et la personnalisation (personnalisation).
1. contrle daccs :
Le contrle daccs peut tre lui-mme subdivis en deux sous catgories : le
contrle daccs physique et le contrle daccs virtuel. On parle de contrle daccs
physique lorsquun utilisateur cherche accder un lieu scuris. On parle de contrle
daccs virtuel dans le cas o un utilisateur cherche accder une ressource ou un
service.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
6

2. authentification des transactions :
Lauthentification des transactions reprsente un march gigantesque puisquil
englobe aussi bien le retrait dargent au guichet des banques, les paiements par cartes
bancaires, les transferts de fond, les paiements effectus distance par tlphone ou sur
internent, etc.
Mastercard estime ainsi que les utilisations frauduleuses de cartes de crdit pourraient tre
rduites de 80 % en utilisant des cartes puce qui incorporeraient la reconnaissance des
empreintes digitales [19]. Les 20 % restant seraient principalement dus aux paiements
distance pour lesquelles il existerait toujours un risque. Pour les transactions distance, des
solutions sont dj dployes en particulier pour les transactions par tlphone.
Ainsi, la technologie de reconnaissance du locuteur de Nuance (Nuance VerifierTM [57]) est
utilise par les clients du Home Shopping Network, une entreprise de tlshopping, et de
Charles Schwab.
3. rpression :
Une des applications les plus immdiates de la biomtrie la rpression est la
criminologie. La reconnaissance dempreintes digitales en est lexemple le plus connu. Elle
fut accepte ds le dbut du XXe sicle comme moyen didentifier formellement un individu
et son utilisation sest rapidement rpandue.
Il existe aussi des applications dans le domaine judiciaire. T-Netix [60] propose ainsi des
solutions pour le suivi des individus en libert surveille en combinant technologies de
lInternet et de reconnaissance du locuteur.
4. personnalisation :
Les technologies biomtriques peuvent tre aussi utilises afin de personnaliser les
appareils que nous utilisons tous les jours.
Cette application de la biomtrie apporte un plus grand confort dutilisation.
Afin de personnaliser les rglages de sa voiture, Siemens propose par exemple dutiliser la
reconnaissance des empreintes. [2]
I.2 Les systmes biomtriques :
I.2.1Dfinition :

Un systme de reconnaissance dindividus est un systme qui permet didentification
ou la vrification dune personne sur la base de caractres biomtriques automatiquement
reconnaissables et vrifiables. [1]

Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
7

I.2.2 Architecture dun systme biomtrique : [3]
Chaque systme biomtrique comprend deux phases fonctionnelles :
Apprentissage : cest la phase initiale qui seffectue une seule fois. On commence par une
capture de la caractristique biomtrique. En gnral, cette capture nest pas directement
stocke dans la base de donnes, des transformations lui sont appliques pour construire un
modle qui est une reprsentation compacte de lchantillon. Ce modle a lavantage de
diminuer la quantit des donnes stocker et sera exploit dans la phase de
reconnaissance.
Reconnaissance : Opration se droulant chaque fois quune personne se prsente
devant le systme, elle consiste en lextraction dun ensemble de paramtres comme pour la
phase dapprentissage suivie dune comparaison et de prise de dcision selon le mode
opratoire du systme : identification ou vrification.
Les modules qui peuvent tre intgrs dans un systme biomtriques sont :
Module de capture : a pour but lacquisition des donnes biomtriques.
Module de prtraitement : il formate la caractristique en enlevant les bruits et linformation
superflue.
Module dextraction : des paramtres : extrait linformation qui la juge utile depuis le signal
format.
Module de gnration des modles : il calcule le modle de chaque individu selon
lapproche adopte par le systme et le stocke dans la base de donnes.
Module de prise de dcision : le plus important car il accepte ou refuse le client dans le cas
dune vrification ou il fournit lidentit de la personne prsente dans le cas dune
identification.
Alors, on voit bien que chaque systme dpend systmatiquement des caractristiques
biomtriques, ces dernires, doivent remplir certaines conditions pour le bon fonctionnement
du systme :
Discriminabilit : capacit de diffrencier les personnes sans quivoque.
Invariabilit : pour assurer une bonne performance.
Universabilit : tre applicable tout le monde.
Facilit : pas de calcul complexe pour le systme.
Acceptabilit : moins de contraintes pour le grand public.
Infalsifiabilit : tre difficile usurper.





Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
8



























Figure I.1 : architecture dun systme biomtrique
I.2.3 Types de systmes biomtriques : [4]
Les systmes biomtriques sont gnralement classes dans deux grandes
catgories : les systmes comportementaux (behavioral systems) et les systmes
physiologiques (physiological systems).
I.2.3.1 Systmes comportementaux :
Ils sont bass sur certains comportements comme la dmarche la frappe au clavier etc.
Lcriture (signature) : ces systmes consistent analyser les caractristiques spcifiques
dune signature comme la vitesse, la pression sur le crayon, le mouvement, les points et
intervalles de temps o le crayon est lev, un stylo lectronique ou une tablette graphique
sont souvent utiliss.
Dynamique de frappe au clavier : un systme bas sur cette dynamique ne ncessite
aucun quipement ddi, seulement un ordinateur disposant dun clavier, il sagit dun
dispositif logiciel qui calcule le temps o un doigt effectue une pression sur une touche et le
Test
Apprentissage
Acquisition Prtraitement
Extraction
De
Paramtres
Acquisition Prtraitement
Extraction
De
Paramtres
Base de
donnes
Dcision
Calcul des
modles
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
9

temps o le doigt est dans lair (entre les frappes), aussi, la suite de lettres et la
reconnaissance de mots prcis. Cette mesure est capture environ mille fois par seconde ;
la squence de frappe est prdtermine sous forme un code. Initialement, l client doit
composer son code quelques maintes reprises afin de construire un gabarit de rfrence.
Analyse de la dmarche : laide de techniques psychologiques, ces systmes sont
devenus acceptables et souvent intgrs dans les camras de surveillance.
I.2.3.2 Les systmes morphologiques :
Ce type de systmes est bas sur la reconnaissance de traits physiques particuliers
qui sont uniques et permanentes pour toutes personne.
Empreintes digitales : cest la plus veille technique biomtrique (utilis par les chinois il y a
un millnaire). Elle est base sur le fait que deux personnes ne peuvent avoir plus de huit
minuties (caractristique locale de lempreinte) en commun.
Il existe trois principaux types de systmes de capture des empreintes digitales : optiques,
capacitifs et systmes bas sur les ultrasons. Moyennant ces technologies, plusieurs
caractristiques de lempreinte (boucles, tourbillons, lignes, verticilles) sont localises,
situes les unes par rapport aux autres et enregistres selon plusieurs modles dans une
base de donnes.
Malgr son taux de prcision trs lev, la reconnaissance dindividu par empreintes
digitales est une mthode mal accepte par les utilisateurs cause de lassociation qui est
souvent faite avec la criminologie.
La rtine : les systmes utilisant la rtine tirent leurs performances sur le fait que les veines
sous sa surface sont uniques stables dans le temps, ils ne peuvent tre affects que par
certaines maladies trs rares.
Son principe consiste placer lil de lutilisateur quelques centimtres dun orifice de
capture situ sur le lecteur ddi, il ne doit pas bouger et doit fixer un point vert lumineux qui
effectue des rotations. A ce moment, un faisceau lumineux traverse lil jusquaux vaisseaux
sanguins capillaires de la rtine. Le systme localise et capture ainsi environ 400 points de
rfrence. Cest une technique trs sre mais trs onreuse aussi et exige la coopration
des utilisateurs ce qui la rend mal accepte.
Liris : liris est la rgion annulaire situ entre la pupille et le blanc de lil, ses motifs ne se
forment quau cours des deux premires annes de la vie et elles sont stables et non
modifiables mme par des interventions chirurgicales. Ces systmes sont bass sur la
lecture de limage de liris avec un appareil quip par une camra, ces systmes sont trs
performants, coteux et gnralement mal accepts par le grand public.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
10

La gomtrie de la main : lide de ces systmes consiste placer la main sur un gabarit
clair par une lumire infrarouge pour lacquisition de limage, les caractristiques qui
seront analyses par la suite sont la longueur, la largeur et lpaisseur de la main ainsi, la
forme des articulations et longueurs inter-articulations.
A cause de la taille considrable des capteurs, ces systmes sont peu rpandus et
vulnrables lusurpation.
La voix : la reconnaissance vocale offre lavantage dtre bien accepte par lutilisateur,
quelle que soit sa culture. De plus, elle est trs pratique pour la scurisation dune
transaction tlphonique. On distingue les systmes textes prdtermins (texte
dpendant), o lutilisateur doit rpter un texte et les systmes texte indpendant. La
performance de cette mthode est sujette la qualit du signal, qui dpend de la variabilit
de la voix du locuteur dans le temps comme le cas des maladies (rhume), des tats
motionnels et de lge, des conditions dacquisition, et la qualit des quipements.
Le visage : le visage est certainement la caractristique biomtrique que les humains
utilisent le plus naturellement pour sidentifier entre eux, ce qui peut expliquer sa popularit
et son acceptation par les individus. Dans ce type de systmes, limage du visage est capte
par une camra, les informations juges utiles sont extraites puis sont transformes pour la
reconnaissance. La difficult de la reconnaissance de visages varie normment suivant
lenvironnement de lacquisition, des paramtres tels que larrire-plan, la direction et
lintensit des sources lumineuses, langle de la prise de vue, les distances de la camra au
sujet sont des paramtres cls pour les performances.
I.2.4 Comparaison entre les types de systmes biomtriques :
Chaque technologie biomtrique possde des avantages et des inconvnients sous
forme de compromis, elles noffrent pas les mmes niveaux de scurit ni les mmes
facilits et cots dutilisation mais surtout la mme prcision. La figure 2 illustre une
comparaison intuitive entre diffrents systmes.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
11



Figure I.2 : Comparaison ente techniques biomtriques

I.2.5 Evaluation et performances des systmes biomtriques :
Les performances dun systme de reconnaissance de forme dpendent en gnral
de plusieurs facteurs qui interviennent plusieurs niveaux et qui peuvent affecter la
prcision. Donc, il serait judicieux de sintresser ces facteurs avant de mesurer la
performance. Les principaux facteurs sont cits ci-dessous :
Lenvironnement au moment de lacquisition.
La positions des capteurs.
La qualit des capteurs.
La coopration de lutilisateur.
I.2.5.1 Performance dun systme didentification : [4]
Lune des mesures de performances de systmes didentification la plus importante
est le taux de reconnaissance (identification), pour le calculer, on effectue n fois. Si la
rponse du systme (la personne la plus proche rsultante de la comparaison entre le test et
le base dapprentissage) est juste alors on incrmente le taux et la fin on convertit le
rsultat en pourcentage.
Le taux didentification correct (TIC) est calcul comme suit :


(I.1)


Voix
visage
Signature
Rtine
Iris
Empreintes
digitales
Cot
Prcision
total test de nombre
russi test de nombre
TIC =
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
12

Ainsi, plus ce taux est lev plus le systme est performant en reconnaissance.
Autre mesure autant importante que la prcdente est le temps dexcution car ces
systmes sont des systmes temps rel et sont souvent embarqus.
I.2.5.2 Performances dun systme de vrification :
Un systme de vrification ne peut rpondre, lors dune comparaison entre deux
chantillons que par une probabilit de correspondance appele score. Ce score est en suite
compar un seuil fixe que lon ajuste grce de nombreux tests, si le score est suprieur
au seuil le client est accept sinon le client est considr comme imposteur. Alors, deux
types derreurs peuvent tre commises :
Fausse acceptation (FA) : elle surgit quand le systme accepte un imposteur.
Faux rejet (FR) : cette erreur sera commise quand le systme rejette un client.
Les mesures de performances dun systme de vrification se basent principalement sur le
taux des fausses acceptations et le taux de faux rejets calculs comme le montrent les
formules ci-dessous.

(I.2)


(I.3)
















Figure I.3 : distribution de scores

Seuil de
dcision
Imposteurs
Clients
Scores
Probabilit
FRR FAR
total test de nombre
n acceptatio fausse tests de nombre
FA =
total test de nombre
rejet faux au tests de nombre
FR =
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
13


Pour visualiser la relation qui relie le FR avec Le FA, on construit la courbe ROC
(receiver operating characteristic) en calculant un couple (FA, FR) pour chaque valeur de
seuil de dcision. On voit quils sont inversement proportionnels, le point o FR = FA est
appel EER (taux dgale erreur).
Idalement, un systme de vrification devrait avoir des FA et FR gaux zro.
Malheureusement, dans des conditions relles, ceci nest pas possible, car plus le seuil de
dcision est bas plus le systme acceptera des clients mais ainsi des imposteurs.
Inversement, plus le seuil est lev plus le systme rejettera des imposteurs mais aussi des
clients. Il est donc impossible en variant le seuil de dcision de faire diminuer les deux types
derreur en mme temps, en effet, cest linconvnient majeur des systmes bass sur une
seule modalit.















Figure I.4 : la courbe ROC
I.2.6 Systmes biomtriques multimodaux :
I.2.6.1 Pourquoi la multimodalit ?
Malgr les avancs considrable dans les dernire annes, il reste encore de srieux
dfis pour avoir une authentification fiable travers des systmes biomtriques
monomodaux, Cela est due une varit de causes, par exemple, il y des problmes
denregistrement due la nature non universelle des captures biomtriques, en effet, un
groupe dutilisateurs peut ne pas possder les trais biomtriques capturs et enregistrs
dans la base de donnes du systme. Ainsi, il nest pas difficile de tromper un systme
monomodal, ex. : lutilisation des lentilles avec copies des motifs appropri pour les
systmes de reconnaissance de liris. En outre, lenvironnement bruit affecte lexactitude
EER
Zone de
compromis
Zone de
basse
scurit
Zone de
haute
scurit
FAR
FRR
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
14

des rsultats pour les systmes de reconnaissance du locuteur, les systmes de
reconnaissance du visage dpendent largement des conditions dclairage et de nombre de
pauses devant la camra.
Certaines limitations imposes par les systmes monomodaux peuvent tre franchi
par lutilisation de plusieurs modalits biomtriques, lexactitude leve et la grande
rsistance lusurpation sont les avantages basiques des systmes multimodaux par rapport
aux systmes monomodaux. Les systmes multimodaux entranent lutilisation des
informations complmentaires ce qui rend difficile pour un infiltrant dusurper tous les trais
biomtriques considrs. En plus, le problme de la non universalit est largement dpasse
car les multiples traits assurent une couverture suffisante de la population. Pour ces
avantages, les systmes multimodaux sont prfrs malgr les quantits des donnes
importantes et le temps de calcul lev.
La fusion des informations complmentaires dans les donnes biomtriques
multimodales a t un domaine de recherche intressant car il joue un rle critique dans le
contournement des limitations des systmes monomodaux. Les efforts dans ce domaine
sont principalement concentrs dans la fusion de linformation provenant de diffrentes
modalits indpendantes. Par exemple, une approche populaire consiste un combiner les
modalits faciales et vocales pour avoir une reconnaissance plus fiable. A travers de telles
approches, les informations spares recueillies des diffrentes modalits viennent de
fournir une identit plus vidente pour lutilisateur. Dans ces scnarios, la fusion est
gnralement faite au niveau des scores, car, les modalits individuelles sont sous forme de
matrices de donnes et impliquent diffrentes mthodes de classifications pour la
discrimination. Aujourdhui, beaucoup de mthodes de fusion en scores ont t dveloppes
pour cette tche. Ainsi, on trouve les machines support de vecteurs (SVM) qui, depuis les
donnes dapprentissage, cherchent obtenir les meilleures bornes possibles pour la
classification.
I.2.6.2 Niveaux de fusion :
Les systmes biomtriques multimodaux sont diviss en trois catgories selon le
niveau dintgration des donnes issues de diffrentes modalits, cette intgration connue
sous le nom de fusion est une opration qui consiste runir deux ou plusieurs
caractristiques issues des diffrents processus monomodaux comme le montre la figure I.5
[6] [7]




Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
15


































Figure I.5 : niveaux de fusion dans les systmes multimodaux

1. niveau de fusion en capture
Dans ce niveau, les donnes qui ont la mme caractristique biomtrique issues de
diffrents capteurs sont combines (figure2.1). Un exemple de cette fusion est la capture
simultane dun signal vocal par deux microphones. Bien que la fusion ce niveau amliore
la prcision des systmes de reconnaissance, elle ne peut pas tre utilise dans les
Fusion en
score
Fusion en
paramtres
Fusion en
capture
Fusion en
dcision
Modle
Oui/non
Score
Trouv
Paramtre
Vecteur
Capture 1
Dcision
Extraction
des
paramtres
Appariement
Modle
Oui/non
Score
Trouv
Paramtre
Vecteur
Capture 2
Dcision
Extraction
des
paramtres
Appariement
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
16

systmes multimodaux cause de lincompatibilit des donnes de diffrentes modalits (il y
a une seule modalit).
2. niveau de fusion en extraction des paramtres
Plusieurs vecteurs issus de plusieurs modalits sont combins et sont injects dans lentre
du classificateur, il est mentionn dans [1,2] que la fusion en niveau dextraction des
paramtres a abouti des performances meilleures en comparaison avec la fusion en score.
La raison principale est que le niveau des paramtres est plus riche en information que le
niveau des donnes biomtriques brutes. Cependant, cette fusion nest pas toujours faisable
car dans certain cas les paramtres sont incompatibles entre eux ou la leurs concatnation
conduit une dimension trs leve ce qui rend la tche du classificateur trs lourde.
3. niveau de fusion en score
Couramment, cette fusion est la plus utilise cause de ces performances et simplicit. Les
sorties de plusieurs classificateurs (scores) sont combines et envoyes vers le module de
dcision, ce niveau peut tre divis en deux classes : la combinaison et la classification.
Dans lancienne approche, les diffrents scores sont normaliss puis combins par contre
les approches rcentes combinent directement les scores puis elles procdent une autre
classification (par exemple SVM).
4. niveau de fusion en dcision
Dans cette approche, une dcision spare est prise pour chaque modalit dans un stade
trs tard ce qui affecte srieusement la prcision du systme. Cest pour cette raison que la
fusion en dcision est la moins performante [29].
I.2.6.3 Mthodes et techniques de fusion :
A cause des avantages offerts par la fusion en score, les discussions sont centres
autour de ce type de fusion. Dans la littrature, les techniques de fusion en score sont
divises en deux principales catgories : les mthodes fixes (fixed rules) ou mthodes non
paramtriques et les mthodes entranes (trained rules) ou mthodes paramtriques. La
raison principale de cette catgorisation des techniques de fusion dans ce sens est que les
mthodes paramtriques ncessitent des donnes issues des modalits individuelles pour
apprendre le classificateur modliser, en dautre termes, elles utilisent les donnes
dveloppes pour extraire des paramtres qui serviront fusionner les scores en phase de
test. Par exemple, mthode de somme pondre et la mthode de produit pondr.
De lautre ct, les mthodes fixes sont directement appliques dans la fusion des
scores pour diffrentes modalits, la principale caractristique de ces mthodes est que la
contribution de chaque modalit est fixe priori. Par exemple : la mthode AND, OR,
Maximum, Minimum et le vote majoritaire.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
17

I.2.6.4 Fusion base des mthodes non paramtriques : [9]
Ces mthodes nutilisent que des informations du premier ordre (sorties de
classificateurs). Elles sont faciles implmenter et ne ncessitent pas de phase
dapprentissage.
Cependant, le point faible de ces mthodes est quelles traitent les classificateurs de
manires quivalente ce qui ne permet pas de tenir de leur capacit individuelle.
I.2.6.4.1 Fusion en dcision :
La combinaison dun ensemble de classificateur de type classe est souvent base sur
le principe du vote. Ces mthodes consistent interprter chaque sortie dun classificateur
comme un vote pour lune des classes possibles. La classe ayant un nombre de votes
suprieur un seuil prfix est retenue comme dcision finale. Elles sont les plus simples
mettre en uvre car les votes ne sont pas pondrs et chaque classe reoit autant de votes
quil a de classificateurs combiner.
Les mthodes de vote peuvent pratiquement toutes tre drives de la rgle avec
seuil exprime par :





correspond la proportion de classificateur devant rpondre par la mme classe ^pour
que celle-ci soit retenue comme rsultat de la combinaison. Ainsi, pour = 0, il sagit du vote
la pluralit o la classe qui reoit le plus de votes est choisie comme classe finale.
On parle de majorit notoire dans le cas o pour tre dsigne comme rponse
finale, la classe majoritaire, en plus elle doit se distinguer de la deuxime classe dune
diffrence suprieure un seuil fix.
Le principal inconvnient de ces mthodes est que toutes les classes possdent le
mme vote ce qui sera considr comme un conflit. Pour remdier un ce problme, on
choisit dutiliser les classificateurs de type rang en observant non seulement les premires
rponses, mais les K premires classes ordonnes par rang et on les comptabilise dans le
vote. [8]
I.2.6.4.2 Fusion en score :
Ces mthodes combinent des mesures (scores) qui refltent le degr de confiance
des classificateurs sur lappartenance de la forme reconnatre en chacune des classes.
) 5 . (
sinon rejet
max
) (
1
,
1
,
I
L e e si C
x E
L
j
j t
L
j
j i i

> =
=

= =

Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
18

Toutefois, comme les sorties des classificateurs ne sont pas toujours comparables, une
normalisation est souvent ncessaire. Les mthodes de combinaison non paramtriques les
plus utilises sont les rgles fixes.
Le principe de base derrire les mthodes fixes est le suivant : les classificateurs sont
indpendants et estiment des probabilits posteriori des classes. Ainsi, pour reconnatre
une forme X, on utilise une rgle de dcision E(x) qui revient choisir la classe C
i
pour
laquelle la probabilit posteriori est la plus leve. La fonction f est donne par les rgles
suivantes :
- Rgle maximum : P
i
= max ( P
i,1
,,P
i,L
)
- Rgle minimum : P
i
= min ( P
i,1
,,P
i,L
)
- Rgle mdiane : P
i
= mdiane ( P
i,1
,,P
i,L
)
- Rgle produit :
j i
P
L
j i
P
, 1 =
[ =
- Rgle linaire :
j i
P
L
j i
P
, 1 =
=
Les trois rgles sont connues sous le nom doprateurs dordre statique. La rgle maximum
consiste choisir la classe pour laquelle la probabilit est la plus leve. Si l e classificateur
qui propose cette confiance a une mauvaise performance alors la rgle maximum nest pas
stable.
Pratiquement, tous les travaux qui ont utilis les oprateurs dordre statique montrent
clairement que la rgle mdiane est la plus robuste que la rgle maximum et minimum [19].
Mais, la dcision par cette rgle ne prend pas en compte toutes les informations de
lensemble de classificateurs.
Dans la rgle linaire, est une constante. Ainsi, pour = 1, on obtient la rgle de
somme. Si = 1/L alors la rgle est la moyenne simple. Il est constat que la rgle de
somme est la plus robuste par rapport aux autres rgles fixes, elle amliore la performance
de la fusion et elle est moins sensible aux erreurs des classificateurs [19]
Pour la rgle de produit, si lun des classificateurs donne un score faible, alors le
rsultat de la fusion sera moins crdible. [8] [9]

I.2.6.5 Fusion base des mthodes paramtriques :
Compares aux autres mthodes, les mthodes de fusion paramtriques sont plus
complexes mettre en uvre. Elles utilisent des paramtres supplmentaires calculs
pendant la phase dapprentissage. La performance de ces mthodes dpend alors de la
bonne estimation des paramtres lors de lentranement.
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
19

I.2.6.5.1 Fusion en dcision :
On a principalement le vote pondr, tel que chaque vote du classificateur est
pondr par sa fiabilit W
j
et on a :





En gnral, W
j
= taux de reconnaissance / 100-taux de rejet est calcul pendant un
test dapprentissage o on simule des reconnaissances pour valuer la fiabilit de chaque
systme sparment. Ainsi, la forme dentre est attribue la classe pour laquelle la
somme des votes, qui sont pondrs par la fiabilit estime de chacun des experts, est la
plus leve.
I.2.6.5.2 Fusion en score :
Connues sous le nom des rgles pondres, ces mthodes consistent tout
simplement appliquer des pondrations aux sorties des classificateurs. Chaque probabilit
posteriori P
i
dune classe Ci peut tre obtenue par dune des rgles suivantes :







Wj est le coefficient qui dtermine limportance attribue au j-ime classificateur dans la
combinaison (j=1, L). Avec =1, la deuxime rgle est appele la somme pondre, pour
=1/L, il sagit de la moyenne pondre. La premire rgle est le produit pondr.
Dans cette catgorie, on trouve galement les machines support de vecteurs
(Support Vector Machines SVM) qui peut tre utilise dans le cas dun problme deux
classes (clients/imposteurs). Cest une nouvelle technique de classification dans le domaine
de la thorie dapprentissage statistique [84-89]. SVM est bas sur le principe de la
minimisation du risque structural (Structural risk minimization SRM) qui vise trouver un
hyper-plan optimal qui non seulement classifier (sparer) les donnes de lapprentissage
mais aussi les donnes inconnues du test. [11]
I.2.7 Normalisation des scores : [15]
Cest lopration damener tous les scores issues de diffrents classificateurs sur une
mme chelle par exemple [0 ,1].

> =
=

= =
sinon rejet
) 6 . ( max
) (
1
,
1
,
I L e W e W si C
x E
L
j
j t j
L
j
j i j i

) 6 . (
, 1
I
j i
P Wj
L
j i
P
=
[ =
) 7 . (
, 1
I
j i
P Wj
L
j i
P
=
=
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
20

La normalisation est une tape dterminante dans les systmes bass sur la fusion
en score car fusionner sans normaliser les scores risque de ngliger les rsultats du
classificateur ayant la plus petite chelle. Nombre dtudes comparatives ont discut leffet
de la normalisation avant la fusion. Par exemple, il est indiqu en [7] que la normalisation est
une tche ncessaire car les scores issus de diffrents systmes sont incompatibles. Autre
tude [11] mentionne que dans le cas des techniques de fusion linaire pour lintgration
des scores des modalits individuelles, lincompatibilit des scores affecte les performances
du systme.
Daprs la littrature, il y a varit de techniques de normalisation trs connues (i.e. :
Min-Max, Z-score, Tanh, Median-MAD, double-sigmoid). Min-Max et Z-score sont les plus
utilises.
I.2.7.1 Normalisation Min-Max :
Cette technique linaire convertie les scores brutes issues des diffrents
classificateurs dans une chelle de [0 1]. Elle conserve la distribution des scores, elle est
exprime par :




O x est le score normalis, n est le score brut et max et min sont respectivement les valeurs
maximales et minimales obtenues dans la phase dapprentissage.
I.2.7.2 Normalisation Z-score :
Z-score convertie les scores bruts en une distribution dont la moyenne est nulle et un
cart-type gale I. Aussi cette normalisation garde la distribution originale mais, lchelle
nest pas fixe. La normalisation Z-score est donne par :




O n est le score brut, , sont respectivement la moyenne et lcart-type de la distribution
des scores bruts.
I.3 Conclusion :
Certes que technologies biomtriques actuelles ont atteints une prcision leve qui
leurs permettrons dtre dployes dans la plupart des domaines. Mais, leurs performances
restent insuffisantes compte tenue des dexigences accrues des organisations en l a matire
) 7 . (
min max
min
I
n
x

=
) 8 . (I
n
x
o

=
Chapitre I Gnralit sur la biomtrie et les systmes biomtriques
21

de la haute scurit. Beaucoup de techniques ont vu le jour dans le but pousser lextrme
les performances des systmes de reconnaissance. Parmi ces techniques, on trouve la
fusion de modalit qui est une technique trs prometteuse, intuitive et qui a pour linstant
fourni de bons rsultats.











Chapitre II : Reconnaissance automatique du
locuteur
















Chapitre II Reconnaissance du locuteur

23

II.1 Introduction :
La vrification automatique du locuteur (VAL) consiste dterminer si un locuteur est
celui quil prtend tre. Le systme dispose en entre dun chantillon de parole et dune
identit proclame. Une mesure de ressemblance est calcule entre lchantillon et la
rfrence du locuteur correspondant lidentit prtendue. Si cette mesure est juge par le
systme suffisant, ce dernier accepte le locuteur ; dans le cas contraire, le locuteur est
considr comme imposteur et est rejet.
En fait, tous les systmes dauthentification biomtriques ont globalement la mme
architecture, donc, on va mettre on relief dans ce chapitre ce qui est spcifique seulement
aux systmes de vrification du locuteur en loccurrence lanalyse acoustique et lextraction
des paramtres.
II.2 Structure gnrale dun systme de vrification du locuteur :
On distingue deux phases dans les systmes biomtriques, la phase dapprentissage
et la phase de test qui est ou la vrification ou lidentification. La figure II.1 montre
larchitecture gnrale dun systme VAL : [6]













Figure II.1 : Structure gnrale dun systme VAL

Test
Apprentissage
Acquisition
vocale
Prtraitement
Extraction
De
Paramtres
Acquisition
vocale

Prtraitement
Extraction
De
Paramtres
Base de
donnes
Dcision
Calcul des
modles
Chapitre II Reconnaissance du locuteur

24

II.3 Analyse acoustique et extraction des paramtres :
II.3.1Introduction :
Dans le but de bien extraire les paramtres acoustiques dun locuteur qui doivent
porter son identit et seront cruciales pour construire son modle, le signal de la parole doit
tre format et trait.
Dabord, une connaissance du mcanisme de la production de la parole sera
ncessaire, ainsi la phase de lacquisition et ses caractristiques en loccurrence la
frquence dchantillonnage et le format du fichier son, ensuite on passera par les
prtraitements quon a jug importants : le dcoupage en trames, la praccentuation,
Elimination du silence et le fentrage. Cest le domaine du traitement de signal par
excellence.
Ensuite, on procdera lextraction des paramtres en utilisant lanalyse cepstrale et
le filtrage Mel, ces deux derniers ont prouv leurs efficacit dans le domaine de vrification
du locuteur durant ces dernire annes, nous verrons travers ces techniques que la
connaissance du mcanisme de la production de la parole humaine et celui de lcoute ont
beaucoup influenc sur lefficacit des techniques dextraction des paramtres. Cest le
domaine de reconnaissance des formes.
Enfin, nous passerons par les post-traitements qui seront considres comme des
retouches finales pour ltape dextraction des paramtres, nous verrons deux techniques
bien connues la normalisation et la pondration.
II.3.2 Production de la parole et acquisition du signal :
Le but recherch dans cette section est de dsigner un lment distinctif dans le
systme phonatoire humain qui donne chaque locuteur son identit et qui sera moins
sensible aux changements extrieurs (le temps, le lieu etc.). Cest ce quon appelle une
variabilit intra-locuteur par opposition la variabilit interlocuteur qui prsente des
diffrences de caractristiques dans une population de locuteurs. [17]
Lappareil phonatoire se compose en trois sous-ensembles fonctionnels : lensemble
poumons, trache-artre, lensemble larynx et ses environs et le conduit vocal comme
dernier ensemble, une production de la parole ou autre son est possible quand les poumons
comprime lair par contraction des muscles abdominaux et thoraciques qui lenveloppe et
lorsque cet air traversera le conduit vocal, il subira une dformation cest ce quon appelle
une modulation [9].
Chapitre II Reconnaissance du locuteur

25

Si on sintresse aux caractristiques physiques de la voix, on voit bien que le conduit
vocal peut jouer un rle discriminant dans la production de la voix car il est uniforme et
inhomogne : il est constitu des muscles, des ligaments et des structures rigides comme
les dents en plus, ces structures gomtriques change avec le temps principalement cause
de larticulation.
Une fois le signal de la parole est produit, il sera stock dans lordinateur en passant
par le microphone, ce dernier joule un rle trs important dans la qualit de lenregistrement
qui affectera bien entendu la justesse des rsultats finaux. Mais avant cela, le signal de la
voix doit tre chantillonn cest--dire transformer de la forme continue la une forme
discrte, alors le signal sera dcrit par la suite numrique de la forme : X[n] = X(nT) o T est
la priode dchantillonnage et on dduit la frquence F = 1 / T. En plus de la frquence, on
trouve aussi la quantification, une quantification sur 8 bits veut dire que chaque chantillon
est reprsent par un nombre sur 8 bits, on aura donc 2 la puissance 8 i.e. : 256
possibilits pour chaque chantillon.
Revenant maintenant la frquence dchantillonnage, si cette dernire est trop
basse, le signal chantillonn comportera une perte dinformations importante par contre si
elle est trop leve le signal restera le mme. Le thorme de Shannon stipule quune
frquence dchantillonnage suprieur deux fois la frquence la plus lev contenu dans le
signal viterait un repliement (aliasing) su spectre et garantirait une reprsentation sans
perte dinformations.
Enfin, le signal de la parole est stock dans la machine sous forme Wave. Ce format
est engendr par la spcification Microsofts RIFF pour le stockage des fichiers multimdia. Il
contiendra des informations cls telles que la frquence dchantillonnage et la quantification
utilises dans lenregistrement.
Chapitre II Reconnaissance du locuteur

26


Figure II.1 : visualisation d'un signal de parole
II.3.3 Prtraitement :
Comme on la dit prcdemment, les prtraitements servent spcifiquement
prparer le signal des traitements futurs, du fait, ils ont une importance non ngligeable
pour les performances du systme entier. En effet, ses paramtres seront une grande aide
pour tester et valuer le systme. [17][6]
II.3.3.1 Dcoupage en trames :
La non stationnarit qui est caractristique statistique inhrente du signal de la parole
rend ce prtraitement ncessaire. En effet, les paramtres statistiques tels que la moyenne
et lcart-type sont variables dans le temps cause de la dformation continue du conduit
vocal, mais tudes ont pu montrer que le signal peut tre considr comme quasi-
stationnaire dans des intervalles de temps infrieur 30 ms. Alors, si on veut chercher la
longueur dune trame en nombre dchantillon et quon a comme de donn la frquence
dchantillonnage, on trouve quune trame de 256 chantillons du signal vocal chantillonn
avec 16 KHz ait une dure de t_trame : 16000Hz /1s = 256Hz/t_trame => t_trame = 16 ms.
Chapitre II Reconnaissance du locuteur

27

Donc, le signal de la parole sera dcoup en segments gaux de 256 chantillons
quon les appelle trames. Une autre technique importante est galement utilis : le
chevauchement, cest--dire lentrelacement entre les trames adjacentes. Cela est justifi
par le besoin de prserver le maximum dinformations dans les extrmits des trames car le
fentrage qui le dernier prtraitement dgrade ces informations.
Le nombre de trames pour un signal donn et un taux de chevauchement de 50% est
donn par :
(II.1)

II.3.3.2 Praccentuation :
Si on observe le signal de la voix produit par un humain, on trouve que les sons qui
sortent par la cavit nasale ont une haute frquence mais aussi une faible amplitude ce qui
cre une difficult pour distinguer clairement ces sons. Pour remdier ce problme, on
appliquera un filtre sur notre signal et donc sur toutes les trames et on aura une amplification
des composantes de haute frquence. La transform en Z de ce filtre est donn par : H(z) =
1 0.95 z
-1
.


Figure II.2 : filtre de praccentuation
1
* 2
=
rame illonsParT nbreEchant
illons nbreEchant
nbreTrame
Chapitre II Reconnaissance du locuteur

28

II.3.3.3 limination du silence :
Tout signal de la parole compote des portions de silence qui sont inutiles voire
dgradantes pour les performances du systme que ce soit au temps dexcution o
lexactitude des paramtres.
Donc, on essayera denlever des zones de silence et pour cela on va se baser sur
des paramtres bien connus :
Le taux de passage par zro (ZCR :Zero Crossing Rate) qui est le nombre de
changement de signe dun chantillon son successeur dans la mme trame. Le
ZCR dune trame est dfini par :




Lnergie du signal qui est discriminante, en effet, une zone de silence a une nergie
faible contrairement aux portions de parole. Pour calculer lnergie dune trame, on
donne :
()

()

(II.3)
Il existe deux algorithmes pour llimination du silence :
Algorithme VAD (Voice Activity Detection):
Cet algorithme calcule pour chaque trame une fonction de cot bas sur les deux
paramtres prcdents, ensuite il compare de cot avec un seuil pour dcider si cette trame
est un silence ou parole. La fonction de cot est donn par :


Pour calculer ce seuil, on supposera que le segment des 120 premires
millisecondes est un silence ce qui est le cas en gnral, donc, on aura 5 trames de silence,
les valeurs de la fonction de cot W de ces 5 trames serviront pour calculer le seuil comme
suit :

Avec = 0.2
- 0.8

<
>=
=

=
+
0 x ......... 0.........
0 x ......... 1.........
sng(x)
) 2 . ( 1)) sgn(s(n sgn(s(n))
L
1
(m)
m
1 L m
II zcr
) 4 . ( ZCR(m) E(m).(1 W(m) II =
) 5 . (
silence
seuil II
w w
oo + =
Chapitre II Reconnaissance du locuteur

29


O
w
,
w
sont respectivement la variance et la moyenne de W pour les 5 premires trames.
Quant au terme , cest une constante qui dpend des caractristiques du signal. [17]
Second algorithme
La mme supposition sera considre ici, on se sert des cinq premires trames pour
calculer un seuil IZTU qui reprsente ZCR et un autre seuil ITU pour lnergie. Une premire
slection des trames sera fait en comparant leurs nergies au seuil ITU, puis en se basant
sur le paramtre IZTU, on rajuste la slection en rajoutant ou supprimant des trames
adjacentes une trame limite.
II.3.3.4 Fentrage :
Si on passe directement au domaine frquentiel moyennant la transforme de Fourier
et on observe le spectre, on trouve certainement des informations provenant du signal lui-
mme mais aussi dautres provenant du dcoupage de signal en trame. Ceci est expliqu
mathmatiquement par le fait quune trame est obtenue en appliquant une fentre
rectangulaire au signal ce qui sera une convolution du signal avec la fonction Sinc au
domaine frquentiel.
Sachant que la fonction Sinc prsente des lobes non ngligeables aux extrmits ce
qui engendre des dformations du spectre, le mieux serait dappliquer une fentre qui rduit
progressivement lamplitude du signal lextrmit de la trame contrairement la fentre
rectangulaire qui linterrompre brusquement.
Pour cela, il ya beaucoup de fentres qui ont cette caractristique, mais on ne
sintresse quau deux : la fentre de Hamming et celle de Blackman qui sont dfinies ci-
dessous :


(II.6) Fentre de Hamming

(II.7) Fentre de Blackman

)
1 N
n 2
cos( 0.46 0.54 W(n)

=
)
1
4
cos( * 08 . 0 )
1 N
n 2
cos( 5 0. 42 0. W(n)

H
+

=
N
n
Chapitre II Reconnaissance du locuteur

30

La figure II.3 montre que la fentre de Hamming a un lobe plus large que celui de
Blackman ce qui se traduit par un passage plus rapide de la bande passante la bande
bloquante (environ 20% plus rapide). Cependant, la fentre de Blackman prsente un taux
dattnuation plus lev celui de hamming (0.02% pour Blackman et 0.2% pour hamming),
cela est illustr dans la figure II.3
Alors, on voit bien quil sagit dun compromis entre les deux fentres, si on gagne un
passage rapide, on perd au taux dattnuation et vice versa.



















Figure II.3 : comparaison entre la fentre de Hamming et Blackman
Chapitre II Reconnaissance du locuteur

31

II.3.4 Extraction des paramtres : [17]
Aprs avoir format notre signal, nous procderons extraire de linformation utile
depuis chaque trame qui sera par la suite notre unit de traitement. Pour aboutir cet
objectif, nous allons prsenter deux notions : lanalyse cepstrale et le filtrage Mel.
II.3.4.1 Analyse cepstrale :
Tout dabord, le cepstre dun signal x(n) est donn par la formule suivante :



Si on suppose que le signal de la parole est le produit de convolution entre la source
glottique et le conduit vocal : s(n) = e(n) * h(n), la notion de cepstre devienne intressante
car elle facilite la dconvolution et lisolation de leffet de la source. Le passage au domaine
frquentiel travers la transform de Fourier donne : S(f) = E(f) X H(f).
Pour sparer linfluence de la source glottique et lisoler on applique le logarithme sur
le produit pour quil devienne somme :
Log|S(f)| = log|E(f)| + log|H(f)| (II.9)
En dernire tape, on revient au domaine temporel moyennant la transform de
Fourier inverse, mais nous utilisons la transform en cosinus inverse pour avoir une meilleur
dcorrlation (indpendance) entre les coefficients cepstraux :
S*(n) = e*(n) + h*(n) (II.10)
II.3.4.2 Le filtre Mel:
Lchelle Mel se distingue par le fait quil est linaire pour les frquences infrieures
1KHz alors quil est logarithmique pour les autres frquences. La formule approximative qui
fait correspondre chaque frquence en Hz une frquence en Mel est la suivante :

) 8 . ( dw
jwn
e

X(w) log
2
1
c(n) II
}

=
) 11 . ( )
700
1 (
10
log 2595 II
Hz
F
mel
f + =
Chapitre II Reconnaissance du locuteur

32


Figure II.4 : lchelle Mel

Maintenant que lchelle Mel est connue, nous essayons de voir son utilit : des
tudes psychophysiques ont montr que la perception humaine de la parole ne suit pas une
chelle linaire dans le domaine frquentiel mais une chelle logarithmique, cest pour cette
raison que lchelle Mel a t introduite afin de reproduire la slectivit de loreille humaine
qui pour le moment le systme didentification le plus fiable.
Donc, on applique un banc de K filtres triangulaires sur chaque trame, ces filtres sont
positionns uniformment sur lchelle Mel contrairement lchelle Hz.
Le nombre de filtres appliqus varie selon la frquence dchantillonnage : pour une
frquence de 16KHz, on prend k =20.
II.3.4.3 Paramtres MFCC :
La combinaison de la notion de lanalyse cepstrale et celle de lchelle Mel dans un
seul procd donne naissance aux paramtres MFCC. Ces paramtres reprsentent les
caractristiques du conduit vocal du locuteur (coefficients cepstraux purs) perues par
loreille humaine (chelle Mel)
Le schma ci-dessus rsume les tapes pour calculer les coefficients MFCC.

Chapitre II Reconnaissance du locuteur

33












Figure II.5: Calcul des coefficients MFCC
II.3.5 Paramtres dynamiques :
Aprs avoir obtenu les k (gnralement 20) vecteurs MFCC et dans le but dintroduire
le contexte temporel, on ajoute dautres vecteurs issus dune premire et une deuxime
drivation des 20 vecteur originaux.
Une drivation dans le domaine discret se traduit par une simple diffrence.
II.3.6 Post-traitement :
Afin daccrotre la robustesse du systme, des retouches finales seront ncessaires :
tout dabord, la normalisation qui consiste calculer le vecteur moyen de tous les vecteurs,
ensuite, extraire ce vecteur des autres pour avoir une moyenne nulle.
Quant la pondration, des tudes ont montr que les vecteurs MFCC mont pas la
mme importance, de ce fait, on attribue au vecteur quon juge important un poids lev et
aux vecteurs moins importants des poids faibles. [18]


Signal
prtrait
FFT Magnitude
Logarithme
Filtrage Mel
IDCT
Paramtres
MFCC
Chapitre II Reconnaissance du locuteur

34

II.4 Conclusion :
Dans notre systme de reconnaissance du locuteur, on a adopt pour lextraction des
paramtres acoustiques lanalyse cepstrale et le filtrage. Ces deux techniques combines
ensemble ont prouv une efficacit accrue dans ce domaine car et comme on la vu
prcdemment les coefficients cepstraux fournissent que linformation ncessaire la
reconnaissance du locuteur ainsi que le filtrage Mel formatent ces coefficients en inspirant de
la perception de loreille humaine.















Chapitre III : Reconnaissance de visages













Chapitre III Reconnaissance du visage

36

III.1 Introduction :
Par la frquence laquelle on le rencontre dans lenvironnement et par son contenu
riche en information sociale de premier ordre, le visage humain constitue un stimulus visuel
de classe part. En effet, il suffit dun clin dil port sur le visage dun individu pour en
distinguer le sexe, ltat motionnel ou lidentit. Non seulement le traitement dune telle
information savre fort efficace, mais aussi trs rapide une exposition de 20 ms suffit (p.
ex. Rizzolatti & Buchtel, 1977). Cette performance est dautant plus surprenante que chaque
visage est compos des mmes attributs (yeux, nez, bouche) disposs selon une
organisation similaire, crant ainsi un groupe de stimuli dune homognit suprieure
celle retrouve dans la majorit des catgories dobjets. Pourtant, tout observateur humain
se montre capable didentifier un nombre apparemment infini de visages, alors que seules de
fines discriminations visuelles permettent de les identifier.
Cette grande capacit identifier les visages (99%) pousser les chercheurs tenter
de rapprocher le cerveau humain dans sa rapidit, son exactitude et sa fiabilit par des
systmes de reconnaissance bass sur des approches statistiques ou non statistiques.
III.2 Motivation : (pourquoi la reconnaissance de visages ?)
Durant les vingt dernires annes, la reconnaissance automatique des visages est
devenue un enjeu primordial, notamment dans les domaines de lindexation de documents
multimdias et surtout dans la scurit, ceci est d aux besoins du monde actuel mais aussi
ses caractristiques avantageuses dont on peut citer : [25]
- La disponibilit des quipements dacquisition, leur simplicit et leurs cots faibles.
- Passivit du systme : un systme de reconnaissance de visages ne ncessite
aucune coopration de lindividu, du genre : mettre le doigt ou la main sur un
dispositif spcifique ou parler dans un microphone. En effet, la personne na qu
rester ou marcher devant une camra pour quelle puisse tre identifie par le
systme.

En plus, cette technique est trs efficace pour les situations non standards, cest les cas
o on ne peut avoir la coopration de lindividu identifier, par exemple lors dune arrestation
des criminels.

Chapitre III Reconnaissance du visage

37

Certes que la reconnaissance des visages nest pas la plus fiable compare aux autres
techniques de biomtrie, mais elle peut tre ainsi si on utilise des approches plus efficaces
en plus du bon choix des caractristiques didentification reprsentant le visage en question.
III.3 Processus de reconnaissance de visages :
Dans un systme de reconnaissance de visages, une image suit -depuis son entre- un
processus bien prcis pour arriver dterminer lidentit du porteur de visage.
Ce processus comporte plusieurs tapes qui peuvent tre illustres par le schma suivant :

Figure III.1 : Processus dun systme de reconnaissance de visages

Monde physique Acquisition
Prtraitements Extraction de
paramtres
Apprentissage

Classification

Tests et dcision

Chapitre III Reconnaissance du visage

38

Donc pour tre identifi, limage dune personne dans un systme de reconnaissance de
visages suit le processus suivant : [7]
III.3.1 Le monde physique : (Lextrieur)
Cest le monde rel en dehors du systme avant lacquisition de limage. Dans cette
tape, on tient compte gnralement de trois paramtres essentiels : L'clairage, la variation
de posture et l'chelle. La variation de l'un de ces trois paramtres peut conduire une
distance entre deux images du mme individu, suprieure celle sparant deux images de
deux individus diffrents, et par consquence une fausse identification.
III.3.2 LAcquisition de limage :
Cette tape consiste extraire limage de lutilisateur du monde extrieur dans un tat
statique laide dun appareil photo ou dynamique laide dune camra.
Aprs, limage extraite sera digitalise ce qui donne lieu une reprsentation
bidimensionnelle au visage, caractrise par une matrice de niveaux de gris (Voir Annexe
B). Limage dans cette tape est dans un tat brut ce qui engendre un risque de bruit qui
peut dgrader les performances du systme.
III.3.3 Les prtraitements :
Le rle de cette tape est dliminer les parasites causs par la qualit des dispositifs
optiques ou lectroniques lors de lacquisition de limage en entre, dans le but de ne
conserver que les informations essentielles et donc prparer limage ltape suivante. Elle
est indispensable car on ne peut jamais avoir une image sans bruit cause du background
et de la lumire qui est gnralement inconnue.
Il existe plusieurs types de traitement et damlioration de la qualit de limage, telle que : la
normalisation, lgalisation et le filtre mdian (Voir Annexe B).
Cette tape peut galement contenir la dtection et la localisation du visage dans une image,
surtout l o le dcor est trs complexe. [7][13]
III.3.4 Lextraction de paramtres :
En plus de la classification, ltape de lextraction des paramtres reprsente le cur du
systme de reconnaissance, elle consiste effectuer le traitement de limage dans un autre
espace de travail plus simple et qui assure une meilleure exploitation de donnes, et donc
permettre lutilisation, seulement, des informations utiles, discriminantes et non redondantes.

Chapitre III Reconnaissance du visage

39

III.3.5 La classification : (Modlisation)
Cette tape consiste modliser les paramtres extraits dun visage ou dun ensemble
de visages dun individu en se basant sur leurs caractristiques communes.
Un modle est un ensemble dinformations utiles, discriminantes et non redondantes qui
caractrise un ou plusieurs individus ayant des similarits.
III.3.5 Lapprentissage:
Cest ltape o on fait apprendre les individus au systme, elle consiste mmoriser les
paramtres, aprs extraction et classification, dans une base de donnes bien ordonnes
pour faciliter la phase de reconnaissance et la prise dune dcision, elle est en quelque sorte
la mmoire du systme.
III.3.6 La dcision :
Cest ltape qui fait la diffrence entre un systme didentification dindividus et un autre
de vrification.
Dans cette tape, un systme didentification consiste trouver le modle qui
correspond le mieux au visage pris en entre partir de ceux stocks dans la base de
donnes, il est caractris par son taux de reconnaissance. Par contre, dans un systme de
vrification il sagit de dcider si le visage en entre est bien celui de lindividu (modle)
proclam ou il sagit dun imposteur, il est caractris par son EER (equal error rate).

III.4 Approches utilises dans les systmes de reconnaissance de
visages :
Gnralement, un systme de reconnaissance de visages est caractris par sont
classificateur qui peut tre conu selon deux types dapproches :
III.4.1 Les approches globales : [7]
Ce type dapproches utilisent le visage au complet comme source dinformation, et ce
sans segmentation de ses parties, elles se basent principalement sur linformation pixel. Ces
algorithmes sappuient sur des proprits statistiques bien connues et utilisent lalgbre
linaire. Ils sont relativement rapides mettre en uvre mais sont sensibles aux problmes
dclairement, de pose et dexpression faciale.
Parmi les approches les plus importantes runies au sein de cette classe on trouve:
Chapitre III Reconnaissance du visage

40

III.4.1.a Lanalyse en Composantes Principales (PCA) :
Lalgorithme PCA est n des travaux de MA. Turk et AP. Pentland au MIT Media Lab, en
1991[22,33].
Lide principale consiste exprimer les M images de dpart selon une base de
vecteurs orthogonaux particuliers - les vecteurs propres contenant des informations
indpendantes dun vecteur lautre. Ces nouvelles donnes sont donc exprimes dune
manire plus approprie la reconnaissance du visage.
Le but est dextraire linformation caractristique dune image de visage en utilisant la
KLT ou la DCT, pour lencoder aussi efficacement que possible afin de la comparer une
base de donnes de modles encods de manire similaire [33].
En termes mathmatiques, cela revient trouver les vecteurs propres de la matrice de
covariance forme par les diffrentes images de notre base dapprentissage. Donc, la PCA
ne ncessite aucune connaissance priori sur limage et se rvle plus efficace lorsquelle
est couple la mesure de distance MahCosine, mais sa simplicit mettre en uvre
contraste avec une forte sensibilit aux changements dclairement, de pose et dexpression
faciale [2].
Remarque : Le fait que lon peut construire un sous-espace vectoriel en ne retenant que les
meilleurs vecteurs propres, tout en conservant beaucoup dinformations utiles, fait du PCA
un algorithme efficace et couramment utilis en rduction de dimensionnalit o il peut alors
tre utilis en amont dautres algorithmes.
III.4.1.b Lanalyse Discriminante Linaire (LDA) :
Lalgorithme LDA est n des travaux de Belhumeur et al. De la Yale University (USA), en
1997[34]. Il est aussi connu sous le nom de Fisherfaces .
Contrairement lalgorithme PCA, celui de la LDA effectue une vritable sparation de
classes. Pour pouvoir lutiliser, il faut donc au pralable organiser la base dapprentissage
dimages en plusieurs classes : une classe par personne et plusieurs images par classe.
La LDA analyse les vecteurs propres de la matrice de dispersion des donnes, avec pour
objectif de maximiser les variations entre les images dindividus diffrents (interclasses) tout
en minimisant les variations entre les images dun mme individu (intra-classes).
Cependant, lorsque le nombre dindividus traiter est plus faible que la rsolution de limage,
il est difficile dappliquer la LDA qui peut alors faire apparatre des matrices de dispersions
Chapitre III Reconnaissance du visage

41

singulires (non inversibles). Afin de contourner ce problme, certains algorithmes bass
sur la LDA ont rcemment t mis au point (les algorithmes ULDA, OLDA, NLDA) [22,34].
III.4.1.c Les rseaux de neurones (RNA) :
Les rseaux de neurones artificiels ou RNA sont des assemblages fortement connects
dunits de calcul. Chacune des units de calcul est un neurone formel qui est, en soi, une
formulation mathmatique ou un modle trs simplifi dun neurone biologique. Les RNA ont
de trs grandes capacits de mmorisation et de gnralisation.
On classe gnralement les rseaux de neurones en deux catgories: les rseaux
faiblement connects couches que lon appelle des rseaux feedforward ou rseaux
directs et les rseaux fortement connects que lon appelle des rseaux rcurrents. Dans
ces deux configurations, on retrouve des connexions totales ou partielles entre les couches.
Les rseaux de neurones peuvent tre utiliss tant pour la classification, la compression de
donnes ou dans le contrle de systmes complexes en automatisme. Cette approche
repose essentiellement sur la notion d'apprentissage qui est depuis de nombreuses annes
au cur des recherches en intelligence artificielle [2]. L'ide est didentifier partir
d'exemples un visage (ici une personne). De manire plus formelle, l'apprentissage du
rseau pour but l'extraction des informations pertinentes l'identification.
Lavantage de ce modle est le gain de temps considrable .Cependant, l'utilisation
d'exemples pour apprendre apporte le risque de ne pouvoir rsoudre que des situations dj
rencontres, o un phnomne de sur-apprentissage qui spcialiserait le rseau uniquement
sur les exemples connus sans gnraliser [2].
III.4.1.d Mlange de gaussiennes (GMM) :
Cest une nouvelle approche qui a t propos par Conrad SANDERSON et al, elle
consiste transformer les images de dpart en plusieurs vecteurs de coefficients DCT, puis
modliser leur distribution selon une combinaison linaire de plusieurs gaussiennes qui vont
reprsenter un modle dune personne [30].
Cette technique est venue pour amliorer les performances des HMM, elle a prouv
une efficacit surprenante surtout en matire de prcision et de temps dexcution.
III.4.1.e Lapproche statistique et lapproche probabiliste:
Cette approche repose essentiellement sur la thorie de dcision pour rsoudre les
problmes de classement et de classification. Pour cela on utilise gnralement la
classification fonde sur le thorme de Bayes.
Chapitre III Reconnaissance du visage

42

Lapproche probabiliste utilise un mlange d'analyseurs de facteurs pour dtecter les visages
humains. Linconvnient cest quelle pose le problme de la complexit de calcul qui est trs
leve [2].
III.4.2 Les approches locales :
On les appelle aussi les mthodes traits, caractristiques locales, ou analytiques.
Ce type consiste appliquer des transformations en des endroits spcifiques de limage, le
plus souvent autour de points caractristiques (coins des yeux, de la bouche, le nez, ...).
Elles ncessitent donc une connaissance a priori sur les images [2].
L'avantage de ces mthodes est qu'elles prennent en compte la particularit du visage
en tant que forme naturelle reconnatre, en plus elles utilisent un nombre rduit de
paramtres et elles sont plus robustes aux problmes poss par les variations dclairement,
de pose et dexpression faciale [2],[22].
Mais leur difficult se prsente lorsqu il s'agit de prendre en considration plusieurs
vues du visage ainsi que le manque de prcision dans la phase "extraction" des points
constituent leur inconvnient majeur [2].
Parmi ces approches on peut citer :
III.4.2.a Hidden Markov Models (HMM):
Les modles de Markov cachs (HMM) sont utiliss depuis plusieurs annes pour la
dtection et la reconnaissance du visage. Diffrentes variantes ont galement t proposes
mais celle des (Embedded HMM) gnre des rsultats suprieurs aux mthodes HMM de
base [35]. Reposant sur certains coefficients de la transforme en cosinus discrte (DCT)
comme source dobservations, les Embedded HMM constituent un algorithme de
reconnaissance trs performant. Or, les temps dexcution des phases dapprentissage et de
test sont relativement levs, nuisant donc son utilisation en temps rel sur dimmenses
banques dimages [35].
III.4.2.b Eigen objects (EO):
Bass sur les mmes principes thoriques que la mthode des EigenFaces aborde
la section prcdente, les EigenObjects visent cette fois certaines parties bien prcises
du visage. La personne peut par exemple tre reconnue uniquement grce ses yeux. Pour
raliser lapprentissage, un module de ce type doit tout dabord procder une ACP des
yeux contenus dans la banque de visages. Lespace des yeux (eye space) ainsi construit
Chapitre III Reconnaissance du visage

43

pourra alors servir au processus de reconnaissance qui est identique celui utilis pour les
EigenFaces .
III.4.2.c LElastic Bunch Graph Matching (EBGM):
Dans cette approche, on localise des points caractristiques (coins des yeux, de la
bouche, nez, etc.) partir dune image de visage, cette localisation peut se faire
manuellement ou automatiquement laide dun algorithme [1]. Un treillis lastique virtuel est
ensuite appliqu sur limage de visage partir de ces points.
Chaque point reprsente un nud labellis auquel on associe un jeu de coefficients
dondelettes complexes de Gabor, appels Jet.
Pour effectuer une reconnaissance avec une image test, on fait une mesure de similarit
entre les diffrents Jets et les longueurs des segments du treillis de deux images.
La caractristique de lEBGM cest quil ne traite pas directement les valeurs de niveaux
de gris des pixels dune image de visage, ce qui lui confre une plus grande robustesse aux
changements dclairement, de pose et dexpression faciale. Cependant il est plus difficile
implmenter que les mthodes globales [22].
III.4.2.d Lappariement de gabarits:
Lappariement de gabarits (Template Matching) est une technique de comparaison des
images, son principe est simple. En effet, elle permet lextraction et la construction des
descripteurs des points dintrts de limage, ces descripteurs sont trs robustes et fiables et
permettent une reprsentation fidle de limage en se basant sur son contenu. En plus on
peut permettre une meilleure reprsentation notre image par translation et rotation sans
perte dinformation grce aux invariants de Hu [28].
III.4.3 Les approches hybrides :
Plusieurs techniques peuvent parfois sappliquer afin de rsoudre un problme de
reconnaissance des formes. Chacune dentre elles possde videmment ses points forts et
ses points faibles qui, dans la majorit des cas, dpendent des situations (pose, clairage,
expressions faciales,etc.). Il est par ailleurs possible dutiliser une combinaison de
classificateurs bass sur des techniques varies dans le but dunir les forces de chacun et
ainsi pallier leurs faiblesses.
Chapitre III Reconnaissance du visage

44

III.5 La transforme en cosinus discrte : (DCT)
III.5.1 Introduction :
Dans un systme de reconnaissance de visages, une image ne peut pas tre traite
sous forme dune matrice de niveaux de gris de milliers de pixels cause de la complexit et
la lourdeur des calculs. Pour remdier ce problme, la matrice de niveaux de gris doit subir
une srie de transformations orthogonales afin dliminer les redondances, rduire la
dimension, et de ne conserver que linformation utile dans un nombre minimum de
coefficients. Plusieurs transformations sont utilises dans ce genre de systmes, les plus
rpandues sont la transforme de Fourier (FT), la transforme de Karhunen-Love (KLT) et
celle en Cosinus Discrte (DCT) qui sera utilise la conception de notre systme.
III.5.2 historique :
La transforme en cosinus discrte a fait son apparition en 1974 dans luniversit de
Texas par Ahmed, Natarajan et Rao dans le cadre de la compression dans le domaine de
limagerie. Quelques annes plus tard (en 1980) un certain Wang a nonc quatre drives
de cette dernire (DCT-I, DCT-II, DCT-III et DCT-IV). Avec le temps, et vu le dveloppement
des travaux de compressions dautre variantes ont t dveloppes comme celle de Rao et
Yip en 1990.
III.5.3 Motivation : (Pourquoi la DCT ?)
La transforme de Karhunen-Love est reconnue pour sa prcision et son exactitude
mais elle prsente un inconvnient majeur cause de la complexit de ses calculs.
La transforme de Fourier discrte (DFT) est une mthode trs rapide grce la simplicit
de ses algorithmes mais sa priodicit horizontalement et verticalement cause son
imprcision dans certain cas.
La transforme en cosinus discrte est venue pour quilibrer le compromis existant
entre la prcision et la vitesse, elle a hrit lexactitude de la KLT et la performance de la
DFT grce ses algorithmes simples et efficaces [39].
III.5.4 Dfinition :
La transforme en cosinus discrte est une transformation mathmatique qui transforme
un ensemble de donnes dun domaine spatial vers un spectre frquentiel . [12]
Donc, le but de la DCT est de travailler sur les frquences spatiales prsentes entre les
pixels de limage originale plutt que de travailler directement sur limage originale elle-
Chapitre III Reconnaissance du visage

45

mme. Ceci nous permet de concentrer une grande quantit dinformation dans un nombre
rduit de coefficients et donc optimiser les calculs sans avoir de pertes [38].
III.5.5 Principe et formulation :
Le principe de la DCT se base sur trois points essentiels : dcorrler les informations
portes par les pixels dune image, les introduire dans un minimum de coefficients et les
localiser dans une zone dacuit visuelle minimale [39].
III.5.5.1 La DCT une dimension :
La transforme en cosinus discrte une dimension dune squence de donnes f(x) de
longueur N est une suite dlments C(u) donne par la formule :

=
+ t
o =
1 N
0 x
)
N 2
u ) 1 x 2 (
cos( ) x ( f ) u ( ) u ( C Pour u = 0, 1, 2, ., N-1. (III.5.1)
De mme, la transforme inverse est donne par :

=
+ t
o =
1 N
0 u
)
N 2
u ) 1 x 2 (
cos( ) u ( C ) u ( ) x ( f Pour X = 0, 1, 2, ., N-1. (III.5.2)

Dans les deux quations ci-dessus, (u) est dfinit comme suit :


Pour u = 0 (III.5.3)
Pour u 0

En plus, si on remplace u par 0 dans lquation (III.5.1) on obtient :

=
= =
1 N
0 x
) x ( f
N
1
) 0 u ( C (III.5.4)

= o
N
2
N
1
) u (
Chapitre III Reconnaissance du visage

46

On remarque que le premier lment de cette transforme reprsente la moyenne de f(x),
il est connu sous le nom de coefficient DC. Les autres lments (pour u = 1, 2,3, ., N-1)
sont nomms les coefficients AC [12].
III.5.5.2 La DCT deux dimensions :
Cest une extension de la DCT vue dans la section prcdente en deux dimensions pour
pouvoir lappliquer sur des images. Elle est dfinie comme suit : La transforme en cosinus
discrte deux dimensions dune squence de donnes f(x, y) de longueur NN est une
suite dlments C (u, v) donne par la formule :

(III.5.6)

Pour u, v = 0, 1, 2, , N-1

x, y sont les coordonnes du domaine spatiale et u, v sont celles du domaine frquentiel.
De mme, la transforme inverse se donne par :

(III.5.7)

Pour x, y = 0, 1, 2, , N-1

III.5.6 Proprits de la DCT :
Auparavant, on sest bas sur des aspects mathmatiques pour expliquer le principe de
la transforme en cosinus. Dans cette section on essayera de donner une interprtation
son fonctionnement travers lillustration de certaines de ses proprits.
III.5.6.1 Dcorrlation :
La non corrlation des coefficients de la DCT est lune de ses caractristiques, elle est
due llimination des redondances entre les pixels voisins.
Cela reprsente son avantage principal car elle permet davoir des donnes indpendantes
qui peuvent tre traites individuellement [12].
)
N 2
v ) 1 y 2 (
cos( )
N 2
u ) 1 x 2 (
cos( ) y , x ( f ) v ( ) u ( ) v , u ( C
1 N
0 x
1 N
0 y
+ t + t
o o =

=
)
N 2
v ) 1 y 2 (
cos( )
N 2
u ) 1 x 2 (
cos( ) v , u ( C ) v ( ) u ( ) y , x ( f
1 N
0 u
1 N
0 v
+ t + t
o o =

=
Chapitre III Reconnaissance du visage

47

III.5.6.2 Compression dinformations :
La DCT prsente une trs grande efficacit en termes de compactage dnergie, elle
permet de stocker un maximum dinformations dans un minimum de coefficients localiss en
basse frquence (coin suprieur gauche) et chaque fois quon redescend vers les hautes
frquences (en bas droite) il y aura une dgradation dinformations.
Ceci permet au quantificateur dcarter les coefficients ayant des amplitudes relativement
petites sans prsenter une dformation des caractristiques de limage [12].


Figure III.2 : Distribution
frquentielle des coefficients DCT
[38]



III.5.6.3 Sparabilit :
Il est clair que la formule de la DCT deux dimensions peut tre crite de la faon
suivante :

(III.5.9)

Cette criture nous permet de mettre en vidence une caractristique trs importante de la
DCT. Cest le fait quelle soit sparable. Cela veut dire quon peut calculer ) , ( v u C par deux
excutions successives de la DCT une dimension, une sur les lignes et lautre sur les
colonnes dune image [39].
Remarque : on utilise le mme principe de sparabilit pour le calcul inverse de la DCT.
III.5.6.4 Symtrie :
Une autre analyse de lquation (III.5.9) permet de remarquer que les oprations
effectues sur les lignes et les colonnes de la matrice de donnes sont identiques [39], ce
qui fait de la DCT une transformation symtrique formule par :

1 N
0 = x
1 N
0 = y
)
N 2
v ) 1 + y 2 (
cos( )
N 2
u ) 1 + x 2 (
cos( ) v ( ) u ( = ) v , u ( C
Chapitre III Reconnaissance du visage

48


AfA T = (III.5.10)

Avec : f est la matrice de niveaux de gris de limage.
| | ) j , i ( a A = est la matrice la transformation symtrique tel que :

=
+ t
o =
1 N
0 j
)
N 2
i ) 1 j 2 (
cos( ) j ( ) j , i ( a (III.5.11)

III.5.6.5 Orthogonalit :
Comme on la affirm prcdemment, la DCT est une transformation orthogonale qui
permet une et une seule reprsentation pour chaque image dans le domaine frquentiel.
III.5.7 La mthode du zigzag :
Parmi les proprits de la DCT, le compactage dnergie dans un nombre rduit de
coefficients est situ dans les basses frquences.
La mthode zigzag vient pour permettre la rcupration de ces donnes dans un ordre
dcroissant dnergie. Elle consiste parcourir les lments de la matrice transforme dans
un ordre bien prcis partir des frquences les plus basses vers celles les plus hautes.
Nous obtenons la fin un vecteur de donnes classes selon la frquence spatiale.
La premire valeur dans ce vecteur est appele le coefficient DC tandis que tous les autres
sont des coefficients AC [12].

Remarque : On peut choisir la dimension du vecteur rcupr laide du zigzag selon
lendroit dutilisation de la DCT.
Le parcours de la matrice de donnes avec la mthode zigzag est illustr dans le
schma suivant :
Chapitre III Reconnaissance du visage

49


Figure III.3 : Schma du parcours dune matrice en zigzag

III.5.8 Le chevauchement entre les blocs:
Parfois, lapplication de la DCT sur des blocs voisins dune image ne donne pas de
bons rsultats, et cela cause de la frquence leve existante entre les pixels dun bloc et
ceux de son voisin.
Pour remdier ce problme, on dcoupe limage en plusieurs blocs chevauchs entre
eux pour diminuer au maximum la discrimination entre les informations contenues dans les
pixels des blocs voisins [12].
III.6 Conclusion:
Plusieurs approches ont t proposes pour la reconnaissance de visages, parmi ces
dernires, ont opt pour le mlange de gaussiennes (GMM) comme technique de
modlisation dans le systme de reconnaissance de visages ainsi pour le systme de
reconnaissance du locuteur car cette technique de modlisation est simple implmente et
demande peu de prtraitements
Grce la rapidit de la DCT, son efficacit et ses coefficients compltement
indpendants et dcorrls, les coefficients DCT seront les paramtres faciaux de notre
systme de reconnaissance de visages.













Chapitre IV : Modlisation GMM
















Chapitre IV Modlisation GMM

51

VI.1 Introduction :
Suivant le processus de reconnaissance de visages ou de la voix, et aprs extraction de
paramtres par la DCT ou MFCC, on est arriv la phase de classifier ces paramtres
selon plusieurs modles discriminants pour assurer la reconnaissance.

Le classificateur reprsente la partie la plus sensible dans un systme de
reconnaissance, il se base gnralement sur une ou plusieurs approches statistiques.

Parmi les approches proposes, on a choisi dutiliser dans notre travail celle du mlange
de Gaussiennes (GMM) que ce soit pour la voix ou le visage.
VI.2 Motivation :
Lapproche GMM est lune des approches les plus rcentes dans le domaine de
reconnaissance, elle a prouv son efficacit lors de son utilisation la ralisation dun
systme biomtrique multimodale dans le cadre du projet (The Ark) qui a eu le premier prix
dans le concours Swiss Technology Award en 2006 [32].

En plus de son efficacit, les GMM permettent une approximation d'une large gamme
de distributions complexes dans lespace de reprsentation avec beaucoup de rapidit,
simplicit et facilit.

VI.3 Modlisation par Mlanges de Gaussiennes GMM :
VI.3.1 Dfinition :
Cest une approche statistique qui consiste estimer une loi de probabilit inconnue
laide dune combinaison de plusieurs Gaussiennes dont les paramtres sont calculer.
VI.3.2 Modle du mlange :
Une densit de mlange de gaussiennes est une somme pondre de M densits
gaussiennes. Elle est donne par lquation :
M
m m
m 1
p(x | ) b (x) t
=
=

(IV.1)
Ou x est un vecteur alatoire de dimension D,
m
b (x) reprsente les densits de probabilits
gaussiennes paramtres par le vecteur moyenne
m
et une matrice de covariance
m
, et
m
t reprsente le poids des mlanges avec :
M
m
m 1
1 t
=
=



Chapitre IV Modlisation GMM

52

m
b (x) =
1
m m m 1/ 2
D/ 2
m
1 1
exp[ (x ) ( ) (x )]
2
(2 )

t

'

(IV.2)
Un modle GMM est donc reprsent par les vecteurs moyens, les matrices de
covariance et les poids des gaussiennes, ceci est dfinit par la notation :

m m m
{ , , } t = Avec m=1,.,M

VI.3.3 Apprentissage du Modle :
La phase dapprentissage consiste estimer lensemble des paramtres dun modle
GMM [21,30], savoir la moyenne, la covariance et les coefficients de pondrations. La
mthode conventionnelle est celle du maximum de vraisemblance (MV) dont le but est de
dterminer les paramtres maximisant la vraisemblance des donnes dapprentissage.

Pour une squence de N vecteurs dapprentissage
1 N
X {x ,........x } = , la vraisemblance
du modle GMM est donne par :
N N M
n n m m m
m 1 n 1 n 1
p(X| ) p(x | ) p(x | , , ) t
= = =
= =
[ [
(IV.3)
On obtient donc une expression complexe de la vraisemblance et il ny a
malheureusement pas de solution analytique ce problme. De plus le calcul de cette
expression conduit au logarithme dune somme et une fonction non linaire des
paramtres du modle ce qui rend la maximisation directe trs difficile [8,24]

Cependant, la variable indicatrice m prsente linconvnient de ne pouvoir tre observe
en pratique. En effet, on observe des ralisations du vecteur alatoire
n
x sans savoir de
manire certaine quelle est la classe du mlange associe chaque observation. Au sens
de lalgorithme EM (Expectation- Maximisation), la variable m constitue une donne
manquante ou non- observe.

Nous verrons que lintroduction de ces donnes permet de rsoudre de manire
lgante un problme destimation relativement complexe et que ce type de problme est
adapt lalgorithme dapprentissage EM.

VI.3.4 Estimation du modle GMM par EM :
Lalgorithme EM (Expectation- Maximisation), est un algorithme du type sous optimal
qui permet davoir un maximum local, cest un algorithme itratif qui fait intervenir la fois les
Chapitre IV Modlisation GMM

53

observations X et des variables manquantes (indice de la gaussienne m=1, M), il
maximise de faon itrative la fonction de vraisemblance.

Lide est que, en commenant par les paramtres initiaux du modle, on estime les
nouveaux paramtres , telle que la vraisemblance du nouveau modle soit suprieure ou
gale la vraisemblance du modle initiale. En dautres termes, p(X| ) p(X| ) > , o X est
la squence des vecteurs dapprentissage et p(X| ) dfinit comme suit :
t
T
t 1
p(X| ) p(x | )
=
=
[
(IV.4)
Les paramtres du nouveau modle seront les paramtres initiaux de litration suivante
de EM, ceci est rpt plusieurs fois jusqu atteindre un seuil de convergence. [8]
Voici ci-dessous et avec les formules mathmatiques, les tapes destimation du modle
GMM par lalgorithme EM [8]:

- Initialisation : Etant donn que lalgorithme EM est itratif et que la solution de ce
dernier converge vers un maximum local, la phase dinitialisation joue alors un rle
prpondrant dans la dtermination du rsultat. Ltape dinitialisation consiste :

- Utilisation de lalgorithme LBG qui sera prsent au prochain paragraphe afin
dinitialiser la moyenne ( ) des M gaussienne du modle.
- Initialisation quiprobable des poids des M composantes : 1/
m
M t =
- Initialisation de la matrice covariance la matrice unit.

- Estimation : Calcul de la probabilit de lieme classe :
i i
t M
k k
k 1
b (x)
p(i | x , )
b (x)
t

t
=
=

(IV.5)
Ceci est quivalent avoir un ensemble L de variables continues caches valeurs dans
[0,1] indiquant dans quelle proportion un vecteur
t
x appartient la gaussienne m [14].

- Maximisation : R estimation des paramtres :
n
*
k t
i 1
1
p(i | x , )
T
t
=
=

(IV.6)
Chapitre IV Modlisation GMM

54

T
t t
* t 1
k T
t
t 1
p(i | x , )x
p(i | x , )

=
=
=

(IV.7)

T
* *
t t k t k
* t 1
k T
t
t 1
p(i | x , )(x )(x )
p(i | x , )

=
=
'
=

(IV.8)
O T dsigne le nombre de vecteurs d'apprentissage.
Les tapes destimation et de maximisation seront rptes jusqu atteindre un certain seuil
de convergence.

- Algorithme LBG :
Lalgorithme LBG est un algorithme itratif utilis pour la conception dun quantificateur
vectoriel optimal bas sur les vecteurs dapprentissage.
- Au dpart, on initialise par exemple avec le vecteur moyen de toute la base
dapprentissage
- On tiquette chaque vecteur par le numro de son plus proche voisin. On dtermine
la partition optimale rgle du plus proche voisin .
- On en dduit un nouveau reprsentant par calcul de la moyenne rgle de
centrode .
- On applique technique de Splitting qui consiste dcouper chaque vecteur
centrode
i
C en deux vecteurs (
i
C +e) et (
i
C -e) e un vecteur de perturbation
puis on ritre.
On arrte lalgorithme si le nombre de centrodes dsirs est atteint Nbr itration=
2
log nbre
centrodes dsirs

Chapitre IV Modlisation GMM

55


Figure IV.1 : Exemple d'utilisation du mlange.

VI.5 Dcision :
Toute application de reconnaissance peut se voir comme une dclinaison des processus
de dcision principaux qui sont lidentification et la vrification. Cest pourquoi, dans cette
partie, nous prsentons la phase de dcision dun systme de vrification et didentification.
VI.5.1 Identification :

Soit un groupe de K de visages ou voix, reprsents par les modles GMM :
1
,....,
K
.
Lobjectif de la phase didentification est de trouver, partir dune squence observe X, le
modle qui a la probabilit posteriori maximale, c'est--dire :
s
s argmaxp( | X) = (IV.9)
Ce qui daprs la loi de Bayes :

s
s
p(X| )
s argmax p( )
p(X)

= (IV.10)

En supposant lquiprobabilit dapparition des visages (voix), la loi devient :


s
s argmaxp(X| ) = (IV.11)
Avec s =1 . K ; K reprsente le nombre de modles.
En utilisant le logarithme et lindpendance entre les observations, le systme didentification
calcule le score suivant :
Chapitre IV Modlisation GMM

56

N
n s
n 1
s arg max logp(x | )
=
=

(IV.12)
O
n s
p(x | ) est donne par lquation (IV.1)
Les performances dun systme didentification se mesure par le terme du taux
didentification, ce dernier se dgrade si le nombre de visage (voix) K augmente.

VI.5.2 Vrification :
Pour une image test X et une identit proclame Y, on aura deux hypothses
0
H et
1
H :

0
H : Limage X correspond bien lidentit Y .

1
H : Limage X est celle dune autre personne Y .

La dcision doit se prendre en fonction de la vraisemblance des deux hypothses
concurrentes, mais aussi en fonction des cots associs au choix tort de chacune des
deux (
FA
C cot de fausses acceptations et
FR
C cot de faux rejets). Le problme de dcision
se rsout dans le cadre de la thorie de la dcision Baysienne [16] et cela par le test du
rapport de vraisemblance LRT (Likelihood Ratio Test).

On calcule alors le rapport de vraisemblance LRT (Likelihood Ratio Test) donn par :

p(X| H )
on accepte H
0
1
LRT
on accepte H
p(X| H )
0
1
u


s
=
`
>

)

(IV.13)
O u est un seuil qui peut dpendre du modle de la personne Y, lhypothse
0
H
correspond au modle de la personne Y,
1
H celui du rejet (imposteur).
La valeur thorique optimale du seuil de dcision u est donne par :


FA
FR
p(X)C
p(X)C
u = (IV.14)
O p(X) et p(X) reprsente la probabilit priori des deux hypothses.

En pratique, on utilise le logarithme du rapport de vraisemblance, celui-ci devient donc
une diffrence, le test se nomme par consquent LLRT (Log likelihood Ratio Test).


1 N
p(X| Y) f (p(X| Y),......., p(X| Y )) =

(IV.15)

Chapitre IV Modlisation GMM

57

Cependant, en pratique, le seuil de dcision nest jamais optimal, il doit tre rajust
pour chaque personne considre. Les fonctions de vraisemblance sont des densits de
probabilit des modles statistiques calcules au point de limage X. Ces modles sont en
effet quune estimation des modles exacts et donc peuvent induire un biais au rapport de
vraisemblance. Afin de remdier cela, le rapport obtenu lors de la phase de test est
normalis pour garder le seuil de dcision fixe pour toutes les images des personnes. Le but
est de stabiliser le plus possible le seuil et par consquent avoir une procdure de recherche
dun unique seuil optimisant les performances du systme pour lensemble des images des
personnes.

Le principe de dcision tant tabli, on dfinit dans ce qui suit le modle imposteur
connu sous le nom du modle UBM qui doit reprsenter thoriquement lensemble des
images des personnes autre que lidentit proclame.

VI.5.3 Modlisation des imposteurs par GMM :
Comme vu dans le paragraphe prcdent, la dcision seffectue en pratique en
calculant le LRT (Likelihood Ratio Test).
Le modle Y reprsentant les imposteurs sobtient par diffrentes techniques, et lon
distingue cet effet deux variantes classiques selon la faon dont il est dfini [6] :

- Lapproche par cohorte, ou le modle des imposteurs Y est obtenue partir des
autres modles except la personne considre, mais cette approche est limite
cause essentiellement du temps considrable ncessaire pour la phase de test o la
vraisemblance de chaque modle est calcule par rapport limage en entre.
- Lapproche par modle du monde UBM (Universal background model) dans lequel
le modle des imposteurs est un modle unique indpendant et commun toutes les
images des personnes.

Le modle des imposteurs vise approximer la fonction de densit ( | ) p X Y de limage
X sous lhypothse quelle a t produite par un imposteur. En plus de a, nous utilisons
lapproche qui consiste en la combinaison (IV.16) de plusieurs modles issus de sous
populations (figure IV.1). Lapprentissage de ces derniers se fait travers lalgorithme EM, la
combinaison est ensuite faite selon lune des fonctions : minimum, maximum ou la moyenne
entres les modles.
1
( | ) ( ( | ),......., ( | ))
N
p X Y f p X Y p X Y = (IV.16)

Chapitre IV Modlisation GMM

58



Figure IV.2 : Diffrentes approches de calcul du modle UBM
(a) Les donnes mlanges des sous populations sont modlises par un seul UBM
(b) Des modles des sous populations sont entrans ensuite combin afin de crer un seul UBM

IV.5 Conclusion :
A travers ce chapitre, on a expos la modlisation GMM avec lapproche d'estimation
des paramtres statistiques savoir l'algorithme EM (Expectation Maximisation). Aussi, il
tait question d'exposer la partie dcision dans ces deux modes (identification et
vrification).

Images sous
population 1
Images sous
population 2

Apprentissage
EM
Images sous
population 1
Images sous
population 2

Apprentissage
EM

Apprentissage
EM
Population 2

Combinaison
Des modles
UBM
u
UBM
u

(a)
(b)











Chapitre V : Classification par les machines
vecteurs de support (SVM)












Chapitre V Classification par SVM

60

V.1 Introduction :
Depuis quelques annes, de nouvelles mthodes dapprentissage se dveloppent sur
la base de la Thorie de lApprentissage Statistique (Statistical Learning Theory) de Vapnik
et Chervonenkis. Lune de ces mthodes, appele Machines Vecteurs de Support ou SVM
(Support Vector Machines) qui fut introduite par Vapnik en 1995, permet de raliser des
estimations en classification ( deux classes ou plus) ou en rgression. Le grand succs de
cette mthode dans beaucoup de domaines se justifie essentiellement par les solides bases
thoriques qui la soutiennent.
De telles mthodes permettent gnralement de saffranchir de contraintes statistiques sur
les donnes tudies comme la normalit de la distribution. De plus, elles sont non linaires
ce qui leur donne un pouvoir de gnralisation suprieur dans certains cas, celui des
mthodes de rgressions classiques.
V.2 Thorie des Machines Vecteurs de Support : [29]
Les SVM constituent une classe dalgorithmes base sur le principe de minimisation du
risque structurel dcrit par la Thorie de lApprentissage Statistique de Vapnik et
Chervonenkis qui utilise la sparation linaire. Cela consiste sparer par un hyperplan des
individus reprsents dans un espace de dimension gale au nombre de caractristiques,
les individus tant alors spars en deux classes. Cela est possible quand les donnes
classer sont linairement sparables. Dans le cas contraire, les donnes seront projetes
sur un espace de plus grande dimension afin quelles deviennent linairement sparables.
V.2.1 Formulation :
La tche qu'un classificateur peut tre exprime par une fonction que l'on appelle
fonction de dcision : f : x y
o x est l'ensemble des objets classer. y est l'ensemble des catgories.
Pour une classification binaire, l'ensemble Y est {+1,-1}. La fonction f quon va
calculer et qui est une estimation de f doit bien reprsenter la relation entre les objets et leur
catgorie.
V.2.2 Minimisation du risque structurel :
Lorsque lon utilise des mthodes dapprentissage, on utilise gnralement deux jeux
de donnes: les donnes dentranement et les donnes de test. Le jeu dentranement
reprsente la part des donnes dorigine utilises pour calculer le modle. Le jeu de test est
lautre partie inconnue de lalgorithme dapprentissage et utilise pour valuer les
Chapitre V Classification par SVM

61

performances de gnralisation du modle. La qualit de ce modle est alors juge par
rapport sa capacit de rduire lerreur de test ou de gnralisation .
Cependant, comme le modle nest pas construit en utilisant le jeu de test, lerreur de
gnralisation ne peut pas tre value exactement car elle dpend de la distribution de
probabilit des donnes. Suivant la thorie de Vapnik [40], nous supposons que les donnes
sont gnres selon une distribution de probabilits inconnue P(x,y). De plus, nous
supposons que les donnes sont indpendantes et identiquement distribues (i.i.d).
L'erreur moyenne commise sur toute la distribution P(x, y) par la fonction f(x) est
donne par:
[]

()( ) (V.1)

o Q est la fonction derreur (erreur absolue dans le cas des SVM).
x est le vecteur dentre.
y est l'ensemble des catgories.
Ainsi la fonction f devra tre optimale: la fonction

devra tre calcule de sorte


que l'erreur moyenne sur toute la distribution soit minimale.

([]) (V.2)
Le critre formul prcdemment est malheureusement inutilisable en pratique. En
effet, pour calculer le risque, nous devrions disposer d'une estimation de la distribution P(x,
y), ce qui n'est pas le cas. La seule information dont nous disposons comme valuation de
lerreur est lerreur dentranement appele Risque empirique:
[]

) (V.3)
o l est le nombre dobjets dentranement.
Ceci nest pas suffisant. La raison en est que lon peut facilement trouver un modle
minimisant lerreur dentranement mais pour lequel lerreur de gnralisation sera trs
grande. Un exemple simple est la rgression de donnes linaires bruites au moyen dune
fonction polynomiale: plus le degr du polynme sera grand, plus lerreur dentranement
sera faible, mais plus lerreur de gnralisation sera leve. On peut donc comprendre que
Chapitre V Classification par SVM

62

cette dernire est aussi lie la famille de fonction utilise comme modle. Cette
dpendance est nomme risque structurel .
Dans leur Thorie de lApprentissage Statistique, Vapnik et Chervonenkis ont prouv
quil est possible de dfinir une majoration du risque structurel en fonction de la famille de
fonctions utilise pour le modle [41]. Lune de ces majorations peut tre calcule en utilisant
la dimension de Vapnik-Chervonenkis (dimension VC) qui reprsente le plus grand nombre
de points pouvant tre spars de toutes les faons possibles par un membre de lensemble
de fonctions.
V.2.3 Dimension Vapnik-Chervonenkis :
SVM est une mthode de classification base sur la recherche dun hyperplan
sparateur. La dimension VC est un terme de capacit particulirement bien adapt ce
genre de classificateur.
La dimension VC, not h, d'un ensemble de fonctions F est le nombre maximum de
points pouvant tre spars de toutes les manires possibles par les fonctions de F. Cela
veut dire qu'il doit exister une configuration de h (=VC(F)) points, telle que les fonctions F
peuvent leur assigner les 2 h combinaisons de labels (classes) possibles. Cela n'est pas
garanti pour tous ensemble arbitraire de h points.
Pour illustrer cette ide, considrons trois points reprsents dans R
2
. Supposons
que la famille de fonctions f corresponde aux droites de R
2
: y=A1 x+Ao
La dimension VC de F est 3 car on peut trouver une configuration de trois points
sparables de toutes les faons possibles. Par contre, on ne peut trouver aucune
configuration de 4 points (ou plus) rendant une telle discrimination possible.
Dans la figure V.1, les ronds vides et pleins reprsentent respectivement les points
assigns positivement et ngativement. La flche reprsente le cot de la droite o les
points seront classs positivement.



Chapitre V Classification par SVM

63


Figure V.1 : Configuration de 3 points sparables de toutes les manires possibles par
les droites de 2

Si la dimension VC h de la famille de fonctions utilise est infrieure au nombre de
points dentranement l, alors avec une probabilit dau moins 1-r), on a: [41]
[] []

((

)) (

(V.4)
Cette formule est trs intressante car elle nous permet dapprocher le risque sans
avoir besoin de connatre la distribution des donnes P(x,y). Cependant, la minimisation de
cette borne ne minimisera pas forcment le risque R[f].
Le second terme du membre de droite est appel terme de confiance qui doit tre
pris en compte lors de la recherche de la fonction de dcision. En effet, en plus du critre de
minimisation du risque empirique, nous allons veiller ce que la famille de fonctions dans
laquelle se trouve le candidat f possde un terme de confiance intressant.
Il est noter quil est difficile de calculer la valeur exacte de la dimension VC pour
certaines familles de fonctions, mais on sait parfois la borner en fonction du nombre de
paramtres de la famille de fonctions choisie [29].
V.2.4 Classification binaire par hyperplan :
Considrons maintenant l points {(x
1
, y
1)
, (x
2
, y
2
),, (x
l
,y
l
)} x
i

N
, avec
i=1,,l et yi {1}.
Classons ces points en utilisant une famille de fonctions linaires dfinie par
Chapitre V Classification par SVM

64

wx + b = 0 avec w
N
et b de telle sorte que la fonction de dcision
concernant lappartenance dun point lune des deux classes soit donne par :
() ( ) (V.6)
V.2.5 Cas de donnes linairement sparables :
Nous allons construire lhyperplan H dquation: wx+b=0 qui spare au mieux les
deux classes et se trouvant mi-distance des deux hyperplans H
1
et H
2
, parallles H,
dquations respectives :
H
1
: wx+b=+1.
H
2
: wx+b=-1. Telle que les deux conditions suivantes soient respectes:
Condition 1 :
-Il ny a aucun point qui se situe entre H
1
et H
2
.
Cette contrainte se traduit par les ingalits :
wx
i
+b +1 pour y
i
=+1
et
wx
i
+b -1 pour y
i
=-1
Ces deux ingalits peuvent tre combines en une seule:
y
i
(wx
i
+b) +1
Condition 2 :
-La distance ou la marge entre H
1
et H
2
est maximale.
Dans ce cas, la distance entre H
1
et H
2
est donne par:


Maximiser M revient minimiser ||w|| ou minimiser ||w||
2
avec ||w||
2
= w
t
w (carr de la
norme euclidienne du vecteur w).
Le problme de sparation par hyperplan optimal peut tre formul comme suit :
Chapitre V Classification par SVM

65

{

)
(V.7)

Figure V.2 : Donnes linairement sparables

Ce problme doptimisation quadratique peut tre rsolu en introduisant des
multiplicateurs de Lagrange
i
0.
Le lagrangien associ au problme prcdent doptimisation est:
( )

) )

(v.8)
Do on obtient le problme dual :
{

(V.9)
La fonction de dcision est alors :
() (

) (V.10)

Cette fonction de dcision est donc seulement influence par les points
correspondants des
i
non nuls. Ces points sont appels les Vecteurs de Support. Ils
Chapitre V Classification par SVM

66

correspondent, dans un cas linairement sparable, aux points les plus proches de la limite
de dcision, cest dire aux points se trouvant exactement une distance gale la marge.
Il sagit l dune proprit trs intressante des SVM: seuls les Vecteurs de Support sont
ncessaires pour dcrire cette limite de dcision, et le nombre de Vecteurs de Support pour
le modle optimal est gnralement petit devant le nombre de donnes dentranement.
[40][41]

Figure V.3 : Vecteurs de support
V.2.6 Cas de donnes non-linairement sparables :
En pratique, il est assez rare davoir des donnes linairement sparables. Afin de
traiter galement des donnes bruites ou non linairement sparables, les SVM ont t
gnralises grce deux outils : la marge souple (soft margin) et les fonctions noyau
(kernel functions).
Le principe de la marge souple est dautoriser des erreurs de classification. Le nouveau
problme de sparation optimale est reformul comme suit :
Lhyperplan optimal sparant les deux classes est celui qui spare les donnes avec
le minimum derreurs, et satisfait donc les deux conditions suivantes :
condition 1 :
- la distance entre les vecteurs bien classs et lhyperplan doit tre maximale.
condition 2 :
- la distance entre les vecteurs mal classes et lhyperplan doit tre minimale.
Chapitre V Classification par SVM

67

Pour formaliser cela, on introduit des variables de pnalit non-ngatives,
i
pour i =
1,,l appeles variables dcart. Le principe de la marge souple se traduit par la
transformation des contraintes qui deviennent :

)


(V.11)
Avec lintroduction dun terme de pnalit, la fonction objectif devient :

(V.12)
Le paramtre C est dfini par lutilisateur. Il peut tre interprt comme une tolrance
au bruit du classificateur. Cest aussi la pnalit associe toute violation des contraintes du
cas linairement sparable. Pour de grandes valeurs de C, seules de trs faibles valeurs de
S sont autorises et, par consquent, le nombre de points mal classs sera trs faible
(donnes faiblement bruites).
Cependant, si C est petit, S peut devenir assez grand et on autorise alors bien plus derreurs
de classification (donnes fortement bruites).[29][4]
La nouvelle formulation du problme doptimisation est alors :
{




(V.13)
En introduisant les multiplicateurs de Lagrange, le problme dual sera lgrement
diffrent du cas sparable :
{

(V.14)
La seule diffrence avec le cas linairement sparable est donc lintroduction dune
borne suprieure pour les paramtres
i
. Il est galement intressant de noter que les points
se trouvant du mauvais ct de la limite de dcision sont tous des vecteurs de support,
quelle que soit leur distance cette limite, ce qui signifie quils exercent une influence sur le
calcul de cette limite. Maintenant, que faire si les donnes ne sont pas linairement
sparables ?
Lide est de projeter lespace dentre (espace des donnes) dans un espace de
plus grande dimension appel espace des caractristiques (feature space) afin dobtenir une
configuration linairement sparable ( lapproximation de la marge souple prs) de nos
donnes, et dappliquer alors lalgorithme des SVM. [40]
Chapitre V Classification par SVM

68

Cette projection est quivalente lapplication dune transformation sur les donnes
initiales par lintermdiaire dune fonctionu.
Le nouvel algorithme peut donc tre crit ainsi :



()

{

(((

)(

(V.14)
V.2.7 Les fonction Noyaux :
V.2.7.1 Introduction du noyau :
Afin deffectuer des dcisions non linaires en utilisant le SVM, il nest pas ncessaire
de dfinir une transformation explicite comme cest le cas dans lexemple du Ou exclusif car
ce genre de transformation peut devenir trs coteux du point de vue calcul pour de grandes
valeurs de M. En analysant les formules du Lagrangien et du problme dual, on remarque
que les vecteurs dentre se prsentent dans les fonctions objectifs sous formes de produits
scalaires entre les paires de vecteurs. Lastuce est de calculer le produit scalaire dans
lespace des caractristiques en fonction des vecteurs de lespace dentre directement [4].
Le produit scalaire dans lespace dentre en utilisant la transforme utilise dans
lexemple du Ou exclusif est :
(

) (

(V.16)
Donc on peut dfinir le noyau: K(u,v) = u.v + u1.u2.v1.v2
Les produits scalaires dans les formules prcdentes peuvent tre remplacs par une
fonction noyau. On peut utiliser nimporte quelle fonction noyau valide (satisfaisant la
condition de Mercer [4]) sans avoir besoin de connatre des informations sur la
transformation linaire qui lui a donn lieu. Cest galement plus efficace que deffectuer des
transformations non-linaires sur les donnes puis calculer leurs produits scalaires
sparment.



Chapitre V Classification par SVM

69

V.2.7.2 Condition de Mercer :
La matrice contenant les similarits entre tous les exemples de lentranement est
appele matrice de Gram.
(

) (V.16)


Thorme : (condition de Mercer). La fonction K(x,y) : X x X R est un noyau si est
seulement si:
((

)) (V.17)
Est dfinie positive.
La condition de Mercer nous indique si une fonction est un noyau mais ne fournit
aucune information sur la fonction u (et donc sur lespace des caractristiques) induit par ce
noyau.
V.2.7.3 Exemples de noyaux :
Le noyau linaire
( ) | () ( ) (V.18)
La figure V.4 illustre une classification par un noyau linaire, la droite noire
reprsente la fonction de dcision et les deux droites en bleu et en rouge reprsentent les
marges maximales. Les points en carr sont les vecteurs de support.

Figure V.4 : Sparation par un noyau linaire
Chapitre V Classification par SVM

70

Le noyau polynomial
Sa forme gnrique est de la forme :
( ) ( | )

(V.19)
La figue V.5 illustre une sparation de donnes non linairement sparables, la
courbe en noire reprsente la fonction de dcision, celles en bleu et en rouge reprsentent
les marges de scurit maximale. Les points en carr sont les vecteurs de support.

Figure V.5 : Sparation par un noyau polynomial
En gnral, quand on utilise un noyau polynomial, on prend les paramtres a et b gaux 1.
Le noyau RBF (Radial Basis Function)
Sa forme gnrique est la suivante :
( ) (

) (V.20)
o o est un paramtre de rgulation.
La figure V.6 reprsente une sparation par un noyau Gaussien (RBF), la courbe en
noire reprsente la fonction de dcision, celles en bleu et en rouge reprsentent les marges
de scurit maximale. Les points en carr sont les vecteurs de support.

Chapitre V Classification par SVM

71


Figure V.6 : sparation de donnes non linairement sparable par un noyau RBF

En rsum, pour tout problme de la classification automatique, nous devons
rsoudre le programme quadratique suivant :
{

(V.21)

et la nouvelle fonction de dcision est alors :
() (

) )

2)
V.3 Rsolution du problme li lapprentissage dune machine
vecteurs de support :
L'entranement d'une Machine Vecteurs de Support consiste rsoudre le
problme d'optimisation quadratique convexe. Le choix de la technique de rsolution
numrique est critique car les performances de l'implmentation en seront directement
tributaires.
En raison de son immense taille, le problme qui rsulte de lapproche SVM ne peut
pas tre rsolu facilement par l'intermdiaire des techniques standards de programmation
quadratique (PQ). La forme quadratique prcdente implique une matrice qui a un nombre
d'lments gal au carr du nombre d'exemples dentranement. Cette matrice ne peut pas
Chapitre V Classification par SVM

72

tre traite correctement avec une RAM de 128 mga-octets sil y a plus de quatre milles
(4000) exemples dentranement o chaque lment de la matrice est stock en double
prcision (8 octets).
Notons que toutes les mthodes qui rsolvent le problme (II.14) reposent sur les conditions
de Karush-Kuhn-Tucker (KKT).
V.3.1 Les condition KKT : [40][29]
La rsolution de loptimisation quadratique du problme dual est base sur les
conditions de convergence dites de Karush-Kuhn-Tucker (KKT) qui tablissent les
conditions ncessaires (mais parfois suffisantes) de convergence de la fonction objective
duale. Ces conditions sont relativement simples et scrivent :
{


(V.22)

Ces quations refltent une proprit importante du SVM stipulant que plusieurs
exemples dapprentissage sont situs en dehors de la marge et ne sont pas retenu par le
modle. Par consquent, leurs multiplicateurs i sont nuls.
Les conditions de KKT traduisent le fait que seulement les variables i des points
situs sur la frontire de la marge (0 < i < C) ou lintrieure de celle-ci (i = C) sont non
nulles. Ces points sont les vecteurs de support du classificateur.
Le SVM produit alors une solution clairseme nutilisant quun sous ensemble rduit
des donnes dapprentissage. Sans cette proprit, lentranement du SVM sur de gros
ensembles de donnes ainsi que son stockage deviennent extrmement prohibitifs.
V.3.2 Algorithme dapprentissage du SVM :
Afin de trouver les paramtres du SVM, il est ncessaire de rsoudre le problme
doptimisation quadratique convexe (problme dual) dont la formulation matricielle scrit
encore :

(V.22)
o K est une matrice semi-dfinie positive dont les composantes Kij = yi yj k(xi, xj) et
1 est le vecteur unit de mme taille que . Comme la fonction objective est convexe, tout
Chapitre V Classification par SVM

73

maximum local est aussi un maximum global. Toutefois, il peut y avoir des solutions
optimales diffrentes en termes de i donnant lieu des performances diffrentes.
Il existe une grande varit de mthodes et de logiciels traitant de la rsolution de
problmes quadratiques. Cependant, quelques mthodes seulement sont capables de traiter
un grand nombre dexemples- souvent sous hypothse que la matrice de Grahm Schmidt K
soit creuse [42]. Dans le cas contraire, lapprentissage dun SVM de quelques centaines
dexemples prendrait normment de temps de calcul et assez de ressources mmoire.
Seulement, il est possible de driver des algorithmes qui exploitent la forme
particulire de la fonction objective duale du SVM. Dans cette section, nous allons prsenter
trois approches diffrentes pour la rsolution du problme quadratique du SVM. [40][4]
V.3.3 La mthode Chunking :
L'algorithme Chunking emploie le fait que la valeur de la forme quadratique est
identique si on enlve les lignes et les colonnes de la matrice qui correspondent aux
multiplicateurs de Lagrange gaux zro. Par consquent, le grand problme de PQ peut
tre dcompos en une srie de plus petits problmes de PQ, dont le but final est d'identifier
tous les multiplicateurs diffrents de zro et de rejeter tous les multiplicateurs gaux zro.
Le pseudo-code de cette mthode est le suivant:

Chapitre V Classification par SVM

74

V.3.4 La mthode de dcomposition :
Osuna a suggr une nouvelle stratgie pour rsoudre le problme des SVM. Il a
prouv que le grand problme de PQ (II.14) peut tre dcompos en srie de plus petits
sous problmes de PQ. A chaque fois quon aura un exemple violant les conditions de KKT,
on lajoute au sous-problme de ltape suivante. Cette mthode garde une matrice de taille
constante pour chaque sous-problme de PQ. Ceci implique que lon rajoute et lon supprime
le mme nombre d'exemples chaque tape. L'algorithme donn par Osuna suggre
dajouter un exemple et soustraire un exemple chaque tape. [29]
Le pseudo-code de cette mthode est le suivant:


V.3.5 La mthode dOptimisation Squentielle Minimale (SMO) : [40]
John Platt a propos en 1999 un nouvel algorithme pour lentranement des SVM quil
a appel algorithme dOptimisation Squentielle Minimale (SMO). Cet algorithme, comme les
deux prcdents, dcompose le problme de PQ mais choisi de rsoudre le plus petit sous-
problme possible chaque tape doptimisation de la fonction objectif. Cela est ralisable
en choisissant doptimiser, non pas un ensemble de multiplicateurs de Lagrange la fois,
mais deux seulement. De ce fait lalgorithme SMO ne ncessite aucun stockage
supplmentaire de matrice. Du cot des performances en temps de rponse, lalgorithme
SMO est plus efficace. En effet, il ncessite plus ditrations pour converger mais chaque
itration effectue moins doprations. Platt a essay son algorithme sur la base de donnes
Chapitre V Classification par SVM

75

MNIST. Il a obtenu les mmes performances que lalgorithme chunking et lalgorithme de
dcomposition avec un noyau linaire. Cependant, pour la base de donnes Adult UCI, avec
un noyau linaire, lalgorithme SMO est 1000 fois plus rapide.
V.3.6 Comparaison entre les trois mthodes :

Le tableau V.1 montre une comparaison entres les trois mthodes :

Utilisation dun
module PQ
Taille du sous
problme
Entre du module
doptimisation
Chunking oui arbitraire tout le sous-
ensemble
Dcomposition oui arbitraire les
i
du sous-
ensemble
SMO non 2 les
i
du sous-
ensemble
Tableau V.1 : comparaison entre les trois algorithmes

A partir du tableau comparatif, il ressort clairement que la mthode SMO prsente
plus davantages que les deux autres. Cest pourquoi nous lavons choisie comme
algorithme implmenter pour entraner notre classificateur SVM.[29]

V.4 Conclusion :
Dans ce chapitre, nous avons prsent une technique dapprentissage automatique
trs rcente qui est celle des Machine Vecteurs de Support. Cette mthode base sur la
maximisation de la marge de scurit, associe une dcision de classement, a fait ses
preuves en pratique comparativement aux autres techniques de classification. La
comparaison entre les diffrents algorithmes dentranement de cette technique nous a
permis dopter pour lalgorithme SMO qui prsente des caractristiques trs intressantes
par rapport aux autres algorithmes (rapidit, mmoire de stockage).










Chapitre VI : Conception et ralisation














Chapitre VI Conception et ralisation

77

VI.1 Introduction :
Dans les chapitres prcdents, nous avons illustr en dtails les diffrentes techniques
de traitements dimage et de la voix, ainsi que les approches thoriques utilises dans le
cadre de la conception de notre plateforme de fusion en score base des SVMs.
Dans ce qui suit, nous allons voir les mthodes sur lesquelles on sest bas pour exploiter
ces diffrents concepts mathmatiques afin de raliser un systme de reconnaissance
dindividus robuste et fiable, ainsi quune prsentation dtaille des diffrents modules qui le
composent et la manire dont on a implment les algorithmes et grer tous les paramtres
dacquisition, de modlisation, de fusion et de dcision.
VI.2 Conception (Architecture du systme):
La structure gnrale du systme de reconnaissance comporte deux phases :
- La phase dapprentissage : Comme son nom lindique, cest la phase ou le systme
apprend la personne partir dune ou plusieurs images-voix, elle seffectue en deux
tapes :
Pour chaque personne:
Extraire les paramtres pertinents des images de son visage en utilisant la DCT et
des squences vocales moyennant les MFCCs.
Estimer la distribution de ces paramtres laide de plusieurs gaussiennes en
utilisant lalgorithme EM.
Gnrer les scores pour chaque modalit
Faire une fusion pour les deux classes de scores (vocaux et faciaux) en utilisant les
mthodes fixes et la seule mthode entraine, la sommation pondre, puis calculer
les paramtres SVM en utilisant lalgorithme SMO.
A la fin de cette tape, on aura pour chaque personne un modle GMM unique qui le
caractrise, ce dernier contient les moyennes, les variances et les coefficients de
pondration des gaussiennes retrouves. Un ensemble de tous les scores gnrs avec les
paramtres SVM.


Chapitre VI Conception et ralisation

78

- La phase de dcision : Elle comporte deux modes :
- Lidentification : Elle consiste identifier une personne partir de celles qui se
trouvent dans la base de donnes. Cette phase est uniquement oprationnelle pour
chaque systme monomodal considr seul.
- La vrification : Elle consiste vrifier si la personne vrifier correspond au modle
proclam par cette mme personne qui est dj enregistre dans la base de donnes.
- La phase de tests : cest la phase ou on calcule les taux didentification et les seuils
de vrification pour lvaluation de notre systme.
Remarque : Larchitecture du systme est illustre dans la figure VI.1 et bien dtaille par la
suite.


















Figure VI.1 : Architecture du systme
Normalisation des scores
Voix
Extraction des
paramtres
Modlisation
GMM
Scores
BDD
Visage
Extraction des
paramtres
Modlisation
GMM
Scores
BDD
Fusion en scores
Dcision
Chapitre VI Conception et ralisation

79

VI.2.1 Phase dApprentissage :
Dans cette phase, le systme reoit les demandes dajouts des nouveaux clients.
Pour chaque client, nous introduisons les informations personnelles, plusieurs poses de
visages (en gnral 5 poses) et une squence de parole (gnralement 10 secondes).
Aprs lacquisition des informations, nous passons lextraction des paramtres
pour ensuite gnrer un modle GMM spcifique chaque utilisateur pour chacune des
deux modalits, ces deux modles ainsi que les informations prcdemment extraites
(paramtres) seront stockes dans la base de donnes.
Le fichier XML contiendra aussi les diffrentes spcificits ou caractristiques de
chaque systme (reconnaissance de visages, reconnaissance du locuteur), et galement
pour le systme bimodale rsultant Et voici lalgorithme :

Avec : Proclamer (i, j) donne le score de la vrification du client i avec le client j et partir
des deux ensembles obtenus (ScoreImposteur, ScoreClient) nous calculons : Min, Max,
Moyenne, cart type de lensemble {ScoreImposteur, ScoreClient} et nous les stockons
dans le fichier XML,
ScoreImposteur {} ScoreClient {}
Pour i=1, nbrPersonne dans le systme
ScoreClient += Proclamer (i, i)
Pour j=1, nbrPersonne dans le systme avec (j i)
ScoreImposteur += Proclamer (i, j)
Fpour
Fpour

Chapitre VI Conception et ralisation

80



Figure VI.2 : Diagramme de squence en mode Apprentissage

VI.2.3 Phase de test :
VI.2.3.1 Vrification :
Dans le cas dune vrification, le client proclame une identit. pour lui rpondre, le
systme passe par les tapes suivantes :
1. Lacquisition : lacquisition des informations biomtriques de lindividu (image visage
+ voix), lidentit de la personne proclame.
2. Extraction des paramtres biomtriques : tout dpend de la configuration choisie
par ladministrateur du systme, nous soumettons les informations biomtriques
des prtraitements et nous en extrayons les paramtres biomtriques (les coefficients
DCT, les coefficients MFCC).
3. Gnration des scores : Lire les deux modles GMM sauvegards dans la base de
donnes correspondants lidentit proclame et pour chacune des deux modalits :
Calculer le degr de vraisemblance entre les paramtres biomtriques et le modle
GMM, la fin de cette phase nous aurons deux scores rsultants.
Ext. Paramtres
et Modlisation
Fichier XML Ext.
Caractristique
s
Normalisation et
fusion, SVM
Images
visage et
Parole
Informations
client
Enregistrer
les 2 modles
GMM
Enregistrer
Info. Client
Lecture des
modles pour
les tests
Enregistrer les
Caractristiques
des deux
systmes.
Lecture des
Caractristiques
des deux
systmes.
Enregistrer les
Caractristiques
du nouveau
systme.
Validation
Chapitre VI Conception et ralisation

81

4. Fusion des scores : Lire les caractristiques des deux systmes biomtriques puis
normaliser et fusionner les deux scores pour obtenir un seul.
5. Dcision : Comparer le score rsultant de ltape prcdente avec le seuil optimale
du systme (ou bien celui choisi par ladministrateur).


Figure VI.3 : Diagramme de squence en mode vrification
VI.2.3.2 Identification :
Dans le cas dune identification, le client na qu se prsenter devant les capteurs et
introduire les informations biomtriques, le systme suit les instructions ci-dessus :
1. Lacquisition : lacquisition des informations biomtriques de lindividu.
2. Extraction des paramtres biomtriques : identique celle du mode vrification
des prtraitements puis lextraction des paramtres.
3. Gnration des scores : Pour chacune des deux modalits : Calculer le degr de
vraisemblance entre les paramtres biomtriques et tous les modles GMM stocks
dans la base de donnes, la fin de cette phase on aura 2 x nombres de
personnes dans la base scores rsultants.
4. Fusion des scores : Lire les caractristiques des deux systmes biomtriques puis
normaliser et fusionner (deux deux) les scores.
Ext.
Paramtres
Vraisemblance Fichiers XML Normalisation,
fusion et
dcision
Image visage
ID client
proclam
Saisir
Info.
Client

Lecture des
Caractristiques
des deux
systmes
Rponse : Client /
Imposteur
Parole
Modle
GMM
Visage
Score
Score
Coefficients
DCT
Coefficients
MFCC
Modle
GMM Voix
Acquisition
Parole
Acquisition
Visage
Chapitre VI Conception et ralisation

82

5. Dcision : Trier les scores rsultants de ltape prcdente pour indiquer la
personne (ou les personnes) la plus proche (ou les plus proches) lindividu.


V.2.4 Structure gnrale du systme :
VI.2.4.1 module dacquisition :
Ce module soccupe de lacquisition du flux de donnes en entre (limage visage et
la voix de lindividu). Ainsi, il opre sur un dispositif de capture dimage (camera ou webcam)
et un dispositif de capture de voix (microphone), il effectue aussi des prtraitements sur ces
donnes savoir : la transformation au niveau de gris, la normalisation, lgalisation et le
filtrage mdian pour limage (voir Annexe B) et llimination du bruit de la voix.
V.2.4.2 module de modlisation :
Cest le cur du systme, il a comme rle de gnrer les modles GMM des
personnes partir des matrices des paramtres (pour la voix ou le visage).
Estimation par algorithme EM :
Ext.
Paramtres
Vraisemblance Fichiers XML Normalisation,
fusion et dcision
Image visage
Lecture des
Caractristiques
des deux
systmes
Rponse : la personne la plus proche
Parole
Tous les
Modles
GMM Visage
Les scores
Les scores
Coefficients
DCT
Coefficients
MFCC
Tous les
Modles GMM
Voix
Acquisition
Parole
Acquisition
Visage
Figure VI.4: Diagramme de squence en mode identification
Chapitre VI Conception et ralisation

83

Cette modlisation permet destimer les paramtres de chaque modle en utilisant
lalgorithme EM (expectation-maximisation), elle comporte deux phases :
LInitialisation:
Cette phase consiste initialiser les paramtres de lalgorithme EM de la manire suivante :
- Les vecteurs de la moyenne (

) par lalgorithme LBG comme lindique le chapitre 5.


- Les matrices de covariance

par des matrices units.


- Les coefficients de pondration dune manire quiprobable.
LEstimation des paramtres statistiques : (expectation-maximisation)
Cette phase consiste calculer les paramtres des gaussiennes qui contribuent dans la
gnration de chaque modle, et cela aprs plusieurs itrations jusqu atteindre un
maximum local (pour plus de dtails voir le chapitre 4).
Algorithme EM :

















( , ,C) : matrices des moyennes, covariances et coefficients de pondration
des gaussiennes ; nbGauss : nombre de gaussiennes ; nbiter : nombre ditrations.

Variables



1. LBG (MatDct)
2. Pour i=1 nbGauss
i
Matrice identit ;
i
C 1/nbGauss.
3. Pour i=1 nbiter
- Calculer la proportion de chaque vecteur DCT caractrisant un bloc par
rapport chaque classe (gaussienne).
- Estimer le nouveau .
- Estimer le nouveau .
- Estimer le nouveau C.
- Aller 3.

Algorithme

Comparaison
et dcision
Chapitre VI Conception et ralisation

84

VI.2.4.3 Module denregistrement:
Chaque ensemble de visages ou voix de chaque personne doit tre sauvegard dans
la mmoire du systme, ainsi que les informations concernant son identit, aussi les
modles UBM et ceux des personnes, et cela pour des utilisations ultrieures lors des tests.
La mmoire du systme nest quun ensemble de fichier XML contenant les champs
suivants :
ID Identit du modle
Configuration Paramtres utiliss pour la gnration du
modle
Matrice des moyennes Rsultats de lalgorithme EM
Matrice de covariances Rsultats de lalgorithme EM
Vecteur de poids Rsultats de lalgorithme EM
Tableau VI.1 : Structure de fichier XML denregistrement
VI.2.4.4 Module de normalisation :
Comme son nom lindique, il a pour rle de normaliser les scores venants des
systmes monomodaux, les mthodes de normalisation utilises sont les suivantes : Min-
Max, Z-score, TanH, ladministrateur peut choisir lune de ces mthodes.
VI.2.4.5 Module de fusion :
Le rle de se module est de fusionner les scores normaliss en appliquant selon le
choix de ladministrateur lune des mthodes de fusion suivantes : Min, Max, Somme
Simple, Somme Pondre.
VI.2.4.6 Module SVM :
Ce module fournit un classificateur SVM avec trois noyaux possibles : le noyau
linaire, le noyau polynomial et le noyau RBF.
VI.2.5 interaction entre les modules du systme :
VI.2.5.1 Interaction en mode apprentissage :


Chapitre VI Conception et ralisation

85


Figure VI.4 : Interaction entre les classes en mode Apprentissage
VI.2.5.2 Interaction en mode Test :

Figure VI.5 : Interaction entre les classes en mode Test
Fichiers XML
Acquisition du
visage et
parole
Modlisation
Visage
Modlisation
voix
Normalisation Fusion
SVM
Fichiers XML
Acquisition du
visage et
parole
Modlisation
Visage
Modlisation
voix
SVM
Normalisation Fusion
Chapitre VI Conception et ralisation

86

VI .3 Implmentation et ralisation du systme :
VI.3.1 Outils de tests :
MATLAB :
MATLAB est un langage de calcul scientifique de haut niveau et un environnement
interactif pour le dveloppement d'algorithmes, la visualisation et l'analyse de donnes, ou
encore le calcul numrique (MATLAB veut dire MATrix LABoratory). En utilisant MATLAB,
nous pouvons rsoudre des problmes de calcul scientifique plus rapidement qu'avec les
langages de programmation traditionnels.
Le langage MATLAB met la disposition du dveloppeur les oprations vectorielles
et matricielles, fondamentales pour les problmes d'ingnierie et scientifiques. Il permet un
dveloppement et une excution rapide.
Avec le langage MATLAB, nous pouvons programmer et tester des algorithmes plus
rapidement qu'avec les langages traditionnels, car il n'est pas ncessaire d'effectuer les
tches de programmation de bas niveau, comme la dclaration des variables, la spcification
des types de donnes et l'allocation de la mmoire.
VI.3.2 Outils de dveloppement :
Visual c#.net :
Microsoft Visual C# 2005 est un langage de programmation permettant la cration
d'une large gamme d'applications s'excutant sur le .NET Framework. C# est simple,
puissant, de type scuris et orient objet. Avec ses nombreuses innovations, C# permet le
dveloppement rapide d'applications tout en conservant la simplicit et l'lgance des
langages de style C.
Visual Studio prend en charge Visual C# avec, entre autres outils, un diteur de code
dot de toutes les fonctionnalits, des modles de projet, des concepteurs, des Assistants
Code et un dbogueur puissant et facile utiliser. La bibliothque de classes du .NET
Framework donne accs une large gamme de services de systme d'exploitation et
d'autres classes utiles, bien conues pour acclrer considrablement le cycle de
dveloppement.
- La plateforme .NET contient une collection riche de classes et de bibliothques
prdfinies qui facilitent limplmentation des algorithmes.
Chapitre VI Conception et ralisation

87

- Possibilit dexploiter les diffrentes DLL (Dynamic Link Library) cres par dautres
langages que le Visual C# sous la mme plateforme.
DirectX:
Cest un ensemble de bibliothques multimdias qui en est actuellement la 10
ime

version, constitue de plusieurs composantes destines satisfaire les besoins des
dveloppeurs.
Principalement, nous lavons utilis pour lacquisition de la voix et aussi pour la
conception dun module de dtection du visage souple et rapide.
VI.3.3 Implmentation du systme :
Notre systme est conu sous forme de projets individuels gnrant chacun un
module (DLL). Ces modules collaborent ensemble au sein dune application matresse.
VI.3.3.1 Le module VOICE:
Ce module a pour objectif de traiter le signal vocal depuis un fichier Wave ou
directement un microphone. Il gnre en fin de traitement les coefficients MFCCs.
Ce module est implment comme mont dans le tableau VI.1 :

Chapitre VI Conception et ralisation

88


Tableau VI.1 : Implmentation du module VOICE
VI.3.3.2 Le module FACE :
Ce module traite limage qui contient le visage depuis un fichier Bitmap ou
directement dune WebCam, il fournit les coefficients DCTs et est implment comme suit :

Tableau VI.2 : Implmentation du module FACE
Chapitre VI Conception et ralisation

89

VI.3.3.3 Le module GMMModlisation :
Dans ce module, on trouve toute les fonctions ncessaire la modlisation des
paramtres extraits pour le visage ou la voix, ainsi la gnration du modle UBM, il est
implment comme indiqu au tableau VI.3 :


Tableau VI.3 : implmentation du module GMMModlisation
VI.3.3.4 Le Module StatisticTools :
Cest un module contenant un ensemble de fonctions et structures facilitant la gestion
des donnes biomtriques traites dans le systme comme lgalisation de lhistogramme.
Chapitre VI Conception et ralisation

90

Le tableau VI.4 montre limplmentation du module :

Tableau VI.4 : implmentation du module StatisticsTools
VI.3.3.5 Le module FUSION :
Ce module comporte les fonctions de base pour permettre la fusion entre les scores
clients et imposteurs avec les mthodes fixes et galement la mthode SVM ainsi il assure
leurs normalisation, il est implment comme mont ci-dessous :

Chapitre VI Conception et ralisation

91


Tableau VI.5 : implmentation du module FUSION
VI.3.4 Prsentation de lapplication :
Notre application comporte trois systmes fonctionnels : le systme de
reconnaissance automatique du locuteur, le systme de reconnaissance de visages et le
systme de reconnaissance bimodale.
Chaque systme est compos de sous-systme assurant les diffrents tches depuis
lacquisition de lchantillon jusqu le test des performances.

Chapitre VI Conception et ralisation

92


Figure VI.6 : Visualisation dun signal vocal

Figure VI.6 : Acquisition dune image partir de la Webcam
Chapitre VI Conception et ralisation

93

VI.4 Conclusion :
Dans ce chapitre, nous avons illustr le schma gnral de notre plateforme de
fusion en score avec SVM et les dtails des modules qui le composent, ainsi que les
diffrents langages et outils utiliss pour assurer son bon fonctionnement.

























Chapitre VII : Test et valuation des rsultats














Chapitre VII Test et valuation des rsultats

95

VII.1 Introduction :
Dans ce chapitre, on exposera les rsultats et tests effectus en utilisant les deux
approches globales en loccurrence les mthodes de fusion fixes et la mthode SVM tout en
montrant leffet de la normalisation des scores. Pour que la comparaison entre les deux
approches prenne sens, on gardera la mme configuration du classificateur GMM pour les
deux catgories de fusion.
Quant la mthode SVM, on approfondira les tests en jouant sur les paramtres
internes du classificateur dabord les trois noyaux utiliss(le noyau linaire, polynomial et
RBF) puis les paramtres de chaque noyau. Enfin, on terminera par une conclusion base
sur linterprtation de tous les rsultats raliss.
VII.2 Donnes utilise pour raliser les tests :
Compte tenu de la difficult dobtention dune base de donnes bimodale standard
(voix-visage) pour valuer notre application, On sest retrouv dans lobligation de crer
notre base de donnes plus ou moins standard intitul TIMIT-ORL. Alors, on a combin les
deux bases standard TIMIT et ORL de la manire suivante :
La base de donnes TIMIT est une base de paroles non bruites enregistres
moyennant des microphones de bonnes qualit avec une frquence dchantillonnage de 16
KHz, cette base comporte 100 locuteurs, chaque locuteur est reprsent par deux fichiers
Wave , le premier est utilis pour lapprentissage (gnration du model GMM), le deuxime
est utilis pour le test. Quant lORL, cest une base dimages aussi non bruites
enregistres avec des prtraitements, cette dernire contient 400 images de 40 personnes
diffrentes. Chaque individu est reprsent par un ensemble de 10 images regroupant les
diffrentes expressions faciales et des inclinaisons de 20 degrs au maximum, ces images
sont au niveau de gris et ont une taille de 92X112 pixels.les cinq premires images sont
utilises pour lapprentissage et les cinq dernires pour le test.
Pour notre base bimodale, on considre que chaque individu de la base TIMIT est le
mme individu qui le correspondant en respectant lordre dans la base ORL ce qui nous
donne un total de 40 personnes : chaque personne est reprsente par deux fichiers Wave
et 10 images faciales.
Les tests ont t raliss sur un ordinateur personnel HP Campaq 2510p Notebook
PC processeur Core 2 Duo 1.22 GHz et 2 GO de mmoire vive.
Chapitre VII Test et valuation des rsultats

96

VII.3 Protocole dvaluation :
Notre systme a t soumis une srie de tests portant sur les mthodes de fusion
fixes et la mthode SVM avec diffrent paramtres de configuration pour ces derniers. Par
contre et comme indiqu prcdemment, on na pas voulu changer la configuration du
classificateur GMM afin de pouvoir raliser une tude comparative entre les deux classes de
mthodes. Le protocole dcrit ci-dessous a t adopt pour la ralisation de tous les tests
figurant dans ce chapitre :
Reconnaissance monomodale :
Afin de pouvoir remarquer leffet de la fusion quelle quelle soit, on est oblig de voir
les performances de chaque systme fonctionnant sparment (obtenir lEER pour le
systme de reconnaissance du locuteur et lEER pour le systme de reconnaissance de
visages). Heureusement, les deux systmes ont le mme classificateur en loccurrence le
classificateur GMM ce qui nous facilite normment les tests.
Reconnaissance de locuteur :
Gnration des modles GMM : On a utilis le premier fichier Wave pour chaque individu
pour gnrer leurs modles suivant lalgorithme EM, il en rsulte 40 modles reprsentatifs
Gnration du modle UBM : Pour calculer le modle UBM qui reprsente le modle des
imposteurs utilis dans lors de la phase de test en mode vrification, nous avons utilis les
40 premiers fichiers Wave et partir desquels on gnre le modle UBM moyennant
lalgorithme EM.
Gnration des scores : le deuxime fichier Wave de la base TIMIT est utilis pour la
gnration du score. Rappelant que le score est le degr de crdibilit pour le systme de
faire accepter un individu lors de la phase de vrification. Tous les scores possibles sont
gnrs comme indiqu dans le tableau ci-dessous :





Chapitre VII Test et valuation des rsultats

97

S1,1 S1,2 S1,39 S1,40
S2 ,1 S2,2 S2,39 S2,40

S39,1 S39,2 S39,39 S39,40
S40,1 S40,2 S40,39 S40,40

Tableau VII.1 : gnration des scores pour la base TIMIT de 40 personnes
Si, j : Scores gnr pour lindividu i se proclamant lidentit de lindividu j
Daprs le tableau VII.1, il rsulte 40 scores clients et 40 X 40 40 = 1560 scores
Imposteurs.
Reconnaissance de visages :
Gnration des modles GMM : les cinq premires images de chaque individu de la base
ORL sont utilises pour gnrer le modle qui reprsentera cet individu dans le systme.
Calcul du modle UBM : Pour chaque personne de la base ORL, les cinq premires images
sont utilises et comme le modle UBM prend en compte tous les individus de la base de
donnes, il en rsulte 200 images qui serviront pour le calcul du modle toujours en utilisant
lalgorithme EM.
Gnration des scores : Les cinq dernires images de chaque individu dans la base ORL
sont utilises pour calculer le score correspondant. Tous les scores possibles sont gnrs
de la mme manire que pour la reconnaissance de locuteur sauf que pour le visage il 5
images pour le test ce qui nous donne 5X40X40 = 8000 scores dont 5X40 = 200 scores
clients et 8000 200 scores imposteurs.
Reconnaissance bimodale :
Dans ce mode de reconnaissance, chaque individu de la base de donnes bimodale
a un chantillon vocal (deux fichiers Wave), un chantillon facial (dix images), un modle
GMM de voix et un modle GMM de visage qui ont t gnrs sparment. Donc, il nous
reste combiner les scores des deux modalits.
Chapitre VII Test et valuation des rsultats

98

Combinaison des scores vocaux et faciaux : Compte tenu de la diffrence entre le nombre
de scores vocaux et faciaux d la diffrence de nombre de fichiers de test pour les deux
modalit (un fichier Wave pour la voix contre 5 fichiers Images pour le visage), il sest avr
ncessaire de combiner le mme score vocal avec les cinq scores faciaux correspondants.


Figure VII.1 : Scores bimodaux de la base TIMIT-ORL









Chapitre VII Test et valuation des rsultats

99

Configuration des paramtres du systme :
Paramtres fixes :
- Extraction des paramtrs vocaux :
Taux de chevauchement 50%
Longueur FFT 256
Nombre de coefficient FMCC 20
Nombre de filtres Mel 23
Fentrage Hamming Window

Tableau VII.2 : Configuration des paramtres vocaux

- Extraction des paramtres faciaux :
Nombre dimage par utilisateur 5
Taux de chevauchement 50%
Nombre de coefficients DCT 10
Dimension dimage 92 X 112
Dimension bloc DCT 8 X 8

Tableau VII.3: Configuration des paramtres faciaux
- Algorithme EM : Initialisation par LBG, nombre ditration de EM gal 10, cinq
images et un fichier wave pour lapprentissage, nombre de Gaussiennes (16 pour la
vois et 32 pour le visage).
Chapitre VII Test et valuation des rsultats

100

- Modle UBM : Nombre de Gaussiennes gal 128 pour la voix et le visage.
- Paramtre de dcision : calcul de seuil par la mthode empirique (non analytique).
Paramtres variables :


Normalisation des scores
Scores bruts (sans normalisation)
Normalisation Min-Max
Normalisation Z-score
Normalisation Hypertangente



Fusion des scores
Sommation simple
Fusion Min
Fusion Max
Sommation pondre
SVM
Tableau VII.4 : Mthodes de fusion et techniques de normalisation








Chapitre VII Test et valuation des rsultats

101


Classificateur SVM
Paramtre C
Paramtre Epsilon
Tolrance



Noyaux SVM
Noyau linaire

Noyau polynomial
Degr
Pole A
Pole B
Noyau RBF Sigma
Tableau VII.5 : Configurations du classificateur SVM
VII.4 Rsultats des tests :
VII.4.1 reconnaissance monomodale :
VII.4.1.1 reconnaissance de locuteur pour la base TIMIT de 100 personnes :
En utilisant la configuration cites dans le tableau VII.2, le systme a fournit les
rsultats suivants pour la base de donnes TIMIT de 100 personnes:
EER 3 .67%
Taux didentification 97%
Tableau VII.6 : EER et taux didentification
Selon les travaux antrieurs portant sur la reconnaissance de locuteur avec un
classificateur GMM, lEER augmentera avec la taille de la base de donnes utilise en
nombre de personnes et le taux didentification baissera videmment. Ainsi, laugmentation
du nombre de Gaussiennes pour la gnration des modles GMM et UBM conduira une
meilleure performance (EER plus petit et un taux didentification lev).
Chapitre VII Test et valuation des rsultats

102

La figure VII.2 montre la distribution des scores vocaux obtenus par le systme de
reconnaissance de locuteur sur la base de donnes TIMIT de 100 personnes. Les deux
courbes sont asymptotiques et refltent peu le chevauchement entre la distribution des
scores clients et celle des scores imposteurs.


Figure VII.2 : distributions des scores clients et imposteurs
VII.4.1.2 reconnaissance de locuteur pour la base TIMIT de 40 personnes :
En rduisant de nombre de personnes de la base TIMIT 40, les rsultats observs
sont illustrs au tableau ci-dessous :
EER 2,43589743589744%
Taux didentification 100%

Tableau VII.7 : EER et taux didentification
Chapitre VII Test et valuation des rsultats

103

Dabord, on remarque baisse relative de lEER d comme prvu la rduction du
nombre de personnes dans la base de donnes TIMIT ainsi on remarque une identification
parfaite (sans erreur) pour la mme raison.
La figure VII.3 illustre deux courbes toujours asymptotiques des deux distributions
tout en remarquant que le chevauchement entre ces dernires a relativement diminu par
rapport celui de la base TIMIT de 100 personnes.


Figure VII.3 : distributions des scores clients et imposteurs
VII.4.1.3 reconnaissance de visages pour la base ORL de 40 personnes :
En utilisant la configuration fige montre dans le tableau VII.3, le systme de
reconnaissance de visages a donn les rsultats suivants test sur la base ORL de 40
personnes :
EER 3%
Taux didentification 100%

Tableau VII.8 : EER et taux didentification
Chapitre VII Test et valuation des rsultats

104

La figure VII.4 monte les deux distributions des scores clients et imposteurs obtenus
par le systme de reconnaissance de visages.

Figure VII.4 : distributions des scores clients et imposteurs
VII.4.2 reconnaissance bimodale pour la base TIMIT-ORL de 40 personnes :
Maintenant que tous les scores ont t gnrs pour les deux modalits, on
procdera la fusion en utilisant dabord les techniques de normalisation, les mthodes fixes
(sommation simple, fusion Min, fusion Max) et une mthode entraine (sommation
pondre). Le tableau VII.10 montre les diffrents rsultats obtenus :
Sommation
Simple
Min Score Max Score Sommation
pondre
Aucune 0,4230769230% 0.5% 0,5320512820% 0,467948717948%
Min-Max 0,3846153846% 1,0961538461% 1,1217948718% 0,102564102564%
Z-Score 0.5% 1% 0,6089743589% 0.5%
Hypertangente 0.5% 1% 0,608974358% 0.5%
Chapitre VII Test et valuation des rsultats

105

Tableau VII.11 : EER aprs fusion et normalisation
On remarque une amlioration vidente des performances aprs lapplication des
mthodes de fusion et techniques de normalisation en comparant avec les performances de
chaque systme de reconnaissance pris seul (le pire rsultat obtenu en fusion est EE=1%
qui est nettement meilleur que celui des deux systmes :EER=2.43% pour la voix et EER=
3% pour le visage). Cela est d la nature de la fusion en score qui est une fusion
complmentative et non pas comptitive cest--dire : les dfauts de chaque systme
considr seul sont mutuellement combls par les perfectionnements de lautre systme.
Maintenant quon a ralis lintrt de la fusion, nous essayerons dinterprt ces
rsultats pour en tir une vue sur les mthodes de fusion et techniques de normalisation : en
ne regardant que les mthodes fixes (sommation simple, Min Score, Max Score), on
remarque que la sommation simple a toujours le meilleur EER et cela est valable pour toute
technique de normalisation. La mthode de fusion entraine (Sommation pondre) a
obtenu la meilleure performance (EER = 0.10%) avec la technique de normalisation MIN-
Max. Cest un rsultat attendu si on sait que cette mthode prend en compte les
performances de chaque systme pris sparment.
Quant aux techniques de normalisation, les rsultats sont moins parlants : la
technique Min-Max est probablement la meilleure car cette dernire a pu amliorer deux fois
lEER et a chou deux fois aussi.

Chapitre VII Test et valuation des rsultats

106

La figure VII.5 montre la distribution des scores b sans et avec la normalisation Min-max :



Chapitre VII Test et valuation des rsultats

107

Figure VII.5 : Effet de la normalisation Min-Max

Tout dabord, on remarque que tous les scores (vocaux ou faciaux) sont entre 0 et 1

ce qui
est tout fait logique car cest le principe de fonctionnement de cette technique. Ensuite, si
on fait un zoom sur la zone de chevauchement entre les deux distributions, on voit que cette
technique a lgrement carter les deux distributions ce qui facilite la distinction entre eux
en phase de fusion.
VII.4.3 reconnaissance bimodale avec la mthode SVM :
Aprs avoir test notre classificateur SVM sur la base ORL-TIMIT, on a rsum les
rsultats obtenus dans le tableau VII.12 :
Chapitre VII Test et valuation des rsultats

108

Noyaux SVM Aucune
normalisation
Avec
normalisation
Linaire 0% 0%
Polynomial 0% 0%
RBF 0% 0%
Tableau VII.12 : EER pour le classificateur SVM
On remarque que tous les noyaux tests ont eu un EER = 0% ce qui signifi que le
systme na pas commis une seule erreur de vrification. Cela est d principalement la
nature des scores bimodaux qui sont dans notre cas linairement sparables (il ny a pas de
chevauchement entre les deux distributions) et aussi la taille rduite de notre base de
donnes ; si par exemple on teste ce systme sur une base de donnes bimodale de 500
personnes, il y aura certainement un chevauchement entre les deux distributions et par
consquence une augmentation de lEER.
Quant aux autres noyaux, la sparation reste parfaite (ERR =0%), cela se justifi par
fait de prendre des donnes dj linairement sparables, puis on les protge dans des
dimensions suprieurs ce qui les rendent aussi sparables
La figure VII.6 montre clairement la linarit de la sparation entre la distribution des
scores clients et celle des scores imposteurs.
Chapitre VII Test et valuation des rsultats

109

Figure VII.6 : linarit de la sparation
VII.4.4 Conclusion des tests sur TIMIT-ORL :
A travers ces tests mens sur la base bimodale TIMIT-ORL de 40 personnes, on peut
conclure que les mthodes de fusion entraines (la sommation pondre et SVM) ont
donnes les meilleures rsultats et la technique de normalisation Min-Max a prouv son
efficacit combine avec les mthodes de fusion Sommation pondre, sommation simple,
Min Score et Max Scores. Encore la mthode SVM a abouti au meilleur rsultat et cela avec
ou sans normalisation car le classificateur SVM nen a pas besoin.
Enfin, on peut dire de cette srie de tests ne nous a pas permis de comparer entre
les trois noyaux SVM utiliss parce que et comme dis prcdemment le choix de la base de
donnes bimodale (taille en nombre de personnes) a une grande influence sur la valeur des
tests.
VII.4.5 Test sur une base relle :
Dans le but dobserver le fonctionnement de notre systme de reconnaissance
bimodale dans un cas rel, une base de donnes bimodale a t cre. Cette base comporte
36 individus : chaque personne est reprsente par dix images faciales et deux chantillons
vocaux.
Les images faciales sont codes au niveau de gris et ont toutes une taille de 92X112
pixels. Les deux chantillons vocaux sont cods chacun dans un fichier Wavre avec une
frquence dchantillonnage de 16 KHz.
Chapitre VII Test et valuation des rsultats

110





Figure VII.7 : exemple de visages de la base relle
VII.4.6.1 Reconnaissance de locuteur :

Tableau VII.13 : EER et taux didentification


Figure VII.8 : Distribution des scores clients et imposteurs
EER 2.77777777777778%
Taux didentification 97.22%
Chapitre VII Test et valuation des rsultats

111


VII.4.6.2 Reconnaissance de visages :

Tableau VII.14 : EER et taux didentification

Figure VII.9 : Distribution des scores clients et imposteurs
VII.4.6.3 Reconnaissance bimodale :
EER 1.67460317460317%
Taux didentification 100%
Chapitre VII Test et valuation des rsultats

112


Figure VII.10 : Distribution bimodale des scores

Sommation
Simple
Min Score Max Score Sommation
pondre
Aucune 2,333333333% 2,7936507936% 0,5555555555% 1,650793650793%
Min-Max 0,071428571% 1,6666666666% 2,7777777777% 0,126984126984%
Z-Score 0,0952380952% 2,4841269841% 1,0714285714% 0,460317460317%
Hyper tangente 0,0952380952% 2,4841269841% 1,0714285714% 0,460317460317%
Tableau VII.15 : EER aprs diffrentes fusion et normalisations
Chapitre VII Test et valuation des rsultats

113

Noyaux SVM Aucune
normalisation
Avec
normalisation
Linaire
0.12986533474% 0.119938754387%
Polynomial 0% 0%
RBF 0% 0%
Tableau VII.16 : EER pour le classificateur SVM
VII.4.6.4 Conclusion des tests :
A travers ces tests, on peut confirmer encore la robustesse et lefficacit du systme.
En effet, la meilleure performance a t enregistre pour le classificateur SVM avec un EER
nul. Cependant, les techniques de normalisation ont apport une amlioration majeure, cela
est d au chevauchement non ngligeable entre la distribution bimodale des scores clients et
celle des scores imposteurs qui sera ensuite rduit suite la normalisation.
VII.5 Conclusion :
Suite cette srie de tests effectus sur le systme, on a conclu que la mthode de
fusion en scores SVM donne dexcellents rsultats encore sans une normalisation pralable.
Le noyau polynmial et RBF ont prouv leurs efficacits mais le temps dexcution consacr
leur apprentissage est trs norme.
Sans oublier leffet du choix de la base de donnes bimodale et les consquences
observs directement sur les rsultats, on a remarqu labsence du chevauchement dans la
base TIMIT-ORL qui nous a empchs dobserver la qualit des techniques de
normalisation.
Quant au temps dexcution, les tests de vrification sont les plus rapides, en
gnral, ils ne dpassent pas la seconde. Lidentification est plus gourmande en temps et
cela augmente significativement avec le nombre de personnes dans la base de donnes.
Enfin, les tches dapprentissage telles que la gnration des modles GMM, UBM et le
calcul des paramtres SVM sont les plus lentes environ plusieurs heures.


Conclusion gnrale
Conclusion Gnrale :
Ce travail s'inscrit dans le domaine de la reconnaissance automatique dindividus par le
biais de leurs visages et voix. Cette reconnaissance consiste vrifier ou identifier lidentit
dune personne partir de son visage et sa voix conjointement. Utilises principalement pour
des raisons de scurit et de confidentialit, Ces systmes de reconnaissances sont souvent
dvelopps dans des applications de tlsurveillance, tlservice et daccs des endroits
scuriss.

Du point de vue applicatif, les systmes de reconnaissances bimodaux bas sur le
visage et la voix ont atteints un stade leur permettent dtre intgrs dans des applications
commerciales de grand publique. En outre, la multimodalit a significativement franchit les
limites lies aux performances imposes par les systmes monomodaux. Ainsi, la fraude
traditionnelle courtement illustr sous forme dusurpation didentit est normment devenue
difficile surtout dans les domaines de la haute scurit.

Notre projet de fin d'tude s'inscrit dans ce contexte. En effet, nous avons conue et
ralis une plateforme de fusion biomtrique avec la mthode SVM bas sur la
reconnaissance de visages et de voix ce qui nous a permet de constater la puissance, la
robustesse et la simplicit de mise en uvre. En effet, la classification SVM dont lefficacit
a t prouv constituant mme ltat de lart actuel des systmes biomtriques multimodaux
(voix, visage, empreinte digitale) prsente lavantage de classifier les clients lgitimes du
systme et les imposteurs avec une habilit vidente car la classification SVM jouit dune
grande capacit de discrimination tout en garantissant une marge de scurit maximale.

Dans chaque systme de reconnaissance, le critre de mesure permettant dvaluer ces
systmes concerne les performances incarnes par le taux didentification correcte et lEER
en mode de vrification. A cet effet, les tests effectus sur la base de donnes TIMIT-ORL
cre dans ce but nous a permis de constater que la classification SVM donne de trs bons
rsultats que ce soit avec une normalisation pralable de scores ou non, la comparaison
entre la mthode de fusion base sur SVM et les autres mthodes fixes nous amne
conclure que la mthode base sur SVM a impos sa supriorit sur le reste des mthodes,
en particulier, dans le cas des donnes dapprentissage provenant directement du monde
rel et sans prtraitements spcifiques.





Conclusion gnrale

115

Cependant, la base de donnes utilise dans notre systme est particulirement petite,
en effet, elle comporte 40 personnes seulement. Cette rduction de nombre de personnes a
une influence non ngligeable sur les tests raliss car plus la base de donnes est grande
en nombre dindividu plus les tests sont parlants et significatifs ; cest la loi des grands
nombre en statistique.


Ainsi, et comme perspective damliorations, la DCT peut tre remplac dans la phase
dextraction des paramtres faciaux par dautres mthodes locale qui sintressent
uniquement aux caractristiques du visage. En effet, la DCT utilise dans notre systme et
prcisment dans le systme de reconnaissance de visages tient compte de toute
linformation dans limage faciale y compris larrire plan er ventuellement autres objets
comme la barbe et les moustaches, les lunettes, le chapeau et le voile pour les femmes etc.
Par contre, les mthodes dextraction des paramtres pour le visage dites locales tiennent
compte seulement des caractristiques du visage telles que la formes des yeux, le nez, la
bouche, la distance entre ces derniers et la forme globale du visage.
Bibliographie
Bibliographie

[1] :Max Chass "La biomtrie au Qubec : Les enjeux" P4-19.
Analyste en informatique de la Commission daccs linformation, Qubec, 2002.

[2]:Florent Peronnin et Jean-luc Dugelay Authentification des Individus par
Traitement Audio- Vido (Revue Traitement du Signal, volume 19, numro 4, 2002)
[3]:Ecole polytechnique Fdrale de Lausanne. Speech Processing and Biomtrics
Group.
[4] :Jamal Kharroubi "Etude de Techniques de Classement Machines Vecteurs
Supports pour la Vrification Automatique du Locuteur" thse de doctorat . Ecole
Nationale Suprieure des Tlcommunications ,2002.
[6] : A.adjoudani et C.Benoit, Audio-Visual Speech Recognition Copared Across Two
Architectures Madrid, Spain, 1995.
[7] : Systme de reconnaissance de visages bas sur les GMM. Institut National de
formation en Informatique (I.N.I), Alger, 2007.
[8]: R. M. Bolle, J. H. Connell, S. Pankanti, N. K. Ratha, and A. W. Senior,Guide to
Biometrics. New-York: Springer-Verlag, 2003.
[9] :R. O. Duda, P. E. Hart & D. G. Stork, Pattern Classification, john Wile & Sons, USA,
2001.
[10] :J. D. Woodward, C. Horn, J. Gatune, and A. Thomas, Biometrics : A look at facial
recognition,RAND Documented Briefing, Tech. Rep., 2003.
[11] : Systme de vrification du locuteur pour une application daccs biomtrique.
[12]: D. Maltoni, D. Maio, A.K. Jain, and S. Prabhakar, Handbook of Fingerprint Recognition,
Springer, 2003.
[13]: T. Matsumoto, Gummy finger and paper iris: An update, in Proceedings of the 2004
Workshop on Information Security Research, 2004.
[14]: B. Miller, Vital signs of identity, IEEE Spectrum, vol. 31, no. 2, pp.2230, 1994.
[15]: Norman Poh, Samy Bengio , A Study of the Effects of Score Normalisation Prior to
Fusion in Biometric Authentication Tasks, December 2004.

[16] :Navratil J., Ramasami G., Chau dari U., Zilca R., IBM 1-Sp Detection Systems ,
Porse of NIST SpRec 2002 Workshop, Vienna, VA, Mai 2002.
[17] :S.Furui, Cepstral Analysis Technique for Automatic Speaker Verification , 1981.
[18] :J. A. Haigh, Voice Activity Detection for Conversational Analysis, Thse de Master,
University of wales, 1994.
[19]:Club de la scurit de linformation franais www.clusif.asso.fr 2003

[20]:Florent Peronnin et Jean-luc Dugelay Authentification des Individus par
Traitement Audio- Vido (Revue Traitement du Signal, volume 19, numro 4, 2002)
Bibliographie

117

[21] : Ziad M.Hafed, Martin D.Levine Face Recognition Using the Discrete Cosine
Transform International Journal of Computer Vision Volume 43 , Issue 3
Juillet/Aout, 2001
[22] : Encyclopdie Wikipedia www.wikipedia.fr .

[23] : Yessaadi Sabrina et M. T. Laskri.
"Un modle bas Templates Matching/Rseau de neurones pour la
reconnaissance des visages humains" P2. Groupe de recherche en intelligence
artificielle, Dpartement dinformatique, Universit dAnnaba, 2005.

[24] : W.Zhao, R.Chellappa, P.J.Phillips, ACM Computing Surveys , Vol. 35, No. 4,
December 2003, pp. 399458.

[25] : Fabien Cardinaux, Conrad Sanderson, and Samy Bengio User Authentication
via Adapted Statistical Models of Face Images, In the IEEE Transaction on Signal
Processing. Vol. 54, Issue 1, Jan 2006, Pages: 361-373.

[26] : Messaoud Bengherabi, Farid Harizi, Mohamed Cheriet A framework for a GMM-UBM
based speaker verification and the need of a large Arabic database
International Symposium on Signal Processing and its Applications (ISSPA'07), Sharja
(U.A.E.), Fev 2007.

[27] : M. Turk, A. Pentland, Eigenfaces for Recognition, Journal of Cognitive Neurosicence,
Vol. 3, No. 1, 1991, pp. 71-86
[28]: Interactive Multimodal Information Management (IMI)
http://www.im2.ch/newsletters/newsletters06
[29]: Labed Abdenour, Propostion et mise en oeuvre dune approche pour lameliorer des
performances dun classificateur SVM mmoire de fin dtude, 2004.
[30]: Robert Snelick, Umut Uludag, Alan Mink, Michael Indovina and Anil Jain Large Scale
Evaluation of Multimodal Biometric Authentication Using State-of-the-Art Systems
[31]: Reynolds D., A Gaussian Mixture Modeling Approach to Text-Independent speaker
verification , PhD Thesis, Georgia Institute of Technology, 1992.
[32]: Reynolds D., speaker identification and verification using gaussian mixture speaker
models . Speech Communication.1995.
[33]: A. Ross and A. K. Jain,Multimodal biometrics: An overview,in Proceedings of 12th
European Signal Processing Conference, 2004, pp. 12211224.
[34]: F. Roli, J. Kittler, G. Fumera, and D. Muntoni, An experimental comparison of classifier
fusion rules for multimodal personal identity verification systems, in Proceedings of the Third
International Workshop on Multiple Classifier Systems, 2002, pp. 325335.
[35]: Soong F. K., Rosenberg A. E., On The Use of Instantaneous and Transitional
Spectral Information in Speaker Recognition , IEEE Transaction on Acoustic, Speach and
Signal Processing, tome 36(6) 1988.
Bibliographie

118

[36]: NEDJEM EDDINE AYAT, SLECTION DE MODLE AUTOMATIQUE DES
MACHINES VECTEURS DE SUPPORT: APPLICATION LA RECONNAISSANCE
DIMAGES DE CHIFFRES MANUSCRITS.MONTRAL, LE 20 JANVIER 2004
[37]: Antoine Cornujols, Une nouvelle mthode dapprentissage.Les SVM. Sparateurs
vaste marge. numro 51 - juin 2002.
[38]: T. Matsumoto, Gummy finger and paper iris: An update, in Proceedings of the 2004
Workshop on Information Security Research, 2004.
[39]: B. Miller, Vital signs of identity, IEEE Spectrum, vol. 31, no. 2, pp.2230, 1994.
[40]: John C. Platt, Fast Training of Support Vector Machines using Sequential Minimal
Optimization, Microsoft Research 2000.
[41]: Nicolas Gilardi, Alex Gammerman, Mikhail Kanevski, Michel Maignan, Application des
mthodes dapprentissage pour ltude des risques de pollution dans le Lac Lman,
Universit de Genve, 21-22 septembre 2000.
[42]: Jen-Hao Lee and Chih-Jen Lin, Automatic Model Selection for Support Vector
Machines, Department of Computer Science and Information Engineering, National Taiwan
University, Taipei 106, Taiwan.



















Annexes









Annexe A Algorithme EM

120

Annexe A
Lalgorithme EM (Expectation-Maximisation)

Lalgorithme EM (Expectation Maximisation) est un algorithme de type sous-optimal
utilis pour rsoudre les problmes destimation des paramtres dun GMM. En particulier,
lalgorithme EM est applicable aux problmes dont les donnes observes fournissent,
seulement, des informations partielles ou sil ya des informations manquantes. Lalgorithme
EM est aussi applicable plusieurs modles statistiques, par exemple, le modle de chane
de Markov caches (HMM) et la quantification vectorielle. Chaque itration de lalgorithme
EM est compose de deux tapes : Estimation (E) et Maximisation (M). Ltape M maximise
une fonction de vraisemblance qui est raffine chaque itration par lalgorithme E.

Un paramtre important de lalgorithme EM peut tre appliqu aux problmes dont les
donnes observes fournissent une explication partielle. Le concept de donnes caches et
donnes partielles a t utilis dans plusieurs applications scientifiques. Par exemple, dans
la communication numrique, le rcepteur reoit une squence de +1 et -1 sans savoir quel
bit reprsente linformation manquante. Dans les applications de la biomtrie, un GMM est
typiquement appliqu pour modeler les paramtres dun individu. Chaque groupe est
dsign pour modeler quelques paramtres dun individu. Dans ce cas, laffectation des
groupes constitue linformation cache.
C.1 La convergence de lalgorithme EM :
Les notations suivantes sont adoptes :
-
{ }
; 1,...,
D
t
X x t T = e9 =
est la squence dobservation, o T est le nombre
dobservations et D est la dimension de
t
x
.
-
( )
{ }
1 ( )
,...,
J
C C C =
est le jeu dtiquettes de chaque groupe de la mixture, o J
est le nombre de groupes de la mixture.
-
{ } ; 1,...,
t
Z z C t T = e =
est le jeu de donnes manquantes (spcifiant
linformation dtat cach).
Annexe A Algorithme EM

121

-
( )
{ }
, 1,...,
j
j J u u = =
est le jeu de paramtres inconnus qui dfinissent la fonction
de densit de probabilit.
-
( ) ( ) ( )
{ }
j j j
, u t | = , o
( ) j
t
est la probabilit antrieure de la densit de la
me
j
composante, et
( )
|
j
reprsente la densit de la
me
j composante.

Notons que la combinaison des observations X et les tats cachs Z constituent les
donnes compltes. On dfinit :

n
L(X ) logp(X ) u u (A.1)
Comme la vraisemblance de la donne complte tant donn lestimation courante de
u
n
o n reprsente lindex de litration. Dfinissons, ainsi,
n
p(Z, X ) u comme la
vraisemblance de la donne complte.
Daprs la thorie des probabilits on peut crire
n
p(X ) u comme suit :

n
n
n
p(Z, X )
p(X )
p(Z X, )
u
u
u
= (C.2)
Remarque : Le P majuscule reprsente une probabilit, et le p minuscule reprsente une
fonction de densit.
En utilisant les quations (C.1) et (C.2), on peut crire la vraisemblance des donnes
compltes comme suit :

n
L(X ) logp(X ) u u
=
n n
z
[log(X| )] p(Z| X, ) u u

(car
( )
,
n
z
p Z X u

=1)
=
( )
n n
z
p Z X, logp(X ) u u


= ( )
( )
( )
n
n
z
n
p Z, X
p Z X, log
p Z X,
u
u
u

(Daprs la formule (A.2))


Annexe A Algorithme EM

122

=
( ) ( ) ( ) ( )
n n n n
z z
p Z X, logp Z, X p Z X, logp Z X, u u u u


= ( ) { }
z n n
E log p Z, X X, u u - ( ) { }
z n n
E log p Z X, X, u u

(Esprance)

=
( ) ( )
n n n n
Q R u u u u (A.3)
O

( )
n n
Q u u = ( ) { }
z n n
E log p Z, X X, u u

( )
n n
R u u =
( ) { }
z n n
E log p Z X, X, u u
Dans ce qui suit, on va dmontrer pour quoi lalgorithme EM a une proprit de
convergence gnrale. Lide principale est base sur lingalit de Jensen.
( ) L X,u =
( )
logp Xu =
( )
z
log p Z, Xu

`
)

=
( )
( )
( )
n
z
n
p Z, X
log p Z X,
p Z X,
u
u
u


`

)


( ) ( )
n
L X, logp X u u
=
( )
( )
( )
n
z
n
p Z, X
log log p Z X,
p Z X,
u
u
u


`

)



=
( )
( )
z n
n
p Z, X
log E X,
p Z X,
u
u
u

(

(
`
(


)



( )
( )
z z n
n
p Z, X
E E X,
p Z X,
u
u
u

(

>
(
`
(


)
Lingalit de Jensen (A.4)

Annexe A Algorithme EM

123

=
( )
( )
( )
n
z
n
p Z, X
p Z X,
p Z X,
u
u
u

(Par dfinition de lesprance)



=
( ) ( ) ( ) ( )
n n n
z z
p Z X, logp Z, X p Z X, logp Z X, u u u u



= ( ) { }
z n
E log p Z, X X, u u
( ) { }
z n
n
E log p Z X, X, u u (A.5)

=
( ) ( )
n n n
Q R u u u u

Dans ltape M de la
ime
n itration,
*
u est calcul comme suit :
( )
*
n
arg max Q
u
u u u =
(A.6)
On peut toujours choisir
*
u litration n tel que :

( ) ( )
*
n n n
Q Q u u u u > (A.7)
Notons que cette quation constitue une condition suffisante pour la convergence de
lalgorithme EM, en effet, on a :

( )
*
L X,u
( ) ( )
*
n n n
Q R u u u u >

( ) ( )
n n n n
Q R u u u u >
= ( )
n
L X,u (A.8)
Au lieu de maximiser ( ) , L X u directement, lalgorithme EM divise le problme doptimisation
en deux sous problmes : Estimation et maximisation.
Annexe A Algorithme EM

124

Dans chaque itration de lalgorithme EM, ltape E calcule
( )
n
Q u u en utilisant un
ensemble de paramtres
n
u . Ltape M dtermine la valeur de u (disant
*
u ) qui maximise
( )
n
Q u u ; tel que :

( ) ( )
*
n
z
max p Z X, log p Z, X
u
u u u =

(A.9)

C.2 Lalgorithme EM pour GMM :
Pour bien illustrer les tapes de lalgorithme EM, on va appliquer ce dernier un modle
de mlange de gaussiennes (GMM).
Soit un modle de mlange de gaussiennes :

{ }
j j j
, , ; j 1,..., J u t = =
O ,
j j j
et t reprsentent, respectivement, le poids de la densit, le vecteur moyen et la
matrice de covariance de la
me
j densit du modle.

Comme il est mentionn prcdemment, le mlange de gaussienne est donn par :

J
j ( j) ( j)
t 1 t
j 1
p(x | ) p(x | 1, u t o |
=
=


(A.10)
O
1
( j) ( j) D ( j) j T ( j) 1 j
2
t t t t
1
p(x | 1, ) (2 ) exp (x ) ( ) (x )
2
o | t



= =
`
)

(A.11)
Est la
me
j densit du modle.
Aprs linitialisation de
0
u les tapes de lalgorithme EM sont comme suit :
Annexe A Algorithme EM

125

Ltape E : Dans litration n , on calcule ( )
j
n t
h x pour chaque j et t en utilisant la formule
(C.11) et la formule de la vraisemblance dfinie dans le chapitre 4.
Ltape M : On maximise ( | )
n
Q u u pour trouver
*
u . On remplace
n
u par
*
u . Puis, on
incrmente n par 1 et rpte ltape E jusqu la convergence.
Pour trouver
*
( ) k
,on met
n
(k)
Q( | ) u u

c
c
=0, qui donne :

*
( )
( ) 1
( )
1
( )
( )

=
=
=

T
k
n t t
k t
T
k
n t
t
h x x
h x
(A.12)
Pour trouver
*
( ) k
, on met
( )
( | )
n
k
Q u u c
c
=0, qui donne :

* *
*
T
(k) (k) (k) T
n t t t
(k) t 1
T
(k)
n t
t 1
h (x )(x )(x )
h (x )

=
=

=

(A.13)
Pour dterminer
*
( ) k
t , on maximise ( | )
n
Q u u par rapport
( ) k
t , en respectant la
contrainte suivante :

J
( j)
j 1
1 t
=
=

(A.14)
Cela nous donne le rsultat suivant :

*
T
(k) (k)
n t
t 1
1
h (x )
T
t
=
=

(A.15)
Annexe B Gnralits sur le traitement dimages

126

Annexe B
Gnralits sur le traitement dimages
B.1 Dfinition gnrale : [20]
Le mot image, du latin imago, dsigne la reprsentation visuelle d'un objet par
diffrents moyens ou supports, dessin, peinture, photographie, etc.
Il est clair que les images manipules par lordinateur sont caractre numrique ce qui
nous conduit dfinir limage numrique qui dsigne toute image (dessin, icne,
photographie, ...) acquise, cre, traite, stocke sous forme binaire.
Par traitement d'images, on dsigne l'ensemble des oprations sur les images
numriques, qui transforment une image en une autre image, ou en une autre primitive
formelle. Le traitement dimages trouve son application dans diverses domaines et
disciplines, telles que : llectronique, les statistiques, intelligence artificielle, informatique,
etc.
B.2 Caractristique dune image numrique :
- Pixel :
Le pixel reprsente le plus petit point distinguable dans une image. Chaque pixel
possdant une teinte, cest la juxtaposition des diffrents pixels qui produit une image.
- Rsolution :
Dfinit la clart ou finesse de dtail atteinte par un moniteur ou une imprimante dans la
production dimages, elle est exprim par un nombre de pixels par unit de longueur de la
structure numriser [13].
- Dimension :
Cest la taille de limage. Cette dernire se prsente sous forme de matrice dont les
lments sont des valeurs numriques reprsentatives des intensits lumineuses (pixels). Le
nombre de lignes de cette matrice multipli par le nombre de colonnes nous donne le
nombre total de pixels dans une image.



Annexe B Gnralits sur le traitement dimages

127



Reprsentation des couleurs : [27]
Il existe plusieurs modes de codage informatique des couleurs, le plus utilis pour le
maniement des images est l'espace colorimtrique Rouge, Vert, Bleu (RVB ou RGB). Cet
espace est bas sur une synthse additive des couleurs, c'est--dire que le mlange des
trois composantes R, V, et B. On peut citer aussi dautre modes telles que :
- Cyan, Magenta, Jaune, Noir (CMJN ou CMYK) utilis principalement pour l'impression,
et bas sur une synthse soustractive des couleurs ;
- Teinte, Saturation, Luminance (TSL ou HSL), o la couleur est code suivant le cercle
des couleurs.
- base de couleur optimale YUV, Y reprsentant la luminance, U et V deux
chrominances orthogonales.
- Image en niveau de gris :
Les images ralises en niveau de gris utilisent les teintes grises allant du blanc au
noir. Le nombre de niveaux de gris dpend du nombre de bits utiliss pour dcrire la couleur
de chaque pixel de limage. Par exemple pour 256 niveaux de gris compris entre 0 et 255,
chaque pixel sera cod sur 8 bits, 0 reprsente le blanc et 255 le noir.
- Histogramme dune image : [20]
L'histogramme reprsente la rpartition des pixels en fonction de leur niveau de gris.
Soit une matrice dimage A, Le rle de lhistogramme est de donner le nombre de pixels en A
qui ont la valeur L tel que L= 0,., 255.


Figure B.1 : Exemple dhistogramme dune image [20]
Effectif

Niveau de gris
Annexe B Gnralits sur le traitement dimages

128


- Contours et textures :
Les contours reprsentent la frontire entre les objets de limage, ou la limite entre
deux pixels dont les niveaux de gris reprsentent une diffrence signif icative [15]. Les
textures dcrivent la structure de ceux-ci. Lextraction de contour consiste identifier dans
limage les points qui sparent deux textures diffrentes [19].
- Luminance :
Cest le degr de luminosit des points de limage. Elle est dfinie aussi comme tant
le quotient de lintensit lumineuse dune surface par laire apparente de cette surface, pour
un observateur lointain, le mot luminance est substitu au mot brillance, qui correspond
lclat dun objet.
- Contraste :
Cest lopposition marque entre deux rgions dune image, plus prcisment entre les
rgions sombres et les rgions claires de cette image. Le contraste est dfini en fonction des
luminances de deux zones dimages.
Si L1 et L2 sont les degrs de luminosit respectivement de deux zones voisines A1 et A2
dune image, le contraste C est dfini par le rapport :
2 1
2 1
L L
L L
C
+

=
(B.1)
B.3 Convolution : [20]
C'est l'oprateur de base du traitement linaire des images. Soit I une image
numrique.
Soit h une fonction de (x1,x2)(y1,y2) valeurs relles.
La convolution de I par h est dfinie par :
2 2
1 1
x y
i x j y
(I*h)( x , y)= h(i, j)*I(x i, y j)
= =

(B.2)
La fonction h est dite noyau de la convolution, les nouvelles valeurs du pixel sont calcules
par produit scalaire entre le noyau de convolution et le voisinage correspondant du pixel.
B.4 Prtraitement :
Annexe B Gnralits sur le traitement dimages

129

D .4.1 Traitement base dhistogramme : [20]
On prsente dans la suite quelques traitements danalyses effectues uniquement
partir de l'histogramme. Retenons que certains de ces traitements sont souvent calculs au
niveau des capteurs, et qu'en gnral leur pertinence est trs intimement lie aux conditions
d'acquisition.
- Normalisation :
La normalisation d'histogramme, ou expansion de dynamique, est une transformation
affine du niveau de gris des pixels de telle sorte que l'image utilise toute la dynamique de
reprsentation.
D
new
2 1
f (x, y) (f (x, y) Nmin).
Nmax Nmin

(B.3)
D : Dynamique (Nbre de Bits) Nmax : la plus grande valeur dans limage
Nmin : la plus petite valeur dans limage







Histogramme d'origine Histogramme normalis
Figure B.2 : Exemple de normalisation dhistogramme [20]
Effectif
Effectif
Annexe B Gnralits sur le traitement dimages

130


- Egalisation :
L'galisation d'histogramme est une transformation des niveaux de gris dont le principe
est d'quilibrer le mieux possible la distribution des pixels dans la dynamique (Idalement, on
cherche obtenir un histogramme plat).
La technique classique consiste rendre le plus linaire possible l'histogramme cumul
de l'image en utilisant la transformation suivante :
D
new
HC(f (x, y))
f (x, y) (2 1).
wh
= (B.4)
D : Dynamique (Nbre de Bits)
(w,h) : dimension de limage
HC(.) : Histogramme cumul


Image original f(x,y) Histogramme de f Histogramme cumul de
f

Aprs Egalisation
new
f
Histogramme de
new
f
Histogramme cumul de
new
f

Figure B.3 : Exemple dgaliseur dhistogramme
Annexe B Gnralits sur le traitement dimages

131

B.4.2 Filtrage :
B.4.2.1 Filtres linaires :
Cest le rsultat dune combinaison linaire des plus proches voisins dun pixel, parmi les
filtres linaires existant on peut citer :
- Filtre moyen : [7]
Cest un filtre qui, comme son nom lindique, fait la moyenne entre toutes les valeurs de
pixels avoisinant un point. Il permet de lisser limage, rduit le bruit, rduit les dtails non-
important et brouille ou rend floue limage.
Exemple : filtre de moyenne de taille 3 :
1 1 1
1/9 1 1 1
1 1 1
(
(

(
(


Son intrt est quil ne change pas trop le contour. On peut mentionner aussi que plus le
filtre est grand, plus le lissage devient important et plus le floue saccentue ce qui pourrait
engendrer des consquences nfastes.


Original Moyenne 5x5 Moyenne 11x11
Figure B.4 : Exemple de filtre moyenne [17]
- Filtre Gaussien : [20]
Cest un filtre qui sappuie sur la version chantillonne normalise de la fonction
gaussienne
2
2
) (
2
2
1
) , (
to
to
y x
e y x h
+
=
(B.5)
Annexe B Gnralits sur le traitement dimages

132


Le filtre gaussien donnera un meilleur lissage et une meilleure rduction du bruit que le
filtre moyenne. Exemple, filtre gaussien de taille 5 :

1 9 18 9 1
9 81 162 81 9
1/1444 18 162 324 162 18
9 81 162 81 9
1 9 18 9 1
(
(
(
(
(
(
(



Original Gauss 5x5 Gauss 11x11
Figure B.5 : Exemple de filtre gaussien [17]

B.4.2.2 Filtres non linaires : [20]
Contrairement aux filtres linaires, les filtres non linaires ne sont pas le rsultat dune
combinaison linaire de leurs voisins qui ne peuvent pas s'implmenter comme un produit de
convolution. Deux aspects du lissage sont concerns par le filtrage non linaire :
Le bruit impulsionnel : les filtres linaires liminent mal les valeurs aberrantes.
L'intgrit des frontires : on souhaiterait liminer le bruit sans rendre flous les frontires
des objets. On peut citer et dfinir parmi les filtres linaires les plus utiliss :
- Filtre Mdian :
Permet dliminer certains types de bruits (poivre et sel), son principe est de remplacer
la valeur dun pixel par la valeur mdiane de la suite mathmatique constitue des valeurs
des pixels avoisinants ce point. Pour une meilleure performance de ce filtre, on commence
Annexe B Gnralits sur le traitement dimages

133

par trier les valeurs des pixels du voisinage, suivra ensuite la dtermination de la mdiane et
enfin laffectation de cette valeur au pixel. La principale fonction du filtre mdian est de forcer
des points avec des intensits trs distinctes pour tre comme leurs voisins, ainsi liminer
rellement les intensits transitoires qui apparaissent isoles dans la zone de masque.
Exemple : filtre mdian de taille 3.
Bruit
250 30, 30, 25, , 20 , 20 , 10 , 10 , 10
30 10 25
20 250 10
20 10 30


Mdiane

Figure B.6 : Exemple de filtre Mdian [20]
- Filtre de Nagao :
Utilis frquemment dans les images comportant de trs fortes structures artificielles.
Dcoupe d'une fentre 5x5 centre sur le pixel en 9 fentres de 9 pixels, mesure sur
chacune de ces fentres d'une valeur de l'homognit (variance par exemple). Le rsultat
de l'oprateur est la moyenne du domaine qui prsente la plus faible variance.







Figure B.7 Exemple du filtre de Nagao [18]
Moyenne : 45
Annexe B Gnralits sur le traitement dimages

134


B.4.2.3 : Filtres de dtection de contours : [26]
La dtection de contour est une tape prliminaire de nombreuses applications de
l'analyse d'images. Les contours constituent en effet des indices riches, au mme titre que
les points d'intrts, pour toute interprtation ultrieure de l'image. Les contours dans une
image proviennent des :

- Discontinuits de la fonction de rflectance (texture, ombre)
- Discontinuits de profondeur (bords de l'objet)

Il existe plusieurs mthodes de dtection de contours, on citera cet effet trois classes
suivant la manire d'estimer les drives de la fonction d'intensit :

- Diffrences finies :
Une image est discrte par nature. Les premires approches ont donc consist
approximer les drives par diffrence, ces drives sont calcules par convolution de
l'image avec un masque de diffrences. On citera cet effet les filtres de Roberts, Prewitt,
Sobel, Kirsh et Robinson [26].
- Filtrage optimal :
Les drivations prsentes consistent convoluer l'image par des masques de petites
dimensions. Ces approches sont donc dpendantes de la taille des objets traits, elles sont
aussi trs sensibles au bruit. Un autre type dapproche plus rcente repose sur la dfinition
de critres d'optimalit de la dtection de contours; ces critres dbouchant sur des filtres de
lissage optimaux. On citera parmi les filtres correspondants : Canny, Shen-Castan, Deriche,
Marr [26].
- Modlisation de la fonction dintensit:
Les diffrents filtres cits ci-dessus permettent de calculer le gradient ou le laplacien
d'une image mais ne donnent pas des points de contours. Un traitement ultrieur est
ncessaire, ce traitement tant dpendant du type d'approche choisi, approche par Gradient
ou approche par le Laplacien [26]