Vous êtes sur la page 1sur 5

Système GMM-UBM pour la vérification du locuteur

Ramou naim, Mustapha Djeddou


Laboratoire Systèmes de Communications, EMP,
BP 17, Bordj El Bahri, Alger, Algérie

ramounnaim@yahoo.fr
djeddou.mustapha@gmail.com

Résumé 2. Modélisation par mixture de gaussiennes


La reconnaissance Automatique du Locuteur (RAL) La structure générale d’un système RAL à base GMM-
consiste à confirmer ou infirmer par sa voix l’identité d’un UBM est illustrée dans La figure 1 :
individu. Pour cette tâche, il est nécessaire d’estimer la
probabilité pour qu’un locuteur correspond ou non aux
identités pré-enregistrées. L’un des problèmes crucial dans
les systèmes RAL est la désadaptaion entre la phase de
l’apprentissage et la phase application du système. Le
travail présenté dans cet article décrit une nouvelle tech-
nique de normalisation des scores basée sur la correction
de l’asymétrie des distributions des scores. Les résultats
préliminaire sont prometteurs.

Mots clés—RAL, GMM-UBM, Hnorm.


F IG . 1. Principe d’un systeme GMM-UBM.
La densité de probabilité d’une mixture de gaussiennes à
1. Introduction N composantes pour une variable aléatoire x s’exprime sous
la forme suivante :
N
X
L’approche de modélisation du locuteur par mélange de
p (x/Θ) = γi N (x; µi , Σi ) (1)
gaussiennes (GMM : Gaussian Mixture Model) constitue
i=1
l’état de l’art depuis son introduction par D.A. Reynolds P
[1] et [5], ce système est généralement appelé GMM-UBM sous la contrainte i γi = 1 et ∀i : γi ≥ 0. γ est le vec-
car cette modélisation nécessite l’utilisation d’un modèle teur de poids de la mixture, N (x; µ, Σ) est la loi gaussienne
générique appelé modèle du monde, ou UBM (Universal de moyenne µ et de variance Σ, Θ = [µ, Σ, γ]T est le vec-
Background Model). teur de paramètre global du GMM. Si x est de dimension
L’objectif d’une telle approche est d’aboutir à une d alors, une mixture de gaussienne est paramétrée par N*d
modélisation générative, i.e. l’estimation de la distribution paramètres de moyennes, N∗d2 paramètres de variance, et N
qui a pu générer les vecteurs cepstraux du signal d’appren- paramètres de poids. La densité d’une distribution normale
tissage . En terme statistique, l’apprentissage consiste à es- de dimensions d est exprimée par :
timer les paramètres du GMM maximisant la vraisemblance
des données d’apprentissage. 1 1
N (x; µ, Σ) = exp[− (x−µ)T Σ−1 (x−µ)]
Dans cet article, nous présentons les différentes compo- (2/pi)d/2 |Σ|1/2 2
santes d’un système GMM-UBM, le système de détection (2)
de genre, l’application de la normalisation Hnorm et la cor- Pour calculer la vraisemblance d’une séquence X =
rection des scores par le moment d’ordre trois skewness . [x1 ...xT ]T , pour un modèle paramétré par Θ, le logarithme
est généralement utilisé en considérant l’indépendance des
réalisations de la séquence d’apprentissage. Posons la nota-
tion log(p(.)) = `(.), alors Θ̂ = arg max p(Θ|X) = arg max p(X|Θ)p(Θ) (4)
Θ Θ

Des formules adaptées à la modélisation GMM ont été


T
X N
X développées par J.L.Gauvain [6] en proposant un choix
logp(X|Θ) = `(X|Θ) = Log γi N (x; µi , Σi ) (3) spécifique des densités a priori sur les paramètres. Ce choix
t=1 i=1 s’oriente vers les distributions a priori conjuguées permet-
tant aux distributions a posteriori d’appartenir à la même
L’apprentissage d’un GMM est généralement réalisé avec
famille qu’aux distributions a priori. L’adoption de ces
l’algorithme EM [4].
distributions permet de conserver l’utilisation de l’algo-
rithme EM pour l’implémentation du MAP. Dans le cas des
2.1 Apprentissage de l’UBM GMMs, ce choix s’oriente vers une distribution gaussienne
comme a priori pour les paramètres moyenne/variance et
Pour la construction du modèle UBM, plusieurs ap- une distribution de Dirichlet pour les paramètres de poids.
proches peuvent être employées. L’approche la plus simple En pratique, dans un système de RAL indépendant du
est de collecter toutes les données d’apprentissage pour for- texte, seuls les paramètres de moyenne sont modifiés. Les
mer un seul modèle (UBM) à l’aide de l’algorithme EM. moyennes du modèle du monde sont les a priori pour celles
Mais il faut faire un équilibrage entre les sous populations du locuteur [3]. Dans ce cas, l’estimation de la moyenne
pendant le choix des données. Par exemple, si en employant pour une composante est obtenue par une combinaison
des données indépendantes du genre, on devrait être sûr linéaire des moyennes a priori µk et empiriques ȳk , issues
qu’il y a un équilibre du discours masculins et féminins. des données d’apprentissage.
Autrement, le modèle final sera décentré vers la sous popu-
lation dominante, le modèle du monde représente les condi- ηk τk
tions d’enregistrement, l’environnement, le type et la qua- µ̂kk = ȳk + µk avec ηk = N ∗ γk
ηk + τ − k ηk + τk
lité de parole , produits dans la phase d’apprentissage.Ce (5)
modèle généraliste est appris en utilisant d’une heure jus- Où γk est le vecteur des variables cachées d’EM et N le
qu’à deux heures de signal audio provenant de multiples nombre de trames d’apprentissage. Le facteur τ , appelé
locuteurs, Le nombre de composantes utilisé varias de 512 facteur de relevance, permet de contrôler l’adaptation du
à 2048 modèle aux données en modifiant la confiance sur la dis-
tribution a priori des paramètres de moyenne. Cette formule
2.2 Modélisation du locuteur d’adaptation pose la distribution a priori sur les moyennes
σ2
comme une gaussienne de moyenne µk et de variance τkk .
La modélisation du locuteur en RAL diffère de l’es-
timation du modèle UBM car les données disponibles 2.4 Le test d’hypothèse bayésien pour le
ne sont pas en quantité suffisante pour estimer les pa- modèle UBM
ramètres du modèle si le nombre de composantes est élevé.
Les méthodes dites d’adaptation permettent d’estimer de Le rôle de l’UBM tient à la modélisation de l’hypothèse
manière robuste des modèles spécifiques au locuteur en inverse dans la stratégie de décision. La modélisation de
ajoutant de l’information a priori sur la distribution des pa- l’hypothèse inverse se fait grâce à la construction d’un
ramètres. Les techniques essentielles les plus utilisées en modèle universel appelé modèle du monde, ou UBM, et
RAL sont largement tirées de l’adaptation bayésienne, par- dénoté W. Précisément, si S et S̄ représentent respective-
ticulièrement celle du MAP (maximum a posteriori). ment le modèle du locuteur et celui du non-locuteur et soit
X un segment de test dont l’identité proclamée correspond
2.3 Adaptation MAP des paramètres de à S, alors le rapport de vraisemblance est donné par :
moyenne du GMM
p(X|S) p(X|S)
LR(X, H0 , H1 ) = LR(X, S, W ) = '
La méthode d’adaptation la plus utilisée en RAL est celle p(X|S̄) p(X|W )
du maximum a posteriori. Elle consiste à définir des distri- (6)
butions a priori p(Θ) pour les paramètres du modèle et à Il est clair qu’une modélisation précise du non-locuteur
maximiser leurs probabilités a posteriori p(Θ|X) sur un si- (dans le cas de modèles génératifs) n’est pas réalisable,
gnal d’apprentissage X. Le critère d’adaptation pour l’esti- i.e. l’approximation faite par l’UBM est qu’une distribution
mation des nouveaux paramètres s’écrit comme suit : générique des vecteurs cepstraux représente tout les autres
locuteurs hormis le locuteur concerné (et ceci quelque soit l’équation suivante :
le locuteur).
S(X) − µα
SH norm(X) = (8)
σα
2.5 Calcul du score : cas de vérification
Où µα et σα¸ sont respectivement la moyenne et la variance
Le score de vérification correspondant à la vraisem- des accès imposteurs correspondant au type de combiné du
blance d’une séquence de données de test X = [x1 ...xt ]T X.
sur un modèle de locuteur S est exprimé sous la forme de
l’espérance du logarithme du rapport de vraisemblance sur
toutes les trames du segment de test. Précisément :

1X p(Xt |S)
ys (X) = log (7)
T i p(Xt |W )

où , p(xt |S) et p(xt |W ) sont les vraisemblances du vec-


teur cepstral xt respectivement sur le modèle du locuteur S
et sur le modèle du monde W.

F IG . 3. Principe de la normalisation Hnorm.


3. Système de détection de genre

Plusieurs applications procèdent à une détection du 5. Normalisation par le moment d’orde 3


genre avant tout traitement, la démarche consiste à faire ”skewness”
l’apprentissage des modèles selon le genre homme/femme,
au lieu de faire l’apprentissage de locuteur, puis on fait une En observant les distributions des scores obtenus figure
comparaison entre les modèles de genre par rapport aux si- 4, nous avons remarqués qu’ il y a une asymétrie des dis-
gnaux tests mâles et femelles, la figure suivante montre le tributions des scores, on se propose ainsi de faire une trans-
principe de cette procédure formation sur les scores pour enlever la valeur de skewness
et observé l’éffet sur les performance du système
Modèle
monde 450

X1
400
.
Adaptation
.
.
Mâles . Modèle M 350
Xi
.
Modèle genre
.
. Modèle F
300
Nombre d’occurrence

Femelles 250
Score Genre
200

Paramètres Reconnaissance Décision 150

Test 100

Signaux 50

0
-1 0 1 2 3 4 5 6
F IG . 2. Système de détection de genre. Scores

F IG . 4. Histogramme des scores.


4. Normalisation des scores Hnorm Le coefficient de Skewness mesure le degré d’asymétrie de
la distribution. Il est définit comme :
Plusieurs variantes de la technique de normalisation ont [E(X − µ)3
été développées [2]. Elles se basent principalement sur les S= p (9)
[ (X − µ)2 ]3
connaissances a priori qu’on peut avoir et qui peuvent fa-
cilement être intégrées. Ainsi et à cause des variations du Si S est égal à 0, la distribution est symétrique. Si S est plus
combiné, D. Reynolds a proposé une normalisation qu’il a petit que 0, la distribution est asymétrique vers la gauche.
nommé Hnorm [3], Elle consiste à centrer et réduire les ef- Si S est plus grand que 0, la distribution est asymétrique à
fets du combiné utilisé. droite.
Supposons que S(X) le score obtenu suite au test de X On applique cet moment sur les scores imposteurs de
sur le modèle, la normalisation de ce score est obtenue par type carbon et electret pour calculer le Skecar et Skeelec ,
puis on fait une transformation de type Log comme le équilibré et des modèles de genre masculin et féminin, une
montre l’équation suivant : phase de test qui sert à faire le test des signaux enregistrés
sur le modèle de genre masculin et féminin, afin d’arriver à
Ss = S + (1/skeα )log(S/skeα ) (10)
classifier les signaux par leur genre :
Où α désigne le type carbon ou electret suivant le type du
signal de test.
40

6. Résultats expérimentaux
20

Miss probability (in % )


Dans cette section, des expériences sont faites sur la
base d’évaluation de NIST2000 [7], qui montrent les ef-
fets généraux sur l’exécution de divers paramètres du 10

système de GMM-UBM, on a réalisé 4800 tests dont 800


accès client et 4000 accès imposteurs. Les expériences sont 5

réalisées avec l’ensemble des programmes SpkDet de Mis-


tral, développées en langage C++ et mise à disposition sous 2
licence LGPL [ALIZE][8].
1
1 2 5 10 20 40
6.1 L’influence de taille des GMMs False Alarm probability (in %)

Pour cette expérience, des GMM de taille 2048, 1024, F IG . 6. Détection de genre.
512 ont été formés en mettant toutes les données ensemble
avec 21 coefficients cepstraux MFCC, une normalisation D’après la figure, on peut dire que notre système de
basée sur le retrait de la moyenne cepstrale permet de mini- détection de genre proposé attient 89% de classification cor-
miser les perturbations dues aux canaux de transmission. recte à égale erreur (P F A = P M ), sans l’application de la
normalisation des scores.

6.3 La normalisation des scores

Dans la base de données NIST le type de combiné est une


information a priori, on a utilisé cette information pour cal-
culer la moyenne et la variance de chaque combiné carbon
et electret, les valeurs obtenues sont utilisées pour applique
la normalisation des scores comme le montre l’équation (8)

F IG . 5. L’éffet de la taille du modéle GMM-UBM.

Il ressort de cette expérience que la taille de modèle


qui assure un compromis entre le temps d’exécution et le
nombre des gaussiens utilisées pour la modélisation est 512
composantes. Cette valeur sera retenue pour le reste des
expériences F IG . 7. La normalisation Hnorm.
6.2 Détection du genre du locuteur
Les résultats montrent une amélioration de performances
La détection de genre contient deux phases, une phase de système 2%, à cause de la suppression des effets du com-
d’apprentissage pour construire un modèle de monde biné.
6.4 Moment d’ordre 3 ”skewness” 7. Conclusion
L’idée de l’application du skewness consiste a corrigé les Nous avons proposé dans cet article une nouvelle
valeurs des scores en améliorant la forme de la distribution méthode pour la normalisation des scores pour la lutte
des scores, la figure 8 montre l’histogramme des distribu- contre la désadaptation due à la différence du combiné uti-
tions des scores client et imposteur pour le système de base lisé en phase d’apprntissage et test.Les résultats obtenus
aprés normalisation Hnorm et aprés l’application de la cor- sont satisfaisants en termes du taux de reconnaissance cor-
rection de Skewnnes : recte. Néanmoins, pour atteindre des taux de reconnaissance
plus grand, il est indispensable d’integrer des techniques qui
300
corrigent l’effet du canal.
Nombre d’occurrence

200

Références
100

0 [1] D. A. Reynolds, ”Speaker identification and verifica-


-3 -2 -1 0 1 2 3 4 5
Scores tion using gaussian mixture speaker models”. Dans
400
Speech Communication, 1995.
Nombre d’occurrence

300 [2] R. Auckenthaler, J. S. Mason ”Score normalisation for


text-independent speaker verification systems” Digital
200
Signal Processing Journal, 2000.
100
[3] D. A. Reynolds, T.F. Quatieri, R. B. Dunn ” Speaker
0
-3 -2 -1 0 1 2 3 verification using adapted gaussian mixture models ”,
Scores
Digital Signal Processing Journal, 2000.
F IG . 8. Distribution des scores du système [4] A. P. Dempster, N. M. Laird, et D. B. Rubin,
NIST2000 en HNORM / skewness. ”Maximum-likelihood from incomplete data via the
EM algorithm”. Dans Journal of Acoustical Society
of America JASA, 1977
Pour bien distinguer l’effet de cette technique sur notre [5] M. J. Carey et E. S. Parris, ”Speaker verification using
système on a tracé les courbes de DET comme le montre la connected words”. Dans Proceedings of Institute of
figure 9 : Acoustics, 1992.
[6] J. L. Gauvain et C. H. Lee, ”Maximum a posteriori
estimation for multivariate gaussian mixture observa-
tions of markov chains”. Dans IEEE Transactions on
Speech and Audio Processing, 1994.
[7] Site web, www.nist.com.
[8] J.-F. Bonastre, N. Scheffer, D. Matrouf, C. Fredouille,
A. Larcher, A. Preti, G. Pouchoulin, N. Evans, B.
Fauve, and J. S. Mason. ”ALIZE/SpkDet : a state-of-
the-art open source software for speaker recognition”.
The Speaker and Language Recognition Workshop,
2008.

F IG . 9. DET des scores du système NIST2000 en


HNORM / skewness.

La figure 9 montre l’amélioration du système. Ce gain a


attient des performances satisfaisantes de 90% de classifi-
cation correcte à égale erreur (P F A = P M ).