Vous êtes sur la page 1sur 4

ADAPTATION DE MODELES ACOUSTIQUES POUR LA RECONNAISSANCE

AUTOMATIQUE DE LA PAROLE
Richard LAMY
Equipe GEOD (Groupe d’Etude sur l’Oral et le Dialogue) - Laboratoire CLIPS
Université Joseph Fourier - BP 53 - 38041 GRENOBLE Cedex 9
Tél : 04 76 63 55 81 – Fax : 04 76 63 55 52
Richard.Lamy@imag.fr

d’echantillonnage de 8kHz, et à réapprendre un modèle


RESUME acoustique sur ces nouvelles données.
Dans le domaine de la reconnaissance automatique de la On peut également envisager une approche du type signal
parole (RAP), un problème se pose lorsqu’il faut adapter où les signaux de test seront sur-échantillonnés à 16kHz
les modèles acoustiques à un nouvel environnement avant d’être comparés au modèle acoustique de référence.
(reconnaissance via voie téléphonique par exemple). Cet Cependant, ce type de traitement donne des résultats peu
article présente les études et recherches menées sur satisfaisants. En effet d’après le théorème de Shannon, les
l’automatisation de traitements de vecteurs acoustiques. fréquences au delà de 4kHz ne sont pas pour autant
Le but de ces travaux est de pouvoir faire de la RAP sur 8 kHz
tout type de signal avec un seul type de modèle
acoustique par traitement numérique des vecteurs
acoustiques. Nous présentons ici les techniques et 4 kHz
méthodes envisagées dans ce cadre : algorithmes
génétiques, classification numérique et fonction de 0 t
transformation. Les premiers résultats des
expérimentations effectuées sont aussi donnés. retrouvées lors d’un sur-échantillonnage à 16kHz (figure
1. INTRODUCTION 1).
La reconnaissance automatique de la parole s’applique à Figure 1 : spectrogramme d’un signal 8 kHz sur-
ce jour sur de nombreux signaux de qualité différente échantillonné en 16 kHz
(fréquence d’échantillonnage, quantification,
codage, conditions d’enregistrement). Pour faire face à On peut encore envisager l’approche paramètres qui
cette variabilité, on peut limiter l’apprentissage à un type consiste à modifier les vecteurs acoustiques extraits des
de signal donné et obtenir les modèles acoustiques signaux de test pour réduire le « mismatch » avec le
adaptés à celui-ci. Le défaut de cette approche vient du modèle acoustique de référence. C’est cette dernière
fait que, parfois, les modèles sont appris sur des signaux approche que nous nous proposons de décrire dans cet
de mauvaise qualité. Par ailleurs, on ne peut pas prévoir à article.
l’avance toutes les propriétés des signaux qui seront Une première partie sera dédiée au principe général ainsi
rencontrées par le système au cours de la phase de qu’aux méthodes envisagées. Dans une seconde partie,
reconnaissance. nous présenterons les expérimentations qui ont été
Une autre approche est d’utiliser un modèle acoustique menées et les résultats de celles-ci. Enfin les perspectives
appris sur des données enregistrées dans de très bonnes et études envisagées à court terme concluront notre
conditions et de transformer les signaux que l’on veut présentation..
reconnaître et/ou le modèle acoustique de référence pour 2. ADAPTATION PAR
réduire le « mismatch » entre apprentissage et test. Cette TRANFORMATION DE
transformation peut avoir lieu au niveau signal, au niveau PARAMETRES
des paramètres ou par transformation du modèle lui- Notre méthode nécessite que l’on dispose d’un même
même. Dans cette dernière catégorie se trouvent corpus décliné en plusieurs qualités de signal. Dans notre
notamment les méthodes d’adaptation du type MLLR cas, nous disposons d’un corpus de 120 signaux
[Doh00] qui effectuent un traitement sur les gaussiennes (initialement 16kHz-16Bits) ainsi que de sa version sous-
du modèle acoustique. échantillonnée à 8kHz et de ses versions transcodées
Partons d’un « cas d’école » où l’on dispose d’un modèle (codées puis décodées) pour différents types de codage
acoustique (issu de l’apprentissage) appris sur des signaux (GSM, G711, G723, MPEG).
propres échantillonnés à 16kHz, et de signaux de test à A ce niveau, nous ne parlons pas d’unités phonétiques,
bande limitée (du type téléphonique) de fréquence mais uniquement de deux ensembles de vecteurs
d’échantillonnage 8kHz. Une première solution consiste à acoustiques d’un espace de dimension p. Le but, alors
dégrader les signaux utilisés pour l’apprentissage, c’est-à- mathématique, consiste à trouver une correspondance
dire à les sous-échantillonner à une fréquence analytique entre ces deux ensembles.

86 Quatrièmes Rencontres Jeunes Chercheurs en Parole, Mons, 11-14 sept. 2001


Vecteurs acoustiques du corpus 1 A ce niveau, nous disposons des centroids et des
équivalents pour chaque classe.

Vecteurs
f Vecteurs acoustiques du corpus 2 acoustiques tests

Figure 2 : principe général


Pour trouver cette « fonction » de transformation, Centroids
plusieurs méthodes sont envisagées : classification Centrés & Réduits
numérique, algorithmes génétiques et fonction numérique.
Nous allons maintenant présenter celles-ci.

2.1.Classification numérique
Le but ici est de caractériser les vecteurs acoustiques Recherche de la classe
source en un certain nombre de classes, puis d’associer un Equivalents
vecteur représentant dans le format cible à chaque classe.
Nous ne produisons pas de signal, nous quantifions le
signal source puis l’associons au plus proche du format
c0 c94 …. c2
cible.
Tout les coefficients ne sont pas exprimés dans des unités
homogènes et ne représentent pas les mêmes Récupération de l’équivalent
caractéristiques. La distance euclidienne n’a donc plus
vraiment de sens. Nous choisissons alors la distance
utilisée couramment en ACP, ce qui revient en fait à
centrer et réduire le tableau de données. Pour la
classification de ces vecteurs centrés réduits, nous
utilisons l’algorithme « binary split » des k-means
[Rab93] pour regrouper les vecteurs en classes et pour Modèle
associer un vecteur moyen cible à chacune des classes acoustique
(figure 3).

Vecteurs acoustiques Vecteurs acoustiques Figure 4 : génération de signal


Corpus à classifier Corpus pour équivalents
La figure 4 montre la transformation opérée lorsqu’un
signal test est rencontré. Les vecteurs acoustiques sont
d’abord centrés et réduits, puis comparer aux centroids
pour connaître leur classe d’appartenance. Cette phase
Centrés & Réduits réalisée, ces vecteurs sont remplacés par les vecteurs
équivalents de leur classe d’appartenance. La phase de
reconnaissance s’effectue sur ces nouveaux vecteurs.

K-MEANS 2.2.Algorithmes génétiques


Des expérimentations sur l’utilisation d’algorithmes
évolutionnaires est en cours. Le principe est le suivant :
on associe à chaque « individu » une matrice de
transformation des vecteurs sources, et à chaque caractère
de chaque individu une probabilité de mutation. Ces
individus sont sélectionnés selon le critère choisi, à savoir
Correspondance
le taux de reconnaissance obtenu avec les vecteurs
sources transformés, comparés aux modèles acoustiques
cibles. A chaque génération, les « meilleurs » individus
sont sélectionnés, recombinés puis mutés. Chaque
nouvelle génération contient autant d’enfants qu’il y avait
de parents.
Ces méthodes évolutionnaires sont souvent utilisées dans
Centroids Equivalents les recherches de solutions pour lesquelles aucun indice
n’est évident. L’espace est couvert entièrement et
Figure 3 : étape de classification aléatoirement. Notons que ce type de méthode a déjà été

Quatrièmes Rencontres Jeunes Chercheurs en Parole, Mons, 11-14 sept. 2001 87


utilisé au laboratoire CLIPS dans le domaine de la parole Le taux obtenu par cette méthode est bien supérieur à
[Spa99]. celui obtenu par la méthode « signal », mais reste
inférieur au taux obtenu pour les signaux 8kHz testés sur
2.3.Fonction numérique les modèles acoustiques 8kHz. Malgré le fait que ce test
Dans cette troisième approche, il s’agit de chercher une soit un peu biaisé car nous testons sur le corpus de
matrice de transformation M telle que : développement (i.e. le corpus sur lequel sont calculés les
centroids et équivalents), ceci reste un bon résultat
y ' = y.M ∀y ∈ Etest , y '∈ E app Algorithmes génétiques :
Où les vecteurs acoustiques y du corpus de test sont Un premier test sur un seul signal vient d’être effectué
transformés en y’ au format du modèle acoustique. Cette avec 100 individus. Un individu (une matrice) a été trouvé
dernière approche n’est pas encore implémentée. avec une performance de 100% de reconnaissance, après
380 générations. Plus clairement, cette matrice appliquée
à un signal 8kHz a permis d’effectuer la reconnaissance
3. EXPERIMENTATION avec les modèles acoustiques 16kHz.
Ce test ne permet pas de valider la méthode, mais montre
3.1.Corpus cependant la faisabilité de l’approche.
Pour notre étude, nous disposons de plusieurs corpus L’étape en cours est de lancer l’algorithme sur le corpus
français de parole sur lesquels nous pourrons mener nos CSTAR120 tout entier. Compte tenu du nombre de
recherches : générations nécessaires pour le test sur un signal, nous
9 BREF80: corpus à large vocabulaire, 80 locuteurs savons que cela demandera un temps de traitement
[Lam91]. Ce corpus est assez important pour conséquent : il faut environ 40 secondes pour traiter un
finaliser nos études en faisant notre classification sur individu, soit plus d’une heure par génération.
beaucoup de données. Au jour de la publication, le meilleur individu a une
9 CSTAR120 : corpus de 120 phrases dans le domaine performance de 21% de taux de reconnaissance. Il
du tourisme [Bla00]. L’avantage de ce corpus est que apparaît cependant que ce taux de reconnaissance est en
celui-ci est décliné en plusieurs qualité de son : constante hausse au fur et à mesure des générations.
16kHz, 8kHz, MPEG-x plusieurs débits binaires,
GSM, G711 et G723. 4. CONCLUSION & PERSPECTIVES
Les études à venir en ce qui concerne la classification
Pour les vecteurs acoustiques, nous utilisons 13 portent sur le nombre de classes, le nombre de
coefficients cepstraux de type MFCC, leurs dérivées coefficients MFCC et sur des corpus de développement et
premières et secondes, l’énergie, sa dérivée première et de test différents. Nous pouvons penser qu’un même
seconde, et le zerocrossing. nombre de classes dans un espace plus petit rendrait ces
Les vecteurs sont alors de dimension 43. Notons que les classes plus caractérisantes.
modèles acoustiques ont été appris sur ces coefficients En ce qui concerne les algorithmes génétiques, la
réduits à une dimension de 24 par application d’une LDA paramétrisation de départ (En particulier le nombre
(Linear Discriminant Analysis). d’individu) peut jouer un rôle et nous allons tester d’autre
configuration.
3.2.Résultats Enfin, la fonction de transformation doit être abordée plus
Plusieurs tests ont d’ores et déjà été effectués. précisément, celle-ci n’ayant pas été encore implémentée.
classification numérique :
Un essai a été réalisé avec l’apprentissage en 1024 classes Une application des techniques de classification se situe
sur 99 phrases du corpus CSTAR120 et le test de au niveau des transmissions de parole via un réseau. Il est
reconnaissance sur tout le corpus. Les signaux de test sont dans ce cas très intéressant de transmettre la classe
en 8khz, les modèles acoustiques en 16khz. Nous d’appartenance plutôt que le vecteur acoustique complet,
obtenons les résultats ci-après (table 1). ce qui réduit considérablement la bande passante.

Table1 : résultats des tests. 5. REFERENCES


signaux Modèle taux de [Doh00] Doh, Sam-Joo & Stern R.M “inter-class MLLR
méthodes
de test acoustique reconnaissance for speaker adaptation”, ICASSP 2000(Istanbul,
Turquie).
8kHz 8kHz 87,40%
[Lam91]Lamel, L.F., Gauvain, J.L., Eskénazi, M.
"signal" = sur- « BREF, a Large Vocabulary Spoken Corpus for
8kHz 16kHz 61,40% French », Eurospeech, Gênes, Italy, Vol 2, pp.
échantillonnage
505-508, 24-26 September 1991.
"paramètres" = [Bla00] Blanchon, H. & Boitet, C. (2000). Speech
8kHz 16kHz 83,00%
classification Translation for French within the C-STAR II
Consortium and Future Perspectives. Proc.

88 Quatrièmes Rencontres Jeunes Chercheurs en Parole, Mons, 11-14 sept. 2001


ICSLP 2000. Beijing, China. 16-20 October,
2000. vol. 4/4 : pp. 412-417.
[Rab93] Rabiner, L. & Juang, B-H. « Fundamentals of
speech recognition », pp 126-127.
[Spa99] Spalanzani A., « Algorithmes évolutionnaires
pour l’étude de la robustesse des systèmes de
reconnaissance automatique de la parole »,Thèse
Université Joseph Fourier - Grenoble I.

Quatrièmes Rencontres Jeunes Chercheurs en Parole, Mons, 11-14 sept. 2001 89

Vous aimerez peut-être aussi