Académique Documents
Professionnel Documents
Culture Documents
texte d’apprentissage et sur un texte test d’une période • codage des accents et autres signes diacritiques: le
postérieure pour chaque liste, ainsi que la perplexité des codage est ISO-latin1
modèles de langage sur ce dernier texte. Pour certaines
• une séparation hiérarchique en articles, paragraphes,
normalisations, l’effet de taille du corpus d’apprentissage
phrases.
a été étudié, en passant de 40 à 200 millions de mots.
Notre étude nous permet de mettre à jour les opérations • élimination de symboles non conformes.
qui ont un réel impact sur la couverture lexicale, et de
mesurer si ces opérations ont un impact négatif sur la per- • prétraitement des chiffres (10 000 → 10000).
plexité et donc de manière probable sur la reconnaissance. • traitement des unités (kg/cm3, etc..).
• élimination d’erreurs de formatage propres aux textes
Normalisation du français
journalistiques;
Parmi les opérations de normalisations de texte en
langue française (comme dans d’autres langues), cer- • détection d’abréviations nouvelles, correction
taines sont communément admises1 , mais n’ont jamais été d’erreurs de ponctuation.
évaluées : • traitement des ponctuations dites “non ambiguës”,
dans la mesure où elles ne conduisent pas à des mots
N0 traitement des séparateurs ambigus ( “-” et “’”) hors composés, et séparation en phrases. On segmente en
mots composés. phrase après les ponctuations fortes, et après ”:”, s’il
N1 traitement des majuscules en début de phrase est suivi de ’”’. Par contre, les incises sont laissés
(Dorénavant → dorénavant), dans la phrase (par exemple:
” Bonjour ”, dit-il , ” comment ca va ? ” . est une
N2 traduction des chiffres (y compris des chiffres ro- phrase).
mains) en mots (110 → cent dix), • élimination des ponctuations isolées. En effet,
N3 éclatement des sigles non acronymes l’application de la dictée vocale est dite “sans ponc-
(ABCD → A. B. C. D.) tuation verbalisée”, c’est-à-dire que les locuteurs ne
dictent pas la ponctuation.
N4 normalisation des majuscules emphatiques Différentes combinaisons de normalisations Ni , i = 0 à
(Etat → état) 7 ont été faites, conduisant à différentes versions du texte
d’apprentissage :
N5 séparation des mots composés
(porte-clefs → porte - clefs), V0 Ce texte est le résultat des normalisations
élémentaires énoncées ci-dessus; c’est donc le texte
N6 suppression de la distinction minuscule-majuscule de référence, sans aucune prise de décision ambiguë
(Pierre et Jean → pierre et jean . (à part la séparation en phrases).
N7 désaccentuation (système → systeme) V1 En partant du texte V0 , les mots composés (avec “-
” et “’”) sont détectés; les autres occurences de ces
Certaines normalisations (que nous qual- séparateurs ambigus sont séparés des mots (par ex-
ifierons improprement d’ “élémentaires”) sont effectuées emple (Paris-Bordeaux → Paris - Bordeaux). Ce
systématiquement : traitement se fait en 2 passes, et utilise 2 dictionnaires
1 Certaines de ces normalisations ne sont admises qu’en vue d’une ap- généralistes (BDLEX [Pérennou G., (1988)] et DE-
plication de reconnaissance de la parole, comme par exemple la traduc- LAF via INTEX [Silberztein M., (1993)]), contenant
tion des chiffres en mots des listes de mots composés.
taux de MHV 20k sur corpus d’apprentissage taux de MHV 64k sur corpus d’apprentissage
9.00 4.00
%MHV-20k-apprentissage %MHV-64k-apprentissage
8.50
3.50
8.00
7.50
3.00
7.00
6.50 2.50
6.00
2.00
5.50
5.00
1.50
4.50
4.00 1.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figure 1: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte, pour 2
listes (20k et 65k) obtenues à partir de 40M de mots; le taux MHV calculé sur le texte d’apprentissage
taux de MHV 20k sur corpus de test taux de MHV 64k sur corpus de test
9.00 4.00
%MHV-20k-test %MHV-64k-test
8.50
3.50
8.00
7.50
3.00
7.00
6.50 2.50
6.00
2.00
5.50
5.00
1.50
4.50
4.00 1.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figure 2: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte, pour 2
listes (20k et 65k); le taux est calculé sur un texte de 20 000 mots très éloigné temporellement du corpus d’apprentissage (dev1)
V2 Ici, on a traité les majuscules en début de phrase dans On peut voir que les normalisations qui apportent le plus
le texte V1 . Ce traitement, comme le précédent, se de gain au niveau couverture sont les normalisations N0
fait en 2 passes, et utilise 2 dictionnaires généralistes (séparation des ponctuations ambuiguës) qui réduit le taux
(BDLEX et DELAF). de MHV de 19% pour la liste 20k et 26% pour la liste 64k,
et N2 (transformation des chiffres en nombre) qui réduit
V3 A partir du texte V2 , les chiffres romains on été le taux de MHV de 13% pour la liste 20k et 22% pour la
transformés en chiffres (exemple : chapitre XII → liste 64k. La normalisation N1 (traitement des majuscules
chapitre 12, Francois Ier → Francois 1er), puis les en début de phrase) et N6 (suppression de la distinction
chiffres en mots (1993 → mille neuf cent quatre- minuscule majuscule) sont également efficaces, mais prin-
vingt-treize, les 24e journées de l’enseignement → cipalement sur la liste 64k (réduction de 10 et 14%).
les vingt-quatrièmes journées de l’enseignement). La normalisation N4 (normalisation des majuscules em-
phatiques) ne semble pas réduire le taux de MHV de
V4 Texte V3 , où les sigles non acronymes sont éclatés.
manière significative. De plus, cette normalisation im-
V5 Texte V4 , où les majuscules emphatiques sont plique une intervention manuelle importante, le fait de
décapitalisées. savoir si une majuscule en début de mot relève d’une em-
phase ou traduit un nom propre, nécessitant une analyse
V6 Texte V5 , où toutes les formes composées avec “- syntaxique, voire sémantique.
” et “’” sont éclatées. Seules sont conservées Le passage de la forme V0 à la forme V5 (la forme
les formes composées très fréquentes se prononçant utilisée pour le texte officiel AUPELF, et dans le système
différemment de leurs composants (dix-huit, prêt-à- du LIMSI) réduit le taux de MHV de 35% pour la liste 20k
porter). (50% pour la liste 64k), alors que le passage de la forme
V5 à la forme V9 ne la réduit que de 12% pour la liste 20k
V7 Texte V5 , où les différences de capitalisation sont sup-
(20% pour la liste 64k).
primées.
V8 Texte V6 , où les différences de capitalisation sont sup- Couverture d’un texte test
primées. Nous avons constitué un texte test de 20 000 mots
V9 Texte V7 , où les signes diacritiques sont retirés. (que nous noterons dev1), choisi suivant les mêmes
critères que ceux utilisés pour la sélection du corpus de
V10 Texte V8 , où les signes diacritiques sont retirés. développement de l’ARC B1 (que nous noterons dev2),
afin de mesurer l’effet du à l’éloignement temporel entre
La table 1 résume les différentes combinaisons de ces le corpus d’apprentissage et un corpus de test. Ce texte
normalisations qui ont été testées. recouvre à peu près la même période que le corpus dev2
Bien que toute normalisation diminue la quantité (mai 1996), et a subi les mêmes normalisations que le cor-
d’information initialement prśente dans le texte, cette pus d’apprentissage. La figure 2 montre les taux de MHV
réduction varie d’une normalisation à l’autre. Ainsi, il est sur ce texte test pour les 2 listes 20k et 64k.
possible de passer, à l’aide d’heuristiques assez simples, En comparant les courbes sur les figures 1 et 2, on peut
d’une forme V5 ou V6 à la forme “primitive” V0 (ou tout au voir que, mis à part un décalage fixe d’environ 1% absolu
moins une forme équivalente), alors que pour les formes V7 entre la couverture sur l’apprentissage et sur un texte test,
à V10 , ce passage, sinon impossible, recquiert l’adjonction l’impact de chaque normalisation semble globalement con-
de sources de connaissance importantes (et donc l’ajout servé. Ainsi, pour la couverture du test, le passage de la
d’une quantité d’information équivalente). De plus, les forme V0 à la forme V5 réduit le taux de MHV de 30%
formes V9 et V10 , semblent de par la grande ambiguı̈té lex- pour la liste 20k (40% pour la liste 64k), alors que le pas-
icale qu’elles engendrent, peu utilisables dans un système sage de la forme V5 à la forme V9 ne la réduit que de 11%
de reconnaissance de la parole. pour la liste 20k (20% pour la liste 64k).
La taille du texte d’apprentissage (40M de mots) est
Couverture de l’Apprentissage réduite, et la distance (plus de 7 ans) entre celui-ci et le
Les textes distribués dans le cadre de l’ARC AUPELF texte test est importante; nous avons voulu voir quelle
B1 “Dictée Vocale” consistent en le contenu intégral de était l’évolution des taux de MHV lorsque la taille du
l’édition quotidienne (et des suppléments) de deux années texte d’apprentissage augmentait. Pour cela, les textes des
du journal “Le Monde” (1987 et 1988), représentant un to- années 87 à 95 du journal “Le Monde” ont été utilisés, pour
tal de 40M de mots (sans tenir compte de la ponctuation). 5 combinaisons de normalisations V0 , V5 , V6 , V9 et V10 . 4
La figure 1 montre les taux de MHV (mots hors vocabu- textes d’apprentissage on été utilisés :
laire) pour 2 listes 20k et 64k; ces listes sont obtenues en T0 : années 1987 et 1988 (40 M de mots)
prenant les 20 000 mots (resp. les 64 000 mots) les plus
fréquents de ces textes. Le taux de MHV est calculé en di- T1 : T0 + années 91 à 95 (145 M de mots)
visant le nombre de mots du texte testé n’appartenant pas
à la liste en question par le nombre total de mots du texte. T2 : T0 + années 89 et 90 (185 M de mots)
taux de MHV avec un lexique 20k taux de MHV avec un lexique 65k
6.0
2.0
5.5
5.0 1.5
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figure 3: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons de normalisation V0 , V5 V6 , V9 et V10 et des listes 20k
et 64k, obtenues à partir de différents textes d’apprentissage T0 (40M de mots), T1 (145M de mots), T2 (185M de mots) et T3 (105M
de mots) , sur le corpus de test dev1
420.0
41.0
400.0
380.0 40.0
360.0
340.0 39.0
320.0
38.0
300.0
280.0 37.0
260.0
36.0
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figure 4: Nombre de mots différents et nombre de mots total pour les différentes combinaisons Vi (i = 0, . . . , 10).
T3 : T1 − T0 = années 91 à 95 (105 M de mots) LIMSI [Adda G., Adda-Decker M., Gauvain J.-L. Lamel
L. (1997)] a permis de réduire le taux de MHV sur le texte
La figure 3 montre le taux de MHV sur le même texte dev1 à 1.50%2 (contre 1.34% sur le texte dev2) , et ce pour
test, pour les 2 listes 20k et 64k. On peut voir que la combinaison V5 comme pour V6 .
l’augmentation de la taille du texte d’apprentissage permet L’impact du choix de la nature et de la taille du texte
de diminuer le taux de MHV de manière sensible puisque d’apprentissage semble donc aussi sinon plus important
ce taux est réduit de 11% pour les listes 20k et de 33% pour que la nature des normalisations, pour ce qui concerne la
les listes 64k. Cependant, cette diminution sature rapide- couverture d’un texte par un lexique déduit d’un corpus.
ment, puisque l’utilisation du texte ayant la taille la plus
importante (T2 ) ne correspond pas à la couverture opti-
Caractéristiques des textes
male, celle-ci étant atteinte pour les textes de date les plus
récentes (T3 ). Chaque texte Vi , i = 0 à 10, de par sa normalisa-
Il est à noter que pour des tailles de textes tion spécifique, a des caractéristiques qui vont influer
d’apprentissage importantes, l’écart entre la couverture sur sur les propriétés des modèles de langage. Nous retien-
l’apprentissage et le test, de l’ordre de 20% pour le texte drons uniquement pour mesures caractéristiques, la taille
T0 , se réduit à 1 % pour les textes T2 ou T3 . du texte, et le nombre de mots différents (voir figure 4).
On peut également noter que l’écart absolu entre les En effet, ces 2 mesures influent directement sur la manière
2 combinaisons V5 (avec mots composés) et V6 (sans dont les modèles de langage sont appris : si le nombre de
mots composés) passe pour un liste 64k de 0.1 % pour mots différents du texte est sensiblement plus grand dans
le texte T0 à 0.05 pour T3 ; en fait, une optimisation une forme plutôt que dans une autre, et que la taille du
dans le choix des textes et de leur taille réduit l’impact texte ne varie pas dans le même sens, on peut penser que
des différentes normalisations sur le taux de MHV; par 2 le meilleur taux atteint avec les listes issues des textes T étant de
i
exemple, l’optimisation de la liste 65k du système du 1.57%
l’apprentissage des modèles de langage sera plus difficile; ainsi artificiellement baissée de par la forte probabilité du
d’un autre côté, plus le nombre de formes différentes est ce symbole. Les différentes normalisations conduisant
grand, plus les modèles de langage peuvebt être discrimi- à des couvertures différentes, et donc à des estimations
nants et donc précis. différentes de la probabilité de ce symbole INCONNU,
La comparaison de la figure 4 avec les figures 1 et 2, il nous a semblé important, afin de ne pas mélanger les
montre que les évolutions en fonction des normalisations différents paramètres observés, de ne pas inclure dans le
du taux de MHV, et du nombre de mots différents sont très calcul de la perplexité, la contribution de ce symbole.
fortement corrélé. Nous avons choisi comme texte pivot pour calculer les
perplexités normalisées, le texte V3 , car il apparaı̂t comme
Perplexité la version minimum vis-à-vis de la couverture du lexique
(les versions V0 à V2 apparaissant comme peu efficace par
La couverture du lexique n’est qu’un aspect de l’impact
rapport à ce critère). Toutes les perplexitées normalisées
des normalisations. Une normalisation qui entraı̂ne
seront calculées par rapport à cette version V3 du texte.
une plus grande couverture, en réduisant la quantité
Les perplexités normalisées et non normalisées sur un
d’informations, peut générer une plus grande ambiguı̈té
bigramme et un trigramme, pour les 2 listes 20k et 64k et
syntaxique. La perplexité est la mesure usuelle de
calculées sur le texte test dev1 sont représentées dans la
l’efficacité d’un modèle de langage probabiliste, bien que
figure 5.
celle-là ne soit pas toujours simplement corrélé avec les
résultats de reconnaissance. Les variations de perplexité sont nettement moins im-
La perplexité est une mesure directement liée à portantes que les variations du taux de mots hors vocabu-
l’entropie (au sens de la théorie de l’information), et intro- laires que nous avons pu observer. En effet, l’augmentation
duit une moyennisation par rapport aux nombres de mots de la perplexité est la plus forte lorsque l’on passe de la
du texte sur lequel on mesure cette perplexité. forme V0 à la forme V3 , où elle varie seulement de 19%
Si l’on veut pouvoir comparer des perplexités sur un (bigramme 20k) et 8% (trigramme 64k). Le passage de la
texte ayant subi des normalisations différentes, et donc forme V3 à la forme V5 conduit à une augmentation rela-
ayant une longueur variable, il est nécessaire d’utiliser une tive de perplexité variant entre 2.7 et 1.6%, et le passage
autre mesure, la normalisation par rapport au nombre de de la forme V5 (resp V6 ) à la forme V9 (resp. V10 ) conduit
mots introduisant un biais. En effet, si l’on veut comparer à une augmentation relative de perplexité variant entre 2.4
les perplexités de plusieurs modèles de langage, il est nec- et 1.0%.
essaire de le faire sur un texte identique; la normalisation On peut noter que seule la normalisation N4 (normal-
changeant le texte, il faut trouver un moyen de calculer la isation des majuscules emphatiques)
perplexité sur la même version du texte. Pour cela, nous conduit systématiquement à une diminution (très faible)
utilisons la notion de perplexité normalisée, où l’on rem- de la perplexité. De manière générale, la suppression de
place la formule usuelle : la différence majuscule-minuscule semble peu augmenter
la perplexité, puisque la normalisation N6 conduit à une
1
p = 2 n log(P (W )) diminution de la perplexité des n-grammes 64k , de même
que la normalisation N1 dans le cas d’un trigramme 64k.
par celle de la perplexité normalisée [Gauvain J.-L., Lamel Nous avons représenté sur la figure 5 (d) les valeurs des
L., Adda G., Matrouf D. (1996a)] qui permet de comparer perplexités obtenues pour les formes V5 et V6 (avec et sans
des perplexités sur un texte T sous des versions de normali- mots composés) et des trigrammes appris sur un corpus de
sation v1 et v2 différentes, et donc de longueurs différentes. taille de 200 M de mots. Nous pouvons voir que, mis à
On définit donc p∗ : part une réduction globale de 10% de la perplexité due à la
n1 log(p)
taille du corpus d’apprentissage, les variations propres à la
p∗ = 2 n2 log(2) normalisation sont conservées.
200.00 270.00
195.00
260.00
190.00
185.00 250.00
180.00
240.00
175.00
170.00 230.00
165.00 220.00
160.00
210.00
155.00
150.00 200.00
145.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
135.00 180.00
130.00 170.00
125.00 160.00
120.00
150.00
115.00
140.00
110.00
130.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figure 5: Perplexités normalisées et non normalisées pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte,
pour un bigramme 20k (a), un bigramme 64k (b), un trigramme 20k (c) et un trigramme 64k (d), ainsi que les perplexités obtenues
par un trigramme 64k appris sur 200M de mots; les perplexités sont calculées sur un texte de 20 000 mots (dev1), et n’incluent pas la
contribution due aux mots inconnus
majuscule) mais principalement pour une liste 64k. [Gauvain J.-L., Lamel L., Adda G., Matrouf D. (1996a)] “The
Les différences de taux de couverture entre les LIMSI 1995 Hub3 system”, Proc. ARPA Spoken Language
différentes langues observées par ailleurs [Lamel L., Technology Workshop-96.
Adda-Decker M., Gauvain J.-L. (1995)] ne sont pas [Gauvain J.-L., Lamel L., Adda G., Matrouf D. (1996b)]
(uniquement) dues à des différence de prétraitement; en “Developments in Continuous Speech Dictation using the
effet, un prétraitement équivalent à celui appliqué aux 1995 ARPA NAB News Task”, Proc. ICASSP-96.
textes en langue anglaise (forme V10 ) conduit à un taux [Lamel L., Adda-Decker M., Gauvain J.-L. (1995)] “Issues in
de mots hors vocabulaire supérieur de 60% pour la langue Large Vocabulary, Multilingual Speech Recognition”, Eu-
française. rospeech’95.
Les variations de perplexité ne sont pas aussi impor- [ Paul D.B., Baker J.M. (1992)] “The Design for the Wall Street
tantes que les variations de taux de MHV : l’augmentation Journal-based CSR Corpus”, Proc. ICSLP-92.
la plus importante de perplexité (de 8 à 20%) est obtenue [Pérennou G., (1988)] “Le projet BDLEX de base de données
pour les 3 normalisation N0 , N1 et N2 . De manière lexicales et phonologiques”, Actes des 1ères journées du
générale, toute normalisation qui diminue le taux de MHV, GRECO-PRC CHM, EC2 éd., Paris, 24-25 novembre 1988.
augmente la perplexité, mises à part celles qui suppri- [Silberztein M., (1993)] “Dictionnaires électroniques et analyse
ment des distinctions majuscule-minuscule qui peuvent automatique de textes : le système INTEX”, Masson, Paris.
dans certains cas, faire diminuer la perplexité.
Les mesures effectuées ici doivent encore être con-
firmées par des résultats effectifs de reconnaissance; si le
lien entre mots hors vocabulaire et erreurs de reconnais-
sance est direct (un mot hors vocabulaire conduisant en
moyenne à environ 1,5 erreurs de reconnaissance), la sit-
uation est différente pour la perplexité, où des variations
importantes ne conduisent pas forcément à des variations
identiques du taux de reconnaissance.
Cependant, on peut remarquer que, quelque soient
les normalisations, elles conduisent à des propriétés
différentes en terme de couverture ou de précision du
modèle de langage, mais que les lexique et modèles de
langage qu’elles engendrent, semblent utilisables par un
système de reconnaissance, le choix entre telle ou telle nor-
malisation devant donc se faire principalement en fonction
de l’application recherchée.
Remerciements
Une partie de ce travail a été effectué dans le cadre des
Actions de Recherche Concertées “Linguistique, Informa-
tique et Corpus Oraux”, financées par l’AUPELF-UREF.
Références
[Adda G., Adda-Decker M., Gauvain J.-L. Lamel L. (1997)]
“Le système de dictée du LIMSI pour l’évaluation AU-
PEL’97”,JST’97.
[Adda G., et al (1997)] , “Ressources pour l’apprentissage, le
développement et l’évaluation des systèmes de dictée vo-
cale en français : corpus de texte, de parole et lexical”,
JST’97.
[Adda-Decker M., Adda G., Lamel L., Gauvain J.-L.(1996)]
“Developments in Large Vocabulary, Continuous Speech
Recognition of German”, Proc. ICASSP-96.
[Gauvain J.-L., Lamel L., Adda G., Mariani J. (1994)]
“Speech-to-Text Conversion in French”, International Jour-
nal of Pattern Recognition and Artificial Intelligence, 1994,
vol. 8 no 1, 1994
[Gauvain J.-L., Lamel L., Adda G.,Adda-Decker M. (1994)]
“Speaker-independent continu-
ous speech dictation”, Speech Communication 15 (1994)
21-37.