Vous êtes sur la page 1sur 8

Normalisation de textes en français :

une étude quantitative pour la reconnaissance de la parole


Gilles Adda, Martine Adda-Decker
LIMSI-CNRS, Groupe Traitement du Langage Parlé
BP 133 91403 Orsay cedex, FRANCE
{gadda,madda}@limsi.fr

Résumé disponibles, mais doivent tre nettoyes et normalises pour


Dans cet article, une étude qualitative et quantitative de
tre utilisables.
l’impact de la normalisation des textes sur les lexiques et les Il est donc ncessaire de nettoyer et de segmenter ces
modèles de langage pour la reconnaissance de la parole est textes en “mots”, la dfinition de ce qu’est un mot dpen-
décrite. Cette normalisation permet en effet de définir l’unité qui dant principalement des contraintes imposes la fois par le
sera reconnue (le “mot”); suivant la définition de ce qu’est un systme de reconnaissance et le modle de langage.
“mot” pour le système de reconnaissance, on aura des propriétés Nous devons segmenter le texte en statisfaisant au mieux
différentes en terme de couverture du vocabulaire et de perplexité au moins deux critres contradictoires : avoir le lexique
des modèles de langage, ces propriétés ayant un impact direct sur ayant la meilleure couverture possible (pour diminuer le
les scores de reconnaissance. nombre d’erreurs de reconnaissance dues aux mots hors
En utilisant les deux mesures mentionnées ci-dessus (couver-
vocabulaire (MHV)) et dfinir des mots non ambigus (afin
ture et perplexité), nous mesurons l’impact des différentes nor-
d’augmenter la discrimination du modle de langage). Si
malisations de texte.
Notre étude se focalise sur le problème de la normalisation
nous utilisons uniquement le premier critre, nous trans-
de textes journalistiques en français, mais comporte un certain formerons toute majuscule en minuscule (pas de noms pro-
nombre de résultats applicables à d’autres domaines et d’autres pres) et sparerons systmatiquement toute ponctuation des
langues. mots (pas de mots composs). L’effet en sera une grande
ambiguı̈t syntaxique (par exemple pas de distinctions entre
Roman (Polanski) et roman, et sec. (secondes) et sec .
Introduction
). Si nous ne prenons que le second critre, nous ne seg-
Lors du développement d’un système de reconnais- menterons aucun mot ni ne transformerons aucune majus-
sance, la création du lexique et la fabrication des modèles cule; le lexique contiendra alors de nombreuses ambiguı̈ts
de langage sont reconnues comme des étapes décisives, et lexicales : par exemple les mots C’est et c’est.
où un certain nombre de choix linguistiques ont un impact Dans le cadre de la normalisation de textes pour la
important sur le taux de reconnaissance, sans que ces choix langue française, nous appliquons un certain nombre
soient le plus souvent justifiés quantitativement. de traitements, pour nettoyer les textes des erreurs ty-
Généralement, ces choix varient suivant l’application et pographiques ou de formatage, et effectuons un certain
la langue : alors que pour évaluer les systèmes de dictée vo- nombre d’opérations de normalisation afin de préparer
cale en anglais, les textes utilisés n’admettent pas la notion le texte pour la détermination du modèle de langage.
de mots composés et ne font pas de distinction entre lettre Ces opérations sont par exemple: séparation en phrases,
majuscule et minuscule [ Paul D.B., Baker J.M. (1992)], segmentation en mots (avec ou sans mots composés),
cette dernière distinction est conservée généralement pour éclatement des sigles non acronymes, transformation des
des systèmes en français et surtout en allemand [Lamel L., chiffres sous forme de mots, traitement des majuscules (en
Adda-Decker M., Gauvain J.-L. (1995)]. particulier en début de phrase).
Pour choisir les mots du lexique, on cherche tout Le but de cet article est d’évaluer quantitativement cha-
d’abord maximiser la couverture de l’application. Par cune de ces opérations de normalisation. Pour ce faire,
exemple, dans le cas de dicte de textes de journaux, il nous avons traité les textes de deux années du journal “Le
est ncessaire de recueillir de grandes quantits de textes Monde” (40M de mots), en combinant ces différentes nor-
provenant de cette source, de manire assurer une couver- malisations. Nous avons ainsi mesuré l’impact de chaque
ture statistiquement fiable, sur un texte nouveau. opération, en utilisant pour chaque condition 2 listes con-
De grandes quantits de textes sont ncessaires pour stituées des 20 000 mots les plus fréquents et des 64 000
slectionner le lexique, mais aussi dvelopper les modles mots les plus fréquents issus de ces textes, ainsi que 2
de langages probabilistes, qui sont les modles de lan- modèles de langage (appris sur les mêmes textes) un bi-
gage habituellement utiliss dans les systmes de dicte vo- gramme et trigramme pour chaque liste. Pour chaque
cale trs grand vocabulaire. Ces donnes sont maintenant condition, nous avons évalué la couverture lexicale sur le
N0 N1 N2 N3 N4 N5 N6 N7 comment
V0 0 0 0 0 0 0 0 0 -
V1 1 0 0 0 0 0 0 0 détection mots composés
V2 1 1 0 0 0 0 0 0 + début de phrase
V3 1 1 1 0 0 0 0 0 + chiffres
V4 1 1 1 1 0 0 0 0 + sigles
V5 1 1 1 1 1 0 0 0 + normalisation emphatique
V6 1 1 1 1 1 1 0 0 V5 + pas mots composés
V7 1 1 1 1 1 0 1 0 V5 + pas de distinction maj-min
V8 1 1 1 1 1 1 1 0 V6 + pas de distinction maj-min
V9 1 1 1 1 1 0 1 1 V7 + désaccentuation
V10 1 1 1 1 1 1 1 1 V8 + désaccentuation
Table 1: Les différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte

texte d’apprentissage et sur un texte test d’une période • codage des accents et autres signes diacritiques: le
postérieure pour chaque liste, ainsi que la perplexité des codage est ISO-latin1
modèles de langage sur ce dernier texte. Pour certaines
• une séparation hiérarchique en articles, paragraphes,
normalisations, l’effet de taille du corpus d’apprentissage
phrases.
a été étudié, en passant de 40 à 200 millions de mots.
Notre étude nous permet de mettre à jour les opérations • élimination de symboles non conformes.
qui ont un réel impact sur la couverture lexicale, et de
mesurer si ces opérations ont un impact négatif sur la per- • prétraitement des chiffres (10 000 → 10000).
plexité et donc de manière probable sur la reconnaissance. • traitement des unités (kg/cm3, etc..).
• élimination d’erreurs de formatage propres aux textes
Normalisation du français
journalistiques;
Parmi les opérations de normalisations de texte en
langue française (comme dans d’autres langues), cer- • détection d’abréviations nouvelles, correction
taines sont communément admises1 , mais n’ont jamais été d’erreurs de ponctuation.
évaluées : • traitement des ponctuations dites “non ambiguës”,
dans la mesure où elles ne conduisent pas à des mots
N0 traitement des séparateurs ambigus ( “-” et “’”) hors composés, et séparation en phrases. On segmente en
mots composés. phrase après les ponctuations fortes, et après ”:”, s’il
N1 traitement des majuscules en début de phrase est suivi de ’”’. Par contre, les incises sont laissés
(Dorénavant → dorénavant), dans la phrase (par exemple:
” Bonjour ”, dit-il , ” comment ca va ? ” . est une
N2 traduction des chiffres (y compris des chiffres ro- phrase).
mains) en mots (110 → cent dix), • élimination des ponctuations isolées. En effet,
N3 éclatement des sigles non acronymes l’application de la dictée vocale est dite “sans ponc-
(ABCD → A. B. C. D.) tuation verbalisée”, c’est-à-dire que les locuteurs ne
dictent pas la ponctuation.
N4 normalisation des majuscules emphatiques Différentes combinaisons de normalisations Ni , i = 0 à
(Etat → état) 7 ont été faites, conduisant à différentes versions du texte
d’apprentissage :
N5 séparation des mots composés
(porte-clefs → porte - clefs), V0 Ce texte est le résultat des normalisations
élémentaires énoncées ci-dessus; c’est donc le texte
N6 suppression de la distinction minuscule-majuscule de référence, sans aucune prise de décision ambiguë
(Pierre et Jean → pierre et jean . (à part la séparation en phrases).
N7 désaccentuation (système → systeme) V1 En partant du texte V0 , les mots composés (avec “-
” et “’”) sont détectés; les autres occurences de ces
Certaines normalisations (que nous qual- séparateurs ambigus sont séparés des mots (par ex-
ifierons improprement d’ “élémentaires”) sont effectuées emple (Paris-Bordeaux → Paris - Bordeaux). Ce
systématiquement : traitement se fait en 2 passes, et utilise 2 dictionnaires
1 Certaines de ces normalisations ne sont admises qu’en vue d’une ap- généralistes (BDLEX [Pérennou G., (1988)] et DE-
plication de reconnaissance de la parole, comme par exemple la traduc- LAF via INTEX [Silberztein M., (1993)]), contenant
tion des chiffres en mots des listes de mots composés.
taux de MHV 20k sur corpus d’apprentissage taux de MHV 64k sur corpus d’apprentissage
9.00 4.00
%MHV-20k-apprentissage %MHV-64k-apprentissage
8.50
3.50
8.00

7.50
3.00
7.00

6.50 2.50

6.00
2.00
5.50

5.00
1.50
4.50

4.00 1.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Figure 1: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte, pour 2
listes (20k et 65k) obtenues à partir de 40M de mots; le taux MHV calculé sur le texte d’apprentissage

taux de MHV 20k sur corpus de test taux de MHV 64k sur corpus de test
9.00 4.00
%MHV-20k-test %MHV-64k-test
8.50
3.50
8.00

7.50
3.00
7.00

6.50 2.50

6.00
2.00
5.50

5.00
1.50
4.50

4.00 1.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Figure 2: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte, pour 2
listes (20k et 65k); le taux est calculé sur un texte de 20 000 mots très éloigné temporellement du corpus d’apprentissage (dev1)
V2 Ici, on a traité les majuscules en début de phrase dans On peut voir que les normalisations qui apportent le plus
le texte V1 . Ce traitement, comme le précédent, se de gain au niveau couverture sont les normalisations N0
fait en 2 passes, et utilise 2 dictionnaires généralistes (séparation des ponctuations ambuiguës) qui réduit le taux
(BDLEX et DELAF). de MHV de 19% pour la liste 20k et 26% pour la liste 64k,
et N2 (transformation des chiffres en nombre) qui réduit
V3 A partir du texte V2 , les chiffres romains on été le taux de MHV de 13% pour la liste 20k et 22% pour la
transformés en chiffres (exemple : chapitre XII → liste 64k. La normalisation N1 (traitement des majuscules
chapitre 12, Francois Ier → Francois 1er), puis les en début de phrase) et N6 (suppression de la distinction
chiffres en mots (1993 → mille neuf cent quatre- minuscule majuscule) sont également efficaces, mais prin-
vingt-treize, les 24e journées de l’enseignement → cipalement sur la liste 64k (réduction de 10 et 14%).
les vingt-quatrièmes journées de l’enseignement). La normalisation N4 (normalisation des majuscules em-
phatiques) ne semble pas réduire le taux de MHV de
V4 Texte V3 , où les sigles non acronymes sont éclatés.
manière significative. De plus, cette normalisation im-
V5 Texte V4 , où les majuscules emphatiques sont plique une intervention manuelle importante, le fait de
décapitalisées. savoir si une majuscule en début de mot relève d’une em-
phase ou traduit un nom propre, nécessitant une analyse
V6 Texte V5 , où toutes les formes composées avec “- syntaxique, voire sémantique.
” et “’” sont éclatées. Seules sont conservées Le passage de la forme V0 à la forme V5 (la forme
les formes composées très fréquentes se prononçant utilisée pour le texte officiel AUPELF, et dans le système
différemment de leurs composants (dix-huit, prêt-à- du LIMSI) réduit le taux de MHV de 35% pour la liste 20k
porter). (50% pour la liste 64k), alors que le passage de la forme
V5 à la forme V9 ne la réduit que de 12% pour la liste 20k
V7 Texte V5 , où les différences de capitalisation sont sup-
(20% pour la liste 64k).
primées.

V8 Texte V6 , où les différences de capitalisation sont sup- Couverture d’un texte test
primées. Nous avons constitué un texte test de 20 000 mots
V9 Texte V7 , où les signes diacritiques sont retirés. (que nous noterons dev1), choisi suivant les mêmes
critères que ceux utilisés pour la sélection du corpus de
V10 Texte V8 , où les signes diacritiques sont retirés. développement de l’ARC B1 (que nous noterons dev2),
afin de mesurer l’effet du à l’éloignement temporel entre
La table 1 résume les différentes combinaisons de ces le corpus d’apprentissage et un corpus de test. Ce texte
normalisations qui ont été testées. recouvre à peu près la même période que le corpus dev2
Bien que toute normalisation diminue la quantité (mai 1996), et a subi les mêmes normalisations que le cor-
d’information initialement prśente dans le texte, cette pus d’apprentissage. La figure 2 montre les taux de MHV
réduction varie d’une normalisation à l’autre. Ainsi, il est sur ce texte test pour les 2 listes 20k et 64k.
possible de passer, à l’aide d’heuristiques assez simples, En comparant les courbes sur les figures 1 et 2, on peut
d’une forme V5 ou V6 à la forme “primitive” V0 (ou tout au voir que, mis à part un décalage fixe d’environ 1% absolu
moins une forme équivalente), alors que pour les formes V7 entre la couverture sur l’apprentissage et sur un texte test,
à V10 , ce passage, sinon impossible, recquiert l’adjonction l’impact de chaque normalisation semble globalement con-
de sources de connaissance importantes (et donc l’ajout servé. Ainsi, pour la couverture du test, le passage de la
d’une quantité d’information équivalente). De plus, les forme V0 à la forme V5 réduit le taux de MHV de 30%
formes V9 et V10 , semblent de par la grande ambiguı̈té lex- pour la liste 20k (40% pour la liste 64k), alors que le pas-
icale qu’elles engendrent, peu utilisables dans un système sage de la forme V5 à la forme V9 ne la réduit que de 11%
de reconnaissance de la parole. pour la liste 20k (20% pour la liste 64k).
La taille du texte d’apprentissage (40M de mots) est
Couverture de l’Apprentissage réduite, et la distance (plus de 7 ans) entre celui-ci et le
Les textes distribués dans le cadre de l’ARC AUPELF texte test est importante; nous avons voulu voir quelle
B1 “Dictée Vocale” consistent en le contenu intégral de était l’évolution des taux de MHV lorsque la taille du
l’édition quotidienne (et des suppléments) de deux années texte d’apprentissage augmentait. Pour cela, les textes des
du journal “Le Monde” (1987 et 1988), représentant un to- années 87 à 95 du journal “Le Monde” ont été utilisés, pour
tal de 40M de mots (sans tenir compte de la ponctuation). 5 combinaisons de normalisations V0 , V5 , V6 , V9 et V10 . 4
La figure 1 montre les taux de MHV (mots hors vocabu- textes d’apprentissage on été utilisés :
laire) pour 2 listes 20k et 64k; ces listes sont obtenues en T0 : années 1987 et 1988 (40 M de mots)
prenant les 20 000 mots (resp. les 64 000 mots) les plus
fréquents de ces textes. Le taux de MHV est calculé en di- T1 : T0 + années 91 à 95 (145 M de mots)
visant le nombre de mots du texte testé n’appartenant pas
à la liste en question par le nombre total de mots du texte. T2 : T0 + années 89 et 90 (185 M de mots)
taux de MHV avec un lexique 20k taux de MHV avec un lexique 65k

8.5 %MHV-20k-T0 %MHV-64k-T0


%MHV-20k-T1 3.5 %MHV-64k-T1
8.0 %MHV-20k-T2 %MHV-64k-T2
%MHV-20k-T3 %MHV-64k-T3
7.5 3.0
7.0
6.5 2.5

6.0
2.0
5.5
5.0 1.5

V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Figure 3: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons de normalisation V0 , V5 V6 , V9 et V10 et des listes 20k
et 64k, obtenues à partir de différents textes d’apprentissage T0 (40M de mots), T1 (145M de mots), T2 (185M de mots) et T3 (105M
de mots) , sur le corpus de test dev1

nb de mots differents (en Kmots) nb de mots total (en Mmots)

420.0
41.0
400.0
380.0 40.0
360.0
340.0 39.0

320.0
38.0
300.0
280.0 37.0
260.0
36.0
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Figure 4: Nombre de mots différents et nombre de mots total pour les différentes combinaisons Vi (i = 0, . . . , 10).

T3 : T1 − T0 = années 91 à 95 (105 M de mots) LIMSI [Adda G., Adda-Decker M., Gauvain J.-L. Lamel
L. (1997)] a permis de réduire le taux de MHV sur le texte
La figure 3 montre le taux de MHV sur le même texte dev1 à 1.50%2 (contre 1.34% sur le texte dev2) , et ce pour
test, pour les 2 listes 20k et 64k. On peut voir que la combinaison V5 comme pour V6 .
l’augmentation de la taille du texte d’apprentissage permet L’impact du choix de la nature et de la taille du texte
de diminuer le taux de MHV de manière sensible puisque d’apprentissage semble donc aussi sinon plus important
ce taux est réduit de 11% pour les listes 20k et de 33% pour que la nature des normalisations, pour ce qui concerne la
les listes 64k. Cependant, cette diminution sature rapide- couverture d’un texte par un lexique déduit d’un corpus.
ment, puisque l’utilisation du texte ayant la taille la plus
importante (T2 ) ne correspond pas à la couverture opti-
Caractéristiques des textes
male, celle-ci étant atteinte pour les textes de date les plus
récentes (T3 ). Chaque texte Vi , i = 0 à 10, de par sa normalisa-
Il est à noter que pour des tailles de textes tion spécifique, a des caractéristiques qui vont influer
d’apprentissage importantes, l’écart entre la couverture sur sur les propriétés des modèles de langage. Nous retien-
l’apprentissage et le test, de l’ordre de 20% pour le texte drons uniquement pour mesures caractéristiques, la taille
T0 , se réduit à 1 % pour les textes T2 ou T3 . du texte, et le nombre de mots différents (voir figure 4).
On peut également noter que l’écart absolu entre les En effet, ces 2 mesures influent directement sur la manière
2 combinaisons V5 (avec mots composés) et V6 (sans dont les modèles de langage sont appris : si le nombre de
mots composés) passe pour un liste 64k de 0.1 % pour mots différents du texte est sensiblement plus grand dans
le texte T0 à 0.05 pour T3 ; en fait, une optimisation une forme plutôt que dans une autre, et que la taille du
dans le choix des textes et de leur taille réduit l’impact texte ne varie pas dans le même sens, on peut penser que
des différentes normalisations sur le taux de MHV; par 2 le meilleur taux atteint avec les listes issues des textes T étant de
i
exemple, l’optimisation de la liste 65k du système du 1.57%
l’apprentissage des modèles de langage sera plus difficile; ainsi artificiellement baissée de par la forte probabilité du
d’un autre côté, plus le nombre de formes différentes est ce symbole. Les différentes normalisations conduisant
grand, plus les modèles de langage peuvebt être discrimi- à des couvertures différentes, et donc à des estimations
nants et donc précis. différentes de la probabilité de ce symbole INCONNU,
La comparaison de la figure 4 avec les figures 1 et 2, il nous a semblé important, afin de ne pas mélanger les
montre que les évolutions en fonction des normalisations différents paramètres observés, de ne pas inclure dans le
du taux de MHV, et du nombre de mots différents sont très calcul de la perplexité, la contribution de ce symbole.
fortement corrélé. Nous avons choisi comme texte pivot pour calculer les
perplexités normalisées, le texte V3 , car il apparaı̂t comme
Perplexité la version minimum vis-à-vis de la couverture du lexique
(les versions V0 à V2 apparaissant comme peu efficace par
La couverture du lexique n’est qu’un aspect de l’impact
rapport à ce critère). Toutes les perplexitées normalisées
des normalisations. Une normalisation qui entraı̂ne
seront calculées par rapport à cette version V3 du texte.
une plus grande couverture, en réduisant la quantité
Les perplexités normalisées et non normalisées sur un
d’informations, peut générer une plus grande ambiguı̈té
bigramme et un trigramme, pour les 2 listes 20k et 64k et
syntaxique. La perplexité est la mesure usuelle de
calculées sur le texte test dev1 sont représentées dans la
l’efficacité d’un modèle de langage probabiliste, bien que
figure 5.
celle-là ne soit pas toujours simplement corrélé avec les
résultats de reconnaissance. Les variations de perplexité sont nettement moins im-
La perplexité est une mesure directement liée à portantes que les variations du taux de mots hors vocabu-
l’entropie (au sens de la théorie de l’information), et intro- laires que nous avons pu observer. En effet, l’augmentation
duit une moyennisation par rapport aux nombres de mots de la perplexité est la plus forte lorsque l’on passe de la
du texte sur lequel on mesure cette perplexité. forme V0 à la forme V3 , où elle varie seulement de 19%
Si l’on veut pouvoir comparer des perplexités sur un (bigramme 20k) et 8% (trigramme 64k). Le passage de la
texte ayant subi des normalisations différentes, et donc forme V3 à la forme V5 conduit à une augmentation rela-
ayant une longueur variable, il est nécessaire d’utiliser une tive de perplexité variant entre 2.7 et 1.6%, et le passage
autre mesure, la normalisation par rapport au nombre de de la forme V5 (resp V6 ) à la forme V9 (resp. V10 ) conduit
mots introduisant un biais. En effet, si l’on veut comparer à une augmentation relative de perplexité variant entre 2.4
les perplexités de plusieurs modèles de langage, il est nec- et 1.0%.
essaire de le faire sur un texte identique; la normalisation On peut noter que seule la normalisation N4 (normal-
changeant le texte, il faut trouver un moyen de calculer la isation des majuscules emphatiques)
perplexité sur la même version du texte. Pour cela, nous conduit systématiquement à une diminution (très faible)
utilisons la notion de perplexité normalisée, où l’on rem- de la perplexité. De manière générale, la suppression de
place la formule usuelle : la différence majuscule-minuscule semble peu augmenter
la perplexité, puisque la normalisation N6 conduit à une
1
p = 2 n log(P (W )) diminution de la perplexité des n-grammes 64k , de même
que la normalisation N1 dans le cas d’un trigramme 64k.
par celle de la perplexité normalisée [Gauvain J.-L., Lamel Nous avons représenté sur la figure 5 (d) les valeurs des
L., Adda G., Matrouf D. (1996a)] qui permet de comparer perplexités obtenues pour les formes V5 et V6 (avec et sans
des perplexités sur un texte T sous des versions de normali- mots composés) et des trigrammes appris sur un corpus de
sation v1 et v2 différentes, et donc de longueurs différentes. taille de 200 M de mots. Nous pouvons voir que, mis à
On définit donc p∗ : part une réduction globale de 10% de la perplexité due à la
n1 log(p)
taille du corpus d’apprentissage, les variations propres à la
p∗ = 2 n2 log(2) normalisation sont conservées.

où n1 and n2 sont les longueurs du texte T sous les formes


Conclusion
v1 et v2 , p la perplexité sur le texte v1 et p∗ la perplexité
normalisée, ainsi comparable à une perplexité sur le texte Nous avons montré l’impact sur la couverture du lexique
v2 . et sur la perplexité des modèles de langage, de différentes
De plus, nous utilisons des modèles de langage de normalisations applicables sur un texte d’apprentissage.
type n-gramme, où la probabilité d’apparition d’un En ce qui concerne la couverture du lexique, les
mot inconnu est estimée en remplaçant dans les textes réductions les plus importantes du taux de mots hors vo-
d’apprentissage, les mots non présents dans la liste par cabulaire (MHV) (de 20 à 50%), sont obtenues pour les
un seul symbole (INCONNU). La probabilité de ce sym- 2 normalisations N0 (traitement des séparateurs ambigus)
bole est donc d’autant plus importante que la couverture et N2 (traduction des chiffres (y compris des chiffres ro-
du texte d’apprentissage par la liste est faible. Ainsi, mains) en mots). Une diminution relative importante du
lors du calcul de la perplexité sur un texte, on remplace taux de MHV peut également être obtenue à l’aide de
également tout mot du texte non compris dans la la liste la normalisation N1 (traitement des majuscules en début
par le même symbole INCONNU . La perplexité est donc de phrase) etN6 (suppression de la distinction minuscule-
(a) perplexite bigramme 20k (b) perplexite bigramme 64k
290.00
210.00 pp-bg-20k pp-bg-64k
205.00 pp-normalise-bg-20k 280.00 pp-normalise-bg-64k

200.00 270.00
195.00
260.00
190.00
185.00 250.00
180.00
240.00
175.00
170.00 230.00
165.00 220.00
160.00
210.00
155.00
150.00 200.00
145.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

(c) perplexite trigramme 20k (d) perplexite trigramme 64k


155.00
pp-tg-20k 210.00 pp-tg-64k
150.00 pp-normalise-tg-20k pp-normalise-tg-64k
pp-tg-64k-200M
200.00 pp-normalise-tg-64k-200M
145.00
190.00
140.00

135.00 180.00

130.00 170.00

125.00 160.00
120.00
150.00
115.00
140.00
110.00
130.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10

Figure 5: Perplexités normalisées et non normalisées pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte,
pour un bigramme 20k (a), un bigramme 64k (b), un trigramme 20k (c) et un trigramme 64k (d), ainsi que les perplexités obtenues
par un trigramme 64k appris sur 200M de mots; les perplexités sont calculées sur un texte de 20 000 mots (dev1), et n’incluent pas la
contribution due aux mots inconnus
majuscule) mais principalement pour une liste 64k. [Gauvain J.-L., Lamel L., Adda G., Matrouf D. (1996a)] “The
Les différences de taux de couverture entre les LIMSI 1995 Hub3 system”, Proc. ARPA Spoken Language
différentes langues observées par ailleurs [Lamel L., Technology Workshop-96.
Adda-Decker M., Gauvain J.-L. (1995)] ne sont pas [Gauvain J.-L., Lamel L., Adda G., Matrouf D. (1996b)]
(uniquement) dues à des différence de prétraitement; en “Developments in Continuous Speech Dictation using the
effet, un prétraitement équivalent à celui appliqué aux 1995 ARPA NAB News Task”, Proc. ICASSP-96.
textes en langue anglaise (forme V10 ) conduit à un taux [Lamel L., Adda-Decker M., Gauvain J.-L. (1995)] “Issues in
de mots hors vocabulaire supérieur de 60% pour la langue Large Vocabulary, Multilingual Speech Recognition”, Eu-
française. rospeech’95.
Les variations de perplexité ne sont pas aussi impor- [ Paul D.B., Baker J.M. (1992)] “The Design for the Wall Street
tantes que les variations de taux de MHV : l’augmentation Journal-based CSR Corpus”, Proc. ICSLP-92.
la plus importante de perplexité (de 8 à 20%) est obtenue [Pérennou G., (1988)] “Le projet BDLEX de base de données
pour les 3 normalisation N0 , N1 et N2 . De manière lexicales et phonologiques”, Actes des 1ères journées du
générale, toute normalisation qui diminue le taux de MHV, GRECO-PRC CHM, EC2 éd., Paris, 24-25 novembre 1988.
augmente la perplexité, mises à part celles qui suppri- [Silberztein M., (1993)] “Dictionnaires électroniques et analyse
ment des distinctions majuscule-minuscule qui peuvent automatique de textes : le système INTEX”, Masson, Paris.
dans certains cas, faire diminuer la perplexité.
Les mesures effectuées ici doivent encore être con-
firmées par des résultats effectifs de reconnaissance; si le
lien entre mots hors vocabulaire et erreurs de reconnais-
sance est direct (un mot hors vocabulaire conduisant en
moyenne à environ 1,5 erreurs de reconnaissance), la sit-
uation est différente pour la perplexité, où des variations
importantes ne conduisent pas forcément à des variations
identiques du taux de reconnaissance.
Cependant, on peut remarquer que, quelque soient
les normalisations, elles conduisent à des propriétés
différentes en terme de couverture ou de précision du
modèle de langage, mais que les lexique et modèles de
langage qu’elles engendrent, semblent utilisables par un
système de reconnaissance, le choix entre telle ou telle nor-
malisation devant donc se faire principalement en fonction
de l’application recherchée.

Remerciements
Une partie de ce travail a été effectué dans le cadre des
Actions de Recherche Concertées “Linguistique, Informa-
tique et Corpus Oraux”, financées par l’AUPELF-UREF.

Références
[Adda G., Adda-Decker M., Gauvain J.-L. Lamel L. (1997)]
“Le système de dictée du LIMSI pour l’évaluation AU-
PEL’97”,JST’97.
[Adda G., et al (1997)] , “Ressources pour l’apprentissage, le
développement et l’évaluation des systèmes de dictée vo-
cale en français : corpus de texte, de parole et lexical”,
JST’97.
[Adda-Decker M., Adda G., Lamel L., Gauvain J.-L.(1996)]
“Developments in Large Vocabulary, Continuous Speech
Recognition of German”, Proc. ICASSP-96.
[Gauvain J.-L., Lamel L., Adda G., Mariani J. (1994)]
“Speech-to-Text Conversion in French”, International Jour-
nal of Pattern Recognition and Artificial Intelligence, 1994,
vol. 8 no 1, 1994
[Gauvain J.-L., Lamel L., Adda G.,Adda-Decker M. (1994)]
“Speaker-independent continu-
ous speech dictation”, Speech Communication 15 (1994)
21-37.

Vous aimerez peut-être aussi