JST Norm

Normalisation de textes en français :
une étude quantitative pour la reconnaissance de la parole

Gilles Adda, Martine Adda-Decker
LIMSI-CNRS, Groupe Traitement du Langage Parlé
BP 133 91403 Orsay cedex, FRANCE
{gadda,madda}@limsi.fr
Résumé disponibles, mais doivent tre nettoyes et normalises pour

Dans cet article, une étude qualitative et quantitative de
tre utilisables.
l’impact de la normalisation des textes sur les lexiques et les Il est donc ncessaire de nettoyer et de segmenter ces
modèles de langage pour la reconnaissance de la parole est textes en “mots”, la dfinition de ce qu’est un mot dpen-
décrite. Cette normalisation permet en effet de définir l’unité qui dant principalement des contraintes imposes la fois par le
sera reconnue (le “mot”); suivant la définition de ce qu’est un systme de reconnaissance et le modle de langage.
“mot” pour le système de reconnaissance, on aura des propriétés Nous devons segmenter le texte en statisfaisant au mieux
différentes en terme de couverture du vocabulaire et de perplexité au moins deux critres contradictoires : avoir le lexique
des modèles de langage, ces propriétés ayant un impact direct sur ayant la meilleure couverture possible (pour diminuer le
les scores de reconnaissance. nombre d’erreurs de reconnaissance dues aux mots hors
En utilisant les deux mesures mentionnées ci-dessus (couver-
vocabulaire (MHV)) et dfinir des mots non ambigus (afin
ture et perplexité), nous mesurons l’impact des différentes nor-
d’augmenter la discrimination du modle de langage). Si
malisations de texte.
Notre étude se focalise sur le problème de la normalisation
nous utilisons uniquement le premier critre, nous trans-
de textes journalistiques en français, mais comporte un certain formerons toute majuscule en minuscule (pas de noms pro-
nombre de résultats applicables à d’autres domaines et d’autres pres) et sparerons systmatiquement toute ponctuation des
langues. mots (pas de mots composs). L’effet en sera une grande
ambiguı̈t syntaxique (par exemple pas de distinctions entre
Roman (Polanski) et roman, et sec. (secondes) et sec .
Introduction
). Si nous ne prenons que le second critre, nous ne seg-
Lors du développement d’un système de reconnais- menterons aucun mot ni ne transformerons aucune majus-
sance, la création du lexique et la fabrication des modèles cule; le lexique contiendra alors de nombreuses ambiguı̈ts
de langage sont reconnues comme des étapes décisives, et lexicales : par exemple les mots C’est et c’est.
où un certain nombre de choix linguistiques ont un impact Dans le cadre de la normalisation de textes pour la
important sur le taux de reconnaissance, sans que ces choix langue française, nous appliquons un certain nombre
soient le plus souvent justifiés quantitativement. de traitements, pour nettoyer les textes des erreurs ty-
Généralement, ces choix varient suivant l’application et pographiques ou de formatage, et effectuons un certain
la langue : alors que pour évaluer les systèmes de dictée vo- nombre d’opérations de normalisation afin de préparer
cale en anglais, les textes utilisés n’admettent pas la notion le texte pour la détermination du modèle de langage.
de mots composés et ne font pas de distinction entre lettre Ces opérations sont par exemple: séparation en phrases,
majuscule et minuscule [ Paul D.B., Baker J.M. (1992)], segmentation en mots (avec ou sans mots composés),
cette dernière distinction est conservée généralement pour éclatement des sigles non acronymes, transformation des
des systèmes en français et surtout en allemand [Lamel L., chiffres sous forme de mots, traitement des majuscules (en
Adda-Decker M., Gauvain J.-L. (1995)]. particulier en début de phrase).
Pour choisir les mots du lexique, on cherche tout Le but de cet article est d’évaluer quantitativement cha-
d’abord maximiser la couverture de l’application. Par cune de ces opérations de normalisation. Pour ce faire,
exemple, dans le cas de dicte de textes de journaux, il nous avons traité les textes de deux années du journal “Le
est ncessaire de recueillir de grandes quantits de textes Monde” (40M de mots), en combinant ces différentes nor-
provenant de cette source, de manire assurer une couver- malisations. Nous avons ainsi mesuré l’impact de chaque
ture statistiquement fiable, sur un texte nouveau. opération, en utilisant pour chaque condition 2 listes con-
De grandes quantits de textes sont ncessaires pour stituées des 20 000 mots les plus fréquents et des 64 000
slectionner le lexique, mais aussi dvelopper les modles mots les plus fréquents issus de ces textes, ainsi que 2
de langages probabilistes, qui sont les modles de lan- modèles de langage (appris sur les mêmes textes) un bi-
gage habituellement utiliss dans les systmes de dicte vo- gramme et trigramme pour chaque liste. Pour chaque
cale trs grand vocabulaire. Ces donnes sont maintenant condition, nous avons évalué la couverture lexicale sur le
N0 N1 N2 N3 N4 N5 N6 N7 comment
V0 0 0 0 0 0 0 0 0 -
V1 1 0 0 0 0 0 0 0 détection mots composés
V2 1 1 0 0 0 0 0 0 + début de phrase
V3 1 1 1 0 0 0 0 0 + chiffres
V4 1 1 1 1 0 0 0 0 + sigles
V5 1 1 1 1 1 0 0 0 + normalisation emphatique
V6 1 1 1 1 1 1 0 0 V5 + pas mots composés
V7 1 1 1 1 1 0 1 0 V5 + pas de distinction maj-min
V8 1 1 1 1 1 1 1 0 V6 + pas de distinction maj-min
V9 1 1 1 1 1 0 1 1 V7 + désaccentuation
V10 1 1 1 1 1 1 1 1 V8 + désaccentuation
Table 1: Les différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte
texte d’apprentissage et sur un texte test d’une période • codage des accents et autres signes diacritiques: le
postérieure pour chaque liste, ainsi que la perplexité des codage est ISO-latin1
modèles de langage sur ce dernier texte. Pour certaines
• une séparation hiérarchique en articles, paragraphes,
normalisations, l’effet de taille du corpus d’apprentissage
phrases.
a été étudié, en passant de 40 à 200 millions de mots.
Notre étude nous permet de mettre à jour les opérations • élimination de symboles non conformes.
qui ont un réel impact sur la couverture lexicale, et de
mesurer si ces opérations ont un impact négatif sur la per- • prétraitement des chiffres (10 000 → 10000).
plexité et donc de manière probable sur la reconnaissance. • traitement des unités (kg/cm3, etc..).
• élimination d’erreurs de formatage propres aux textes
Normalisation du français
journalistiques;
Parmi les opérations de normalisations de texte en
langue française (comme dans d’autres langues), cer- • détection d’abréviations nouvelles, correction
taines sont communément admises1 , mais n’ont jamais été d’erreurs de ponctuation.
évaluées : • traitement des ponctuations dites “non ambiguës”,
dans la mesure où elles ne conduisent pas à des mots
N0 traitement des séparateurs ambigus ( “-” et “’”) hors composés, et séparation en phrases. On segmente en
mots composés. phrase après les ponctuations fortes, et après ”:”, s’il
N1 traitement des majuscules en début de phrase est suivi de ’”’. Par contre, les incises sont laissés
(Dorénavant → dorénavant), dans la phrase (par exemple:
” Bonjour ”, dit-il , ” comment ca va ? ” . est une
N2 traduction des chiffres (y compris des chiffres ro- phrase).
mains) en mots (110 → cent dix), • élimination des ponctuations isolées. En effet,
N3 éclatement des sigles non acronymes l’application de la dictée vocale est dite “sans ponc-
(ABCD → A. B. C. D.) tuation verbalisée”, c’est-à-dire que les locuteurs ne
dictent pas la ponctuation.
N4 normalisation des majuscules emphatiques Différentes combinaisons de normalisations Ni , i = 0 à
(Etat → état) 7 ont été faites, conduisant à différentes versions du texte
d’apprentissage :
N5 séparation des mots composés
(porte-clefs → porte - clefs), V0 Ce texte est le résultat des normalisations
élémentaires énoncées ci-dessus; c’est donc le texte
N6 suppression de la distinction minuscule-majuscule de référence, sans aucune prise de décision ambiguë
(Pierre et Jean → pierre et jean . (à part la séparation en phrases).
N7 désaccentuation (système → systeme) V1 En partant du texte V0 , les mots composés (avec “-
” et “’”) sont détectés; les autres occurences de ces
Certaines normalisations (que nous qual- séparateurs ambigus sont séparés des mots (par ex-
ifierons improprement d’ “élémentaires”) sont effectuées emple (Paris-Bordeaux → Paris - Bordeaux). Ce
systématiquement : traitement se fait en 2 passes, et utilise 2 dictionnaires
1 Certaines de ces normalisations ne sont admises qu’en vue d’une ap- généralistes (BDLEX [Pérennou G., (1988)] et DE-
plication de reconnaissance de la parole, comme par exemple la traduc- LAF via INTEX [Silberztein M., (1993)]), contenant
tion des chiffres en mots des listes de mots composés.
taux de MHV 20k sur corpus d’apprentissage taux de MHV 64k sur corpus d’apprentissage
9.00 4.00
%MHV-20k-apprentissage %MHV-64k-apprentissage
8.50
3.50
8.00
7.50
3.00
7.00
6.50 2.50
6.00
2.00
5.50
5.00
1.50
4.50
4.00 1.00
V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V0 V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
Figure 1: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte, pour 2
listes (20k et 65k) obtenues à partir de 40M de mots; le taux MHV calculé sur le texte d’apprentissage
taux de MHV 20k sur corpus de test taux de MHV 64k sur corpus de test
9.00 4.00
%MHV-20k-test %MHV-64k-test
8.50
3.50
8.00
7.50
3.00
7.00
6.50 2.50
6.00
2.00
5.50
5.00
1.50
4.50
4.00 1.00
Figure 2: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte, pour 2
listes (20k et 65k); le taux est calculé sur un texte de 20 000 mots très éloigné temporellement du corpus d’apprentissage (dev1)
V2 Ici, on a traité les majuscules en début de phrase dans On peut voir que les normalisations qui apportent le plus
le texte V1 . Ce traitement, comme le précédent, se de gain au niveau couverture sont les normalisations N0
fait en 2 passes, et utilise 2 dictionnaires généralistes (séparation des ponctuations ambuiguës) qui réduit le taux
(BDLEX et DELAF). de MHV de 19% pour la liste 20k et 26% pour la liste 64k,
et N2 (transformation des chiffres en nombre) qui réduit
V3 A partir du texte V2 , les chiffres romains on été le taux de MHV de 13% pour la liste 20k et 22% pour la
transformés en chiffres (exemple : chapitre XII → liste 64k. La normalisation N1 (traitement des majuscules
chapitre 12, Francois Ier → Francois 1er), puis les en début de phrase) et N6 (suppression de la distinction
chiffres en mots (1993 → mille neuf cent quatre- minuscule majuscule) sont également efficaces, mais prin-
vingt-treize, les 24e journées de l’enseignement → cipalement sur la liste 64k (réduction de 10 et 14%).
les vingt-quatrièmes journées de l’enseignement). La normalisation N4 (normalisation des majuscules em-
phatiques) ne semble pas réduire le taux de MHV de
V4 Texte V3 , où les sigles non acronymes sont éclatés.
manière significative. De plus, cette normalisation im-
V5 Texte V4 , où les majuscules emphatiques sont plique une intervention manuelle importante, le fait de
décapitalisées. savoir si une majuscule en début de mot relève d’une em-
phase ou traduit un nom propre, nécessitant une analyse
V6 Texte V5 , où toutes les formes composées avec “- syntaxique, voire sémantique.
” et “’” sont éclatées. Seules sont conservées Le passage de la forme V0 à la forme V5 (la forme
les formes composées très fréquentes se prononçant utilisée pour le texte officiel AUPELF, et dans le système
différemment de leurs composants (dix-huit, prêt-à- du LIMSI) réduit le taux de MHV de 35% pour la liste 20k
porter). (50% pour la liste 64k), alors que le passage de la forme
V5 à la forme V9 ne la réduit que de 12% pour la liste 20k
V7 Texte V5 , où les différences de capitalisation sont sup-
(20% pour la liste 64k).
primées.
V8 Texte V6 , où les différences de capitalisation sont sup- Couverture d’un texte test
primées. Nous avons constitué un texte test de 20 000 mots
V9 Texte V7 , où les signes diacritiques sont retirés. (que nous noterons dev1), choisi suivant les mêmes
critères que ceux utilisés pour la sélection du corpus de
V10 Texte V8 , où les signes diacritiques sont retirés. développement de l’ARC B1 (que nous noterons dev2),
afin de mesurer l’effet du à l’éloignement temporel entre
La table 1 résume les différentes combinaisons de ces le corpus d’apprentissage et un corpus de test. Ce texte
normalisations qui ont été testées. recouvre à peu près la même période que le corpus dev2
Bien que toute normalisation diminue la quantité (mai 1996), et a subi les mêmes normalisations que le cor-
d’information initialement prśente dans le texte, cette pus d’apprentissage. La figure 2 montre les taux de MHV
réduction varie d’une normalisation à l’autre. Ainsi, il est sur ce texte test pour les 2 listes 20k et 64k.
possible de passer, à l’aide d’heuristiques assez simples, En comparant les courbes sur les figures 1 et 2, on peut
d’une forme V5 ou V6 à la forme “primitive” V0 (ou tout au voir que, mis à part un décalage fixe d’environ 1% absolu
moins une forme équivalente), alors que pour les formes V7 entre la couverture sur l’apprentissage et sur un texte test,
à V10 , ce passage, sinon impossible, recquiert l’adjonction l’impact de chaque normalisation semble globalement con-
de sources de connaissance importantes (et donc l’ajout servé. Ainsi, pour la couverture du test, le passage de la
d’une quantité d’information équivalente). De plus, les forme V0 à la forme V5 réduit le taux de MHV de 30%
formes V9 et V10 , semblent de par la grande ambiguı̈té lex- pour la liste 20k (40% pour la liste 64k), alors que le pas-
icale qu’elles engendrent, peu utilisables dans un système sage de la forme V5 à la forme V9 ne la réduit que de 11%
de reconnaissance de la parole. pour la liste 20k (20% pour la liste 64k).
La taille du texte d’apprentissage (40M de mots) est
Couverture de l’Apprentissage réduite, et la distance (plus de 7 ans) entre celui-ci et le
Les textes distribués dans le cadre de l’ARC AUPELF texte test est importante; nous avons voulu voir quelle
B1 “Dictée Vocale” consistent en le contenu intégral de était l’évolution des taux de MHV lorsque la taille du
l’édition quotidienne (et des suppléments) de deux années texte d’apprentissage augmentait. Pour cela, les textes des
du journal “Le Monde” (1987 et 1988), représentant un to- années 87 à 95 du journal “Le Monde” ont été utilisés, pour
tal de 40M de mots (sans tenir compte de la ponctuation). 5 combinaisons de normalisations V0 , V5 , V6 , V9 et V10 . 4
La figure 1 montre les taux de MHV (mots hors vocabu- textes d’apprentissage on été utilisés :
laire) pour 2 listes 20k et 64k; ces listes sont obtenues en T0 : années 1987 et 1988 (40 M de mots)
prenant les 20 000 mots (resp. les 64 000 mots) les plus
fréquents de ces textes. Le taux de MHV est calculé en di- T1 : T0 + années 91 à 95 (145 M de mots)
visant le nombre de mots du texte testé n’appartenant pas
à la liste en question par le nombre total de mots du texte. T2 : T0 + années 89 et 90 (185 M de mots)
taux de MHV avec un lexique 20k taux de MHV avec un lexique 65k
8.5 %MHV-20k-T0 %MHV-64k-T0

%MHV-20k-T1 3.5 %MHV-64k-T1
8.0 %MHV-20k-T2 %MHV-64k-T2
%MHV-20k-T3 %MHV-64k-T3
7.5 3.0
7.0
6.5 2.5
6.0
2.0
5.5
5.0 1.5
Figure 3: Taux de MHV (mots hors vocabulaire) pour différentes combinaisons de normalisation V0 , V5 V6 , V9 et V10 et des listes 20k
et 64k, obtenues à partir de différents textes d’apprentissage T0 (40M de mots), T1 (145M de mots), T2 (185M de mots) et T3 (105M
de mots) , sur le corpus de test dev1
nb de mots differents (en Kmots) nb de mots total (en Mmots)
420.0
41.0
400.0
380.0 40.0
360.0
340.0 39.0
320.0
38.0
300.0
280.0 37.0
260.0
36.0
Figure 4: Nombre de mots différents et nombre de mots total pour les différentes combinaisons Vi (i = 0, . . . , 10).
T3 : T1 − T0 = années 91 à 95 (105 M de mots) LIMSI [Adda G., Adda-Decker M., Gauvain J.-L. Lamel
L. (1997)] a permis de réduire le taux de MHV sur le texte
La figure 3 montre le taux de MHV sur le même texte dev1 à 1.50%2 (contre 1.34% sur le texte dev2) , et ce pour
test, pour les 2 listes 20k et 64k. On peut voir que la combinaison V5 comme pour V6 .
l’augmentation de la taille du texte d’apprentissage permet L’impact du choix de la nature et de la taille du texte
de diminuer le taux de MHV de manière sensible puisque d’apprentissage semble donc aussi sinon plus important
ce taux est réduit de 11% pour les listes 20k et de 33% pour que la nature des normalisations, pour ce qui concerne la
les listes 64k. Cependant, cette diminution sature rapide- couverture d’un texte par un lexique déduit d’un corpus.
ment, puisque l’utilisation du texte ayant la taille la plus
importante (T2 ) ne correspond pas à la couverture opti-
Caractéristiques des textes
male, celle-ci étant atteinte pour les textes de date les plus
récentes (T3 ). Chaque texte Vi , i = 0 à 10, de par sa normalisa-
Il est à noter que pour des tailles de textes tion spécifique, a des caractéristiques qui vont influer
d’apprentissage importantes, l’écart entre la couverture sur sur les propriétés des modèles de langage. Nous retien-
l’apprentissage et le test, de l’ordre de 20% pour le texte drons uniquement pour mesures caractéristiques, la taille
T0 , se réduit à 1 % pour les textes T2 ou T3 . du texte, et le nombre de mots différents (voir figure 4).
On peut également noter que l’écart absolu entre les En effet, ces 2 mesures influent directement sur la manière
2 combinaisons V5 (avec mots composés) et V6 (sans dont les modèles de langage sont appris : si le nombre de
mots composés) passe pour un liste 64k de 0.1 % pour mots différents du texte est sensiblement plus grand dans
le texte T0 à 0.05 pour T3 ; en fait, une optimisation une forme plutôt que dans une autre, et que la taille du
dans le choix des textes et de leur taille réduit l’impact texte ne varie pas dans le même sens, on peut penser que
des différentes normalisations sur le taux de MHV; par 2 le meilleur taux atteint avec les listes issues des textes T étant de
i
exemple, l’optimisation de la liste 65k du système du 1.57%
l’apprentissage des modèles de langage sera plus difficile; ainsi artificiellement baissée de par la forte probabilité du
d’un autre côté, plus le nombre de formes différentes est ce symbole. Les différentes normalisations conduisant
grand, plus les modèles de langage peuvebt être discrimi- à des couvertures différentes, et donc à des estimations
nants et donc précis. différentes de la probabilité de ce symbole INCONNU,
La comparaison de la figure 4 avec les figures 1 et 2, il nous a semblé important, afin de ne pas mélanger les
montre que les évolutions en fonction des normalisations différents paramètres observés, de ne pas inclure dans le
du taux de MHV, et du nombre de mots différents sont très calcul de la perplexité, la contribution de ce symbole.
fortement corrélé. Nous avons choisi comme texte pivot pour calculer les
perplexités normalisées, le texte V3 , car il apparaı̂t comme
Perplexité la version minimum vis-à-vis de la couverture du lexique
(les versions V0 à V2 apparaissant comme peu efficace par
La couverture du lexique n’est qu’un aspect de l’impact
rapport à ce critère). Toutes les perplexitées normalisées
des normalisations. Une normalisation qui entraı̂ne
seront calculées par rapport à cette version V3 du texte.
une plus grande couverture, en réduisant la quantité
Les perplexités normalisées et non normalisées sur un
d’informations, peut générer une plus grande ambiguı̈té
bigramme et un trigramme, pour les 2 listes 20k et 64k et
syntaxique. La perplexité est la mesure usuelle de
calculées sur le texte test dev1 sont représentées dans la
l’efficacité d’un modèle de langage probabiliste, bien que
figure 5.
celle-là ne soit pas toujours simplement corrélé avec les
résultats de reconnaissance. Les variations de perplexité sont nettement moins im-
La perplexité est une mesure directement liée à portantes que les variations du taux de mots hors vocabu-
l’entropie (au sens de la théorie de l’information), et intro- laires que nous avons pu observer. En effet, l’augmentation
duit une moyennisation par rapport aux nombres de mots de la perplexité est la plus forte lorsque l’on passe de la
du texte sur lequel on mesure cette perplexité. forme V0 à la forme V3 , où elle varie seulement de 19%
Si l’on veut pouvoir comparer des perplexités sur un (bigramme 20k) et 8% (trigramme 64k). Le passage de la
texte ayant subi des normalisations différentes, et donc forme V3 à la forme V5 conduit à une augmentation rela-
ayant une longueur variable, il est nécessaire d’utiliser une tive de perplexité variant entre 2.7 et 1.6%, et le passage
autre mesure, la normalisation par rapport au nombre de de la forme V5 (resp V6 ) à la forme V9 (resp. V10 ) conduit
mots introduisant un biais. En effet, si l’on veut comparer à une augmentation relative de perplexité variant entre 2.4
les perplexités de plusieurs modèles de langage, il est nec- et 1.0%.
essaire de le faire sur un texte identique; la normalisation On peut noter que seule la normalisation N4 (normal-
changeant le texte, il faut trouver un moyen de calculer la isation des majuscules emphatiques)
perplexité sur la même version du texte. Pour cela, nous conduit systématiquement à une diminution (très faible)
utilisons la notion de perplexité normalisée, où l’on rem- de la perplexité. De manière générale, la suppression de
place la formule usuelle : la différence majuscule-minuscule semble peu augmenter
la perplexité, puisque la normalisation N6 conduit à une
1
p = 2 n log(P (W )) diminution de la perplexité des n-grammes 64k , de même
que la normalisation N1 dans le cas d’un trigramme 64k.
par celle de la perplexité normalisée [Gauvain J.-L., Lamel Nous avons représenté sur la figure 5 (d) les valeurs des
L., Adda G., Matrouf D. (1996a)] qui permet de comparer perplexités obtenues pour les formes V5 et V6 (avec et sans
des perplexités sur un texte T sous des versions de normali- mots composés) et des trigrammes appris sur un corpus de
sation v1 et v2 différentes, et donc de longueurs différentes. taille de 200 M de mots. Nous pouvons voir que, mis à
On définit donc p∗ : part une réduction globale de 10% de la perplexité due à la
n1 log(p)
taille du corpus d’apprentissage, les variations propres à la
p∗ = 2 n2 log(2) normalisation sont conservées.
où n1 and n2 sont les longueurs du texte T sous les formes

Conclusion
v1 et v2 , p la perplexité sur le texte v1 et p∗ la perplexité
normalisée, ainsi comparable à une perplexité sur le texte Nous avons montré l’impact sur la couverture du lexique
v2 . et sur la perplexité des modèles de langage, de différentes
De plus, nous utilisons des modèles de langage de normalisations applicables sur un texte d’apprentissage.
type n-gramme, où la probabilité d’apparition d’un En ce qui concerne la couverture du lexique, les
mot inconnu est estimée en remplaçant dans les textes réductions les plus importantes du taux de mots hors vo-
d’apprentissage, les mots non présents dans la liste par cabulaire (MHV) (de 20 à 50%), sont obtenues pour les
un seul symbole (INCONNU). La probabilité de ce sym- 2 normalisations N0 (traitement des séparateurs ambigus)
bole est donc d’autant plus importante que la couverture et N2 (traduction des chiffres (y compris des chiffres ro-
du texte d’apprentissage par la liste est faible. Ainsi, mains) en mots). Une diminution relative importante du
lors du calcul de la perplexité sur un texte, on remplace taux de MHV peut également être obtenue à l’aide de
également tout mot du texte non compris dans la la liste la normalisation N1 (traitement des majuscules en début
par le même symbole INCONNU . La perplexité est donc de phrase) etN6 (suppression de la distinction minuscule-
(a) perplexite bigramme 20k (b) perplexite bigramme 64k
290.00
210.00 pp-bg-20k pp-bg-64k
205.00 pp-normalise-bg-20k 280.00 pp-normalise-bg-64k
200.00 270.00
195.00
260.00
190.00
185.00 250.00
180.00
240.00
175.00
170.00 230.00
165.00 220.00
160.00
210.00
155.00
150.00 200.00
145.00
(c) perplexite trigramme 20k (d) perplexite trigramme 64k

155.00
pp-tg-20k 210.00 pp-tg-64k
150.00 pp-normalise-tg-20k pp-normalise-tg-64k
pp-tg-64k-200M
200.00 pp-normalise-tg-64k-200M
145.00
190.00
140.00
135.00 180.00
130.00 170.00
125.00 160.00
120.00
150.00
115.00
140.00
110.00
130.00
Figure 5: Perplexités normalisées et non normalisées pour différentes combinaisons Vi (i = 0, . . . , 10) de normalisations de texte,
pour un bigramme 20k (a), un bigramme 64k (b), un trigramme 20k (c) et un trigramme 64k (d), ainsi que les perplexités obtenues
par un trigramme 64k appris sur 200M de mots; les perplexités sont calculées sur un texte de 20 000 mots (dev1), et n’incluent pas la
contribution due aux mots inconnus
majuscule) mais principalement pour une liste 64k. [Gauvain J.-L., Lamel L., Adda G., Matrouf D. (1996a)] “The
Les différences de taux de couverture entre les LIMSI 1995 Hub3 system”, Proc. ARPA Spoken Language
différentes langues observées par ailleurs [Lamel L., Technology Workshop-96.
Adda-Decker M., Gauvain J.-L. (1995)] ne sont pas [Gauvain J.-L., Lamel L., Adda G., Matrouf D. (1996b)]
(uniquement) dues à des différence de prétraitement; en “Developments in Continuous Speech Dictation using the
effet, un prétraitement équivalent à celui appliqué aux 1995 ARPA NAB News Task”, Proc. ICASSP-96.
textes en langue anglaise (forme V10 ) conduit à un taux [Lamel L., Adda-Decker M., Gauvain J.-L. (1995)] “Issues in
de mots hors vocabulaire supérieur de 60% pour la langue Large Vocabulary, Multilingual Speech Recognition”, Eu-
française. rospeech’95.
Les variations de perplexité ne sont pas aussi impor- [ Paul D.B., Baker J.M. (1992)] “The Design for the Wall Street
tantes que les variations de taux de MHV : l’augmentation Journal-based CSR Corpus”, Proc. ICSLP-92.
la plus importante de perplexité (de 8 à 20%) est obtenue [Pérennou G., (1988)] “Le projet BDLEX de base de données
pour les 3 normalisation N0 , N1 et N2 . De manière lexicales et phonologiques”, Actes des 1ères journées du
générale, toute normalisation qui diminue le taux de MHV, GRECO-PRC CHM, EC2 éd., Paris, 24-25 novembre 1988.
augmente la perplexité, mises à part celles qui suppri- [Silberztein M., (1993)] “Dictionnaires électroniques et analyse
ment des distinctions majuscule-minuscule qui peuvent automatique de textes : le système INTEX”, Masson, Paris.
dans certains cas, faire diminuer la perplexité.
Les mesures effectuées ici doivent encore être con-
firmées par des résultats effectifs de reconnaissance; si le
lien entre mots hors vocabulaire et erreurs de reconnais-
sance est direct (un mot hors vocabulaire conduisant en
moyenne à environ 1,5 erreurs de reconnaissance), la sit-
uation est différente pour la perplexité, où des variations
importantes ne conduisent pas forcément à des variations
identiques du taux de reconnaissance.
Cependant, on peut remarquer que, quelque soient
les normalisations, elles conduisent à des propriétés
différentes en terme de couverture ou de précision du
modèle de langage, mais que les lexique et modèles de
langage qu’elles engendrent, semblent utilisables par un
système de reconnaissance, le choix entre telle ou telle nor-
malisation devant donc se faire principalement en fonction
de l’application recherchée.
Remerciements
Une partie de ce travail a été effectué dans le cadre des
Actions de Recherche Concertées “Linguistique, Informa-
tique et Corpus Oraux”, financées par l’AUPELF-UREF.
Références
[Adda G., Adda-Decker M., Gauvain J.-L. Lamel L. (1997)]
“Le système de dictée du LIMSI pour l’évaluation AU-
PEL’97”,JST’97.
[Adda G., et al (1997)] , “Ressources pour l’apprentissage, le
développement et l’évaluation des systèmes de dictée vo-
cale en français : corpus de texte, de parole et lexical”,
JST’97.
[Adda-Decker M., Adda G., Lamel L., Gauvain J.-L.(1996)]
“Developments in Large Vocabulary, Continuous Speech
Recognition of German”, Proc. ICASSP-96.
[Gauvain J.-L., Lamel L., Adda G., Mariani J. (1994)]
“Speech-to-Text Conversion in French”, International Jour-
nal of Pattern Recognition and Artificial Intelligence, 1994,
vol. 8 no 1, 1994
[Gauvain J.-L., Lamel L., Adda G.,Adda-Decker M. (1994)]
“Speaker-independent continu-
ous speech dictation”, Speech Communication 15 (1994)
21-37.

JST Norm

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

JST Norm

Transféré par

Droits d'auteur :

Formats disponibles

Normalisation de textes en français :

une étude quantitative pour la reconnaissance de la parole

Résumé disponibles, mais doivent tre nettoyes et normalises pour

8.5 %MHV-20k-T0 %MHV-64k-T0

nb de mots differents (en Kmots) nb de mots total (en Mmots)

où n1 and n2 sont les longueurs du texte T sous les formes

(c) perplexite trigramme 20k (d) perplexite trigramme 64k

Vous aimerez peut-être aussi