Reconnaissance

Les reconnaissances de la parole
Marie-Jos Caraty* C. Montaci **

* Universit Paris Descartes - LIPADE
45, rue des Saints Pres - 75006 Paris Marie-Jose.Caraty@ParisDescartes.fr
** STIH, Universit Paris-Sorbonne, France
Studia Informatica Universalis.
108
1. La parole dans tous ses tats La reconnaissance de la parole est lune des tches pionnires de lIntelligence Articielle (IA) consistant reproduire la capacit dun tre humain extraire des informations de la parole produite par un autre tre humain. Cette tche, trop complexe pour tre reproduite par un systme informatique unique, a t subdivise en plusieurs sous-problmes en fonction du type dinformations extraire et reconnatre. Les problmatiques les plus tudies sont la reconnaissance du locuteur, de son tat motionnel, de la langue employee et du langage parl. Les recherches sur la rsolution des ces tches ont donn lieu, depuis une vingtaine dannes, des dizaines de milliers de publications, des centaines de bases de donnes de parole, des dizaines de campagnes internationales dvaluation. Les progrs ont t importants et ont permis le dveloppement dapplications importantes en communication hommemachine comme la dicte vocale ou les systmes de dialogues naliss des serveurs vocaux interactifs (SVI). Cependant de nombreuses recherches restent indispensables en raison de lampleur du problme et de sa variabilit : 7 milliards de locuteurs, plus de 500 noms dmotions, prs de 7000 langues et quelques centaines de milliers de mots par langue. Dautres types dinformation restent pour linstant pratiquement inexploits comme laccent, ltat physiologique, le niveau de stress ou de fatigue. La modlisation markovienne de la parole est un sujet de recherche partag entre toutes ces problmatiques. Ce modle et ses drivs comme les rseaux baysiens ou les combinaisons de gaussiennes (GMM) permettent lintgration des informations acoustiques de la parole continue avec des informations symboliques reprsentant les informations transmises et reconnatre. Des mthodes efcaces permettent dinfrer ces modles partir de la parole, destimer leurs paramtres et de proposer des mthodes de reconnaissance de complexit polynomiale.
Combinatorial Optimization in Practice
109
1.1. Les caractristiques individuelles et la reconnaissance du locuteur Les caractristiques individuelles dun locuteur permettent ses interlocuteurs de le reconnatre par sa voix [1]. Ces caractristiques sont soit des traits acoustiques [2] relis la physiologie de lappareil phonatoire (gomtrie et qualit des organes de phonation), soit des traits linguistiques relis lapprentissage du langage parl comme les accents rgionaux [3] ou sociaux [4]. Le premier systme automatique de reconnaissance du locuteur date de 1963, mais ce nest que depuis une vingtaine dannes que ce domaine a veill lintrt dun nombre croissant de chercheurs, dindustriels, de policiers et de juges [5]. Lutilisation de mots-cls tait indispensable dans les premires mthodes dveloppes [6], mais la plupart des systmes actuels sont indpendants du texte prononc. Les techniques dveloppes utilisent trois types dapproches : statique, dynamique et linguistique. Les systmes de reconnaissance du locuteur peuvent naturellement combiner plusieurs de ces approches. Les deux premires approches sappuient sur des informations purement acoustiques [7]. Elles se diffrencient par lutilisation ou non de paramtres reprsentant lvolution temporelle du signal vocal [8]. Lapproche linguistique est fonde sur lanalyse du lexique employ et des variantes dialectales utilises [9]. Les deux principales applications de la reconnaissance du locuteur sont : la vrication de lidentit pour protger laccs physique des locaux sensibles ou laccs distant des informations condentielles et la vraisemblance de preuves en justice dans le cadre de la comparaison de voix de justiciables. 1.2. La langue et sa dtection Prs de 7000 langues sont rfrences dans le monde [10] dont plus de 300 sont parles par plus dun million de personnes. Chacune de ces langues a des caractristiques phonologiques (ensemble des sons) [11], morphologiques (ensemble des mots), et prosodiques (position des accents et intonations dans les mots, valeur smantique des accents) diffrentes. Elles appartiennent plus de 100 familles de langues (sinothibtaine, indo-europenne, dravidien, . . .) [12] construites partir de caractristiques linguistiques communes. Les premires recherches
110
datent des annes 1970, avec un taux didentication de 62% pour des segments de parole de 90 secondes en sept langues [13]. La principale problmatique a t de diminuer la dure des segments tout en augmentant le nombre de langues. Les recherches ont pu tre grandement facilites par la disponibilit de la base de lOregon Graduate Institute (OGI) ddie lidentication des langues et comportant des enregistrements de communications tlphoniques (voix spontanes) en 22 langues [14]. Deux approches sont tudies pour cette problmatique, lune est purement acoustique, lautre plus difcile mettre en IJuvre est linguistique. Lapproche acoustique consiste reprsenter une langue par les ralisations acoustiques de ses phones [15] et des rgles phonotactiques. Cette approche donne de bons rsultats si les langues ont un domaine acoustique nettement diffrenci, mais trouve rapidement ses limites quand le nombre de langues augmente. Lapproche linguistique est base sur la reconnaissance de mots [16] ou de syllabes spciques [17] dune langue, limportance des ressources linguistiques mettre en IJuvre (dictionnaire et modle de langage pour chaque langue reconnatre) rend cette approche plus difcile mais plus prometteuse que la prcdente. Lapplication principale de la dtection automatique de la langue ou de la famille de langues est le routage automatique dappels tlphoniques vers la personne ou le systme de reconnaissance de la parole susceptible de traiter la langue. Dautres applications existent dans le domaine de la scurit. 1.3. Le langage et la reconnaissance du langage parl Depuis plus de 100 000 ans et le passage de la langue des gestes au langage parl [18], la parole est le moyen principal de communication entre les humains. Depuis prs de 60 ans, la recherche en reconnaissance automatique du langage parl est lun des enjeux majeurs de lintelligence articielle. Sa problmatique principale est lassociation dun signal biologique, bruit et dune grande variabilit spatiale et temporelle [19], aux structures symboliques du langage (phontique, phonologique, lexical, morphologique, syntaxique, smantique, pragmatique et rhtorique). Les recherches en reconnaissance du langage parl consistent dune part modliser cette variabilit par des mthodes statistiques (e.g., modles markoviens) et de recherche opra-
111
tionnelle (e.g., programmation dynamique) et dautre part de dnir des processus de transduction entre les modles du signal de parole et certaines structures de la langue. Les principales tches associes la reconnaissance du langage parl sont le dcodage acoustico-phontique, la dtection de mots-cls et la reconnaissance des mots de la parole continue. Le dcodage acoustico-phontique (DAP) consiste extraire dune analyse du signal vocal, une hypothse de treillis des phonmes. Les meilleures performances obtenues sont de lordre de 75% pour de la parole lue [20] et de 60% pour de la parole conversationnelle tlphonique [21]. La dtection de mots-cls [22, 23], cherche reconnatre et localiser toutes les occurrences des mots dune liste de mots-cls dans un continuum de parole donn. Le taux de dtection est donn en fonction du nombre de fausses alarmes par millier de mots-cls dtects et par heure de parole (fa/kw/h). Il est de 15% 25% pour 5 fa/kw/h pour de la parole conversationnelle tlphonique [24]. La troisime tche, la reconnaissance des mots en parole continue, consiste reconnatre tous les mots dune locution prononce de manire continue, cest--dire sans pause articielle entre les mots. Les premiers systmes datent du dbut des annes 90 [25]. Lapprentissage statistique grande chelle sur des milliers dheures de parole [26] et des centaines de millions de mots provenant de textes crits et de transcriptions du langage parl a permis dobtenir des lexiques de prononciation des mots ainsi que des modlisations stochastiques de la parole et du langage parl. Ces ressources, utilises pour diminuer lespace de recherche des suites de mots possibles, permettent dobtenir des algorithmes de dcodage de complexit polynomiale. Les performances de reconnaissance sont de lordre de 90% dans les meilleures conditions (voix lue avec une vitesse dlocution contrle, sans motion et sans bruit). Les taux de reconnaissance chutent fortement quand ces conditions changent [19]. Dans tous les cas, les performances des systmes de reconnaissance du langage parl restent trs loignes des performances humaines [27]. 1.4. La parole motionnelle et la reconnaissance de lmotion La raction par le systme limbique un stimuli extrieur (e.g., situation de danger) provoque une rponse motionnelle inne de ltre humain par lenvoi de signaux vers les systmes moteurs et le systme
112
nerveux central [28]. Ces signaux perturbent les commandes de lappareil phonatoire [29] et les processus cognitifs de production du langage parl [30]. La parole motionnelle est alors la vocalisation de la rponse motionnelle. La parole motionnelle peut galement tre apprise et produite volontairement par le locuteur sans stimuli extrieur [31]. Dans les deux cas, cette parole est porteuse dinformations sur les motions transmises par le locuteur, quelles soient ressenties ou simules. Ces informations perceptibles par un autre tre humain constituent le message motionnel [32]. Deux types de problmatiques sont associs la reconnaissance de ce message dans la parole : la reprsentation dune motion et la dtection des corrlats acoustiques et linguistiques associs cette reprsentation. Selon les diffrentes thories motionnelles, une motion peut tre reprsente par une classe dmotions [33, 34] ou par un point dans un espace de dimension rduite [35]. Dans le cadre de la reconnaissance de lmotion, les deux types de reprsentation sont utiliss : motions positives et ngatives, agrables ou dsagrables ou choix parmi une liste comme par exemple {colre, peur, tristesse, joie, dgot et surprise}. Les premiers travaux de reconnaissance automatique de lmotion datent des annes 80 [36]. Plus dune vingtaine de bases de donnes de parole motionnelle, valides laide dun corpus dauditeurs, sont maintenant rfrences [37]. Dans la littrature, les taux de reconnaissance varient de 50 75% pour une discrimination entre 4 6 motions. De nombreux paramtres acoustiques et linguistiques sont tudis comme la qualit de la parole, le timbre, la prosodie, laccentuation et lintonation des mots [38]. Les principales applications sont lamlioration des interfaces homme-machine par lajout dune composante motionnelle, la dtection automatique de situations de catastrophes ou de comportements anormaux. 2. Modlisation markovienne Plusieurs facteurs expliquent le succs et lutilisation gnralise du cadre markovien [39] pour modliser la parole : les proprits mathmatiques de convergence, le dveloppement et la mise disposition de grandes bases de donnes ncessaires lestimation statistique, une architecture adquate lintgration de connaissances symboliques (linguistique, psychologique, physiologique, . . .) avec les descriptions
113
numriques du continuum de parole (observations). Les premires recherches ont eu lieu au dbut des annes 70 par J. K. Baker [40] et F. Jelinek [41] et cette modlisation est aujourdhui encore la base des systmes de ltat de lart en reconnaissance de la parole. Dans le cadre markovien, le processus de dcodage de la parole en une suite de symboles (identit du locuteur, langue parle, phonmes, mots, tat motionnel) utilise la rgle de dcision du maximum a posteriori [42] : w o : x est la squence dobservations reprsentant le continuum de parole, w est la suite de symboles dcods, P (x/w), la probabilit dobserver la squence dobservations x pour un continuum de parole tiquet avec la suite de symboles w,et P (w), la probabilit dun continuum de parole tiquet avec la suite de symboles w Le modle markovien prsente lintrt dun traitement global des niveaux acoustiques et symboliques pour le dcodage et dun apprentissage indpendant de la modlisation du canal acoustique et de la modlisation du langage de symboles. Cependant la reconnaissance markovienne est coteuse en temps de calcul et en mmoire dans le cas dun dcodage optimal. Des mthodes dlagage permettent dtablir un compromis entre les solutions algorithmiques (recherche et optimisation) et les contraintes matrielles (rapidit et mmoire). 2.1. Modlisation du canal acoustique Un modle de Markov cach permet de modliser la squence dobservations associe un symbole. Il est constitu de lassociation dune chane de Markov homogne et des fonctions de densit de probabilit des observations [43]. Une chane de Markov homogne est reprsente par un automate dtats nis probabiliste constitu dtats et de = arg maxw P (w/x) = arg maxw P (x/w)P (w) = arg maxw P (x/w)P (w) P (x) (1)
114
transitions entre tats. A chacune des transitions est associe une fonction de densit de probabilit. Elles permettent de mesurer la probabilit conjointe dune squence dobservations associe une squence de transitions de lautomate. La somme des probabilits conjointes sur lensemble des squences de transitions est la probabilit que ce modle de Markov mette la squence dobservations. Il constitue le terme P (x/w) de lquation (1). La topologie du modle de Markov (nombre des tats de lautomate et transitions autorises entre ces tats) est choisie a priori. Une des topologies usuelles, le modle de Bakis [44], est un bon compromis entre le nombre de transitions et celui des tats. Il comprend trois types de transitions : boucle sur le mme tat, transition vers ltat suivant, saut dun tat. Le nombre dtats dpend de la taille moyenne des segments acoustiques associs au symbole. Il est en gnral de 3 dans le cas de segments phontiques. Diffrents algorithmes [45, 46] optimaux et sous-optimaux permettent destimer les paramtres dun modle de Markov en fonction de donnes dapprentissage. Le processus de dcodage dune squence dobservations consiste choisir comme symbole celui correspondant la machine de Markov de plus grande probabilit dmission. 2.2. Modlisation du langage de symboles Les modles du langage de symboles permettent de calculer le terme P (w) de lquation (1) et contraint la suite des symboles dcods. Ces modles de langage sont bass le plus souvent sur des n-grammes (i.e., probabilit dune suite de n symboles). Ils sont utiliss principalement dans la reconnaissance du langage parl. Dans ce cadre, ils permettent de prendre en compte, le type dlocutions reconnatre (lettres commerciales, diagnostics mdicaux, textes journalistiques, conversations, . . .) et dviter des suites de mots improbables. Ces modles de langage sont estims, partir de corpus de textes crits de trs grande taille, par le compte des occurrences ngrammes dans les corpus et sont ainsi spcialiss dans le domaine des textes appris. Si lon prend lexemple du modle de langage calculs par la socit google [47] sur un ensemble de 95 millions de phrases en anglais extraites du Web. Avec un lexique de 13 millions de mots,
115
il ny a que 314 millions de bigrammes (sur les 169x1012 possibles) et 977 millions de trigrammes (sur les 4046x1018 possibles). Mme si ces nombres sont levs, ils ne reprsentent quune inme partie des n-grammes possibles. De manire ne pas carter une solution comprenant un n-gramme non-observ (probabilit dapparition nulle) dans les corpus dapprentissage de modles de langage, on estime un compte non nul pour les n-grammes non-observs. Deux mthodes sont classiquement utilises pour le calcul des n-grammes non-observs : la mthode par interpolation [48] ou la mthode du back off " [49, 50]. 2.3. Les ressources Les ressources prsentes ici sont indispensables la reconnaissance du langage parl ; pour les autres reconnaissances, elles peuvent suivant la stratgie adopte tre ncessaires en tout ou partie. Pour la reconnaissance du langage parl, le vocabulaire de reconnaissance est lensemble des mots pouvant apparatre dans lhypothse de dcodage du systme. Ce vocabulaire doit permettre de construire le rseau de dcodage des mots qui est utilis par le moteur de reconnaissance. Rappelons que dans le cas de la reconnaissance grand vocabulaire, les units de reconnaissance sont usuellement les phonmes, et les modles acoustiques sont les modles de Markov cachs de ces units. Le rseau de dcodage est la description de lensemble des mots possibles (vocabulaire) de lhypothse du systme ; chaque mot y est reprsent comme la concatnation des modles acoustiques des units phontiques le constituant. La connaissance du vocabulaire de reconnaissance est par consquent indispensable dans sa version phontise pour construire ce rseau. La nature de lannotation des bases de donnes acoustiques utilises pour lapprentissage des modles acoustiques conduit distinguer un autre lexique : le lexique dapprentissage qui doit couvrir le corpus dapprentissage ou plus exactement les textes lui correspondant. La meilleure adquation des bases acoustiques au problme de cet apprentissage est leur tiquetage n en phonmes. Sil existe des solutions pour parvenir un apprentissage sans cet tiquetage, cest par une procdure itrative dobtention de ltiquetage n mais avec peu dassurance sur sa qualit. Dans ce cas, les procdures font appel la connaissance
116
mme imparfaite des modles acoustiques et pour chaque phrase dapprentissage elles permettent daligner sa transcription phontique sur le signal vocal correspondant ; les modles acoustiques peuvent alors tre restims. Ainsi, un lexique phontis (de qualit) couvrant les corpus dapprentissage est indispensable. Le vocabulaire de reconnaissance nest a priori pas le mme que le lexique dapprentissage. Sans modle prdictif de ce qui peut tre dit, on choisit usuellement un vocabulaire de reconnaissance de taille xe, compos des mots les plus frquents observs pour le domaine. Lexique phontis Pour couvrir toute ltendue de la communication parle, il serait videmment souhaitable que le vocabulaire de reconnaissance couvre toute lexpression de la langue. Les dictionnaires de la langue et les dictionnaires spcialiss forment la base dune telle ressource. Quelques ordres de grandeur : Larousse rpertorie 76 000 entres dans son Lexis, 30 600 entres dans son dictionnaire des noms de famille et prnoms de France ; Le Robert rpertorie 80 000 entres lexicales, 42 000 entres dans son dictionnaire des noms propres en histoire, gographie, arts, littrature, et sciences. On peut remarquer que seuls les dictionnaires de la langue incluent systmatiquement, dans la structure des articles, la phontique normative (dcrite partir de lAlphabet Phontique International - API) et la caractrisation grammaticale du mot. Pour la suite, SAMPA (Speech Assessment Methods Phonetic Alphabet) est le code phontique utilis. Dans les dictionnaires, la phontisation de rfrence privilgie les scwhas (" e " muet). ; par exemple, le mot "appeler" est phontis /a p l e/. Nanmoins, une variante de prononciation telle /a p @ l e/ peut tre observe avec le phonme /@/ bien prsent dans le signal. Les phontisations utilises doivent prendre en compte la ralisation optionnelle du phonme. Le lexique doit galement tre tendu par ladjonction des exions qui ne sont pas dcrites in extenso dans le dictionnaire. Parmi ces exions, les exions en genre et en nombre, les exions verbales en temps et en conjugaison, soit plus de 500 000 formes lexicalement diffrentes. Les variantes phontiques engendres par les liaisons doivent t traites, en moyenne 2,15 variantes phontiques par
117
mot du dictionnaire. Le lexique phontis est ainsi tendu plus dun million de formes phontiquement diffrentes. Les entits nommes (e.g., prnoms, noms, pays, villes, lieux "connus", . . .) sont phontiser. Plusieurs catgories dont les noms de famille, par leur nombre et leur caractre international, montrent ltendue du travail dacquisition et le problme de leur phontisation [51]. En effet, il existe souvent au moins deux phontisations issues de la prononciation, lune francise et lautre rsultant de la prononciation par un non-natif dans la langue dorigine : par exemple, trois variantes phontiques pour Maastricht [m a s t R i k], [m a s t R i t* ch] (o * symbolise la prononciation optionnelle) peuvent tre retenues. La phontisation des mots trangers entrant dans la langue franaise prsente le mme ordre de difcult. Corpus textuels pour lapprentissage des modles linguistiques De larges corpus de texte sont ncessaires lapprentissage des modles statistiques de langage. La collecte de ces donnes vise mieux modliser le domaine de la reconnaissance. Des mthodes de collecte automatique large chelle de pages Web [52] peuvent tre utilises pour maintenir un modle de langage ; la collecte de donnes pour un nouveau domaine se rsume alors fournir les mots-cls adquats au moteur de recherche. Les applications vises avec la parole lue ou prpare contrastent avec les applications du conversationnel o les thmes changent constamment et o le style varie. Les modles de langage doivent alors tre adapts aux thmes (sources de donnes thmatiques varies) et au style (prise en compte de loral spontan et de sa transcription) [53]. Avant de calculer les modles de langage, les textes doivent tre normaliss. Un travail prliminaire est le nettoyage des textes en saffranchissant des balises de structuration (HTML, XML, . . .), en liminant les caractres et signes invalides, en corrigeant dans la mesure du possible les erreurs (coquilles, accents, ...) [52]. Il sagit galement de normaliser les mots non-standards [54] qui nappartiennent pas au dictionnaire de la langue : i) les nombres (57, XIV, 2M, . . .), les dates, les devises (= , . . .) que C, lon transcrit lcrit sous leur forme parle,
118
ii) les abrviations pour lesquelles on dnit des rgles de rcriture (Mr en Monsieur, Mme en Madame, Me en Matre, . . .) et iii) les sigles que lon normalise suivant leur variante de prononciation en cas dacronyme (ONU ou O.N.U. rcrit -O N U et prononcs /o ai n y/, -ONU et prononc /o n y/). En cas de prise en compte de lemphase dentits nommes lvaluation, son traitement prsente des difcults de dsambiguisation (mot ou entit nomme) lors de la dcapitalisation des mots de dbuts de phrase. Une autre difcult concerne le signe point qui a un sens diffrent sil se trouve en n de phrase, dans une abrviation ou dans un nombre. Lutilisation des modles de langage n-classes ncessite le taggage des corpus textuels, cest--dire ltiquetage des mots en classes. Ainsi, le vocabulaire de reconnaissance et le lexique de couverture des textes dapprentissage des modles de langage doivent videmment tre taggs. Les classes considres pour les modles n-classes peuvent tre de natures diverses : les classes peuvent tre construites a priori comme par exemple les classes grammaticales ou automatiquement en regroupant les mots ayant le mme comportement, cest--dire les mots qui se retrouvent toujours dans le mme contexte . Pour un modle n-classes grammatical, des corpus grammaticaux peuvent tre taggs jusqu 400 classes [55]. 2.4. Moteur de reconnaissance et graphe de symboles Le moteur de reconnaissance permet la recherche dune solution optimale ou sous-optimale de lquation (1). Plusieurs algorithmes de complexit polynomiale [56, 57] permettent dobtenir cette solution en une ou plusieurs passes synchrones et asynchrones. Cependant, la suite de symboles correspondant la solution contient en gnral trop derreurs pour tre directement utilisable dans des traitements ultrieurs (e.g., correction grammaticale, traduction, rsum, veille). Pour rsoudre ce problme, le moteur propose alors un ensemble de solutions reprsentes sous forme dun graphe de symboles [58].
119
Dans le cas de lalgorithme du One Pass [59] et dun graphe de symboles synchrones [60], le processus de dcodage comprend plusieurs passes synchrones. La complexit de la premire passe est en O(V n ) avec V la taille du vocabulaire et n lordre choisi des n-grammes du modle de langage utilis. Cette premire passe de dcodage gnre un graphe de symboles dune profondeur choisi V1 (V1 V ). Les autres passes servent rorganiser ce graphe en utilisant des modles de langage plus complexes. La ime passe de dcodage gnre un graphe de symboles dune profondeur Vi choisi (Vi Vi1 V ). Sa complexit ni est en en O(Vi1 ) avec ni lordre choisi des n-grammes du modle de langage utilis. Lensemble des passes de dcodage a pour but de faire remonter peu peu la bonne solution dans le graphe de symboles tout en contrlant la complexit. 3. Evaluation et paradigme dvaluation Lvaluation est au cur des progrs dans tous les domaines de lingnierie. Bien que les mthodologies dvaluation soient en constante volution, leur succs est dj tel que lvaluation pourrait tre un domaine de " recherche propre ". Les comptitions se gnralisent, elles sont dj ouvertes de nombreux domaines technologiques. Par exemple et en collaboration avec NIST (National Institute of Standards and Technology) [61], lATP (Advanced Technology Program) [62] et rcemment le TIP (Technology Innovation Plan) [63] nancent et organisent des plans dvaluation dans lobjectif dacclrer le dveloppement de la recherche et de la technologie. Les domaines concerns sont aussi divers que lagriculture, la biotechnologie, la micro/nanolectronique, les machines-outils, lautomobile, les matriaux avancs, linformation, la communication, la chimie, lnergie, lenvironnement, ... Toutes ces plans ne peuvent tre mens quavec des mthodologies dvaluation adquates. 3.1. Modes dvaluation Depuis la conception dun systme et jusqu son transfert technologique, lvaluation est prsente. Si la mthodologie dvaluation va-
120
rie, elle est un moteur indniable dans les phases de conception, de dveloppement, de maintenance et dutilisation nale. Lvaluation est " plurielle " ; en effet, diffrents modes dvaluation sont identis relativement leurs buts. Il sagit principalement de ladquation, du diagnostic, du quantitatif et du qualitatif. Evaluation dadquation Ladquation dont il sagit est celle du systme la tche assigne, avec la prise en compte de la qualit et du cot. Ce type dvaluation, coupl avec lidentication des besoins potentiels des utilisateurs, est particulirement intressant dans linformation aux " consommateurs ". Le but nest pas tant didentier le " meilleur systme ", que de donner une information comparative qui permette lutilisateur de faire un choix clair du produit relativement ses besoins et ses contraintes. Evaluation de diagnostic Cest ici un maillage de lespace des entres possibles, qui permet de dresser un prol du comportement attendu du systme. Lune des difcults est bien videmment de construire une suite de tests reprsentative. Typiquement, les tests de programme par jeux dessai relvent de lvaluation de diagnostic. Tout programmeur connat bien les limites dune telle approche : les jeux dessai ne peuvent servir de preuve de programme, mais seulement de contre-exemples. Un autre exemple de ce mode dvaluation est le dveloppement des compilateurs. Cest la suite dune valuation de diagnostic intensive que la norme peut tre cre et que les compilateurs peuvent tre agrs en fonction de la qualit de leurs rponses aux tests de normalisation (benchmarks). Les tests de diagnostic permettent la maintenance dun systme volutif par des tests de rgression sur les versions conscutives du systme. Un dernier exemple concerne les systmes dinteraction Homme-Machine pour lesquels linformation de diagnostic est utile : ce que " russit " un systme et ce qui lui reste " acqurir " sont autant dinformations importantes pour la conception et le dveloppement de ces systmes. Evaluation de performance quantitative Le triptique critre/mesure/mthode permet lvaluation de performance quantitative. Dans lexemple de la reconnaissance du langage
121
parl, o la problmatique est de passer de la parole au texte, le critre est la " bonne " reconnaissance, la mesure usuelle est le taux derreur en mots, et la mthode consiste comparer lhypothse de reconnaissance du systme et la transcription de rfrence du signal-test acoustique (dans le " meilleur des cas ", faite par un expert humain). Ce mode dvaluation, adapt la comparaison dimplmentations, est utile pour le dveloppement et lamlioration des systmes. Pour une mme tche de reconnaissance, les tests contrastifs permettent dvaluer la contribution dun composant sur les performances globales du systme. Evaluation de performance qualitative Cette valuation vise une meilleure connaissance de ce qui est prdominant dans lvaluation quantitative du systme. Comment et pourquoi le systme fonctionne-t-il ? Lun des intrts de cette valuation est que pour un systme trs sophistiqu, cette connaissance est indispensable an de simplier ou damliorer le systme. On peut citer en exemple le projet dvaluation MultiKron de NIST pour les applications parallles et distribues. La principale proccupation est alors damliorer les applications ; lobservation du systme, des goulots dtranglement est une information qui peut conduire ces amliorations. Linstrumentation ncessaire la capture de cette information ne doit cependant pas trop perturber le systme sous peine de devenir non signicative. La solution de NIST au problme a t la conception et le dveloppement dune puce " espionne ". Cette puce permet de mesurer les performances des processeurs parallles et des stations de travail sur des rseaux haut dbit, en enregistrant des vnements comme par exemple les crituresmmoire et les interruptions. Les mesures dvaluation ainsi obtenues ont permis aux chercheurs de mieux comprendre la source des goulots dtranglement et ainsi damliorer les applications. A travers ces diffrents modes, on comprend tout lintrt de lvaluation pour le cycle vie des systmes, pour les intgrateurs et enn pour les consommateurs. Si lvaluation nest pas une politique scientique, elle est au moins un guide prcieux pour la recherche.
122
3.2. Paradigme dvaluation en reconnaissance vocale Le paradigme dvaluation a pour but dacclrer le dveloppement de la recherche et de la technologie par des plans dvaluation, selon un principe qui peut tre rsum par " tche commune, donnes communes, valuation commune ". Bien que lon retrouve ce paradigme dans bien des domaines, entre autres, celui de lingnierie de la langue, cest dans sa mise en uvre en reconnaissance vocale que nous prsentons le principe du paradigme dni par NIST et utilis dans les plans dvaluation internationaux. : 1) Diffusion dun challenge sur une tche spcie. 2) Distribution aux participants des bases de donnes ncessaires au dveloppement des modles et des systmes. 3) Test des systmes participants sur des donnes communes en un temps limit. 4) Appel une infrastructure pour la mesure et la comparaison des performances des systmes. Les principes du paradigme dvaluation vont faire lobjet dun dveloppement pour en apprcier tout lintrt. Tche commune : Spcication de la tche de reconnaissance Spcier une tche de reconnaissance, cest galement xer la complexit de la reconnaissance. De nombreux paramtres sont lis la tche de reconnaissance, leur spcication induit des facteurs de complexit qui ont une inuence sur les performances " attendues " du systme et sur les techniques employer. Spcication de la dpendance du systme aux locuteurs Pour une reconnaissance mono-locuteur (resp. multi-locuteurs), le(s) locuteur(s) de test est (resp. sont) le(s) mme(s) que le(s) locuteur(s) dapprentissage. Pour une reconnaissance indpendante du locuteur, les locuteurs de test sont distincts des locuteurs dapprentissage. La complexit est ici croissante ; elle sexplique par la grande variabilit du signal vocal dont on sait toute limportance pour un locuteur donn et qui saccrot bien videmment pour une population de locuteurs. Les modles acoustiques, appris sur une population, ncessitent des techniques
123
dadaptation des modles acoustiques (appris pour tre indpendants du locuteur) au locuteur de test et ce quelque soit la reconnaissance de la parole considre. Spcication de la nature du document audio trait Indpendamment de lenvironnement lors de lenregistrement audio, il existe une grande varit de documents audio. Ainsi, une grande diffrence existe entre la parole lue, prpare, acte, spontane et conversationnelle. Les phnomnes de production sont trs diffrents et ont une inuence directe sur lacoustique et sur les performances de reconnaissance traitant linformation linguistique ou para-linguistique. Relativement la parole lue/prpare, la parole spontane relve du langage naturel pour lequel le vocabulaire, la varit des expressions et des thmes abords sont bien plus importants, les modles linguistiques sont alors plus difciles apprendre. Cette complexit est considrer dans tous les cas o la reconnaissances utilise les modles linguistiques. La parole spontane est, de plus, sujette des respirations, des hsitations, des erreurs de prononciation, des reprises, des inattendus structurels ; autant de spcicits difciles modliser. Pour la parole conversationnelle, deux paramtres de complexit sajoutent encore : le choix de lchelle darticulation allant de lhypo-articulation lhyperarticulation et les recouvrements possibles des signaux de parole des protagonistes qui affectera toutes les reconnaissances. Spcication des conditions denregistrement Lors de lenregistrement des donnes audio, lenvironnement peuttre non bruit ou bruit. Les bruits peuvent tre additifs ou convolutifs. Le microphone peut tre connu ou inconnu. Cette complexit est croissante dans le sens o les techniques mises en uvre doivent tre robustes au bruit. L encore, des techniques dadaptation au bruit peuvent savrer ncessaires, ainsi que des primitives de pr-traitement du signal. Le canal de transmission typique pour la parole est le tlphone. Il est caractris par sa bande passante [300-3400 Hz] qui nest pas sans consquence sur le signal vocal reu ; le type de micro tlphonique ainsi que la qualit de la transmission (courte ou longue distance) sont deux autres facteurs de variabilit qui peuvent tre responsables de distorsions et daltrations du signal. Si la parole tlphonique est tout
124
particulirement la cible des plans dvaluation internationaux de la reconnaissance du locuteur, les conditions denregistrements inuent sur toutes les reconnaissances. Compte tenu du degr de libert de la spcication de la tche et de la complexit engendre la reconnaissance, toute comparaison de systmes ne peut a priori tre tablie que sur une " tche commune " de reconnaissance. Donnes communes : Corpus de dveloppement et corpus de test Pour les besoins stricts de la mthodologie dvaluation, les " donnes communes " se rsument la distribution aux participants des corpus acoustiques de dveloppement et de test. Les donnes de dveloppement ont pour but de permettre ladaptation des systmes la tche spcie pour le test. Le corpus de dveloppement doit tre reprsentatif du corpus de test. Par consquent, les donnes doivent tre homognes aussi bien par leur nature (e.g., texte dont le test est issu) que par leur condition denregistrement (e.g., matriel denregistrement identique). Dans le cas dune reconnaissance indpendamment du locuteur, les locuteurs de dveloppement et de test sont diffrents. Les donnes de dveloppement sont antrieures aux donnes de test par leur date denregistrement et, par exemple, par les textes dont elles proviennent. La contrainte pour le test est que les donnes naient servi aucun apprentissage et aucun dveloppement, les locuteurs tant videmment diffrents. De plus, les donnes de dveloppement et de test doivent tre annotes an de permettre lvaluation de performance des systmes suivant la mthodologie retenue. Lannotation des donnes de dveloppement et de test est suivant la reconnaissance considre i) le texte des corpus oraux (langage parl), ii) lidentit du locuteur par segment acoustique (locuteur), iii) la langue parle par segment acoustique (langue), iv) la classe motionnelle du segment acoustique (motion). Dans les challenges internationaux, les donnes de test reprsentent quelques heures de parole. Evaluation commune : Evaluation de performance des systmes Par " valuation commune ", on entend outils dvaluation communs mis en uvre, valids et utiliss par une infrastructure organisatrice des
125
tests. Ce principe vite la duplication des efforts de mise en uvre dune valuation de performance. Lvaluation de performance usuelle est de type " bote noire " ; elle consiste comparer lhypothse de reconnaissance/classication du systme et la transcription de rfrence, en termes dannotation, du signal-test acoustique. En reconnaissance du locuteur et en dtection de la langue, les hypothses de dtection sont valeurs boolennes. Dans ce cas, la mesure de performance est une variante de la courbe ROC (Relative Operating Characteristic) [64], la courbe DET (Detection Error Tradeoff) [65] avec en abscisse, le taux de fausse alarme et en ordonne celui de mauvaise dtection. La performance peut galement tre mesure par le taux dgale erreur (EER, Equal Error Rate), point caractristique de la courbe DET o le taux de fausse alarme et celui de mauvaise dtection sont gaux. En reconnaissance du langage parl, la mesure de performance usuelle est le taux derreur en mots (WER, Word Error Rate) [66] dni par 100 fois le rapport du nombre de mots errons de lhypothse du systme au nombre de mots de la rfrence (0% est le meilleur score de reconnaissance, le taux derreur peut tre suprieure 100%). Les erreurs sont la substitution, linsertion et lomission de mot. Lidentication de ces erreurs rsulte de lalignement des mots de lhypothse et des mots de la rfrence par une variante de lalgorithme de Wagner et Fischer habituellement utilis pour la comparaison de chanes de caractres. Une substitution a lieu lorsque les mots aligns diffrent ; une insertion (resp. omission) a une occurrence lorsquun mot de lhypothse (resp. rfrence) na pas de correspondant dans la rfrence (resp. hypothse). Pour des langues, comme par exemple le Mandarin, la mesure de performance est le taux derreur en caractres dont le principe est similaire la mesure prcdemment donne, mais transpose au niveau du caractre. En reconnaissance de lmotion, le premier plan se limite une valuation des systmes suivant leur performance de classication de segments acoustiques. Les systmes y sont valus par les mesures de rappel et de prcision [67] usuelles en recherche dinformation. Pour une classe donne, ayant N occurrences de segments-test et P le nombre de segments-test attribus la classe lors du test,
126
i) le rappel est le rapport du nombre de segments de cette classe classs correctement et de N, , ii) la prcision est le rapport du nombre de segments de cette classe classs correctement et de P. Lautre mesure unicatrice utilise est la F-mesure, moyenne harmonique du rappel et de la prcision. 4. Performance des reconnaissances Pour conclure cette revue des reconnaissances de la parole, nous donnerons les performances des systmes obtenues lors des plans dvaluation les plus rcents. Ces plans suivent tous le paradigme dvaluation dcrit au chapitre 3, la spcication de la tche nous permettra de prciser la complexit de la reconnaissance et les rsultats dvaluation nous permettront de situer les performances atteintes par les systmes de ltat de lart. 4.1. La reconnaissance du locuteur NIST 2008 Speaker Recognition Evaluation Plan (SRE08) - Les valuations NIST sur la reconnaissance du locuteur ont commenc en 1997 et se droulent maintenant tous les 2 ans. Depuis 1997, le paradigme dvaluation consiste en une srie de tests de dtection de locuteur sur une base de donnes commune divise en donnes dapprentissage et en donnes de test. Un test de dtection de locuteur consiste tester lhypothse Le segment-test x est-il prononc par le locuteur y ? en comparant le segment x aux donnes dapprentissage du locuteur y. Les rsultats dun test doivent tre une valeur de vraisemblance de cette hypothse (comprise en 0 et 1) ainsi quune valeur boolenne sur lacceptabilit de lhypothse. Chaque dcision doit tre fonde uniquement sur les segments dapprentissage et de test prvus dans le plan dvaluation. Les mesures de performance associes un ensemble de tests de dtection sont la courbe DET (Detection Error Tradeoff) et le taux dgale erreur (EER - Equal Error Rate). Le plan dvaluation 2008 comporte plusieurs types de donnes de parole enregistres en qualit tlphonique sur un plusieurs canaux :
127
parole conversationnelle et interviews (mlange de parole lue et de voix spontane). 13 sries de test (1 obligatoire et 12 facultatives) sont dnies dans le plan avec diverses combinaisons de sous-ensembles dapprentissage et de test. La srie obligatoire de tests de dtection du locuteur comprend 1 336 locuteurs avec une dure moyenne dapprentissage de 3 minutes par locuteur et 6 557 segments de test dune dure moyenne de 5 minutes. 46 sites ont particip lvaluation SRE 2008. Les organisateurs ont analys les rsultats de cette srie de tests de dtection de locuteurs suivant 8 conditions [68] dpendant des caractristiques des segments de test et dapprentissage. Le taux dgale erreur varie de 0.8%, dans le cas dinterviews avec la mme chane dacquisition lapprentissage et au test, 5%, dans le cas de voix spontanes tlphoniques et des chanes dacquisition pouvant tre diffrentes. 4.2. La dtection de la langue NIST 2009 Language Recognition Evaluation Plan (LRE09) Les valuations NIST sur la reconnaissance de la langue ont commenc en 2003, avec une phase exploratoire en 1996, et se droulent tous les 2 ans en alternance avec les campagnes sur la reconnaissance du locuteur. Le paradigme dvaluation reprend celui utilis en reconnaissance du locuteur. Il consiste en une srie de tests de dtection de la langue sur une base de donnes commune divise en donnes dapprentissage et donnes de test. Un test de dtection de la langue consiste tester lhypothse Le segment-test x appartient-il la langue y ? en comparant le segment x aux donnes dapprentissage de la langue y. Les rsultats dun test doivent tre une valeur de vraisemblance de cette hypothse (comprise en 0 et 1) ainsi quune valeur boolenne sur lacceptabilit de lhypothse. Chaque dcision doit tre fonde uniquement sur les segments dapprentissage et de test prvus dans le plan dvaluation. Les mesures de performance associes un ensemble de tests de dtection sont la courbe DET (Detection Error Tradeoff) et le taux dgale erreur (EER - Equal Error Rate). Le plan dvaluation 2009 comporte 39 langues dont 23 utilises lapprentissage avec une dure moyenne dapprentissage dune heure et demi. Les donnes de parole proviennent de conversions tlphoniques
128
ou de la radio Voice of America. Le plan dvaluation dnit plusieurs sries de test [69] : le test ferm (langues des segments-test appartenant aux 23 langues dapprentissage), le test ouvert (langues des segments-test appartenant aux 39 langues), huit paires de langues (cantonais/mandarin, portugais/espagnol, hindi/urdu, russe/ukrainien, . . .). Trois dures sont choisies pour les segments de tests : 3 secondes, 10 secondes et 30 secondes. 18 sites ont particip lvaluation LRE 2009. Les taux dgale erreur pour le test ouvert varient de 2,7% pour 30 secondes de test 12% pour 3 secondes de test. Les taux dgale erreur pour le test ferm varient de 1,5% pour 30 secondes de test 9% pour 3 secondes de test. Pour 30 secondes de test, les rsultats pour les tests de paires de langues varient de 0.20% pour la paire espagnol/portugais 26% pour la paire hindi/urdu. 4.3. La reconnaissance du langage parl NIST 2009 Rich Transcription Evaluation Plan (RT09) Les valuations ARPA/DARPA/NIST sur la reconnaissance du langage parl ont commenc en 1988. Les plans dvaluation peuvent inclure plusieurs tches, leur historique montrent lvolution des tches values : 1988-1996, reconnaissance de la parole lue (lecture darticles de Wall Street Journal) 1995-2004, reconnaissance de la parole radio/tl-diffuse (journaux radio/tlviss) 1993-2004, reconnaissance de la parole conversationnelle tlphonique (thme donn) depuis 2002, reconnaissance de la parole conversationnelle en groupe (compte-rendu de runion).Les donnes de parole sont en langue anglaise, mises part les extensions, faites en 2003 et 2004, en mandarin et en arabe pour la parole tldiffuse et la parole conversationnelle tlphonique. Les plans dvaluation RT (Rich Transcription Meeting Recognition) valuent actuellement trois tches : la transcription de la parole en texte (STT - Speech-To-Text), la localisation des temps de parole des locuteurs (SPKR Speaker) et une troisime tche composite, lattribution du locuteur la transcription de la parole au texte (SASTT Speaker Attributed to Speech-To-Text). Nous donnerons les performances pour STT. Les donnes collectes correspondent lenregistrement de
129
10 runions runissant jusqu 7 participants. Toutes les runions ont lieu en langue anglaise, pour deux dentre elles, tous les participants sont non-natifs. Les salles de runion ont un environnement de bruit ambiant et de rverbration. Les conditions denregistrements sont multiples (multiples microphones distants - MDM, micro-casque - IHM). Les enregistrements sont segments en unit de temps. Chaque segment a un facteur de superposition (Fs) fonction du nombre de locuteurs intervenant dans le segment. Un facteur n indique que n locuteurs ont pris la parole durant le segment considr, mais ne signie pas obligatoirement que les n locuteurs parlent en mme temps. Le calcul du WER est adapt au cas des superpositions de parole. La sortie du systme comprend le ot de mots de la transcription avec leur localisation en temps, leur score de vraisemblance et leur information de type (e.g., lexical non-lexical : respiration, rire, claquement de porte, . . .). Seules les entits lexicales sont considres lvaluation de performance. Les tests consistent en 3 heures denregistrements extraits des donnes collectes avec les conditions denregistrement IHM et MDM. Lvaluation RT-SST 2009 runit 3 participants (2 consortiums et 1 site). Le taux derreur en mots [70] le plus bas i) est de 25% pour la condition IHM, ii) de 32% pour le test MDM avec Fs=1 ; iii) de 43% pour le test MDM avec Fs=4. Ces taux derreur sont comparer au taux derreur humain dune transcription qui est de 2 4%. 4.4. La reconnaissance de lmotionInterspeech 2009 Challenge Emotion Lobjectif du premier plan dvaluation, Interspeech 2009 Emotion Challenge [71], est clairement la stricte comparabilit des systmes en utilisant une base de donnes dmotion spontane. Dans le bilan dress par les organisateurs de la dernire dcade de recherche, on peut noter la forte attente des chercheurs de bases dmotions spontanes (vs simules), la complexit des tches incomparable (reconnaissance/classication, choix des classes motionnelles, indpendance au locuteur) et souvent la non productibilit des rsultats publis. Les organisateurs font galement part de leur intention de mettre en libre accs la base utilise pour ce premier challenge.
130
La base retenue pour lvaluation est FAU Aibo Emotion corpus [71, 72]. Le corpus correspond lenregistrement denfants gs entre 10 et 13 ans en interaction avec Aibo, le chien robot de Sony. Un magicien dOz contrle le robot Aibo qui peut se montrer obissant ou dsobissant aux commandes de lenfant provoquant alors chez lui une motion spontane. Les corpus ont t enregistrs pour une cinquantaine denfants. Tous les corpus ont t tiquets en classe dmotion au niveau du mot (18 216 segments porteurs dmotion). Dans le test Open Performance Sub-Challenge, le problme pos, sous-problme de la reconnaissance, est la classication des segments de test en n-classes, i) un premier test considre 5-classes graduant lmotion du calme la colre, ii) un deuxime test considre 2-classes, -lune relative au mcontentement de lenfant vis--vis du robot, -lautre reprsentant tous les autres tats. 9 sites ont particip lvaluation du Challenge Emotion 2009 Les meilleures performances estimes en termes de rappel des segments de test-reconnus sont de lordre de 38% pour les 5-classes [73] et de 68% pour les 2-classes [74]. 5. Perspectives La reconnaissance de la parole est un domaine de recherche mature matrisant ses problmatiques et ses paradigmes dvaluation. Les performances des systmes de reconnaissances de la parole samliorent comme le montrent les diffrentes valuations. Cependant ces performances restent trs loignes de celles dun tre humain ou plus modestement de celles acceptables dans un systme gnraliste de communication vocale homme-machine. Ce constat est la raison de la difcult de progression des industries du vocal. Toutefois, une distinction est faire entre les diffrentes reconnaissances de la parole en fonction du type de connaissances (linguistiques, paralinguistiques, ou extralinguistiques) [75] modliser. Les reconnaissances bases sur les connaissances linguistiques (langage parl, langue) et paralinguistiques (niveau motionnel) sont celles qui comportent la plus grande marge de progression. Celle-ci dpendra des progrs moyen et long terme dans la formalisation de ces connaissances et de loptimisation des architectures logicielles [76] les utilisant. Les reconnaissances de la parole utilisant principalement des connaissances extralinguistiques (in-
131
nes) comme la reconnaissance du locuteur sont dj un niveau de performances suprieur celui dun tre humain. Des perspectives court et moyen terme sont la dtection dautres types dinformations extralinguistiques dans la parole comme ltat physiologique, le niveau de stress ou de fatigue. La reconnaissance de la parole fatigue La parole fatigue est la variabilit observable dans la parole due une combinaison de rponses inconscientes aux facteurs de fatigue et / ou un contrle conscient en liaison avec la perception de la fatigue. Les effets de la fatigue (manque de sommeil, surcharge de travail, . . .) sur la voix [77, 78] sont la fois de type physiologiques et neurologiques. Ils affectent les muscles articulateurs de la voix (poumons, glotte, conduit vocal et nasal) ainsi que les capacits cognitives dans la production de la parole (gnration de la prosodie, programmation lexicale, . . .). Ces diffrents effets ont t analyss par les phoniatres pour des dysfonctionnements de la voix (dysarthrie, dysphonie, dysprosodie) dus des atteintes neurologiques (maladie de Parkinson, . . .) [79] ou anatomiques (laryngectomie, ..) et par les neurolinguistes pour linuence dun stress sur la production du langage parl [80]. Les travaux les plus rcents tudient linuence du manque de sommeil (de 6 heures 60 heures) sur diffrents paramtres de la voix comme le temps dtablissement du voisement des phonmes /p/ et /t/ [81, 82], les paramtres spectraux dune phrase type [83], le temps de rponse une question [84]. Sur ces donnes, les performances dun classicateur sommeil/non sommeil varient de 70 80%. Ces rsultats obtenus dans des conditions de laboratoire (tenue prolonge de voyelle isole [85], production en temps limit dune liste de mots, production dune phrase type) ne peuvent sappliquer directement la dtection temps-rel du niveau de fatigue dans les conditions relles de dialogue. Aucun dtecteur de parole fatigue na pour linstant t valu. Rfrences [1] Bull, R. and Clifford, B. R, Earwitness voice recognition accuracy, in G. L. Wells & E. F. Loftus (Eds.), Eyewitness testimony : Psychological perspectives, Cambridge University Press, pp. 92
132
123, 1984. [2] Kitamura, K. and Akagi, M., Speaker Individualities in Speech Spectral Envelopes and Fundamental Frequency Contours, in Proceedings of Speaker Classication (2) 2007, pp.157-176, 2007. [3] Thibault, A., Lexicographie et variation diatopique : le cas du franais, in Lexicographie et lexicologie historiques du franais, Bilan et perspectives, Monza, Polimetrica International Scientic Publisher, pp. 69-91, 2008. [4] Howard, M., Sociolinguistic variation in media language : the case of liaison in French, in M Abecassis & E Vialleton (eds), La langue franaise au XXIme sicle : normes et variations Paris : LHarmattan, 2007. [5] Morrison, G.S., Forensic voice comparison and the paradigm shift, in Science and Justice 49, pp. 298308, 2009. [6] Hbert, M., Text-dependent speaker recognition, in : Benesty, J., Sondhi, M., Huang, Y. (Eds.), Springer Handbook of Speech Processing. Springer-Verlag, Heidelberg, pp. 743762, 2008. [7] Kinnunen, T. and Li, M., An Overview of Text-Independent Speaker Recognition : from Features to Supervectors, Speech Communication 52 (1), pp.1240, 2010. [8] Leoch, J.-L., Montaci, C. and Caraty, M.-J., GMM and ARVM Cooperation and Competition for Text-Independent Speaker Recognition on Phone Speech, Actes IEEE-International Conference on Spoken Language Processing, pp. 2411-2414, Philadelphie, Etats-Unis, 1996. [9] Doddington, G.R., Speaker recognition based on idiolectal differences between speakers, in Proc. Eurospeech, pp. 25212524 , 2001. [10] Gordon, R. G., Jr. (ed.), Ethnologue : Languages of the World, (15th edn.) Dallas, SIL International. Web edition at : http ://www.ethnologue.com, 2005. [11] Ladefoged, P. and Maddieson, I., The Sounds of the Worlds Languages, Oxford Blackwell Publishers, 1996.
133
[12] Comrie, B. (ed.), The Worlds Major languages, New York/Oxford, 1990. [13] Y. K. Muthusamy, E. Barnard, R.A. Cole, Reviewing automatic language identication, IEEE Signal Processing Mug., vol. 11, no. 4, pp. 33-41, 1994. [14] Muthusamy, Y. K., Barnard, E. and Cole, R.A., The OGI multilanguage telephone speech corpus, in Proc. of International Conference on Speech and Language Processing, 2, pp. 895-898, Banff, octobre 1992. [15] Campbell, W. M., Singer, E., Torres-Carrasquillo, P. A. and Reynolds, D. A., Language recognition with support vector machines, Odyssey, Toledo, Spain, 2004. [16] Jayaram, A.K.V.S., Ramasubramanian, V. and Sreenivas, T.V., Language identication using parallel sub-word recognition, in : Proceedings of IEEE Internat. Conference on Acoustics Speech and Signal Processing, vol. I, pp. 3235, 2003. [17] Nagarajan, T. and Murthy, H.A., Language identication using acoustic log-likelihoods of syllable-like units, Speech Communication, vol. 48, no. 8, pp. 913-926, 2006. [18] Gentilucci, M. and Corballis, M. C., From manual gesture to speech : A gradual transition. Neuroscience and Biobehavioral Reviews, 30, pp. 949960, 2006. [19] Benzeghiba, M., De Mori, R., Deroo, O., Dupont, S., Erbes T., Jouvet, D., Fissore, L., Laface, P., Mertins, A., Ris, A., Rose, R., Tyagi, V. and Wellekens, C., Automatic speech recognition and speech variability : A review, Volume 49, Issues 10-11, pp. 763786, 2007. [20] Ming, J. and Smith, F. J., Improved phone recognition using Bayesian triphone models, ICASSP, pp. 409-412, 1998. [21] Greenberg, S. and Chang, S., Linguistic dissection of switchboard corpus automatic speech recognition systems, in Proceedings of ISCA Workshop on Automatic Speech Recognition : Challenges for the New Millenium, Paris, France, pp. 195-202, 2000.
134
[22] Christiansen, R. and Rushforth, C. K., Word Spotting in Continuous Speech using Linear Predictive Coding, in Proc. IEEE Int. Conf. on Acoustics, pp. 557-6 00, 1976 [23] Keshet, J., David Grangier, D. and Bengio, S., Discriminative keyword spotting, Speech Communication, Volume 51, Issue 4, pp. 317-329, 2009. [24] Rose., R.C, Keyword detection in conversational speech utterances using hidden Markov model based continuous speech recognition, Computer Speech and Language, 9, pp. 309-333, 1995. [25] Lee, C.H., Rabiner, L.R., Pieraccini, R., and Wilpon, J.G., Acoustic modeling for large vocabulary speech recognition, Computer Speech & Language, 4, pp.1237-1265, 1990. [26] Lamel, L. and Gauvain, J.-L., Alternate phone models for conversational speech, in Proceedings of ICASSP, Philadelphia, Pennsylvania, pp. 1005-1008, 2005. [27] Lippmann, R.P., Speech recognition by machines and humans, Speech Communication, 22 (1), pp. 115, 1997. [28] LeDoux, J. E., A neurobiological view of the psychology of emotion, in J. LeDoux & W. Hirst (Eds.), Mind and brain : Dialogues between cognitive psychology and neuroscience, New York : Cambridge University Press, pp. 355358, 1986. [29] Davis P. J., Winkworth, A., Zhang, S. P. and Bandler R., The neural control of vocalization : Respiratory and emotional inuences, J Voice 10, pp. 23-38, 1995. [30] Hinojosa, J. A. , Mndez-Brtolo, C., Carreti, L. and Pozo, M. A., Emotion modulates language production during covert picture naming, Neuropsychologia, 2010. [31] Buck, R., The biological affects : A typology, Psychological Review, 106, pp. 301336, 1999. [32] Menahem R., La voix et la communication des affects, in Lanne psychologique, vol. 83, n 2, pp. 537-560, 1983. [33] Averill, J. R., A semantic atlas of emotional concepts, JSAS Catalog of Selected Documents in Psychology, 5, p. 330, 1975.
135
[34] Cowie R. and Cornelius R., Describing the emotional states that are expressed in speech. Speech Communication, 40, pp. 5-32, 2003. [35] Osgood, C., May, W. H. and Miron, M. S., Cross-cultural Universals of Affective Meaning, University of Illinois Press, Urbana, 1975. [36] Van Bezooijen, R., The Characteristics and Recognizability of Vocal Expression of Emotions. Foris, Drodrecht, The Netherlands, 1984. [37] Ververidis, D. and Kotropoulos, C., Emotional Speech Recognition : Resources, features and methods, Speech communication, 48 (9), pp. 1162-1181, 2006. [38] Alter, K., Rank, E., Kotz, S.A., Toepel, U., Besson, M., Schirmer, A. and Friederici, A.D., Affective encoding in the speech signal and in event-related brain potentials, Speech and Communication, 40, pp. 61-70, 2003. [39] Markov, A. A., An example of statistical investigation, in the text of "Eugene onyegin" illustrating coupling of "tests" in chains, in Proceedings of Academic Scienctic St. Petersburg, VI, pp. 153162, 1913. [40] Baker, J. K., Stochastic Modeling for Automatic Speech Understanding, in D. R. Reddy editor, Speech Recognition, pp. 521-542, Academic Press, New York, 1975. [41] Jelinek, F., Continuous Speech Recognition by Statistical Methods, IEEE Transaction on Acoustic, Speech, Signal Processing, vol. 64, n 4, pp. 532-556, 1976. [42] Duda, R. O. and Hart, P. E., Pattern Classication and Scene Analysis, Wiley-Interscience Publication, New York, 1973. [43] Markov, A. A., An example of statistical investigation, in the text of "Eugene onyegin" illustrating coupling of "tests" in chains, in Proceedings of Academic Scienctic St. Petersburg, VI, pp. 153162, 1913. [44] Baker, J. K., Stochastic Modeling for Automatic Speech Understanding, in D. R. Reddy editor, Speech Recognition, pp. 521-542, Academic Press, New York, 1975.
136
[45] Jelinek, F., Continuous Speech Recognition by Statistical Methods, IEEE Transaction on Acoustic, Speech, Signal Processing, vol. 64, n 4, pp. 532-556, 1976. [46] Duda, R. O. and Hart, P. E., Pattern Classication and Scene Analysis, Wiley-Interscience Publication, New York, 1973. [47] Brants, T. and Franz, A., Web 1T 5-gram version 1. Linguistic Data Consortium, Philadelphia. LDC2006T13, 2006. [48] Jelinek, F., Self-Organized Language Modeling for Speech Recognition , Readings in Speech Recognition, Morgan Kaufman, 1989. [49] Katz, S. M., Estimation of Probabilities for the Language Model Component of a Speech Recognizer, IEEE Transactions on Acoustic, Speech and Signal Processing, vol. 3, pp. 400-403, 1987. [50] Kneser, R., and Ney, H., Improved Clustering Techniques for Class-based Statistical Language Modelling, European Conference of Speech Communication and Technology, Berlin, Allemagne, pp. 973-976, 1993. [51] S. Goronzy, S. Rapp, R. Kompe, Generating non-native pronunciation variants for lexicon adaptation, Speech Communication, no 42, pp. 109-123, 2004. [52] R. Nisimura, K. Komatsu, Y. Kuroda, K. Nagatomo, A. Lee, H. Saruwatari, K. Shikano, Automatic N-gram Language Model Creation from Web Resources, Eurospeech, Aalborg Denmark, pp. 2127-2130, 2001. [53] Schwarm, S. and Ostendorf, M., Text Normalization with varied data sources for Conversational Speech Language Modelling, ICASSP, vol. I, pp. 789-792, 2002. [54] Sproat, R., Black, A. W., Chen, S., Kumar, S., Ostendorf, M. and Richards, C., Normalization of non-standard words, Computer Speech and Language, vol 15, pp. 287-333, 2001. [55] Grevisse, M. , Le bon usage - Grammaire franaise , 8me dition, Duculot-Gembloux-Hatier Paris, 1964. [56] Murveit, H., Butzberger, J., Digalakis, V. and Weintraub, M., Large-Vocabulary Dictation Using SRIs Decipher Speech
137
Recognition System : Progressive Search Techniques, Proc. ICASSP93, Vol II, Minneapolis, pp.319-322, 1993. [57] Paul, D. and Necioglu, B., The Lincoln Large-Vocabulary StackDecoder HMM CSR, Proc. ICASSP93, Vol II, Minneapolis, pp.660-663, 1993. [58] Fetter, P., Dandurand, F. and Regel-Brietzmann, P., Word Graph Rescoring Using Condence Measures, ICSLP, 1996. [59] Odell, J. J., Valtchev, V., Woodland, P. C. and Young, S. J., One Pass Decoder Design For Large Vocabulary Recognition, ARPA HLT workshop, 1994. [60] Caraty, M.-J., Barras, C., Lefvre, F., and Montaci, C., DDAL : un systme de dicte vocale dvelopp sous lenvironnement HTK, 21mes JEP, Journes dEtude sur la Parole, pp. 289292, Avignon 1996. [61] National Institute http ://www.nist.gov/ of Standards and Technology,
[62] Advanced Technology Program, http ://www.atp.nist.gov/ [63] Technology Innovation Plan, http ://www.nist.gov/tip/ [64] Egan, James P., .Signal Detection Theory and ROC .Analysis., Academic Press, 1975 [65] Martin, A. F. et al., The DET Curve in Assessment of Detection Task Performance, Proc. Eurospeech 97, Rhodes, Greece, September 1997, Vol. 4, pp. 1899-1903. [66] Hunt, M. J., Figures of Merit for Assessing Connected-Word Recognisers, in Speech Communication, 9, pp. 239-336, 1990. [67] Cleverdon, C. W., Mills J. and Keen, E. M., Factors determining the performance of indexing systems, Vol. 1-2, Craneld, U.K, College of Aeronautics, 1966. [68] www.itl.nist.gov/iad/mig//tests/sre/2008/ofcial_results/index.html [69] www.itl.nist.gov/iad/mig//tests/lre/2009/lre09_eval_results/index.html [70] www.itl.nist.gov/iad/mig/tests/rt/2009/workshop/RT09Overview-v2.pdf
138
[71] Schuller, B., Steidl, S. and Batliner., A. The Interspeech 2009 Emotion Challenge, Interspeech 2009, ISCA, Brighton, UK, pp. 312-315, 2009. [72] Batliner, A. , Steidl, S., Schuller, B., Seppi, D., Laskowski, K., Vogt, T., Devillers, L., Vidrascu, L., Amir, N., Kessous, L. and Aharonson, V., Combining Efforts for Improving Automatic Classication of Emotional User States, in Proc. IS-LTC, Ljubliana, pp. 240245, 2006 [73] Kockmann, M., Burget, L. and Cernocky, J., Brno University of Technology System for Interspeech 2009 Emotion Challenge, Interspeech, ISCA, Brighton, UK, pp. 348-351, 2009. [74] Dumouchel, P., Dehak, N., Attabi, Y., Dehak, R. and Boufaden, N., Cepstral and Long-Term Features for Emotion Recognition, Interspeech, ISCA, Brighton, UK, 2009. [75] Laver, John. The phonetic description of voice quality, Cambridge University Press, pp. 21-23, 1980. [76] Roucairol, C., Parallel processing for difcult combinatorial optimization problems, European, Journal of Operations Research, 92, pp. 573-590, 1996. [77] Bard, E. G., Sotillo, C., Anderson, A. H., Thompson, H. S. and Taylor, M. M., The DCIEM Map Task Corpus : Spontaneous dialogue under sleep deprivation and drug treatment, Speech Communication, Vol. 20, pp. 7184, 1996. [78] Harrison, Y. and Horne, J. A., Sleep deprivation affects speech. Sleep, 20, pp. 87177, 1997. [79] Teston, B. and Viallet, F., La dysprosodie parkinsonienne, HAL CCSD, 2008. [78] Pilcher, J.-J., McClelland, L.-E., Moore, D. D., Haarmann, H., Baron, J., Wallsten, T.-S. and McCubbin, J.-A., Language Performance Under Sustained Work and Sleep Deprivation Conditions, Aviation, Space, and Environmental Medicine, Volume 78, Supplement 1, pp.25-38, 2007. [81] Greeley, H.-P., Friets, E., Wilson, J., Raghavan, S., Picone, J. and Berg, J., Detecting Fatigue From Voice Using Speech Recogni-
139
tion, Signal Processing and Information Technology, pp. 567 571, 2006. [82] Greeley, H.-P., Berg, J., Friets, E., Wilson, J., Greenough, G., Picone, J., Whitmore, J. and Nesthus, T., Fatigue estimation using voice analysis, Behavior Research Methods, 39 (3), pp. 610-619, 2007. [83] Jarek Krajewski, J. and Krger, B., Using Prosodic and Spectral Characteristics for Sleepiness Detection. Interspeech, pp 18411844, 2007. [84] Tin, L. N., Haizhou, L. and Minghui, D., Analysis and Detection of Speech under Sleep Deprivation, Interspeech, pp. 17-21, 2006. [85] Krajewski, J., Wieland, R. and Batliner, A., An Acoustic Framework for Detecting Fatigue in Speech Based Human-ComputerInteraction, Lecture Notes in Computer Science, pp. 54-61, 2008.
140

Reconnaissance

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reconnaissance

Transféré par

Droits d'auteur :

Formats disponibles

Les reconnaissances de la parole

Marie-Jos Caraty* C. Montaci **

** STIH, Universit Paris-Sorbonne, France

Studia Informatica Universalis.

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Combinatorial Optimization in Practice

Studia Informatica Universalis.

Vous aimerez peut-être aussi