Vous êtes sur la page 1sur 29

La Reconnaissance Vocale

Reconnaissance vocale : conversion de la voix en fichier numrique qui permet de dcoder un signal acoustique de parole en une suite de mots effectivement prononcs

SOMMAIRE
INTRODUCTION
1 . Lapproche dun rve 2 . Origine 3 . Quelques applications 4 . La reconnaissance vocale : oui mais quel prix ? 5 . Historique

I. LA RECONNAISSANCE VOCALE : VISION D ENSEMBLE


1 . Prsentation 2 . La parole : cest quoi dj ? 3 . Paramtrisation 4 . Dcodage acoustico - phontique
a) Les techniques b) Principe gnral de la mthode globale et analytique c) Choisir le mot

5. Principe du neurone artificiel


a) Le premier niveau de stratgie : lire ou prdire ? b) Le deuxime niveau de stratgie : traitement de gauche droite ou du milieu vers les cots ? c) Le troisime niveau de stratgie : la recherche dune solution optimale

II. ZOOM SUR QUELQUES TECHNOLOGIES PERMETTANT LA RECONNAISSANCE VOCALE


1. Les automates stochastiques dans la reconnaissance
a. Dfinition du modle b. Identification de la squence dtats ayant engendre lobservation dune squence dobservables c. Apprentissage et obtention des paramtres caractrisant les MMC

2. Grammaire dcrivant la langue parle

CONCLUSION

INTRODUCTION

1 . Lapproche dun rve


Ssame, ouvre-toi !

Cette phrase mythique nest pas sans signification, car en dpit du trsor cach derrire la porte de pierre, une autre dcouverte souvre nous : La recherche en Reconnaissance Automatique de la Parole (RAP). Celle-ci ne cesse de stendre dans nos foyer en dpit de ltonnement quavaient nos chres petites ttes blonde en regardant bioman donner des ordres son vaisseau. Nous sommes cependant en dessous de la fiction tant donn la difficult que nous avons encore a analyser un signal vocal compltement alatoire. Si dans un tlphone, on coute les sons qumettent un Minitel, un fax ou un micro-ordinateur pour changer des donnes, ils se prsentent nous comme un sifflement suraigu bourr de parasites : le message semble parfaitement inintelligible. A linverse, alors que notre propre langage nous parat simple et clair, la machine, elle, ny dtecte rien de cohrent.

SOMMAIRE

2 . Origine
Les USA sont encore une fois en premire loges

C'est dans les annes 40 au USA, que les premires tentatives de cration d'une machine capable

de comprendre le discours humain eurent lieu. Leurs principaux objectifs taient d'interprter les messages russes intercepts.

SOMMAIRE

3 . Quelques applications
On utilise la reconnaissance vocale dans diffrents domaines. Une dicte vocale peut tre associe un traitement de texte : Un locuteur parle et le texte s?affiche ; ainsi, il na plus besoin de taper son texte au clavier. Les serveurs d?informations par tlphone La messagerie Elle permet lautonomie : par exemple en mdecine, lorsquun chirurgien a les deux mains occupes, il peut parler pour demander une information technique au lieu de taper sur un clavier (autonomie qui est aussi valable en industrie). La scurit possible grce la signature vocale La possibilit de commande et de contrle dappareils distance.

SOMMAIRE

4 . La reconnaissance vocale : oui mais quel prix ?


Pendant ces premires annes, il a fallu normment de temps et de ressources informatiques pour enregistrer et emmagasiner la reprsentation de chaque mot dans chaque langue. La reprsentation de symboles en discours nest pas si simple, dautant que diffrents symboles peuvent rsulter de sons similaires. Dautres problmes peuvent se poser : les sons individuels peuvent varier en fonction des sons qui suivent et qui prcdent.

La vitesse de traitement de la parole ne saligne pas encore avec celle dun tre humain : celle-ci est de 180 mots par minute, alors que des systmes de reconnaissance vocale bien entrans traitent au alentour de 130 mots par minute. Et l encore, l enrolling (entranement) qui consiste lire un certain nombre de phrases de base en nombre suffisant pour crer un profil dutilisateur de base, peut donner des performances mdiocres sil est mal tabli. Mme le meilleur systme de reconnaissance vocale ne pourra fonctionner correctement sans appui matriel. Le bruit de fond rduit considrablement le taux de prcision ; par consquent, des couteurs conus spcialement pour rduire le bruit sont recommands.

SOMMAIRE

5 . Historique
Une volution rapide

1952 : reconnaissance des 10 chiffres par un dispositif lectronique cbl 1960 : utilisation des mthodes numriques 1965 : reconnaissance de phonmes en parole continue 1968 : reconnaissance de mots isols par des systmes implants sur gros ordinateurs (jusqu 500 mots) 1971 : lancement du projet ARPA aux USA (15 millions de dollars) pour tester la faisabilit de la comprhension automatique de la parole continue avec des contraintes raisonnables 1972 : premier appareil commercialis de reconnaissance de mots 1978 : commercialisation d?un systme de reconnaissance microprocesseurs sur une carte de circuits imprims 1983 : premire mondiale de commande vocale bord d?un avion de chasse en France 1985 : commercialisation des premiers systmes de reconnaissance de plusieurs milliers de mots 1986 : lancement du projet japonais ATR de tlphone avec traduction automatique en temps rel

1988 : apparition des premires machines dicter par mots isols 1990 : premires vritables applications de dialogue oral homme-machine 1994 : IBM lance son premier systme de reconnaissance vocale sur PC 1997 : lancement de la dicte vocale en continu par IBM

SOMMAIRE

I. LA RECONNAISSANCE VOCALE : VISION DENSEMBLE


1 . Prsentation

La parole est le principal vecteur dinformation dans notre socit humaine.

Situe entre celui du signal numrique et du langage, son traitement sest fortement dvelopp paralllement au dveloppement des moyens et des techniques de tlcommunications. Sa particularit, tient du rle que joue le cerveau humain dans la production et la comprhension de la parole, par l'emploi automatique de diverses fonctions.

Ltude des mcanismes de phonation isole la parole de ce qui nen est pas, et l'tude des mcanismes daudition et de perception dit ce qui est rellement peru dans le signal de parole. Perception et Comprhension influence la production de la parole : on ne parle que dans la mesure o lon sentend et se comprend soi-mme; la complexit du signal qui en dcoule sen ressent forcment !

Sil nest pas de parole sans cerveau humain pour lentendre, et la comprendre, les techniques modernes de traitement de la parole tendent produire des systmes automatiques et plus prcisment les reconnaisseurs, qui ont pour mission de dcoder linformation porte par le signal vocal partir des donnes fournies par lanalyse.

SOMMAIRE

2 . La parole : cest quoi dj ?


La parole correspond une variation de la pression de lair cause par le systme articulatoire. La phontique acoustique tudie ce signal en le transformant dans un premier temps en signal lectrique grce au transducteur appropri qui de nos jours est le plus souvent numris.

phontique acoustique : tude des proprits physiques du son.

Il peut alors tre soumis un ensemble de traitements statistiques qui visent mettre en vidence les traits acoustiques.

- Le son mis par le locuteur est capt par un microphone. - Le signal vocal est numris laide dun convertisseur analogique-numerique - Comme la voix humaine est constitue dune multitude de sons, souvent rptitifs, le signal peut tre compress pour rduire le temps de traitement et lencombrement en mmoire. - Lanalyse peut alors commencer ...

SOMMAIRE

3 . Paramtrisation

La paramtrisation du signal vocal seffectue en deux temps et permet dobtenir une empreinte

caractristique du son, sur laquelle on pourra ensuite traiter la reconnaissance ...

1re tape : Evolution temporelle du signal

Enregistrement numrique dun signal acoustique. La frquence de coupure du filtre de garde, la frquence dchantillonnage, le nombre de bits et le pas de quantification sont respectivement nots fc , fe , b, et q.

Lchantillonnage transforme le signal temps continu x(t) en signal temps discret x(n) dfini aux instants dchantillonnage, multiples entiers de la priode dchantillonnage (inverse de la frquence dchantillonnage). Pour le signal vocal, il faut choisir une frquence satisfaisant peu prs le thorme de Shannon.(24kHZ).

thorme de Shannon : L'information vhicule par un signal dont le spectre est support born, n'est pas modifie par l'opration d'chantillonnage, condition que la frquence d'chantillonnage soit au moins deux fois plus grande que la plus grande frquence contenue dans le signal.

Parmi les valeurs possibles pour les chantillons x(n), la quantification ne retient quun nombre fini 2b de valeurs (b tant le nombre de bits de la quantification), espaces du pas de quantification q. Le signal numrique rsultant est not x(n). Une quantification de bonne qualit requiert en gnral 16 bits.

Audiogramme de signaux de parole.

Il est souvent intressant de reprsenter lvolution temporelle du spectre dun signal, sous la forme dun spectrogramme. Lamplitude du spectre y apparat sous la forme de niveaux de gris dans un diagramme en deux dimensions temps - frquence. Ils mettent en vidence lenveloppe spectrale du signal, et permettent donc de visualiser lvolution temporelle des formants.

Les formants : ils constituent le facteur fondamental de la caractrisation du timbre.

La position et lvolution des formants caractrise des sons produits. La seule lecture dun spectrogramme (sans lcoute du signal correspondant) permet dailleurs lil expriment de certains phonticiens de retrouver le contenu du message parl : le spectrogramme prsente sous une forme simple lessentiel de linformation porte par le signal vocal. L'volution du signal vocal en fonction du temps nest que la premire tape de la paramtrisation Pour en dduire ses traits acoustiques, deux mthodes principales sont applicables...

2me tape : Empreinte caractristique du son


- Les mthodes spectrales :

Elles sont fondes sur la dcomposition frquentielle du signal sans tenir compte de sa structure fine. La plus connue tant : Fast Fourier Transform ( FFT ). Tout son est la superposition de plusieurs ondes sinusodales. Grce la FFT , on peut isoler les diffrentes frquences qui le composent. La transforme de Fourier dite " court terme", est obtenue en extrayant de laudiogramme une trentaine de millisecondes de signal vocal et en effectuant un transforme de Fourier sur ces chantillons. Le rsultat de cette transformation mathmatique est souvent prsent dans un graphique qui donne, en fonction de la frquence, lamplitude des composantes prsentes dans le

signal analys.

En appliquant la FFT un son complexe et en la rptant de nombreuses fois, on dresse un graphique donnant lvolution de lamplitude et de la frquence en fonction du temps. On obtient ainsi une empreinte caractristique du son.

- Les mthodes didentification :

Elles reposent sur un modle. Celui-ci possde un ensemble de paramtres numriques, dont les niveaux de variation reprsentent l'ensemble des signaux couverts par le modle. Pour un signal et un modle donn, l'analyse estime les paramtres du modle pour lui faire correspondre le signal analys. Un algorithme d'analyse cherche minimiser la diffrence, appele erreur de modlisation, entre le signal original et celui qui serait produit par le modle s'il tait utilis en tant que synthtiseur . Le modle prdictif linaire (LPC : Linear Predictive Coding) est le plus connu. De la mme faon que la parole nat du passage travers notre conduit vocal dun signal dexcitation cr par les poumons et les cordes vocales, elle peut tre modlis par le passage d'un signal dexcitation numrique travers un filtre numrique rcursif.

filtre rcursif : la sortie dpend de l'entre et de la valeur prcdente de la sortie. Le signal dexcitation sera soit : - une suite dimpulsions numriques (qui serviront simuler les impulsions de dbit cres par les cordes vocales). - du bruit numrique (qui reproduira le souffle pouss par les poumons). Ce modle est appel prdictif linaire car il correspond une rgression linaire trs simple entre le signal dexcitation et le signal vocale produit. Les coefficients de cette rgression linaire sont les coefficients du filtre numrique rcursif. On repre alors facilement les frquences formantiques.

frquences formantiques : frquences de rsonance du conduit vocal.

En effet, elles correspondent au maximum dnergie dans le spectre. En rptant cette mthode plusieurs fois, on obtient lempreinte du signal.

Dautres mthodes existent, mais elles sont cependant moins employes. Les tendances actuelles visent amliorer lanalyse fine des sons. Le codage vectoriel permet de diminuer la quantit dinformations ncessaires pour coder un mot (et donc lespace0. mmoire), en sappuyant sur un dictionnaire de spectres instantans .

Une fois que lon a obtenu lempreinte caractristique du signal, on peut passer ltape suivante, qui est le dcodage acoustico-phontique ...

SOMMAIRE

4 . Dcodage acoustico - phontique


Il sert dcoder le signal acoustique en units linguistiques (phonmes, syllabes, les mots). phonme: lment sonore dun langage donn, dtermin par les rapports quil entretient avec les autres sons de ce langage. Par exemple, le mot " cou " est form des phonmes " keu " et " ou ". Il en existe une trentaine en franais. Cette notion est assez importante en reconnaissance vocale.

1re partie : Faire apparatre les segments du signal

1re tape : segmenter le signal en segments lmentaires et tiqueter ces segments. Le principal problme est de choisir les units sur lesquelles portera le dcodage.

Si des units longues telles que les syllabes ou les mots sont choisies, la reconnaissance en elle-mme sera facilite mais leur identification est difficile. Si des units courtes sont choisies, comme les phones (sons lmentaires), la localisation sera plus facile mais leur exploitation ncessitera de les assembler en units plus larges.

Les phonmes constituent un bon compromis, leur nombre est limit : ils sont donc souvent utiliss. Mais le choix dpend galement du type de reconnaissance effectue : mots isols ou parole continue. Cela sera abord plus loin.

2me tape : identifier les diffrents segments en fonction de contraintes phontiques, linguistiques Il faut que le systme ait intgr un certain nombre de connaissances : donnes articulatoires, sons du franais, donnes phontiques, prosodiques , syntaxiques , smantiques Deux sortes doutils sont utilises :

- Les outils de reconnaissance de formes structurelle (ex : grammaires dterministes) - Les outils provenant de systmes experts (souvent associs pour de meilleures performances).Un systme expert effectue les interprtations et dductions ncessaires grce la modlisation pralable du raisonnement de lexpert (domaine de lintelligence artificielle).

Une fois que tout cela a t effectu, la reconnaissance en elle-mme peut commencer, que ce soit pour des mots isols ou pour de la parole continue

2me partie : Reconnaissance des mots isols

Retrouver les phonmes et les mots dans un signal vocal est une relle difficult pour la reconnaissance vocale. De ce fait, sparer tous les mots prononcs par des silences permet de simplifier le problme.

a) Les techniques

Deux approches :

Dans l'approche globale, l'unit de base est le mot (donc non dcomposable). Cette mthode fournit une image acoustique de chaque mots identifier et permet donc d'viter l'influence mutuelle des sons l'intrieur des mots. Elle se limite aux petits vocabulaires prononcs par un nombre restreint de locuteurs(les mots peuvent tre prononcs de manire diffrente suivant le locuteur).

L'approche analytique, qui tire parti de la structure des mots, identifie les composantes lmentaires (phonmes, syllabes, ). Celles-ci sont les units de base reconnatre. Cette approche est plus gnrale que la prcdente : pour reconnatre de grands vocabulaires, il suffit d'enregistrer dans la mmoire de la machine les principales caractristiques des units de base.

Pour la reconnaissance de mots isols grand vocabulaire, la mthode globale ne convient plus car la machine ncessiterait une mmoire et une puissance considrable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu l'ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter l'utilisateur l'ensemble des mots que l'ordinateur a en mmoire.

C'est donc la mthode analytique qui est utilise : les mots ne sont pas mmoriss dans leur intgralit, mais traits en tant que suite de phonmes .

b) Principe gnral de la mthode globale et analytique

Le principe est le mme que ce soit pour lapproche analytique ou lapproche global, ce qui diffrencie ces deux mthodes est lentit reconnatre : pour la premire il sagit du phonme, pour lautre du mot.

On distingue deux phases:

La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, pour crer en machine le dictionnaire de rfrences acoustiques. Pour lapproche analytique, l'ordinateur demande l'utilisateur d'noncer des phrases souvent dpourvues de toute signification, mais qui prsentent l'intrt de comporter des successions de phonmes bien particuliers.

La phase de reconnaissance : un locuteur prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problme typique de reconnaissance de formes. Tout systme de reconnaissance des formes comporte toujours les trois parties suivantes:

Un capteur permettant d'apprhender le phnomne physique considr (dans notre cas un microphone), Un tage de paramtrisation des formes (par exemple un analyseur spectral), Un tage de dcision charg de classer une forme inconnue dans l'une des catgories possibles.

c) Choisir le mot

Le signal vocal paramtr est compar aux mots du dictionnaire de rfrence. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, en calculant le taux de similitude entre le mot prononc et les diverses rfrences. Le programme va comparer le mot prononc par le locuteur avec ceux qui sont en mmoire depuis lapprentissage : la comparaison consiste soustraire les nuances de gris des pixels du mot prononc ceux des mots en mmoire et de rpter cette opration pour chaque ligne et colonne. On pourra donc trouver, selon le rsultat de la comparaison, le signal le plus ressemblant.

Inconvnients : Ce calcul n'est pas simple car les mots comparer ont des dures et des rythmes

diffrents . En effet, un locuteur mme entran ne peut prononcer plusieurs fois une mme squence vocale avec exactement le mme rythme et la mme dure. Les chelles temporelles de deux occurrences d'un mme mot ne concident donc pas, et les formes acoustiques calcules lors de la paramtrisation ne peuvent pas tre compares point point.

Solutions : il existe des solutions pour rsoudre le problme de l'alignement temporel entre un mot inconnu et une rfrence. En voici trois principales :

La modlisation sous forme de modles markoviens (chapitre fondamental de la reconnaissance qui sera dveloppe plus loin).

Une trs efficace est l algorithme de comparaison dynamique qui va mettre en correspondance optimale les chelles temporelles des deux mots. On dmontre que cette mthode fournit la solution optimale du problme. Elle ncessite cependant beaucoup de calculs. Pour fonctionner en temps rel, il faut donc soit raliser des composants spcialiss de programmation dynamique (plusieurs firmes proposent des systmes de reconnaissance intgrant un tel processeur), soit simplifier l'algorithme initial.

Comparaison de formes par programmation dynamique o laction de lalgorithme est symbolise par les traits entre chaque mot

La figure montre les correspondances effectues par un algorithme de programmation dynamique entre une forme reconnatre ( le spectrogramme du chiffre " trois") et un vocabulaire de rfrence (ici les chiffres " un ", " deux ", "trois "). Le " trois " de rfrence est plus long (prononciation plus lente) que le " trois " reconnatre ; l'algorithme assure une mise en correspondance optimale entre les vecteurs des spectrogrammes. En

revanche, la comparaison avec les formes de rfrence " un " et " deux ", trs diffrentes de " trois ", est plus alatoire. La reprsentation des mots est la suivante : horizontalement => le temps ; verticalement => les frquences ; nuance de gris => lintensit. Les mthodes de comparaison par programmation dynamique ont t largement utilises pour la reconnaissance de mots isols. De plus, elles ont t tendues la reconnaissance de squences de mots enchans sans pause entre eux.

Les modles neuromimtiques qui sont constitus par l'interconnexion d'un trs grand nombre de processeurs lmentaires fonctionnant comme le neurone.On parle de "neurone" car son fonctionnement est fond sur celui d'un automate propos comme une approximation du fonctionnement du neurone biologique

SOMMAIRE

5. Principe du neurone artificiel

Avec la mthode analytique, l'ordinateur procde identiquement pour dcoder le message parl (paramtrisation du signal, programmation dynamique, ) sauf que cette fois-ci il faut reprer une suite de phonmes afin d'associer le mot au mot qui s'y rapporte dans le dictionnaire.

Les logiciels actuels utilises des dictionnaires de vocabulaire dpendant du type d'activit pour minimiser le taux d'erreur. Dans une phrase, les mots senchanent sans aucun moyen apparent de dissociation. Comment donc dcouper un signal afin de reconnatre les diffrents mots ou phonmes qui le compose ? La notion de stratgie est lance ...

ou de la parole continue

a) Le premier niveau de stratgie : lire ou prdire ?

On distingue deux approches diffrentes. La premire consiste reconstituer la phrase partir du signal en " lisant " tout simplement le signal (approche ascendante). On dcrypte le rsultat sans le comprendre ce qui ncessite de tester chaque portion de phrase, lensemble des mots contenus dans le vocabulaire. Le vocabulaire peut trs rapidement devenir gigantesque, et cela prend beaucoup de temps machine. La deuxime approche consiste prdire le mot reconnatre (approche descendante) en implantant dans le systme une certaine intelligence. Par exemple, si la machine reconnat le mot " monsieur ", le vocabulaire testera est les noms de personnes contenus dans sa mmoire. Cette approche permet donc de ne pas tester tout le dictionnaire de la machine, et ainsi gagner du temps. On remarquera cependant quaucun systme ne fonctionne en approche uniquement descendante, et rares sont ceux qui fonctionnent en approche uniquement ascendante. Seuls les systmes vocabulaire trs restreint peuvent se permettre une approche uniquement ascendante.

b) Le deuxime niveau de stratgie : traitement de gauche droite ou du milieu vers les cots ?

L'analyse du signal peut s'effectuer dans diffrents sens. L'ordre chronologique reste le plus naturel (traitement gauche - droite). On peut aussi appliquer le traitement du milieu vers les cots pour balayer le signal sans l'analyser compltement, afin de rechercher des mots - cls; on accentue la recherche de quelques mots du vocabulaire pour ainsi appliquer une stratgie descendante et combler les " trous ".

c) Le troisime niveau de stratgie : la recherche dune solution optimale

On distingue deux grand types de stratgies.

-Les stratgies totales. Elles examinent toutes les solutions possibles. La machine teste tout son vocabulaire et attribue pour lensemble des phrases possibles un indice de probabilit de reconnaissance. Cette stratgie est applicable pour un vocabulaire trs limit. -Les stratgies heuristiques sont donc utilises. Parmi les plus employes, on notera celle-ci :

Stratgie du meilleur d'abord : A chaque analyse, le systme ne retient que la solution offrant le meilleur score de probabilit. Elle est trs simple mettre en oeuvre, car elle neffectue quune seule analyse la fois. On gagne en temps de traitement, mais on perd en performance. Entre cette stratgie et une stratgie totale, il existe cependant un juste milieu. Recherche en faisceau ou des " quelques meilleurs dabord ": Elle recherche en parallle dans les diffrentes branches, les solutions plus probables et les conserve au fur et mesure. Elle compare enfin les solutions partielles qui vont au mme niveau de profondeur dans larbre de recherche. Cela est coteux en temps machine, mais on se rapproche plus dune solution optimale, car ltendue des solutions explores est plus vaste.
Recherche par lots de confiance : Dans les stratgies prcdentes, une phrase est suppose analyse de la gauche vers la droite, en partant du dbut. Ici, on ne recherche que des mots - cls, dont la reconnaissance est quasi - certaine. On obtient donc une phrase trous, avec ce quon appelle des lots de confiance, dont on est sr de la reconnaissance. On applique enfin une des stratgies prcdentes pour dcouvrir ce quil y a entre.

SOMMAIRE

II. ZOOM SUR QUELQUES TECHNOLOGIES PERMETTANT LA RECONNAISSANCE VOCALE


1. Les automates stochastiques dans la reconnaissance
a. Dfinition du modle
Les HMM sont dfinis par l'ensemble de donnes suivantes : -Un automate de N tats : 1, 2, , N

-un alphabet Y 1, y2, , yT ) =(y -les probabilits aij associes chacunes des transitions de ltat i vers ltat j. -la probabilit b(m,i) pour lautomate dmettre un symbole yi lorsquil se trouve dans ltat m. -les probabilits d(m) de trouver lautomate linstant t=0 dans ltat m : d(m)=Pr(s0=m)

La modlisation gauche-droite ci-dessus tient compte du caractre changeant du rythme des mots prononcs. Les boucles sur les tats modlisent un ralentissement possible du rythme et la transition a13 modlise le fait que le phonme reprsent par ltat S2 puisse tre dit rapidement et ainsi aval lors de la phase de reconnaissance.

b. Identification de la squence dtats ayant engendre lobservation dune squence dobservables


On cherche identifier la squence dtats S=(s1, s 2, ,sT) ayant observ la squence Y= (y1, y2, ,yT ) ) et connaissant le modle [ a(m,m), b(m,n), d(m)]. Algorithme de Viterbi On pose : rt(m) = max p(s0, , s t-1, st = m; y0, , yt): (9) Initialisation : r0(m) = d(m)b(m, y0): (10) Rcurrence : On suppose qu' l'instant (t - 1) on a calcul rt-1(m) pour chacun des M tats. On a alors rt(m) = max rt-1(m)a(m, m)b(m, yy)

L'tat m le plus probable occup l'instant t -1 partir duquel l'automate a volu vers l'tat M l'instant t est l'tat tel que rt1(m)a(m;m0)b(m0; yt) est maximum. Si lon mmorise le prdcesseur de chaque tat m linstant t, alors il est enfantin den dduire la squence dtat la plus susceptible davoir engendr la squence dobservables Y Fin de l'algorithme : L'tat fT retenu l'instant T est celui pour lequel r T (m) est maximum. On effectue un chanage arrire partir de fT en se servant du prdcesseur dfini pour chacun des tats un instant t donn.

Dans le cas de la reconnaissance de mots isols

Dans les applications de reconnaissance de mots isols ne comportant quun vocabulaire modeste, une modlisation en mot est effectu. Cest dire quun MMC est calcul pour chacun des mots du vocabulaire. Le MMC global sur lequel va seffectuer la recherche de la meilleure squence dtat est ralis en reliant lentre de chacun des MMC des mots la sortie dun MMC matrialisant un silence et reliant la sortie de chacun des MMC des mots lentre dun MMC modlisant le silence de fin. Ceci est illustr par la figure ci-dessous :

Dans le cas de la parole continue Dans ce type de reconnaissance, le vocabulaire est beaucoup trop large pour pouvoir calculer les MMC de lensemble des mots. Ceci ncessiterait une mmoire phnomnale ainsi quun corpus gigantesque pour la phase dapprentissage Cest pourquoi il est privilgi les modles phontiques qui permettent de modliser des units sonores beaucoup plus petite et partir desquels on engendre tous les mots du dictionnaire par concatnation de ces modles dunit phontique.

c. Apprentissage et obtention des paramtres caractrisant les MMC

Soit

on peut montrer que

La probabilit

SOMMAIRE

2. Grammaire dcrivant la langue parle


Dans une architecture d'un systme reconnaissance vocale, la partie implmentant une stratgie de recherche heuristique de la meilleure squence de mot s'appelle un dcodeur.

Il s'agit d'introduire des rgles contextuelles afin de construire une grammaire propre au langage parl. La premire tape consiste associer des classes aux mots du lexique (le lexique tant l'ensemble des mots enregistrs dans la mmoire du systme. Par exemple, [enfant = pluriel ] ou encore [noir = adjectif] ...

Exemple dattribution de classes

Pour chaque variante de prononciation donne, on lui applique un contexte, c'est dire qu'elle n' existe dans une phrase que dans une situation bien particulire. Pour cela, on utile la classe du mot prcdent(celui qui a t reconnu dans l'analyse) et celle du mot suivant (le prochain mot qui sera reconnu).

Par exemple , la prononciation [lez] du mot [les] s'insre uniquement dans le contexte o le mot suivant est de classe pluriel o voyelle initiale . Il es donc ncessaire de s'assurer que les contextes droits et gauches de la prononciation sont vrifis. Cependant, il n'est videmment pas possible de vrifier le contexte droit de l'hypothse de prononciation puisque le mot suivant est encore inconnu. En revanche il est possible de vrifier la compatibilit du contexte droit pour le mot prcdent avec le contexte gauche de l'hypothse courante, et, de manire symtrique, le contexte gauche de la rgle courant avec le mot prcdent.

Ainsi, toute absence de compatibilit rejetterait l'hypothse courante. Cet algorithme mmorise la rgle qui a t utilise pour le mot prcdent afin d'en garder une trace. En effet, les hypothses ayant pour prdcesseurs le mme mot acoustique mais ayant utiliss des rgles diffrentes sont considres comme des mots diffrents puisqu'ils n'ont pas le mme contexte droit.
Contextes dans le Systme Sirocco

Pour tester l'apport des contraintes contextuelles, nous avons utilise des ressources MHATLex dveloppes l'IRIT. MHATLex contient deux niveaux de reprsentation des transcriptions phontiques:une reprsentation abstraite, dite phonotypique, qui condense un ensemble de reprsentation des transcriptions phontiques valides dans un contexte linguistique dfini. Le passage d'un niveau a l'autre est opr par application de rgles de rcriture, les transcriptions drives hritant hritant des contraintes contextuelles de leur anctre. MHATLex inclut galement diverses informations morpho_syntaxiques (lemme associe une forme graphique, partie du discours, genre, nombre ...), desquelles ont t drivs divers jeux de conception contextuelle. Environ la moiti de ces classes se fonde sur des proprits morpho-synthaxiques lautre motif des classes encodant des proprits phonologiques. Pour contrler plus finement l'effet de l'introduction de contraintes contextuelles, les rgles drivant les reprsentations phontiques en fonction de phnomene phonologique sous-jacent. Ceci conduit marquer chaque transcription phontique par l'ensemble des phnomnes linguistiques impliqus dans sa drivation. une fois ce marquage construit, trois phnomnes agissant sur la frontire du mot sont tudis:la liaison, les collisions ou ralisations de e -muets, et la chute des consonnes liquides finales, qui tous conduisent des transcriptions phontiques dpendant de l'environnement linguistique dans lequel elles s'insrent.

SOMMAIRE

CONCLUSION

Si les systmes continuent dvoluer comme ils lont fait au cours des dernires annes, nul doute que plus personne ne pourra se passer de la reconnaissance vocale, car elle reprsente, en plus de tous les autres avantages, un confort de travail extraordinaire. La relve du clavier est assure !
Nous avons cependant souvent du mal nous faire comprendre et lon peut se demander

comment une machine, dont le principe de reconnaissance est fond sur celui de lhomme, serait capable de faire mieux. Les limites de la reconnaissance vocale risquent dtre rapidement atteintes.

SOMMAIRE

Vous aimerez peut-être aussi