Vous êtes sur la page 1sur 29

La

Reconnaissance

Vocale

Reconnaissance vocale : conversion de la voix en fichier numrique qui permet de dcoder un


signal acoustique de parole en une suite de mots effectivement prononcs
SOMMAIRE
INTRODUCTION
1 . Lapproche dun rve
2 . Origine
3 . Quelques applications
4 . La reconnaissance vocale : oui mais quel prix ?
5 . Historique

I. LA RECONNAISSANCE VOCALE :
VISION D ENSEMBLE
1 . Prsentation
2 . La parole : cest quoi dj ?
3 . Paramtrisation
4 . Dcodage acoustico - phontique
a) Les techniques

b) Principe gnral de la mthode globale et analytique


c) Choisir le mot

5. Principe du neurone artificiel


a) Le premier niveau de stratgie : lire ou prdire ?

b) Le deuxime niveau de stratgie : traitement de gauche droite ou du milieu vers


les cots ?

c) Le troisime niveau de stratgie : la recherche dune solution optimale


II. ZOOM SUR QUELQUES TECHNOLOGIES
PERMETTANT LA RECONNAISSANCE
VOCALE
1. Les automates stochastiques dans la reconnaissance
a. Dfinition du modle
b. Identification de la squence dtats ayant
engendre lobservation dune squence dobservables
c. Apprentissage et obtention des paramtres caractrisant les MMC

2. Grammaire dcrivant la langue parle

CONCLUSION
INTRODUCTION

1 . Lapproche dun rve

Ssame, ouvre-toi !

Cette phrase mythique nest pas sans signification, car en dpit du trsor cach derrire la porte
de pierre, une autre dcouverte souvre nous :

La recherche en Reconnaissance Automatique de la Parole (RAP).

Celle-ci ne cesse de stendre dans nos foyer en dpit de ltonnement quavaient nos chres
petites ttes blonde en regardant bioman donner des ordres son vaisseau.

Nous sommes cependant en dessous de la fiction tant donn la difficult que nous avons encore
a analyser un signal vocal compltement alatoire. Si dans un tlphone, on coute les sons
qumettent un Minitel, un fax ou un micro-ordinateur pour changer des donnes, ils se
prsentent nous comme un sifflement suraigu bourr de parasites : le message semble
parfaitement inintelligible. A linverse, alors que notre propre langage nous parat simple et clair,
la machine, elle, ny dtecte rien de cohrent.

SOMMAIRE

2 . Origine

Les USA sont encore une fois en premire loges

C'est dans les annes 40 au USA, que les premires tentatives de cration d'une machine capable
de comprendre le discours humain eurent lieu. Leurs principaux objectifs taient d'interprter les
messages russes intercepts.

SOMMAIRE

3 . Quelques applications

On utilise la reconnaissance vocale dans diffrents domaines.

- Une dicte vocale peut tre associe un traitement de


texte : Un locuteur parle et le texte s?affiche ; ainsi, il
na plus besoin de taper son texte au clavier.

- Les serveurs d?informations par tlphone

- La messagerie

- Elle permet lautonomie : par exemple en mdecine,


lorsquun chirurgien a les deux mains occupes, il peut
parler pour demander une information technique au lieu de
taper sur un clavier (autonomie qui est aussi valable en
industrie).

- La scurit possible grce la signature vocale

- La possibilit de commande et de contrle dappareils distance.

SOMMAIRE

4 . La reconnaissance vocale : oui mais quel prix ?

Pendant ces premires annes, il a fallu normment de temps et de ressources informatiques


pour enregistrer et emmagasiner la reprsentation de chaque mot dans chaque langue.

La reprsentation de symboles en discours nest pas si simple, dautant que diffrents symboles
peuvent rsulter de sons similaires. Dautres problmes peuvent se poser : les sons individuels
peuvent varier en fonction des sons qui suivent et qui prcdent.
La vitesse de traitement de la parole ne saligne pas encore avec celle dun tre humain : celle-ci
est de 180 mots par minute, alors que des systmes de reconnaissance vocale bien entrans
traitent au alentour de 130 mots par minute. Et l encore, l enrolling (entranement) qui
consiste lire un certain nombre de phrases de base en nombre suffisant pour crer un profil
dutilisateur de base, peut donner des performances mdiocres sil est mal tabli.

Mme le meilleur systme de reconnaissance vocale ne pourra fonctionner correctement sans


appui matriel. Le bruit de fond rduit considrablement le taux de prcision ; par consquent,
des couteurs conus spcialement pour rduire le bruit sont recommands.

SOMMAIRE

5 . Historique

Une volution rapide

1952 : reconnaissance des 10 chiffres par un dispositif lectronique cbl

1960 : utilisation des mthodes numriques

1965 : reconnaissance de phonmes en parole continue

1968 : reconnaissance de mots isols par des systmes implants sur gros ordinateurs
(jusqu 500 mots)

1971 : lancement du projet ARPA aux USA (15 millions de dollars)


pour tester la faisabilit de la comprhension automatique de la
parole continue avec des contraintes raisonnables

1972 : premier appareil commercialis de reconnaissance de mots

1978 : commercialisation d?un systme de reconnaissance microprocesseurs sur une


carte
de circuits imprims

1983 : premire mondiale de commande vocale bord d?un avion de chasse en France

1985 : commercialisation des premiers systmes de reconnaissance de plusieurs milliers


de mots

1986 : lancement du projet japonais ATR de tlphone avec traduction automatique en


temps rel
1988 : apparition des premires machines dicter par mots isols

1990 : premires vritables applications de dialogue oral homme-machine

1994 : IBM lance son premier systme de reconnaissance vocale sur PC

1997 : lancement de la dicte vocale en continu par IBM

SOMMAIRE

I. LA RECONNAISSANCE
VOCALE :
VISION DENSEMBLE

1 . Prsentation

La parole est le principal vecteur dinformation dans notre socit humaine.

Situe entre celui du signal numrique et du langage, son traitement sest fortement dvelopp
paralllement au dveloppement des moyens et des techniques de tlcommunications. Sa
particularit, tient du rle que joue le cerveau humain dans la production et la comprhension de
la parole, par l'emploi automatique de diverses fonctions.

Ltude des mcanismes de phonation isole la parole de ce qui nen est pas, et l'tude des
mcanismes daudition et de perception dit ce qui est rellement peru dans le signal de parole.
Perception et Comprhension influence la production de la parole : on ne parle que dans la
mesure o lon sentend et se comprend soi-mme;
la complexit du signal qui en dcoule sen ressent forcment !
Sil nest pas de parole sans cerveau humain pour lentendre, et la comprendre, les techniques
modernes de traitement de la parole tendent produire des systmes automatiques et plus
prcisment les reconnaisseurs, qui ont pour mission de dcoder linformation porte par le
signal vocal partir des donnes fournies par lanalyse.

SOMMAIRE

2 . La parole : cest quoi dj ?

La parole correspond une variation de la pression de lair cause par le systme


articulatoire. La phontique acoustique tudie ce signal en le transformant dans un premier
temps en signal lectrique grce au transducteur appropri qui de nos jours est le plus souvent
numris.

phontique acoustique : tude des proprits physiques du son.

Il peut alors tre soumis un ensemble de traitements statistiques qui visent mettre en vidence
les traits acoustiques.
- Le son mis par le locuteur est capt par un microphone.
- Le signal vocal est numris laide dun convertisseur analogique-numerique

- Comme la voix humaine est constitue dune multitude de sons, souvent rptitifs, le
signal peut tre compress pour rduire le temps de traitement et lencombrement en
mmoire.
- Lanalyse peut alors commencer ...

SOMMAIRE

3 . Paramtrisation

La paramtrisation du signal vocal seffectue en deux temps et permet dobtenir une empreinte
caractristique du son, sur laquelle on pourra ensuite traiter la reconnaissance ...

1re tape : Evolution temporelle du signal

Enregistrement numrique dun signal acoustique.


La frquence de coupure du filtre de garde, la frquence dchantillonnage,
le nombre de bits et le pas de quantification sont respectivement nots fc , fe , b, et q.

Lchantillonnage transforme le signal temps continu x(t) en signal temps discret x(n)
dfini aux instants dchantillonnage, multiples entiers de la priode dchantillonnage (inverse
de la frquence dchantillonnage). Pour le signal vocal, il faut choisir une frquence satisfaisant
peu prs le thorme de Shannon.(24kHZ).

thorme de Shannon : L'information vhicule par un signal dont le spectre est support born,
n'est pas modifie par l'opration d'chantillonnage, condition que la frquence
d'chantillonnage soit au moins deux fois plus grande que la plus grande frquence contenue
dans le signal.

Parmi les valeurs possibles pour les chantillons x(n), la quantification ne retient quun
nombre fini 2b de valeurs (b tant le nombre de bits de la quantification), espaces du pas de
quantification q. Le signal numrique rsultant est not x(n). Une quantification de bonne qualit
requiert en gnral 16 bits.
Audiogramme de signaux de parole.

Il est souvent intressant de reprsenter lvolution temporelle du spectre dun signal, sous la
forme dun spectrogramme. Lamplitude du spectre y apparat sous la forme de niveaux de gris
dans un diagramme en deux dimensions temps - frquence. Ils mettent en vidence lenveloppe
spectrale du signal, et permettent donc de visualiser lvolution temporelle des formants.

Les formants : ils constituent le facteur fondamental de la caractrisation du timbre.


La position et lvolution des formants caractrise des sons produits. La seule lecture dun
spectrogramme (sans lcoute du signal correspondant) permet dailleurs lil expriment de
certains phonticiens de retrouver le contenu du message parl : le spectrogramme prsente sous
une forme simple lessentiel de linformation porte par le signal vocal.

L'volution du signal vocal en fonction du temps nest que la premire tape de la


paramtrisation Pour en dduire ses traits acoustiques, deux mthodes principales sont
applicables...

2me tape : Empreinte caractristique du son

- Les mthodes spectrales :

Elles sont fondes sur la dcomposition frquentielle du signal sans tenir compte de sa structure
fine.
La plus connue tant : Fast Fourier Transform ( FFT ). Tout son est la superposition de
plusieurs ondes sinusodales. Grce la FFT , on peut isoler les diffrentes frquences qui le
composent.
La transforme de Fourier dite " court terme", est obtenue en extrayant de laudiogramme une
trentaine de millisecondes de signal vocal et en effectuant un transforme de Fourier sur ces
chantillons. Le rsultat de cette transformation mathmatique est souvent prsent dans un
graphique qui donne, en fonction de la frquence, lamplitude des composantes prsentes dans le
signal analys.

En appliquant la FFT un son complexe et en la rptant de nombreuses fois, on dresse un


graphique donnant lvolution de lamplitude et de la frquence en fonction du temps. On
obtient ainsi une empreinte caractristique du son.

- Les mthodes didentification :

Elles reposent sur un modle. Celui-ci possde un ensemble de paramtres numriques, dont les
niveaux de variation reprsentent l'ensemble des signaux couverts par le modle. Pour un signal
et un modle donn, l'analyse estime les paramtres du modle pour lui faire correspondre le
signal analys. Un algorithme d'analyse cherche minimiser la diffrence, appele erreur de
modlisation, entre le signal original et celui qui serait produit par le modle s'il tait utilis en
tant que synthtiseur .

Le modle prdictif linaire (LPC : Linear Predictive Coding) est le plus connu.
De la mme faon que la parole nat du passage travers notre conduit vocal dun signal
dexcitation cr par les poumons et les cordes vocales, elle peut tre modlis par le passage
d'un signal dexcitation numrique travers un filtre numrique rcursif.
filtre rcursif : la sortie dpend de l'entre et de la valeur prcdente de la sortie.

Le signal dexcitation sera soit :


- une suite dimpulsions numriques (qui serviront simuler les impulsions de dbit cres
par les cordes vocales).
- du bruit numrique (qui reproduira le souffle pouss par les poumons).
Ce modle est appel prdictif linaire car il correspond une rgression linaire trs simple
entre le signal dexcitation et le signal vocale produit. Les coefficients de cette rgression linaire
sont les coefficients du filtre numrique rcursif.
On repre alors facilement les frquences formantiques.

frquences formantiques : frquences de rsonance du conduit vocal.

En effet, elles correspondent au maximum dnergie dans le spectre. En rptant cette mthode
plusieurs fois, on obtient lempreinte du signal.
Dautres mthodes existent, mais elles sont cependant moins employes. Les tendances actuelles
visent amliorer lanalyse fine des sons.
Le codage vectoriel permet de diminuer la quantit dinformations ncessaires pour coder un
mot (et donc lespace0. mmoire), en sappuyant sur un dictionnaire de spectres instantans .

Une fois que lon a obtenu lempreinte caractristique du signal, on peut passer ltape
suivante, qui est le dcodage acoustico-phontique ...

SOMMAIRE

4 . Dcodage acoustico - phontique

Il sert dcoder le signal acoustique en units linguistiques (phonmes, syllabes, les mots).
phonme: lment sonore dun langage donn, dtermin par les rapports quil entretient avec les
autres sons de ce langage.

Par exemple, le mot " cou " est form des phonmes " keu " et " ou ". Il en existe une trentaine en
franais. Cette notion est assez importante en reconnaissance vocale.

1re partie : Faire apparatre les segments du signal


1re tape : segmenter le signal en segments lmentaires et tiqueter ces segments. Le
principal problme est de choisir les units sur lesquelles portera le dcodage.

- Si des units longues telles que les syllabes ou les mots sont choisies, la reconnaissance
en elle-mme sera facilite mais leur identification est difficile.
- Si des units courtes sont choisies, comme les phones (sons lmentaires), la localisation
sera plus facile mais leur exploitation ncessitera de les assembler en units plus larges.

Les phonmes constituent un bon compromis, leur nombre est limit : ils sont donc souvent
utiliss. Mais le choix dpend galement du type de reconnaissance effectue : mots isols ou
parole continue. Cela sera abord plus loin.

2me tape : identifier les diffrents segments en fonction de contraintes phontiques,


linguistiques Il faut que le systme ait intgr un certain nombre de connaissances : donnes
articulatoires, sons du franais, donnes phontiques, prosodiques , syntaxiques , smantiques

Deux sortes doutils sont utilises :

- Les outils de reconnaissance de formes structurelle (ex : grammaires dterministes)


- Les outils provenant de systmes experts (souvent associs pour de meilleures
performances).Un systme expert effectue les interprtations et dductions ncessaires grce la
modlisation pralable du raisonnement de lexpert (domaine de lintelligence artificielle).

Une fois que tout cela a t effectu, la reconnaissance en elle-mme peut commencer, que ce soit pour des mots
isols ou pour de la parole continue

2me partie : Reconnaissance


des mots isols

Retrouver les phonmes et les mots dans un signal vocal est une relle difficult pour la
reconnaissance vocale. De ce fait, sparer tous les mots prononcs par des silences permet de
simplifier le problme.
a) Les techniques

Deux approches :

Dans l'approche globale, l'unit de base est le mot (donc non dcomposable). Cette
mthode fournit une image acoustique de chaque mots identifier et permet donc
d'viter l'influence mutuelle des sons l'intrieur des mots. Elle se limite aux petits
vocabulaires prononcs par un nombre restreint de locuteurs(les mots peuvent tre
prononcs de manire diffrente suivant le locuteur).

L'approche analytique, qui tire parti de la structure des mots, identifie les composantes
lmentaires (phonmes, syllabes, ). Celles-ci sont les units de base reconnatre.
Cette approche est plus gnrale que la prcdente : pour reconnatre de grands
vocabulaires, il suffit d'enregistrer dans la mmoire de la machine les principales
caractristiques des units de base.

Pour la reconnaissance de mots isols grand vocabulaire, la mthode globale ne convient plus
car la machine ncessiterait une mmoire et une puissance considrable pour respectivement
stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu
l'ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter l'utilisateur
l'ensemble des mots que l'ordinateur a en mmoire.

C'est donc la mthode analytique qui est utilise : les mots ne sont pas mmoriss dans leur
intgralit, mais traits en tant que suite de phonmes .

b) Principe gnral de la mthode globale et analytique

Le principe est le mme que ce soit pour lapproche analytique ou lapproche global, ce qui
diffrencie ces deux mthodes est lentit reconnatre : pour la premire il sagit du phonme,
pour lautre du mot.
On distingue deux phases:

La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent


plusieurs fois, pour crer en machine le dictionnaire de rfrences acoustiques. Pour
lapproche analytique, l'ordinateur demande l'utilisateur d'noncer des phrases souvent
dpourvues de toute signification, mais qui prsentent l'intrt de comporter des
successions de phonmes bien particuliers.

La phase de reconnaissance : un locuteur prononce un mot du vocabulaire. Ensuite la


reconnaissance du mot est un problme typique de reconnaissance de formes. Tout
systme de reconnaissance des formes comporte toujours les trois parties suivantes:

Un capteur permettant d'apprhender le phnomne physique considr (dans


notre cas un microphone),

Un tage de paramtrisation des formes (par exemple un analyseur spectral),

Un tage de dcision charg de classer une forme inconnue dans l'une des
catgories possibles.

c) Choisir le mot

Le signal vocal paramtr est compar aux mots du dictionnaire de rfrence. L'algorithme de
reconnaissance permet de choisir le mot le plus ressemblant, en calculant le taux de similitude
entre le mot prononc et les diverses rfrences.

Le programme va comparer le mot prononc par le locuteur avec ceux qui sont en mmoire
depuis lapprentissage : la comparaison consiste soustraire les nuances de gris des pixels du mot
prononc ceux des mots en mmoire et de rpter cette opration pour chaque ligne et colonne.
On pourra donc trouver, selon le rsultat de la comparaison, le signal le plus ressemblant.

Inconvnients : Ce calcul n'est pas simple car les mots comparer ont des dures et des rythmes
diffrents . En effet, un locuteur mme entran ne peut prononcer plusieurs fois une mme
squence vocale avec exactement le mme rythme et la mme dure. Les chelles temporelles de
deux occurrences d'un mme mot ne concident donc pas, et les formes acoustiques calcules lors
de la paramtrisation ne peuvent pas tre compares point point.

Solutions : il existe des solutions pour rsoudre le problme de l'alignement temporel entre un
mot inconnu et une rfrence. En voici trois principales :

La modlisation sous forme de modles markoviens (chapitre fondamental de la


reconnaissance qui sera dveloppe plus loin).

Une trs efficace est l algorithme de comparaison dynamique qui va mettre en


correspondance optimale les chelles temporelles des deux mots. On dmontre que cette
mthode fournit la solution optimale du problme. Elle ncessite cependant beaucoup de
calculs. Pour fonctionner en temps rel, il faut donc soit raliser des composants
spcialiss de programmation dynamique (plusieurs firmes proposent des systmes de
reconnaissance intgrant un tel processeur), soit simplifier l'algorithme initial.

Comparaison de formes par programmation dynamique o laction de lalgorithme est symbolise par les
traits entre chaque mot

La figure montre les correspondances effectues par un algorithme de programmation


dynamique entre une forme reconnatre ( le spectrogramme du chiffre " trois") et un
vocabulaire de rfrence (ici les chiffres " un ", " deux ", "trois "). Le " trois " de rfrence
est plus long (prononciation plus lente) que le " trois " reconnatre ; l'algorithme assure
une mise en correspondance optimale entre les vecteurs des spectrogrammes. En
revanche, la comparaison avec les formes de rfrence " un " et " deux ", trs diffrentes
de " trois ", est plus alatoire. La reprsentation des mots est la suivante : horizontalement
=> le temps ; verticalement => les frquences ; nuance de gris => lintensit.
Les mthodes de comparaison par programmation dynamique ont t largement utilises
pour la reconnaissance de mots isols. De plus, elles ont t tendues la reconnaissance
de squences de mots enchans sans pause entre eux.

Les modles neuromimtiques qui sont constitus par l'interconnexion d'un trs grand
nombre de processeurs lmentaires fonctionnant comme le neurone.On parle de
"neurone" car son fonctionnement est fond sur celui d'un automate propos comme une
approximation du fonctionnement du neurone biologique

SOMMAIRE

5. Principe du neurone artificiel

Avec la mthode analytique, l'ordinateur procde identiquement pour dcoder le message parl
(paramtrisation du signal, programmation dynamique, ) sauf que cette fois-ci il faut reprer
une suite de phonmes afin d'associer le mot au mot qui s'y rapporte dans le dictionnaire.

Les logiciels actuels utilises des dictionnaires de vocabulaire dpendant du type d'activit pour
minimiser le taux d'erreur.

Dans une phrase, les mots senchanent sans aucun moyen apparent de dissociation. Comment
donc dcouper un signal afin de reconnatre les diffrents mots ou phonmes qui le compose ? La
notion de stratgie est lance ...

ou de la parole
continue
a) Le premier niveau de stratgie : lire ou prdire ?

On distingue deux approches diffrentes. La premire consiste reconstituer la phrase partir du


signal en " lisant " tout simplement le signal (approche ascendante). On dcrypte le rsultat sans
le comprendre ce qui ncessite de tester chaque portion de phrase, lensemble des mots
contenus dans le vocabulaire. Le vocabulaire peut trs rapidement devenir gigantesque, et cela
prend beaucoup de temps machine.

La deuxime approche consiste prdire le mot reconnatre (approche descendante) en


implantant dans le systme une certaine intelligence. Par exemple, si la machine reconnat le mot
" monsieur ", le vocabulaire testera est les noms de personnes contenus dans sa mmoire. Cette
approche permet donc de ne pas tester tout le dictionnaire de la machine, et ainsi gagner du
temps.
On remarquera cependant quaucun systme ne fonctionne en approche uniquement descendante,
et rares sont ceux qui fonctionnent en approche uniquement ascendante. Seuls les systmes
vocabulaire trs restreint peuvent se permettre une approche uniquement ascendante.

b) Le deuxime niveau de stratgie : traitement de gauche droite ou du milieu vers les


cots ?

L'analyse du signal peut s'effectuer dans diffrents sens. L'ordre chronologique reste le plus
naturel (traitement gauche - droite). On peut aussi appliquer le traitement du milieu vers les cots
pour balayer le signal sans l'analyser compltement, afin de rechercher des mots - cls; on
accentue la recherche de quelques mots du vocabulaire pour ainsi appliquer une stratgie
descendante et combler les " trous ".

c) Le troisime niveau de stratgie : la recherche dune solution optimale

On distingue deux grand types de stratgies.


-Les stratgies totales. Elles examinent toutes les solutions possibles. La machine teste
tout son vocabulaire et attribue pour lensemble des phrases possibles un indice de probabilit de
reconnaissance. Cette stratgie est applicable pour un vocabulaire trs limit.
-Les stratgies heuristiques sont donc utilises. Parmi les plus employes, on notera

celle-ci :

Stratgie du meilleur d'abord : A chaque analyse, le systme ne retient que la solution


offrant le meilleur score de probabilit. Elle est trs simple mettre en oeuvre, car elle
neffectue quune seule analyse la fois. On gagne en temps de traitement, mais on perd
en performance. Entre cette stratgie et une stratgie totale, il existe cependant un juste
milieu.

Recherche en faisceau ou des " quelques meilleurs dabord ": Elle recherche en
parallle dans les diffrentes branches, les solutions plus probables et les conserve au fur
et mesure. Elle compare enfin les solutions partielles qui vont au mme niveau de
profondeur dans larbre de recherche. Cela est coteux en temps machine, mais on se
rapproche plus dune solution optimale, car ltendue des solutions explores est plus
vaste.
Recherche par lots de confiance : Dans les stratgies prcdentes, une phrase est suppose analyse de la
gauche vers la droite, en partant du dbut. Ici, on ne recherche que des mots - cls, dont la reconnaissance
est quasi - certaine. On obtient donc une phrase trous, avec ce quon appelle des lots de confiance, dont
on est sr de la reconnaissance. On applique enfin une des stratgies prcdentes pour dcouvrir ce quil y a
entre.

SOMMAIRE

II. ZOOM SUR QUELQUES TECHNOLOGIES


PERMETTANT LA RECONNAISSANCE
VOCALE

1. Les automates stochastiques dans la reconnaissance

a. Dfinition du modle

Les HMM sont dfinis par l'ensemble de donnes suivantes :

-Un automate de N tats : 1, 2, , N


-un alphabet Y=(y1, y2, , yT )
-les probabilits aij associes chacunes des transitions de ltat i vers ltat j.
-la probabilit b(m,i) pour lautomate dmettre un symbole yi lorsquil se trouve dans
ltat m.
-les probabilits d(m) de trouver lautomate linstant t=0 dans ltat m :
d(m)=Pr(s0=m)

La modlisation gauche-droite ci-dessus tient compte du caractre changeant du rythme des mots
prononcs.
Les boucles sur les tats modlisent un ralentissement possible du rythme et la transition a13
modlise le fait que le phonme reprsent par ltat S2 puisse tre dit rapidement et ainsi aval
lors de la phase de reconnaissance.

b. Identification de la squence dtats ayant engendre lobservation dune


squence dobservables
On cherche identifier la squence dtats S=(s1, s 2, ,sT) ayant observ la squence
Y= (y1, y2, ,yT ) ) et connaissant le modle [ a(m,m), b(m,n), d(m)].

Algorithme de Viterbi

On pose :
rt(m) = max p(s0, , s t-1, st = m; y0, , yt): (9)

Initialisation :
r0(m) = d(m)b(m, y0): (10)

Rcurrence :
On suppose qu' l'instant (t - 1) on a calcul rt-1(m) pour chacun des M tats.
On a alors

rt(m) = max rt-1(m)a(m, m)b(m, yy)


L'tat m le plus probable occup l'instant t -1 partir duquel l'automate a volu vers l'tat
M l'instant t est l'tat tel que rt1(m)a(m;m0)b(m0; yt) est maximum.

Si lon mmorise le prdcesseur de chaque tat m linstant t, alors il est enfantin den dduire
la squence dtat la plus susceptible davoir engendr la squence dobservables Y

Fin de l'algorithme :
L'tat fT retenu l'instant T est celui pour lequel r T (m) est maximum. On effectue un chanage
arrire partir de fT en se servant du prdcesseur dfini pour chacun des tats un instant t
donn.

Dans le cas de la reconnaissance de mots isols


Dans les applications de reconnaissance de mots isols ne comportant quun vocabulaire
modeste, une modlisation en mot est effectu. Cest dire quun MMC est calcul pour chacun
des mots du vocabulaire.
Le MMC global sur lequel va seffectuer la recherche de la meilleure squence dtat est ralis
en reliant lentre de chacun des MMC des mots la sortie dun MMC matrialisant un silence
et reliant la sortie de chacun des MMC des mots lentre dun MMC modlisant le silence de
fin.
Ceci est illustr par la figure ci-dessous :

Dans le cas de la parole continue

Dans ce type de reconnaissance, le vocabulaire est beaucoup trop large pour pouvoir calculer les
MMC de lensemble des mots. Ceci ncessiterait une mmoire phnomnale ainsi quun corpus
gigantesque pour la phase dapprentissage
Cest pourquoi il est privilgi les modles phontiques qui permettent de modliser des units
sonores beaucoup plus petite et partir desquels on engendre tous les mots du dictionnaire par
concatnation de ces modles dunit phontique.
c. Apprentissage et obtention des paramtres caractrisant les MMC

Soit

on peut montrer que

La probabilit

SOMMAIRE

2. Grammaire dcrivant la langue parle

Dans une architecture d'un systme reconnaissance vocale, la partie implmentant une
stratgie de recherche heuristique de la meilleure squence de mot s'appelle un dcodeur.

Il s'agit d'introduire des rgles contextuelles afin de construire une grammaire propre au
langage parl.
La premire tape consiste associer des classes aux mots du lexique (le lexique tant
l'ensemble des mots enregistrs dans la mmoire du systme.
Par exemple, [enfant = pluriel ] ou encore [noir = adjectif] ...
Exemple dattribution de classes

Pour chaque variante de prononciation donne, on lui applique un contexte, c'est dire qu'elle
n' existe dans une phrase que dans une situation bien particulire.

Pour cela, on utile la classe du mot prcdent(celui qui a t reconnu dans l'analyse) et celle
du mot suivant (le prochain mot qui sera reconnu).

Par exemple , la prononciation [lez] du mot [les] s'insre uniquement dans le contexte o le
mot suivant est de classe pluriel o voyelle initiale .
Il es donc ncessaire de s'assurer que les contextes droits et gauches de la prononciation sont
vrifis. Cependant, il n'est videmment pas possible de vrifier le contexte droit de
l'hypothse de prononciation puisque le mot suivant est encore inconnu.

En revanche il est possible de vrifier la compatibilit du contexte droit pour le mot prcdent
avec le contexte gauche de l'hypothse courante, et, de manire symtrique, le contexte
gauche de la rgle courant avec le mot prcdent.
Ainsi, toute absence de compatibilit rejetterait l'hypothse courante.

Cet algorithme mmorise la rgle qui a t utilise pour le mot prcdent afin d'en garder une
trace. En effet, les hypothses ayant pour prdcesseurs le mme mot acoustique mais ayant
utiliss des rgles diffrentes sont considres comme des mots diffrents puisqu'ils n'ont pas
le mme contexte droit.

Contextes dans le Systme Sirocco

Pour tester l'apport des contraintes contextuelles, nous avons utilise


des ressources MHATLex dveloppes l'IRIT.

MHATLex contient deux niveaux de reprsentation des transcriptions


phontiques:une reprsentation abstraite, dite phonotypique, qui
condense un ensemble de reprsentation des transcriptions phontiques
valides dans un contexte linguistique dfini.

Le passage d'un niveau a l'autre est opr par application de rgles


de rcriture, les transcriptions drives hritant hritant des
contraintes contextuelles de leur anctre.

MHATLex inclut galement diverses informations morpho_syntaxiques


(lemme associe une forme graphique, partie du discours, genre,
nombre ...), desquelles ont t drivs divers jeux de conception contextuelle.

Environ la moiti de ces classes se fonde sur des proprits morpho-synthaxiques lautre motif
des classes encodant des proprits phonologiques.

Pour contrler plus finement l'effet de l'introduction de contraintes contextuelles, les rgles
drivant les reprsentations phontiques en fonction de phnomene phonologique sous-jacent.

Ceci conduit marquer chaque transcription phontique par l'ensemble des phnomnes
linguistiques impliqus dans sa drivation. une fois ce marquage construit, trois phnomnes
agissant sur la frontire du mot sont tudis:la liaison, les collisions ou ralisations de e-muets, et
la chute des consonnes liquides finales, qui tous conduisent des transcriptions phontiques
dpendant de l'environnement linguistique dans lequel elles s'insrent.

SOMMAIRE
CONCLUSION

Si les systmes continuent dvoluer comme ils lont fait au cours des dernires annes, nul doute
que plus personne ne pourra se passer de la reconnaissance vocale, car elle reprsente, en plus de
tous les autres avantages, un confort de travail extraordinaire. La relve du clavier est assure !

Nous avons cependant souvent du mal nous faire comprendre et lon peut se demander
comment une machine, dont le principe de reconnaissance est fond sur celui de lhomme, serait
capable de faire mieux.

Les limites de la reconnaissance vocale risquent dtre rapidement atteintes.

SOMMAIRE

Vous aimerez peut-être aussi