Académique Documents
Professionnel Documents
Culture Documents
Reconnaissance
Vocale
I. LA RECONNAISSANCE VOCALE :
VISION D ENSEMBLE
1 . Prsentation
2 . La parole : cest quoi dj ?
3 . Paramtrisation
4 . Dcodage acoustico - phontique
a) Les techniques
CONCLUSION
INTRODUCTION
Ssame, ouvre-toi !
Cette phrase mythique nest pas sans signification, car en dpit du trsor cach derrire la porte
de pierre, une autre dcouverte souvre nous :
Celle-ci ne cesse de stendre dans nos foyer en dpit de ltonnement quavaient nos chres
petites ttes blonde en regardant bioman donner des ordres son vaisseau.
Nous sommes cependant en dessous de la fiction tant donn la difficult que nous avons encore
a analyser un signal vocal compltement alatoire. Si dans un tlphone, on coute les sons
qumettent un Minitel, un fax ou un micro-ordinateur pour changer des donnes, ils se
prsentent nous comme un sifflement suraigu bourr de parasites : le message semble
parfaitement inintelligible. A linverse, alors que notre propre langage nous parat simple et clair,
la machine, elle, ny dtecte rien de cohrent.
SOMMAIRE
2 . Origine
C'est dans les annes 40 au USA, que les premires tentatives de cration d'une machine capable
de comprendre le discours humain eurent lieu. Leurs principaux objectifs taient d'interprter les
messages russes intercepts.
SOMMAIRE
3 . Quelques applications
- La messagerie
SOMMAIRE
La reprsentation de symboles en discours nest pas si simple, dautant que diffrents symboles
peuvent rsulter de sons similaires. Dautres problmes peuvent se poser : les sons individuels
peuvent varier en fonction des sons qui suivent et qui prcdent.
La vitesse de traitement de la parole ne saligne pas encore avec celle dun tre humain : celle-ci
est de 180 mots par minute, alors que des systmes de reconnaissance vocale bien entrans
traitent au alentour de 130 mots par minute. Et l encore, l enrolling (entranement) qui
consiste lire un certain nombre de phrases de base en nombre suffisant pour crer un profil
dutilisateur de base, peut donner des performances mdiocres sil est mal tabli.
SOMMAIRE
5 . Historique
1968 : reconnaissance de mots isols par des systmes implants sur gros ordinateurs
(jusqu 500 mots)
1983 : premire mondiale de commande vocale bord d?un avion de chasse en France
SOMMAIRE
I. LA RECONNAISSANCE
VOCALE :
VISION DENSEMBLE
1 . Prsentation
Situe entre celui du signal numrique et du langage, son traitement sest fortement dvelopp
paralllement au dveloppement des moyens et des techniques de tlcommunications. Sa
particularit, tient du rle que joue le cerveau humain dans la production et la comprhension de
la parole, par l'emploi automatique de diverses fonctions.
Ltude des mcanismes de phonation isole la parole de ce qui nen est pas, et l'tude des
mcanismes daudition et de perception dit ce qui est rellement peru dans le signal de parole.
Perception et Comprhension influence la production de la parole : on ne parle que dans la
mesure o lon sentend et se comprend soi-mme;
la complexit du signal qui en dcoule sen ressent forcment !
Sil nest pas de parole sans cerveau humain pour lentendre, et la comprendre, les techniques
modernes de traitement de la parole tendent produire des systmes automatiques et plus
prcisment les reconnaisseurs, qui ont pour mission de dcoder linformation porte par le
signal vocal partir des donnes fournies par lanalyse.
SOMMAIRE
Il peut alors tre soumis un ensemble de traitements statistiques qui visent mettre en vidence
les traits acoustiques.
- Le son mis par le locuteur est capt par un microphone.
- Le signal vocal est numris laide dun convertisseur analogique-numerique
- Comme la voix humaine est constitue dune multitude de sons, souvent rptitifs, le
signal peut tre compress pour rduire le temps de traitement et lencombrement en
mmoire.
- Lanalyse peut alors commencer ...
SOMMAIRE
3 . Paramtrisation
La paramtrisation du signal vocal seffectue en deux temps et permet dobtenir une empreinte
caractristique du son, sur laquelle on pourra ensuite traiter la reconnaissance ...
Lchantillonnage transforme le signal temps continu x(t) en signal temps discret x(n)
dfini aux instants dchantillonnage, multiples entiers de la priode dchantillonnage (inverse
de la frquence dchantillonnage). Pour le signal vocal, il faut choisir une frquence satisfaisant
peu prs le thorme de Shannon.(24kHZ).
thorme de Shannon : L'information vhicule par un signal dont le spectre est support born,
n'est pas modifie par l'opration d'chantillonnage, condition que la frquence
d'chantillonnage soit au moins deux fois plus grande que la plus grande frquence contenue
dans le signal.
Parmi les valeurs possibles pour les chantillons x(n), la quantification ne retient quun
nombre fini 2b de valeurs (b tant le nombre de bits de la quantification), espaces du pas de
quantification q. Le signal numrique rsultant est not x(n). Une quantification de bonne qualit
requiert en gnral 16 bits.
Audiogramme de signaux de parole.
Il est souvent intressant de reprsenter lvolution temporelle du spectre dun signal, sous la
forme dun spectrogramme. Lamplitude du spectre y apparat sous la forme de niveaux de gris
dans un diagramme en deux dimensions temps - frquence. Ils mettent en vidence lenveloppe
spectrale du signal, et permettent donc de visualiser lvolution temporelle des formants.
Elles sont fondes sur la dcomposition frquentielle du signal sans tenir compte de sa structure
fine.
La plus connue tant : Fast Fourier Transform ( FFT ). Tout son est la superposition de
plusieurs ondes sinusodales. Grce la FFT , on peut isoler les diffrentes frquences qui le
composent.
La transforme de Fourier dite " court terme", est obtenue en extrayant de laudiogramme une
trentaine de millisecondes de signal vocal et en effectuant un transforme de Fourier sur ces
chantillons. Le rsultat de cette transformation mathmatique est souvent prsent dans un
graphique qui donne, en fonction de la frquence, lamplitude des composantes prsentes dans le
signal analys.
Elles reposent sur un modle. Celui-ci possde un ensemble de paramtres numriques, dont les
niveaux de variation reprsentent l'ensemble des signaux couverts par le modle. Pour un signal
et un modle donn, l'analyse estime les paramtres du modle pour lui faire correspondre le
signal analys. Un algorithme d'analyse cherche minimiser la diffrence, appele erreur de
modlisation, entre le signal original et celui qui serait produit par le modle s'il tait utilis en
tant que synthtiseur .
Le modle prdictif linaire (LPC : Linear Predictive Coding) est le plus connu.
De la mme faon que la parole nat du passage travers notre conduit vocal dun signal
dexcitation cr par les poumons et les cordes vocales, elle peut tre modlis par le passage
d'un signal dexcitation numrique travers un filtre numrique rcursif.
filtre rcursif : la sortie dpend de l'entre et de la valeur prcdente de la sortie.
En effet, elles correspondent au maximum dnergie dans le spectre. En rptant cette mthode
plusieurs fois, on obtient lempreinte du signal.
Dautres mthodes existent, mais elles sont cependant moins employes. Les tendances actuelles
visent amliorer lanalyse fine des sons.
Le codage vectoriel permet de diminuer la quantit dinformations ncessaires pour coder un
mot (et donc lespace0. mmoire), en sappuyant sur un dictionnaire de spectres instantans .
Une fois que lon a obtenu lempreinte caractristique du signal, on peut passer ltape
suivante, qui est le dcodage acoustico-phontique ...
SOMMAIRE
Il sert dcoder le signal acoustique en units linguistiques (phonmes, syllabes, les mots).
phonme: lment sonore dun langage donn, dtermin par les rapports quil entretient avec les
autres sons de ce langage.
Par exemple, le mot " cou " est form des phonmes " keu " et " ou ". Il en existe une trentaine en
franais. Cette notion est assez importante en reconnaissance vocale.
- Si des units longues telles que les syllabes ou les mots sont choisies, la reconnaissance
en elle-mme sera facilite mais leur identification est difficile.
- Si des units courtes sont choisies, comme les phones (sons lmentaires), la localisation
sera plus facile mais leur exploitation ncessitera de les assembler en units plus larges.
Les phonmes constituent un bon compromis, leur nombre est limit : ils sont donc souvent
utiliss. Mais le choix dpend galement du type de reconnaissance effectue : mots isols ou
parole continue. Cela sera abord plus loin.
Une fois que tout cela a t effectu, la reconnaissance en elle-mme peut commencer, que ce soit pour des mots
isols ou pour de la parole continue
Retrouver les phonmes et les mots dans un signal vocal est une relle difficult pour la
reconnaissance vocale. De ce fait, sparer tous les mots prononcs par des silences permet de
simplifier le problme.
a) Les techniques
Deux approches :
Dans l'approche globale, l'unit de base est le mot (donc non dcomposable). Cette
mthode fournit une image acoustique de chaque mots identifier et permet donc
d'viter l'influence mutuelle des sons l'intrieur des mots. Elle se limite aux petits
vocabulaires prononcs par un nombre restreint de locuteurs(les mots peuvent tre
prononcs de manire diffrente suivant le locuteur).
L'approche analytique, qui tire parti de la structure des mots, identifie les composantes
lmentaires (phonmes, syllabes, ). Celles-ci sont les units de base reconnatre.
Cette approche est plus gnrale que la prcdente : pour reconnatre de grands
vocabulaires, il suffit d'enregistrer dans la mmoire de la machine les principales
caractristiques des units de base.
Pour la reconnaissance de mots isols grand vocabulaire, la mthode globale ne convient plus
car la machine ncessiterait une mmoire et une puissance considrable pour respectivement
stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu
l'ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter l'utilisateur
l'ensemble des mots que l'ordinateur a en mmoire.
C'est donc la mthode analytique qui est utilise : les mots ne sont pas mmoriss dans leur
intgralit, mais traits en tant que suite de phonmes .
Le principe est le mme que ce soit pour lapproche analytique ou lapproche global, ce qui
diffrencie ces deux mthodes est lentit reconnatre : pour la premire il sagit du phonme,
pour lautre du mot.
On distingue deux phases:
Un tage de dcision charg de classer une forme inconnue dans l'une des
catgories possibles.
c) Choisir le mot
Le signal vocal paramtr est compar aux mots du dictionnaire de rfrence. L'algorithme de
reconnaissance permet de choisir le mot le plus ressemblant, en calculant le taux de similitude
entre le mot prononc et les diverses rfrences.
Le programme va comparer le mot prononc par le locuteur avec ceux qui sont en mmoire
depuis lapprentissage : la comparaison consiste soustraire les nuances de gris des pixels du mot
prononc ceux des mots en mmoire et de rpter cette opration pour chaque ligne et colonne.
On pourra donc trouver, selon le rsultat de la comparaison, le signal le plus ressemblant.
Inconvnients : Ce calcul n'est pas simple car les mots comparer ont des dures et des rythmes
diffrents . En effet, un locuteur mme entran ne peut prononcer plusieurs fois une mme
squence vocale avec exactement le mme rythme et la mme dure. Les chelles temporelles de
deux occurrences d'un mme mot ne concident donc pas, et les formes acoustiques calcules lors
de la paramtrisation ne peuvent pas tre compares point point.
Solutions : il existe des solutions pour rsoudre le problme de l'alignement temporel entre un
mot inconnu et une rfrence. En voici trois principales :
Comparaison de formes par programmation dynamique o laction de lalgorithme est symbolise par les
traits entre chaque mot
Les modles neuromimtiques qui sont constitus par l'interconnexion d'un trs grand
nombre de processeurs lmentaires fonctionnant comme le neurone.On parle de
"neurone" car son fonctionnement est fond sur celui d'un automate propos comme une
approximation du fonctionnement du neurone biologique
SOMMAIRE
Avec la mthode analytique, l'ordinateur procde identiquement pour dcoder le message parl
(paramtrisation du signal, programmation dynamique, ) sauf que cette fois-ci il faut reprer
une suite de phonmes afin d'associer le mot au mot qui s'y rapporte dans le dictionnaire.
Les logiciels actuels utilises des dictionnaires de vocabulaire dpendant du type d'activit pour
minimiser le taux d'erreur.
Dans une phrase, les mots senchanent sans aucun moyen apparent de dissociation. Comment
donc dcouper un signal afin de reconnatre les diffrents mots ou phonmes qui le compose ? La
notion de stratgie est lance ...
ou de la parole
continue
a) Le premier niveau de stratgie : lire ou prdire ?
L'analyse du signal peut s'effectuer dans diffrents sens. L'ordre chronologique reste le plus
naturel (traitement gauche - droite). On peut aussi appliquer le traitement du milieu vers les cots
pour balayer le signal sans l'analyser compltement, afin de rechercher des mots - cls; on
accentue la recherche de quelques mots du vocabulaire pour ainsi appliquer une stratgie
descendante et combler les " trous ".
celle-ci :
Recherche en faisceau ou des " quelques meilleurs dabord ": Elle recherche en
parallle dans les diffrentes branches, les solutions plus probables et les conserve au fur
et mesure. Elle compare enfin les solutions partielles qui vont au mme niveau de
profondeur dans larbre de recherche. Cela est coteux en temps machine, mais on se
rapproche plus dune solution optimale, car ltendue des solutions explores est plus
vaste.
Recherche par lots de confiance : Dans les stratgies prcdentes, une phrase est suppose analyse de la
gauche vers la droite, en partant du dbut. Ici, on ne recherche que des mots - cls, dont la reconnaissance
est quasi - certaine. On obtient donc une phrase trous, avec ce quon appelle des lots de confiance, dont
on est sr de la reconnaissance. On applique enfin une des stratgies prcdentes pour dcouvrir ce quil y a
entre.
SOMMAIRE
a. Dfinition du modle
La modlisation gauche-droite ci-dessus tient compte du caractre changeant du rythme des mots
prononcs.
Les boucles sur les tats modlisent un ralentissement possible du rythme et la transition a13
modlise le fait que le phonme reprsent par ltat S2 puisse tre dit rapidement et ainsi aval
lors de la phase de reconnaissance.
Algorithme de Viterbi
On pose :
rt(m) = max p(s0, , s t-1, st = m; y0, , yt): (9)
Initialisation :
r0(m) = d(m)b(m, y0): (10)
Rcurrence :
On suppose qu' l'instant (t - 1) on a calcul rt-1(m) pour chacun des M tats.
On a alors
Si lon mmorise le prdcesseur de chaque tat m linstant t, alors il est enfantin den dduire
la squence dtat la plus susceptible davoir engendr la squence dobservables Y
Fin de l'algorithme :
L'tat fT retenu l'instant T est celui pour lequel r T (m) est maximum. On effectue un chanage
arrire partir de fT en se servant du prdcesseur dfini pour chacun des tats un instant t
donn.
Dans ce type de reconnaissance, le vocabulaire est beaucoup trop large pour pouvoir calculer les
MMC de lensemble des mots. Ceci ncessiterait une mmoire phnomnale ainsi quun corpus
gigantesque pour la phase dapprentissage
Cest pourquoi il est privilgi les modles phontiques qui permettent de modliser des units
sonores beaucoup plus petite et partir desquels on engendre tous les mots du dictionnaire par
concatnation de ces modles dunit phontique.
c. Apprentissage et obtention des paramtres caractrisant les MMC
Soit
La probabilit
SOMMAIRE
Dans une architecture d'un systme reconnaissance vocale, la partie implmentant une
stratgie de recherche heuristique de la meilleure squence de mot s'appelle un dcodeur.
Il s'agit d'introduire des rgles contextuelles afin de construire une grammaire propre au
langage parl.
La premire tape consiste associer des classes aux mots du lexique (le lexique tant
l'ensemble des mots enregistrs dans la mmoire du systme.
Par exemple, [enfant = pluriel ] ou encore [noir = adjectif] ...
Exemple dattribution de classes
Pour chaque variante de prononciation donne, on lui applique un contexte, c'est dire qu'elle
n' existe dans une phrase que dans une situation bien particulire.
Pour cela, on utile la classe du mot prcdent(celui qui a t reconnu dans l'analyse) et celle
du mot suivant (le prochain mot qui sera reconnu).
Par exemple , la prononciation [lez] du mot [les] s'insre uniquement dans le contexte o le
mot suivant est de classe pluriel o voyelle initiale .
Il es donc ncessaire de s'assurer que les contextes droits et gauches de la prononciation sont
vrifis. Cependant, il n'est videmment pas possible de vrifier le contexte droit de
l'hypothse de prononciation puisque le mot suivant est encore inconnu.
En revanche il est possible de vrifier la compatibilit du contexte droit pour le mot prcdent
avec le contexte gauche de l'hypothse courante, et, de manire symtrique, le contexte
gauche de la rgle courant avec le mot prcdent.
Ainsi, toute absence de compatibilit rejetterait l'hypothse courante.
Cet algorithme mmorise la rgle qui a t utilise pour le mot prcdent afin d'en garder une
trace. En effet, les hypothses ayant pour prdcesseurs le mme mot acoustique mais ayant
utiliss des rgles diffrentes sont considres comme des mots diffrents puisqu'ils n'ont pas
le mme contexte droit.
Environ la moiti de ces classes se fonde sur des proprits morpho-synthaxiques lautre motif
des classes encodant des proprits phonologiques.
Pour contrler plus finement l'effet de l'introduction de contraintes contextuelles, les rgles
drivant les reprsentations phontiques en fonction de phnomene phonologique sous-jacent.
Ceci conduit marquer chaque transcription phontique par l'ensemble des phnomnes
linguistiques impliqus dans sa drivation. une fois ce marquage construit, trois phnomnes
agissant sur la frontire du mot sont tudis:la liaison, les collisions ou ralisations de e-muets, et
la chute des consonnes liquides finales, qui tous conduisent des transcriptions phontiques
dpendant de l'environnement linguistique dans lequel elles s'insrent.
SOMMAIRE
CONCLUSION
Si les systmes continuent dvoluer comme ils lont fait au cours des dernires annes, nul doute
que plus personne ne pourra se passer de la reconnaissance vocale, car elle reprsente, en plus de
tous les autres avantages, un confort de travail extraordinaire. La relve du clavier est assure !
Nous avons cependant souvent du mal nous faire comprendre et lon peut se demander
comment une machine, dont le principe de reconnaissance est fond sur celui de lhomme, serait
capable de faire mieux.
SOMMAIRE