Vous êtes sur la page 1sur 7

KADIRI Othman BELGHITI Zakariae

I.U.P G.M.I 2007/2008

Rapport de projet
Projet : Reconnaissance de la parole

Rapport de projet

I.U.P G.M.I 2007-2008

Sommaire
I - Objectif du projet .................................................................. 3 II - Le principe de fonctionnement ............................................. 3
1) Scnario du traitement ................................................................................................................................................... 3 2) Capture ........................................................................................................................................................................... 4 2) Paramtrisation .............................................................................................................................................................. 4 4) Identification .................................................................................................................................................................. 5 Reconnaissance par dformation temporelle dynamique (DTW) ................................................................................. 5 Reconnaissance par DTW et utilisation des coefficients Parcor .................................................................................... 7 Reconnaissance par DTW et utilisation des coefficients cepstraux ............................................................................... 7

III - Conclusion ........................................................................... 7

Rapport de projet

I.U.P G.M.I 2007-2008

I - Objectif du projet
Le but du projet que nous allons dcrire dans ce rapport consiste en la ralisation dune tude sur la reconnaissance de la parole, le point intressant tant limplmentation de la technique de la DTW (Dynamic Time Warping). Nous allons pour cela implmenter plusieurs mthodes, afin de les tudier en termes de performance et de qualit de reconnaissance. En France, les recherches ont dmarr vers 1970, et plusieurs laboratoires de recherches ont pu mettre aux point diffrents systmes de reconnaissance vocale avec plus ou moins de succs, ces laboratoires mettant laccent sur le support de reconnaissance : mots isols, syllabes, grands vocabulaires

II - Le principe de fonctionnement
Une fois que le son a t mis par le locuteur, il est capt par un microphone. La problmatique est de diffrencier et isoler les mots qui constituent le signal vocal car la voix humaine est constitue dune multitude de sons, souvent rptitifs, lanalyse peut alors commencer. Avant de voir le scnario du traitement, il existe une phase d'apprentissage qui consiste crer un dictionnaire de rfrence acoustique. Pour lapproche analytique, l'ordinateur demande l'utilisateur d'noncer des phrases souvent dpourvues de toute signification, mais qui prsentent l'intrt de comporter des successions de phonmes bien particuliers. Pour un systme multi locuteur, cette phase nexiste pas, cest la principale diffrence.

1) Scnario du traitement

Rapport de projet

I.U.P G.M.I 2007-2008

2) Capture
On rcupre le son partir dun microphone, grce au logiciel Audacity , avec une frquence de 4000 Hz, on lenregistre sous un format wav, pour pouvoir lutiliser dans Matlab grce la fonction wavread qui permet de le tracer sous forme dun signal vocale dans le rle de lanalyser et de le paramtrer.

2) Paramtrisation
Aprs avoir obtenue le son sous forme dun signal vocal, on va lchantillonner, cette tape consiste paramtrer le signal vocal du locuteur pour obtenir une emprunte caractristique du son, pour cela il existe plusieurs mthodes : Les mthodes spectrales : Elles sont fondes sur la dcomposition frquentielle du signal sans connaissance de sa structure. La plus utilise est celle utilisant la transforme de Fourier FFT (Fast Fourier Transform). Les mthodes didentification : Elles sont fondes sur une connaissance des mcanismes de production (ex : le conduit vocal). La plus utilise est celle base sur le codage prdictif linaire LPC.

Dans notre projet, nous allons utiliser cette deuxime mthode, base sur lanalyse LPC afin dobtenir les frquences de rsonance du conduit vocal qui correspondent lnergie maximal dans le spectre

Spectre obtenu par prdiction linaire LPC En rptant plusieurs fois cette mthode, on va obtenir lempreinte du signal. Nous allons donc, prendre des tranches de 30 ms toutes les 10 ms, et chacune de ces tranches nous allons appliquer une fentre de pondration de type Hamming en temporelle afin dobtenir cette empreinte en frquence.

Empreinte obtenue par prdiction linaire (LPC) Remarque : on a choisi de multiplier le signal par une fentre de pondration (Hamming) pour 4

Rapport de projet

I.U.P G.M.I 2007-2008

restreindre les lobes principaux de lempreinte et rduire la hauteur des lobes secondaires. Le signal suite ce traitement est sous une forme : Temps Frquence Intensit

4) Identification
Aprs lmission et le paramtrage du signal, les morceaux rcuprer vont tre compar aux mots du dictionnaire en terme d'images acoustiques. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d'un taux de similitude - au sens d'une distance dfinir - entre le mot prononc et les diverses rfrences. Ce calcul n'est pas simple, mme pour un locuteur unique, car les mots, donc les formes, comparer ont des dures et des rythmes diffrents. Donc pour rsoudre le problme de l'alignement temporel entre un mot inconnu et une rfrence on utilise une mthode trs efficace appel DTW, algorithme de comparaison dynamique.

Reconnaissance par dformation temporelle dynamique (DTW)


Objectif de la DTW : adapter au mieux lalgorithme la parole, et tient compte des compressions et extensions temporelles qui sont observs lors de la prononciation plus ou moins rapide au sein d'un mot. Donc, le principe de base est d'essayer de trouver le chemin optimal parcourir parmi l'ensemble des distances entre les vecteurs. Au dpart, nous allons utiliser le calcul de la distance entre le vecteur de lchantillon tester et lensemble de vecteurs de rfrences, en utilisant la formule de la distance euclidienne entre deux vecteurs :

Distance entre les extrmits P1 et P3 des vecteurs V1 et V3

Rapport de projet

I.U.P G.M.I 2007-2008

Ensuite nous allons crer une matrice M de dimension (N * J(k)) avec : N : nombre de vecteurs dans la squence de test J(k) : nombre de vecteur dans la squence de rfrence avec k le nombre denregistrement dans le dictionnaire.

A chaque entre (n, j) de cette matrice on y associe la distance euclidienne d(xn, yjk) dfinie comme prcdemment. Pour rechercher la meilleure distance D(X, Yk) entre la squence de test X et la squence de rfrence Yk, il suffit alors de rechercher le "chemin" dans cette matrice M de faon minimiser la somme des distances locales rencontres pour aller d'un point initial (1,1), correspondant au dbut des deux squences, un point final (N,J(k)), correspondant la fin des deux squences. On peut montrer que la distance optimale est obtenue en calculant, pour chaque entre (n, j) la distance accumule D(n, j) correspondant la distance optimale que l'on obtient en comparant les deux sous-squences correspondant aux n premiers vecteurs de test et aux j premiers vecteurs de rfrence. En vertu du principe de programmation dynamique, on peut alors facilement montrer que cette distance peut se calculer en utilisant la rcurrence suivante :

D(n, j) = d(n, j) + min(p(n, j)) {D(p(n, j))}


avec : - p(n,j) : ensemble des prdcesseurs possibles de l'lment (n,j) - D(n,j) : distance globale - d(n,j) : distance locale (euclidienne)

Visualisation du cheminement de lalignement temporel pour des formes de la base de rfrence.

Comme le montre le schma de la figure, la forme choisie sera celle pour laquelle le chemin de mise en correspondance est le plus court, cette taille minimale marquant le peu de diffrences entre la forme analyser et la forme de rfrence. Enfin le signal choisi parmi ceux du dictionnaire sera celui qui correspond au chemin le plus court, et en arrivant cette partie, on atteint le but de la reconnaissance de la parole en utilisant lalgorithme de la DTW.

Rapport de projet

I.U.P G.M.I 2007-2008

Reconnaissance par DTW et utilisation des coefficients Parcor


Dans le but d'amliorer la qualit du processus de reconnaissance, on va remplacer les coefficients ai par les ki qui sont en fait les coefficients Parcor (pour corrlation partielle). On va donc ainsi modifier la mthode de reprsentation de l'information. Pour cela, nous utiliserons la fonction " LPCAR2RF" que nous avons trouv dans le site de Matlab. On calculera ensuite les distances par le DTW de manire identique ce qui a t ralis dans le paragraphe prcdent. Les coefficients de Parcor prsentent l'avantage d'avoir une plus petite sensibilit aux carts que les ai. Ils proviennent de l'algorithme de Levinson et peuvent tre interprts physiquement comme le quotient de surfaces de tubes acoustiques en srie formant le conduit vocal. Ces ki ont plusieurs avantages. Tout d'abord ils doivent tre borns, entre +1 et -1. C'est une condition ncessaire et suffisante de stabilit du filtre AR . Ensuite, une variation de leur valeur (tout en restant dans les limites de stabilit) modifie peu la transmittance du filtre AR. Enfin, contrairement aux ai ils ont une signification physique. Ils reprsentent les rapports de surface entre les p tubes successifs qui simulent le conduit vocal dans le modle LPC. Il existe une correspondance biunivoque entre ce type de coefficients (ki) et ceux de prdiction (ai) et peuvent donc tre calculs partir de ceux-ci et inversement. Tout ceci a pour consquence d'amliorer la qualit de la reconnaissance quand elle est base sur le calcul des ki puisque que l'on reprsente l'information sous une meilleure forme.
3

Reconnaissance par DTW et utilisation des coefficients cepstraux


L'utilisation des coefficients cepstraux qui fait apparatre une nette amlioration de la reconnaissance de la parole en prsence de bruit. Cest pour cela que nous avons choisi de travailler avec ces coefficients dans notre projet. On remplace les coefficients ai par les coefficients cepstraux, savoir les Ci. Le cepstre est bas sur une connaissance du mcanisme de production de la parole. On part de lhypothse que la suite d'chantillons constituant le signal vocal est le rsultat de la convolution du signal de la source par le filtre correspondant au conduit. Il est possible, par un filtrage temporel (liftrage), de sparer dans le signal, la contribution de la source de celle du conduit. Les premiers coefficients cepstraux contiennent linformation relative au conduit. Cette contribution devient ngligeable partir dun chantillon n0. Les pics priodiques visibles au-del de n0, refltent les impulsions de la source. On effectuera sous matlab une conversion des paramtres Ai vers les paramtres Ci l'aide de la fonction " LPCAR2CC". On calculera ensuite les distances cumules par le DTW. Ces coefficients permettent d'amliorer nettement la qualit de la reconnaissance.

III - Conclusion
Ce travail a permis de visualiser la mthode DTW de reconnaissance vocale, d'estimer sa qualit et de pouvoir visualiser quelles taient leurs sensibilits au bruit. On constate que parmi ces mthodes, une seule semble pouvoir offrir un service de meilleure qualit. Il s'agit de la DTW. Ce projet a galement permis de constater que ces techniques pouvaient tre apprhendes au travers d'un outil de dveloppement simple tel que Matlab. Il galement clair que si nos blancs ont t manuellement retirs, dans une application relle, il faudrait prvoir la mise en place d'un dtecteur d'instants de parole. Dans un processus temps rel, il faudra tenir compte de la charge de calcul leve engendre par le calcul de la DTW. Il faudrait donc faire appel des langages plus performants tel que le C pour permettre d'embarquer de tels algorithmes dans les GSM par exemple.

Vous aimerez peut-être aussi