Académique Documents
Professionnel Documents
Culture Documents
Rapport de projet
Projet : Reconnaissance de la parole
Rapport de projet
Sommaire
I - Objectif du projet .................................................................. 3 II - Le principe de fonctionnement ............................................. 3
1) Scnario du traitement ................................................................................................................................................... 3 2) Capture ........................................................................................................................................................................... 4 2) Paramtrisation .............................................................................................................................................................. 4 4) Identification .................................................................................................................................................................. 5 Reconnaissance par dformation temporelle dynamique (DTW) ................................................................................. 5 Reconnaissance par DTW et utilisation des coefficients Parcor .................................................................................... 7 Reconnaissance par DTW et utilisation des coefficients cepstraux ............................................................................... 7
Rapport de projet
I - Objectif du projet
Le but du projet que nous allons dcrire dans ce rapport consiste en la ralisation dune tude sur la reconnaissance de la parole, le point intressant tant limplmentation de la technique de la DTW (Dynamic Time Warping). Nous allons pour cela implmenter plusieurs mthodes, afin de les tudier en termes de performance et de qualit de reconnaissance. En France, les recherches ont dmarr vers 1970, et plusieurs laboratoires de recherches ont pu mettre aux point diffrents systmes de reconnaissance vocale avec plus ou moins de succs, ces laboratoires mettant laccent sur le support de reconnaissance : mots isols, syllabes, grands vocabulaires
II - Le principe de fonctionnement
Une fois que le son a t mis par le locuteur, il est capt par un microphone. La problmatique est de diffrencier et isoler les mots qui constituent le signal vocal car la voix humaine est constitue dune multitude de sons, souvent rptitifs, lanalyse peut alors commencer. Avant de voir le scnario du traitement, il existe une phase d'apprentissage qui consiste crer un dictionnaire de rfrence acoustique. Pour lapproche analytique, l'ordinateur demande l'utilisateur d'noncer des phrases souvent dpourvues de toute signification, mais qui prsentent l'intrt de comporter des successions de phonmes bien particuliers. Pour un systme multi locuteur, cette phase nexiste pas, cest la principale diffrence.
1) Scnario du traitement
Rapport de projet
2) Capture
On rcupre le son partir dun microphone, grce au logiciel Audacity , avec une frquence de 4000 Hz, on lenregistre sous un format wav, pour pouvoir lutiliser dans Matlab grce la fonction wavread qui permet de le tracer sous forme dun signal vocale dans le rle de lanalyser et de le paramtrer.
2) Paramtrisation
Aprs avoir obtenue le son sous forme dun signal vocal, on va lchantillonner, cette tape consiste paramtrer le signal vocal du locuteur pour obtenir une emprunte caractristique du son, pour cela il existe plusieurs mthodes : Les mthodes spectrales : Elles sont fondes sur la dcomposition frquentielle du signal sans connaissance de sa structure. La plus utilise est celle utilisant la transforme de Fourier FFT (Fast Fourier Transform). Les mthodes didentification : Elles sont fondes sur une connaissance des mcanismes de production (ex : le conduit vocal). La plus utilise est celle base sur le codage prdictif linaire LPC.
Dans notre projet, nous allons utiliser cette deuxime mthode, base sur lanalyse LPC afin dobtenir les frquences de rsonance du conduit vocal qui correspondent lnergie maximal dans le spectre
Spectre obtenu par prdiction linaire LPC En rptant plusieurs fois cette mthode, on va obtenir lempreinte du signal. Nous allons donc, prendre des tranches de 30 ms toutes les 10 ms, et chacune de ces tranches nous allons appliquer une fentre de pondration de type Hamming en temporelle afin dobtenir cette empreinte en frquence.
Empreinte obtenue par prdiction linaire (LPC) Remarque : on a choisi de multiplier le signal par une fentre de pondration (Hamming) pour 4
Rapport de projet
restreindre les lobes principaux de lempreinte et rduire la hauteur des lobes secondaires. Le signal suite ce traitement est sous une forme : Temps Frquence Intensit
4) Identification
Aprs lmission et le paramtrage du signal, les morceaux rcuprer vont tre compar aux mots du dictionnaire en terme d'images acoustiques. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d'un taux de similitude - au sens d'une distance dfinir - entre le mot prononc et les diverses rfrences. Ce calcul n'est pas simple, mme pour un locuteur unique, car les mots, donc les formes, comparer ont des dures et des rythmes diffrents. Donc pour rsoudre le problme de l'alignement temporel entre un mot inconnu et une rfrence on utilise une mthode trs efficace appel DTW, algorithme de comparaison dynamique.
Rapport de projet
Ensuite nous allons crer une matrice M de dimension (N * J(k)) avec : N : nombre de vecteurs dans la squence de test J(k) : nombre de vecteur dans la squence de rfrence avec k le nombre denregistrement dans le dictionnaire.
A chaque entre (n, j) de cette matrice on y associe la distance euclidienne d(xn, yjk) dfinie comme prcdemment. Pour rechercher la meilleure distance D(X, Yk) entre la squence de test X et la squence de rfrence Yk, il suffit alors de rechercher le "chemin" dans cette matrice M de faon minimiser la somme des distances locales rencontres pour aller d'un point initial (1,1), correspondant au dbut des deux squences, un point final (N,J(k)), correspondant la fin des deux squences. On peut montrer que la distance optimale est obtenue en calculant, pour chaque entre (n, j) la distance accumule D(n, j) correspondant la distance optimale que l'on obtient en comparant les deux sous-squences correspondant aux n premiers vecteurs de test et aux j premiers vecteurs de rfrence. En vertu du principe de programmation dynamique, on peut alors facilement montrer que cette distance peut se calculer en utilisant la rcurrence suivante :
Comme le montre le schma de la figure, la forme choisie sera celle pour laquelle le chemin de mise en correspondance est le plus court, cette taille minimale marquant le peu de diffrences entre la forme analyser et la forme de rfrence. Enfin le signal choisi parmi ceux du dictionnaire sera celui qui correspond au chemin le plus court, et en arrivant cette partie, on atteint le but de la reconnaissance de la parole en utilisant lalgorithme de la DTW.
Rapport de projet
III - Conclusion
Ce travail a permis de visualiser la mthode DTW de reconnaissance vocale, d'estimer sa qualit et de pouvoir visualiser quelles taient leurs sensibilits au bruit. On constate que parmi ces mthodes, une seule semble pouvoir offrir un service de meilleure qualit. Il s'agit de la DTW. Ce projet a galement permis de constater que ces techniques pouvaient tre apprhendes au travers d'un outil de dveloppement simple tel que Matlab. Il galement clair que si nos blancs ont t manuellement retirs, dans une application relle, il faudrait prvoir la mise en place d'un dtecteur d'instants de parole. Dans un processus temps rel, il faudra tenir compte de la charge de calcul leve engendre par le calcul de la DTW. Il faudrait donc faire appel des langages plus performants tel que le C pour permettre d'embarquer de tels algorithmes dans les GSM par exemple.