Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Abstract— la reconnaissance de parole est une technique perception humaine des sons (qui est non-linéaire). [3] Cette
informatique qui permet la communication entre l'homme et la relation est donnée par la formule (1).
machine où les hommes se sentiront plus confortables pour télé f
opérer un robot, dans ce papier ,on présente une approche en mel ( f ) 2595.log(1 ) (1)
utilisant les modèles de Markov caché HMM (Hidden Markov 700
Model ) utilisée sous forme des outils de Markov caché HTK Avec f la fréquence en Hz
(Hidden Toolkit )appliquée sur les commandes de robot, pour ce
faire, une modélisation acoustique appliquée sur ces mots pour De plus, dans le but de rendre la reconnaissance plus robuste,
extraire les information pertinentes Ensuite ces paramètres
notamment au bruit, on rajoute souvent au vecteur la vitesse ∆
seront utilisés dans les phases ; d'apprentissage et de
reconnaissance. Le but d'utiliser le HTK car il est plus et l’accélération ∆2 de ces MFCCs (c’est-à-dire les dérivées et
performant afin d'obtenir un taux de reconnaissance élevé et l'un dérivées secondes du vecteur). On peut également y rajouter un
des avantages de ce outil est qu’il peut être facilement adapté à terme d’énergie E qui lui aussi sera dérivé autant que les
une nouvelle liste de commandes. MFCCs. Enfin, divers post-traitements des MFCCs sont
possibles, tels une normalisation de l’énergie, avec là encore
Mots clé—HMM : Hidden Markov Model, HTK : Hidden comme but de supprimer ou rendre négligeable des bruits de
Toolkit, MFCC : Mel-Frequency Cepstral Coefficients, fond inintéressant pour la reconnaissance [2].
Reconnaissance vocale.
INTRODUCTION
La parole étant le mode de communication privilégié de
l’homme, il est indispensable d’équiper un robot d’assistance
d’un système lui permettant d’effectuer des tâches simples ou
complexes en suivant les instructions orales de son utilisateur.
Les modèles HMMs peuvent être utilisés à plusieurs niveaux
linguistiques pour modéliser la parole (phonèmes, syllabes,
mots,…). L’unité la plus naturelle pour effectuer la
reconnaissance de la parole est le mot. Les modèles de mots
permettent une bonne modélisation de la coarticulation à
l’intérieur du mot. Les HMMs bénéficient d’algorithmes
d’entraînement et de décodage performants [9].
PRETRAITEMENTS
Avant de pouvoir modéliser un signal, quel qu’il soit, une
première étape indispensable consiste à effectuer divers
prétraitements afin d’extraire du signal des vecteurs de données Fig.1 : Étapes de calcul de MFCC
pertinentes capables d’alimenter un algorithme de
reconnaissance. Ces traitements standards en traitement de MODELISATION PAR HMM
signaux sonores (échantillonnage, transformée de Fourrier
rapide) Fig.1, puis plus spécifiques à la parole sont effectués La modélisation la plus utilisée, car la plus efficace jusqu’à
afin d’obtenir une séquence de vecteurs acoustiques qui aujourd’hui, en reconnaissance de la parole est le modèle de
forment l’entrée de l’algorithme de reconnaissance. Ces Markov caché. Les HMMs sont utilisés pour modéliser les
vecteurs sont appelés MFCCs "Mel Frequency Cepstrum unités de base d’un système de reconnaissance. En
Coefficient" en référence à l’échelle de Mel qui est utilisée ici reconnaissance de la parole [10], ces unités peuvent être : des
plutôt qu’une échelle fréquentielle classique car basée sur la mots, ou des phonèmes.
1. Définition des HMM : faire l’apprentissage (train). Une autre base a été enregistrée et
constituée de 400 mots pour faire les tests (test).
Un modèle de Markov caché (ou HMM, pour "Hidden
Markov Model") [5] [6] est un modèle temporel constitué de L’implémentation de notre application a été réalisée sous
nœuds cachés et de nœuds d’observation. l’environnement Linux (ubuntu12.04) avec les outils de HTK
Pour chaque mot, on définira le modèle "gauche-droit" qui ne et la programmation en C Shell. Le signal de parole est
permettent pas de "retour en arrière"(si i>j, aij=0). Pour cela, enregistré par le biais d’un microphone unidirectionnel, le
on donnera la topologie de chaque modèle associé, le nombre signal est filtré et échantillonné au niveau de carte son à une
d'états et les probabilités de transition entre les états. Nous fréquence d’échantillonnage de 11025 Hz. La quantification
avons choisi N=5 comme nombre d'état par HMM [6]. Tel s’effectue sur 8 bits.
que présenté dans la Fig.2. Ces commandes permettent au bras manipulateur (robot
mentor) d’exécuter des actions relatives à chaque commande :
Haut : Le bras se met en position haut
Bas : Le bras se met en position bas
Ferme : La pince se ferme
Ouvre : La pince s’ouvre
Monte : la pince monte vers le haut
Descend : la pince descend vers le bas
Droite : le bras tourne de gauche vers droite
Gauche : le bras tourne de droite vers gauche
Tourne : la pince tourne de 90 deg
Inverse : la pince tourne en inverse de 90 deg
1. Para métrisation :
Le tableau n°1 indique que les dérivés primaires et
secondaires fournissent des informations supplémentaires afin
Fig.2 : Modèle de HMM gauche droite d’augmenter le taux de reconnaissance. Ces paramètres sont
calculables par le biais d’une fonction dont dispose l’outil
Chaque mot est représenté par une séquence de vecteurs ou HTK. Cette fonction est HCOPY qui prend en entrée un fichier
d’observations O défini par : audio et calcule ses coefficients suivant une configuration de la
O=O1, O2, …, OT (2) taille des fenêtres de cepstre le type de fenêtrage et d’autres
Ot est le vecteur observé au temps t paramètres introduits par l’utilisateur, cette procédure est
T est le nombre d’observations (nombre de vecteurs). présentée dans la Fig.3.
6. Evaluation de la performance :
Le test de la performance de reconnaissance d’un système ASR
doit être mesuré sur un corpus de données différent du corpus
d’apprentissage, un corpus de test.
REFERENCES
CONCLUSION
[1] School of Computing, National University of Singapore, January 2010
Ce document a présenté une interface Homme-machine pour
commander un robot par la voix qui se base sur la [2] S. Young and al. The HTK Book (for HTK version 3.4). Cambridge
reconnaissance de la parole réalisée avec les outils HTK. Des University Engineering Department, December 2006.
http://htk.eng.cam.ac.uk
essais ont été effectués en temps réel qui a été avec succès
reconnus les commandes proposées de la voix, mais ces mots [3] BENAMMAR Ryadh, « Traitement Automatique De La Parole Arabe
Par Les HMMs » mémoire de master, 25 Septembre 2012.
sont bien prononcés, ils ont rapporté un taux de
reconnaissance très élevé 96%. [4] Mounir Gragy. Rapport de Projet sous HTK « Reconnaissance de mots
Cependant, un des avantages de la reconnaissance proposée Isolés Et Reconnaissance de mots connectés ». Université Mohammed
est son adaptation facile à de nouvelle grammaire. 1erOujda ,2006.
Les travaux futurs se focaliseront sur l’introduction des [5] L. R. Rabiner, « An introduction to Hidden Markov Models », IEEE
nouvelles grammaires et commandent d’autres types de robot. ASSP Magazine, pp: 4-16, Jan. 1986.
Ils doivent prendre en considération l’environnement du [6] L. R. Rabiner, « A Tutorial on Hidden Markov Models and selected
travail (milieu bruité), un bruit qui vient de la machine parce applications in speech recognition », Proceedings of IEEE, Vol. 77, N°2,
que ces systèmes de commande vocale seront développés dans pp: 257-286, Feb. 1989.
le domaine industriel, afin de garantir la sécurité de la tâche à [7] Jangwon Kim, “Signal Analysis and Interpretation” Laboratory (SAIL),
exécuter. University of Southern California 17. Jan. 2013
[8] L. Rabiner, B. Juang. ”Fundamentals of Speech Recognition”. PTR
Prentice Hall (Signal Processing Series), Englewood Cliffs NJ, 1993,
ISBN0-13-015157-2.
[9] Lotfi Amiar, Mokthar Sellami, « Un système basé sur une modélisation
Markovienne pour la reconnaissance de la parole Arabe » 3rd
International Conference : Sciences of Electronic, Technologies of
Information and Télécommunications, March 27-31, 2005 – TUNISIA.
[10] Jean-Paul HATON, « Reconnaissance automatique de la parole »,
techniques de l’ingénieur, paris, France, 15/01/2013.
[11] L. Gallardo- Estrella and A. Poncela, « Human/Robot Interface for
Voice Teleoperation of a Robotic Platform », Springer-Verlag Berlin
Heidelberg, 2011.