Vous êtes sur la page 1sur 20

SOLA Elisabeth TIPE 2017

Reconnaissance vocale

Comment la reconnaissance vocale


est-elle possible ? 1
Différentes étapes

● I. Représentation d'un mot

● II. Modèle prédictif

2
Définition et but

Parole : variation de la
pression de l'air causée par le
système articulatoire

But  : permettre la communication


vocale homme-machine 
3
Différentes approches
● 2 méthodes :
*globale : mots entiers isolés
*analytique : phonèmes, phrases
Modèles
mots

Micro Acquisition CAN Prétraitement Comparaison Décision

● Ajout d'un modèle prédictif


4
Représentation d'un mot
1) Différencier les mots
● Différences visibles dans le spectre

Allure du spectrogramme du mot 'oui' sous Audacity

Allure du spectrogramme du mot 'soleil' sous Audacity 5


● Utilisation de la transformée de Fourier
Mot il Mot Beau

Lettre A Mot Oui

6
6
● Les limites de la transformée de Fourier

3 enregistrements du
mot il

7
● Donc limites de la transformée de Fourier :

→ Spectres très semblables : confusions


possibles

→ Système mono-locuteur

→ Base de données très réduite

→ Nombre de données à traiter limité (donc


mots courts)

8
2) L'analyse cepstrale
● L'échelle Mel : plus proche de l'ouïe humaine

● Principe des MFCC


9
3) Caractéristiques d'un mot

Exemple de banc de filtres

10
Modèle prédictif
● Ressemblance entre mots différents

● Différences lors de la prononciation d'un même


mot
→ Erreurs possibles, confusions
→ Résultats non satisfaisants
→ Nécessité d'un modèle prédictif

11
1) Matrice de probabilités
● Moyenne de plusieurs enregistrements pour chaque
mot : espace à n=6 dimensions

● Calcul de la distance minimale entre le mot Test et


chacun des autres mots 12
Définir une probabilité

● Probabilité d'obtenir chaque mot

● Prédiction du mot suivant

13
Exemple de matrice de probabilités
2) Résultat expérimental
● Exemple : mot Soir
Fait
Matrice des
probabilités Il
Mot suivant prédit
obtenue
Tu

Beau

Ce

Soir

● Résultats corrects
à 51%
14
14
Conclusion
● Transformée de Fourier insuffisante
● Méthode des coefficients cepstraux :
satisfaisante mais confusions toujours
possibles
● Amélioration du résultat par le calcul des
probabilités d'avoir chaque mot
● Prédiction du mot suivant
● Mais base de données limitée et système
mono-locuteur
15
Bibliographie
Webographie Laboratoire du Loria
● Dan Jurafsky, web.stanford.edu, Spoken Mme Odile Mella (Maître de Conférences
Langage Processing Université de Loraine)
● Vincent ARSIGNY , http://www-sop.inria.fr
● Philippe Foucher, http://www2.univ-paris8.fr
● James Lyons, Pratical Cryptography,
http://practicalcryptography.com Laboratoire du LIMSI
● Wikipédia, Reconnaissance automatique
de la parole Mr Gilles Adda (Groupe traitement du
langage parlé)

Bibliographie
Voxolab
● Steven B. Davis, ieee transactions on
acoustics, speech, and signal processing Mr Vincent Jousse (Maître de conférences
● Rodolphe BATTAULT, Examen Probatoire associé à l'Université du Mans, CEO
pour l'obtention du Diplôme d'Ingénieur du Voxolab)
C.N.A.M
● Luiza Orosanu, Thèse : Reconnaissance
de la parole pour l'aide à la communication
pour les sourds et malentendants
● Abdenour Hacine-Gharbi, Thèse : Sélection
de paramètres acoustiques pertinents pour 16
la reconnaissance de la parole
Annexe

17
17
18
18
19
19
20

Vous aimerez peut-être aussi