Vous êtes sur la page 1sur 18

INTRODUCTION

l’informatique joue un rôle de plus en plus considérable, via le domaine du traitement


automatique du langage naturel (TALN). L’informatique est une discipline scientifique
recente, qu’il ne faut pas restreindre `a la simple utilisation d’ordinateurs et de programmes.
Son nom la designe comme la science du “traitement automatique de l’information”. Elle est
en fait l’heritiere d’une longue tradition math´ematique et logique de modelisation du calcul.
Le projet de l’Intelligence Artificielle dans le developpement de la recherche , qui vise a
modéliser l’ intelligence et le raisonnement humain grace aux ordinateur ,mène a rendre la
machine capable de discuter avec l’homme d’une manière naturelle , comme pour le
traitement de la numérisation d une image donne une configuration de nombres codant un
certains nuages de pixels en représentant des caractères , de la même manière, en de nombres
codants des sons afin de reconnaitre certaines configurations de mots ou de phonèmes .d ou
la reconnaissance automatique de la parole.

DÉFINITION
la reconnaissance automatique de la parole (RAP) est un ensemble de techniques informatiques
qui consiste, en analysant la voix humaine à partir d’un microphone, à convertir le signal de
parole, phonèmes ou phrases prononcées par un locuteur. en un ensemble de symboles transcrits
sous formes de textes assimilables et exploitable par la machine.
Malgré les progrès considérables en modélisation de la parole, on est néanmoins très loin de
pouvoir identifier avec certitude des voix

La reconnaissance automatique de la parole est basée sur le traitement automatique de


la parole permet à la machine de comprendre et de traiter des informations fournies
oralement par un utilisateur humain. Elle consiste à employer des techniques d'appariement
afin de comparer une onde sonore à un ensemble d'échantillons, composés généralement
de mots mais aussi, plus récemment, de phonèmes (unité sonore minimale).

Principe de la reconnaissance vocale

La (RAP) suit un système de Transcription Automatique de la Parole qui est un


ensemble de programmes informatiques permettant de convertir un énoncé oral capturé
par un microphone, en un texte .
Les avantages de la reconnaissance
. Citons certaines
 Saisie vocale de données Elle libère complètement l‟usage de la vue et des
mains;
 Commande vocale de machines ou de robots tout en pilotant une automobile ou un
avion ;
 Aide aux handicapés ;

complexité
Le texte automatiquement produit est ensuite révisé par des annotateurs afin d’en ôter par
exemple les répétitions, les faux départs, les hésitations ou les erreurs de syntaxe
qui apparaissent fréquemment dans des enregistrements de parole
conversationnelle spontanée. Les transcriptions peuvent également être enrichies avec
diverses informations comme, entre autres la présence de musique, de silence ou de bruit

Ainsi l'obstacle majeur d'avoir une grande précision de la reconnaissance, est la


grande variabilité des caractéristiques d'un signal vocal. Cette complexité du signal
de parole provient de la combinaison de plusieurs facteurs, la redondance du
signal acoustique, la grande variabilité inter et intralocuteur, les effets de la
coarticulation en parole continue, et les conditions d'enregistrement.

Une grande variabilité


À contenu phonétique égal, le signal vocal est très variable pour un même
locuteur (variabilité intralocuteur) ou pour des locuteurs différents
(variabilité
interlocuteur).

La continuité
La production d'un son est fortement influencée par les sons qui le précédent et
le suivent en raison de l'anticipation du geste articulatoire. L'identification
correcte
d'un segment de parole isolé de son contexte est parfois impossible. Évidement il
est
plus simple de reconnaître des mots isolés bien séparés par des périodes de silence
que
de reconnaître la séquence de mots constituant une phrase. En effet, dans ce
dernier
cas, non seulement la frontière entre mots n'est plus connue mais, de plus,
les mots
deviennent fortement articulés.

Le système est-il robuste ?


Autrement dit, le système est-il capable de fonctionner proprement dans des
conditions difficiles? En effet, de nombreuses variables pouvant
affecter
significativement les performances des systèmes de reconnaissance ont été
identifiées :
 Bruits d'environnement (dans une rue, un bistrot etc…) ;
 Déformation de la voix par l‟environnement (réverbérations, échos, etc…) ;
 Qualité du matériel utilisé (micro, carte son etc…) ;
 Bande passante fréquentielle limitée (fréquence limitée d‟une ligne
téléphonique) ;
 Elocution inhabituelle ou altérée (stress, émotions, fatigue, etc…).
Certains systèmes peuvent être plus robustes que d'autres par rapport à l'une de
ces perturbations, mais en règle générale, les systèmes de reconnaissance de la
parole
sont encore sensibles à ces perturbations.

Les effets de co-articulation


La production "parfaite" de chaque son suppose théoriquement un
positionnement précis des organes phonatoires. Or, lorsque le débit de parole
s'accélère, le déplacement de ces organes est limité par une certaine inertie
mécanique.
Les sons émis dans une même chaîne acoustique subissent l'influence de ceux
qui les suivent ou les précèdent, ces effets de co-articulation sont des interférences.
Ils
entraînent l'altération des formes sonores en fonction des contextes droits ou
gauches,
selon des règles étudiées par les acousticiens d'un point de vue articulatoire
ou
perceptif.

La reconnaissance de la parole s’insère dans le cadre plus général de la reconnaissance des


formes. Un son correspondant à un mot est prononcé oralement devant le microphone, qui
convertit le signal acoustique en un signal électrique. Celui-ci est soumis à un prétraitement
(numérisation, séparation du signal pertinent par rapport au bruit ambiant), puis il subit la
paramétrisation (extraction de paramètres). Ce traitement s’applique tant en phase d’apprentissage
qu’en phase de reconnaissance. L’utilisation du système consiste à comparer un nouveau son à un
son de l’ensemble d’apprentissage.

Plus simplement, il suffit de parler à son ordinateur ou à son Smartphone pour que l’appareil
comprenne les paroles à travers les mots prononcés. Les techniques utilisées se basent sur
l’analyse du spectre, les fréquences ou le mouvement des lèvres (dans ce dernier cas, il s’agit de
reconnaissance d’images).
L’approche «compositionnelle» utilisée en reconnaissance d’images est aussi valable en
reconnaissance vocale. De la même manière qu’un ordinateur peut « additionner » les pixels
trouvés dans à une image pour recomposer la moustache d’un chat, on peut recomposer des
syllabes à partir de sons, puis des mots et enfin des phrases complètes.
La cousine germaine de la reconnaissance vocale est la synthèse vocale qui permet cette fois
non plus de transformer une parole en phrase écrite mais de transformer une phrase écrite en
énoncé vocal.

.
.

Un système de Transcription Automatique de la Parole est un ensemble de programmes

informatiques permettant de convertir un énoncé oral capturé par un microphone, en un

texte devant être le plus semblable possible de ce qu’un humain aurait fidèlement transcrit.

Le texte automatiquement produit est ensuite révisé par des annotateurs afin d’en ôter par

exemple les répétitions, les faux départs, les hésitations ou les erreurs de syntaxe qui

apparaissent fréquemment dans des enregistrements de parole conversationnelle

spontanée. Les transcriptions peuvent également être enrichies avec diverses informations

comme, entre autres la présence de musique, de silence ou de

COMMENT FONCTIONNE LA RECONNAISSANCE


VOCALE ?
Il existe deux systèmes :

La Reconnaissance Mono Locuteur


C’est une solution qui est généralement stockée en local et qui nécessite d’enregistrer au préalable la voix
du user pour que le logiciel s’en serve comme référence. Cette technique s’utilise pour dicter un texte à
retranscrire à un dictaphone numérique.
On peut citer par exemple le logiciel Dragon NaturallySpeaking. Ces produits sont plutôt destinés à des
usages précis B to B.
La Reconnaissance Multi Locuteurs
Ce système fonctionne avec n’importe quelle voix, mais nécessite une connexion internet pour comparer la
requête avec une base de données.
Ces produits sont plutôt grand public, pour des commandes simples et dans plusieurs langues. Par exemple,
on peut citer la commande à la voix de la XboxOne ou le contrôle du SmartHub des téléviseurs connectés
Samsung.

Le principe reste le même : la voix est numérisée et associée à des sons basés dans son lexique, appelé aussi
la «grammaire». Le logiciel d’IA reconnaît ensuite les sons, les syllabes, les mots et enfin la phrase pour
adresser une requête à un serveur.
Il existe 2 types de lexiques :
 La grammaire de règles : la phrase est traitée comme un seul ensemble
 La grammaire statistique : seuls certains mots clefs sont reconnus
L’applicatif SIRI d’Apple combine subtilement les deux grammaires.
A noter : les meilleures systèmes ont des taux d’erreurs de 8 à 12% quand l’homme a un taux d’erreur à
4% (retranscription d’une conversation téléphonique).
Démo Apple IPhone 4S Siri
LA MARGE D’ERREURS
Les meilleurs systèmes plafonnent en ce moment à 10% de taux d’erreurs contre 3% pour un être humain.
La différence entre l’homme et la machine vient essentiellement de la non désambiguïsation des mots, car
le robot ne COMPREND pas ce qui est dit. Seul le mot dans son acception «son» est entendu. Deux mots
de même prononciation (homonyme, voire un groupe de mots au(x) sens radicalement différent(s)),
peuvent parfois conduire à de curieux quiproquos.

Quelles sont les deux techniques utilisées pour la reconnaissance vocale?

Posté par camille le le 16/11/2015 à 09:12:44

- L'approche globale qui s'intéresse directement aux mots.

- L'approche analytique qui est basée sur la reconnaissance des phonèmes et syllabes.

Définition et Principe
 Définition
La reconnaissance de la parole est une technique visant à reconnaître, dans une suite de signaux
sonores, les phonèmes et les phrases prononcées par un locuteur.

La reconnaissance de la parole se situe à l’intersection de nombreux domaines tels que


l’acoustique, l’électronique, la phonétique, la sémiologie, etc.

 Principe de la reconnaissance vocale


La reconnaissance de la parole s’insère dans le cadre plus général de la reconnaissance des
formes. Un son correspondant à un mot est prononcé oralement devant le microphone, qui
convertit le signal acoustique en un signal électrique. Celui-ci est soumis à un prétraitement
(numérisation, séparation du signal pertinent par rapport au bruit ambiant), puis il subit la
paramétrisation (extraction de paramètres). Ce traitement s’applique tant en phase d’apprentissage
qu’en phase de reconnaissance. L’utilisation du système consiste à comparer un nouveau son à un
son de l’ensemble d’apprentissage.
Les grandes étapes de la reconnaissance de 
la parole : la détection de phonèmes
Suite à la la série d’articles cet été 2016, présentant les composants fondamentaux d
e la chaîne de transcription automatique de la parole en texte, nous allons aborder d
e manière plus précise la façon dont le système est capable de faire le lien entre :
-un fichier audio contenant de la parole,
-le texte prononcé.
Pour une meilleure compréhension, nous vous invitons à lire les précédents articles :
• Système de production de la parole : cet article permet de comprendre les caractéri
stique qui permette d

e reconnaître un phonème. 
• Les phonèmes et le langage : cet article permet de comprendre la notion de phonè
mes. 
• Technologie et système de reconnaissance automatique : cet article offre une descr
iption rapide des différents composants des système de reconnaissance automatique 
de la parole.
Nous allons décrire les étapes principales permettant de transcrire un fichier audio e
n texte.

La reconnaissance de phonèmes
 
La reconnaissance de phonèmes est effectuée grâce au modèle acoustique. Le mod
èle acoustique est créé en utilisant des algorithmes d’apprentissage automatique (m
achine learning en anglais). Le machine learning se décompose en deux phases :
l’entraînement, et le test.
Le modèle acoustique est tout d’abord calculé lors de la phase d’entraînement, puis, 
le modèle est utilisé lors de la phase de décodage permettant la transcription de l’én
oncé audio en texte.

1. La phase d’entraînement
 
Lors de cette phase d’apprentissage, on utilise de grands volumes audio (plusieurs c
entaines d’heures), pour lesquelles les données ont été préalablement transcrite. Ce
s données permettent de faire le lien entre une réalisation acoustique et un phonème
. Pour chaque phonème, un grand nombre de réalisations acoustiques vont être étud
iées : ces différentes réalisations peuvent être variables à cause du bruit, de la réver
bération, des différents locuteurs, des différents contextes phonétique (phonème pré
cédent et phonème suivant) etc. 
Par exemple, si on prend le cas du phonème [a]. L’observation du comportement éne
rgétique dans le repère temps-fréquence d’un très grand nombre de phonèmes [a] pr
ononcés dans différentes conditions, va permettre la création d’un modèle de [a] « gé
néral » en utilisant un mélange de loi gaussiennes (GMM).

             Figure 1 : Création d’un modèle de [a] grâce aux multiples occurrences de [a] des fichiers audio utilisés en apprentissage

Comme on peut le constater dans la figure
1, les [a] prononcés par différents locuteurs sont légèrement différents. Cela est dû a
ux variations du triangle vocalique qui est propre aux locuteurs.

2. Adaptation aux locuteurs
Afin de pouvoir utiliser au mieux notre modèle de [a] général, nous allons devoir ada
pter ce modèle aux locuteurs lors du décodage (qui effectue la transcription automati
que d’un fichier audio en texte). Comme il existe un grand nombre de méthode d’ada
ptation, nous allons juste voir le principe.
Le modèle du [a], précédemment calculé lors de la phase d’apprentissage, va subir u
ne transformation mathématique de
ses paramètres, comme des translations et des rotations afin que l’espace de ces pa
ramètres soit le plus proche de l’espace des paramètres d’un locuteur inconnu. Une f
ois cette transformation effectuée, notre modèle général se spécialisera pour mieux 
modéliser le locuteur inconnu.
                                                                         Figure 2 : Adaptation du modèle général [a] au locuteur x

Une fois notre modèle acoustique adapté, il est prêt à l’emploi.
3. La phase de test
Nous allons observer au cours du temps, le comportement de l’énergie dans le repèr
e temps-fréquence du fichier audio dont on souhaite connaître les phonèmes les plus 
probablement prononcés. Si l’observation n est plus proche du modèle du phonème [
a], alors le phonème [a] sera le phonème le plus probablement prononcé.

                                                                  Figure 3 : Principe de la détection des phonèmes

Nous avons vu comment le système est capable de reconnaître un phonème. Cepen
dant, la détection de phonème n’est pas toujours correcte.

La reconnaissance automatique de la parole se définit comme l’ensemble des métho
des informatiques permettant de convertir un enregistrement de parole en texte. La d
ictée vocale, commercialisée dès les années 80, est sans aucun doute l’application l
a plus populaire de la reconnaissance automatique de la parole. Les récents progrès 
du domaine offrent aujourd’hui l’opportunité d’exploiter ces technologies dans une lar
ge variété d’applications telles que :
 le sous-titrage et la traduction automatique de vidéo,
 l'indexation et l’extraction d’information dans les documents audiovisuels,
 ou encore les interfaces vocales homme-machine.
Le marché potentiel que constituent le milliard d’utilisateurs d’objets connectés à trav
ers le monde, positionne la reconnaissance automatique de la parole parmi les techn
ologies les plus prometteuses du moment.  

Les progrès du domaine au fil du temps
 L’innovation en reconnaissance automatique de la parole repose sur plus de 50 ans 
de recherche scientifique. Les premiers systèmes datent des années 60. Il s’agit de s
ystèmes de reconnaissance de mots isolés, où chaque terme doit être prononcé sép
arément. Les vocabulaires étaient alors très limités, contenant dans certains cas les 
nombres de 0 à 9, ou quelques voyelles dans d’autres réalisations.
 

 
C’est à la fin des années 80, grâce à un programme d’investissement financier du dé
partement de la défense américaine, que seront développés les premiers systèmes 
modernes de reconnaissance automatique de parole continue. L’intérêt pour ce dom
aine de recherche s’intensifie, menant à des innovations majeures telles que :
 l’augmentation des vocabulaires des systèmes, qui passent d’un millier de mots à plus 
de 100,000 termes reconnus ;
 le traitement d’énoncés de parole de nature de plus en plus difficile. D’abord limités à 
des énoncés de parole préparée et lue par un seul locuteur, les systèmes évoluent vers la parol
e conversationnelle entre plusieurs locuteurs ;
 Mais encore le développement de systèmes indépendants du locuteur, avec un gain de 
performance important obtenu récemment grâce aux méthodes de deep learning et aux réseau
x de neurones profonds ;
 et à la création de technologies de plus en plus robustes aux enregistrements dégradés. 
La reconnaissance automatique de la parole bruitée réverbérante est aujourd’hui une thématiq
ue majeure de la communauté de recherche du domaine. 
 

Architecture du Système de
Reconnaissance Automatique de la Parole
  Un système de reconnaissance automatique de la parole c
omporte typiquement 5 modules :
 le prétraitement acoustique, qui va identifier les zones de parole dans l'enregistrement 
à transcrire et en extraire des séquences de paramètres acoustiques.
 le modèle de prononciation, qui associe les mots connus par le système à leurs représe
ntations phonétiques.
 Le modèle acoustique, servant à prédire les phonèmes les plus probablement prononcé
s dans un énoncé audio.
 Le modèle linguistique, servant à prédire la séquence de mots la plus probable pour un 
texte donné.
 Et enfin le décodeur, qui va combiner les prédictions des modèles acoustiques et lingui
stiques pour proposer la transcription en texte la plus probable pour un énoncé de parole donn
é. 
 

Architecture type d'un système de reconnaissance automatique de la parole


 
 
Les performances des systèmes de reconnaissance automatique de la parole sont fo
rtement liées aux méthodes et aux données utilisées pour l’apprentissage des modèl
es acoustiques et linguistiques. Durant cette phase d'entraînement, la puissance de c
alcul de serveurs informatiques est exploitée pour analyser une très grande quantité 
d’enregistrements audio et les transcriptions de référence correspondantes.
La puissance des algorithmes d’apprentissage automatique utilisés en reconnaissan
ce automatique de la parole réside dans leur capacité à généraliser les exemples de 
la base d’apprentissage, afin de transcrire des énoncés inédits jamais observés aupa
ravant.
Malgré ces progrès, il n’existe aujourd’hui pas de système de reconnaissance autom
atique de la parole universel, c’est à dire obtenant les mêmes performances quelque 
soit le fichier transcrit. Si les systèmes automatiques peuvent atteindre une précision 
comparable aux annotateurs humains, ces performances dépendent fortement des e
nregistrements ainsi que de la qualité de la phase d’apprentissage au regard de la tâ
che ciblée.
Les modèles acoustiques et linguistiques peuvent dans la majorité des cas être adap
tés pour de nouveaux domaines d'application notamment grâce à l’intégration durant 
l’apprentissage, de connaissances a priori liées par exemple à la qualité de l’enregist
rement, au type de parole concernée, aux accents ou au champ lexical utilisés.

INTRODUCTION
L’utilisation de la parole comme mode de communication entre un homme et une
machine a été largement étudiée au cours des dernières décennies. Nous nous
intéressons dans cet article à la reconnaissance automatique de la parole (RAP),
c’est-à-dire à l’ensemble des techniques permettant de  communiquer oralement avec
une machine. La RAP présente un intérêt pratique indéniable, dans certaines
conditions d’utilisation (accès à distance, charge de travail importante, handicapés,
etc.). Des produits commerciaux existent depuis plus de trente ans, d’abord
essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant
pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes
de programmation dynamique et des modèles stochastiques (sources de Markov).
Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces
systèmes et étendre leurs capacités de dialogue. Les recherches menées actuellement
portent ainsi sur la reconnaissance de parole bruitée, le traitement d’énoncés
incomplets ou incorrects, la définition de procédures de dialogue, etc.

1. CARACTÉRISTIQUES DE LA COMMUNICATION PARLÉE HOMME-


MACHINE
Le traitement automatique de la parole recouvre un vaste ensemble d’activités, souvent
complémentaires, que l’on peut classer en cinq grands thèmes :
 codage et compression de la parole, intervenant en transmission et en restitution de
parole ;
 synthèse de la parole, consistant à produire un signal vocal à partir d’un dictionnaire
d’éléments phonétiques et/ou de règles ;
 reconnaissance de la parole, revenant à faire interpréter par une machine des mots ou
des phrases prononcés par un locuteur humain, dans le but de réaliser une action
précise ;
 reconnaissance et vérification du locuteur, problème dual du précédent dans lequel
on cherche à authentifier une personne par sa voix ;
 identification de la langue dans laquelle un locuteur s’exprime.
Dans tous ces domaines, des progrès importants ont été réalisés au cours des dernières années
et de nombreuses applications industrielles existent. Nous nous intéressons au problème de
la reconnaissance automatique de la parole (RAP). Ce problème est très difficile et complexe,
en particulier du fait des caractéristiques du signal de parole.
 Continuité
Lorsque l’on écoute parler une langue connue, on perçoit une suite de mots, alors que
l’analyse du signal vocal ne permet de déceler aucune marque de séparation entre mots
successifs. La parole est un semi-continuum ponctué de pauses correspondant à certains
types de sons ou de respiration. Le problème de la segmentation en mots est ainsi très
délicat. Il se pose à nouveau à l’intérieur d’un mot : un mot est perçu comme une suite de
sons élémentaires, ou phonèmes, qu’une fois encore l’analyse du signal acoustique ne
permet pas d’isoler nettement.
Le phonème est une unité linguistique permettant de décrire une langue (le français ou
l’anglais peuvent être décrits à l’aide d’une trentaine de phonèmes, pas forcément les
mêmes). Pour les besoins du traitement automatique, on considère en général un
phonème comme étant caractérisé par la simultanéité, dans le temps, d’un ensemble de
caractéristiques acoustico-phonétiques.
 Variabilité...

2. DOMAINES DE LA RECONNAISSANCE AUTOMATIQUE DE LA


PAROLE

2.1 Historique
La reconnaissance de la parole est une discipline quasi contemporaine de l’informatique. Vers
1950 apparut le premier système de reconnaissance de chiffres, appareil entièrement câblé et
très imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des ordinateurs
changent la dimension des recherches. Néanmoins, les résultats demeurent modestes car la
difficulté du problème avait été largement sous-estimée, en particulier en ce qui concerne la
parole continue. Vers 1970, la nécessité de faire appel à des contraintes linguistiques dans le
décodage automatique de phrases apparaît clairement, alors que la reconnaissance de la parole
avait été jusque-là considérée comme un problème d’ingénierie. La fin de la décennie 1970 voit
se terminer la première génération des systèmes commercialisés de reconnaissance de mots.
Les générations suivantes, mettant à profit les possibilités sans cesse croissantes de la micro-
informatique, posséderont des performances de plus en plus grandes (systèmes multilocuteurs,
parole continue).

2.2 Applications
Toutes les applications de la RAP bénéficient de l’évolution technologique qui se traduit par le fait
qu’un système de reconnaissance complet (y compris l’analyse du signal vocal) peut désormais
être entièrement implanté sous forme logicielle. Cette évolution a largement contribué au
développement d’applications nouvelles à faible coût.
La reconnaissance de mots isolés pour des vocabulaires de quelques dizaines jusqu’à
quelques centaines de mots est un problème bien résolu. Les premiers systèmes commerciaux
relevant de cette catégorie sont apparus voici près de quarante ans. Plus récemment, des
progrès importants ont été réalisés :
 en reconnaissance de petits vocabulaires de mots isolés, multilocuteurs, dans des
conditions difficiles ;
Exemple : reconnaissance de chiffres à travers le réseau téléphonique.
 en reconnaissance de parole continue, multilocuteurs,...

3. ANALYSE DU SIGNAL DE PAROLE


Nous avons déjà noté la grande redondance du signal vocal. Le traitement automatique de la
parole nécessite de réduire cette redondance, à l’aide de traitements appropriés, pour diminuer
les temps de traitement et l’encombrement en mémoire. Par ailleurs, et quelquefois
simultanément, le traitement du signal vocal permet d’extraire des paramètres pertinents pour la
reconnaissance (caractéristiques de sons bruités, fréquences des formants, etc.).
Une voyelle peut être caractérisée par trois zones de fréquences données, appelées formants.
Les fréquences de formants de sons tels que les voyelles et certaines consonnes voisées
correspondent au maximum d’énergie dans le spectre de ces sons, c’est-à-dire
approximativement aux fréquences de résonance du conduit vocal dans la configuration
correspondante.
Les dispositifs utilisés peuvent être analogiques : cependant, avec l’évolution de l’électronique
numérique et de l’informatique, les techniques numériques sont désormais généralisées. Après
numérisation du signal vocal à l’aide d’un convertisseur analogique-numérique (CAN), les
traitements sont alors effectués par logiciel soit par des composants spécialisés permettant de
faire l’analyse de la parole en temps réel, soit de plus en plus par les puces de microprocesseurs.
On peut classer en deux grandes catégories les méthodes de traitement du signal :
 les méthodes générales, valables pour tout signal évolutif dans le temps, en particulier
les analyses spectrales (transformée de Fourier, cf. § 3.1) ;
 les méthodes se référant à un modèle de production du signal vocal ou d’audition.

3.1 Méthodes générales
Les méthodes spectrales occupent une place prépondérante en analyse de la parole : l’oreille
effectue, entre autres, une analyse fréquentielle du signal qu’elle perçoit ; de plus, les sons de la
parole peuvent être assez bien décrits en termes de fréquences.
La transformée de...
4. RECONNAISSANCE DE MOTS

4.1 Principe général
L’absence dans le signal vocal d’indicateurs sur les frontières de phonèmes et de mots constitue,
comme on l’a déjà dit, une difficulté majeure de la reconnaissance de la parole. De ce fait, la
reconnaissance de mots prononcés artificiellement de façon isolée représente une simplification
notable du problème. La reconnaissance d’un mot est alors un problème typique
de reconnaissance de formes. Tout système de reconnaissance de formes comporte les trois
parties suivantes :
 un capteur permettant d’appréhender le phénomène physique considéré (dans notre cas
un microphone) ;
 un étage de paramétrisation des formes (par exemple, un analyseur spectral) ;
 un étage de décision chargé de classer une forme inconnue dans l’une des catégories
possibles.
On retrouve ces trois étages dans un système de reconnaissance de mots isolés, comme le
montre la figure 7.
Au cours d’une phase préalable dite d’apprentissage, un locuteur prononce l’ensemble du
vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références.
Dans la phase suivante de reconnaissance, un locuteur prononce un mot du vocabulaire. Ce mot
est comparé aux mots de références. L’algorithme de reconnaissance permet de choisir le mot le
plus ressemblant, par calcul d’un taux de similitude – au sens d’une distance à définir – entre le
mot prononcé et les diverses références. Ce calcul n’est pas simple, même pour un locuteur
unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents. Il
s’agit alors d’effectuer le recalage temporel des séquences acoustiques représentant les mots,
afin de pouvoir les comparer.

4.2 Normalisation temporelle
Une solution au problème de recalage temporel fait appel aux techniques de programmation
dynamique. Initialement développée en ex-URSS et au Japon, puis en France et dans d’autres
pays, cette méthode donne d’excellents résultats ; en fait,...

5. RECONNAISSANCE ET COMPRÉHENSION DE LA PAROLE


CONTINUE

5.1 Position du problème
L’utilisation de mots isolés limite considérablement la richesse de la communication entre un
homme et une machine. Seule la parole naturelle et continue assure le niveau d’expression
nécessaire pour des applications d’une certaine complexité. Il s’agit alors de prendre en compte
le processus d’encodage du signal vocal avant son émission par un locuteur et d’exploiter les
informations (acoustiques, linguistiques, etc.) permettant de comprendre la phrase ou la portion
de phrase émise. Outre le contexte du dialogue dans laquelle une phrase s’insère, les principales
sources de connaissances et d’informations sont les suivantes :
 acoustico-phonétiques. Ces informations régissent la transcription phonétique du
message ; il faut y adjoindre les informations phonologiques qui rendent compte des
variations individuelles (accent, etc.) et des phénomènes d’altérations des sons
(coarticulations, liaisons, etc.) ;
 lexicales. Elles sont liées aux mots ; l’étape des mots est indispensable, même si ces
derniers n’apparaissent pas explicitement dans le signal acoustique ;
 prosodiques. Elles concernent le rythme, l’intensité et la mélodie de la voix.
Caractéristique de la communication parlée, la prosodie constitue, entre autres
paramètres, une sorte de ponctuation de la parole. Les informations prosodiques jouent
un rôle important dans la compréhension de la parole chez l’homme. Néanmoins, leur
utilisation en compréhension automatique est très restreinte ;
 syntaxiques. La syntaxe est en liaison avec la structure des phrases. Ces informations
sont plus décisives pour des langages artificiels que pour des langues naturelles car,
dans ce dernier cas, la syntaxe est beaucoup moins rigide ;
 sémantiques. Elles sont liées à la signification des mots et aux concepts sous-jacents.
Leur rôle est important car le problème est davantage de comprendre le sens de la
phrase prononcée que d’en reconnaître exactement tous les phonèmes ou même tous
les mots ;
 pragmatiques. Ce sont les informations relatives au contexte de l’univers et de la
conversation. Cela recouvre aussi la notion de dialogue, fondamentale en communication
parlée, même entre un homme et une machine. Le dialogue permet en effet de vérifier
qu’une phrase a été bien comprise, de confirmer une interprétation...

6. MÉTHODES ROBUSTES POUR LA RECONNAISSANCE

6.1 Position du problème
Les performances des systèmes de reconnaissance actuellement disponibles sont bonnes dans
des conditions d’utilisation bien contrôlées. Ces performances sont fortement dépendantes de la
complexité et de la difficulté de la tâche envisagée. Ainsi, en moyenne, les taux d’erreur mesurés
en laboratoire, en mode indépendant du locuteur, peuvent aller de 0,3 % (pour des suites de
chiffres) à 5 % (pour un vocabulaire de 20 000 mots en parole continue), puis à 8 % (pour des
lettres épelées), et jusqu’à 55 % pour des conversations téléphoniques spontanées !
Par ailleurs, le taux d’erreur s’accroît de façon spectaculaire lorsque les conditions
d’apprentissage et d’utilisation d’un système sont différentes (notamment en ce qui concerne le
type et le niveau de bruit).
À titre d’exemple, la figure 15 donne le taux de reconnaissance en parole continue en fonction
du rapport signal/bruit (RSB) (avec un bruit blanc gaussien ajouté au signal) d’un système
entraîné au préalable avec de la parole non bruitée. Les performances passent de 97 % de
reconnaissance en parole très peu bruitée (RSB = 36 dB) à 3 % en milieu très bruité
(RSB = 0 dB).
Les systèmes actuels sont donc dans l’ensemble très peu robustes aux variations même si
celles-ci peuvent paraître assez faibles à l’oreille. Les sources de variabilité de la parole peuvent
être classées en trois catégories, selon leur provenance :
 l’environnement du locuteur avec le bruit corrélé à la parole (réverbération, réflexion)
ou additif (bruit ambiant, etc.) ;
 le locuteur lui-même, selon son état et son mode d’expression : essoufflement, stress,
effet Lombard (qui amène un locuteur à modifier sa voix lorsqu’il est placé dans une
ambiance très bruitée), rythme d’élocution, fatigue, etc. ;
 les conditions d’enregistrement liées au type de microphone, distance au microphone,
canal de transmission (distorsion, écho, bruit électronique, etc.).
De nombreuses techniques ont été proposées pour augmenter la robustesse des systèmes,
notamment...

La technique de reconnaissance vocale a fait d'importants progrès, notamment grâce aux


recherches militaires. Elle fournit des systèmes capables de transcrire en texte la langue parlée.
Au-delà d'une période d'apprentissage que le logiciel doit effectuer, le vocabulaire de référence
s'est non seulement étendu à des dizaines de milliers de mots, mais, en cours d'utilisation, le
logiciel s'enrichit de nouveaux mots. Le taux de reconnaissance atteint des valeurs proches de
90 à 95 % de réussite. Les problèmes du traitement informatique de la parole sont liés à
l'ambiguïté intrinsèque du langage parlé. Une même séquence de sons peut être affectée à
plusieurs mots : par exemple, le son [prph206] est susceptible de plusieurs interprétations par la
machine : (un) prêt, (être) près, (être) prêt. De plus, les sons ambiants sont susceptibles de
brouiller l'écoute. Enfin, l'élocution naturelle d'un même mot est différente selon chaque individu
et la place qu'il occupe dans une phrase (le mot tout se prononce différemment dans il aime
tout et dans tout homme aime quelqu'un).
Le processus comporte deux étapes : les ondes acoustiques sont d'abord transformées en une
chaîne de symboles phonétiques préétablis, n'ayant pas de sens linguistique. Cette suite est
alors convertie en symboles linguistiques grâce à une segmentation de la chaîne phonétique puis
à l'identification des mots. L'ordinateur segmente la chaîne en calculant les probabilités de
trouver telle ou telle suite de mots dans une phrase. Le choix se fait soit à partir de règles
syntaxiques connues par la machine, soit en comparant la suite à des structures de phrases que
la machine possède en mémoire.

Reconnaissance de la parole par ordinateur

Bonheur courant électrique filtre convertisseur numérique reconnaissance du signal dictionnaire bonheur

Reconnaissance de la parole par ordinateur


Schéma de principe de la reconnaissance de la parole. Le procédé nécessite d'abord que
l'utilisateur prononce un certain nombre de mots et de phrases que l'ordinateur utilise pour
prendre une « empreinte » de la voix. Par la suite, le système comparera les signaux reçus à
l'empreinte enregistrée puis au contenu de son dictionnaire. Le procédé de synthèse vocale
nécessite l'existence d'une base de données composée de 50 000 mots environ pouvant être
reconnus par l'ordinateur. Chaque mot considéré comme nouveau par l'ordinateur est appris,
ce qui permet à celui-ci d'enrichir sa bibliothèque et d'augmenter son taux de reconnaissance.
Dessin Laurent Blondel - Archives Larousse

Vous aimerez peut-être aussi