Vous êtes sur la page 1sur 19

République Tunisienne

Ministère de l'Enseignement Supérieur et de la


Recherche Scientifique

Université de Monastir

Faculté des Sciences

Département de l’informatique

Mastère de recherche
Systèmes de Raisonnement Automatique

Sujet : Modèle profond pour la reconnaissance de la parole pour la langue arabe


Approche bout en bout (End To End)

Élaboré par : Rafik Amari

Année Universitaire 2020/2021


Table des matières

Table des figures ..................................................................................................................................3


Introduction ..........................................................................................................................................4
1. Introduction générale .................................................................................................................4
2. Problématique.............................................................................................................................5

Partie I : Etat de l’art .........................................................................................................................6


1. Introduction à la RAP ...............................................................................................................6
2. Concepts de base .......................................................................................................................6
3. Quelques systèmes de RAP .....................................................................................................7
4. Problèmes rencontrés en reconnaissance de l’Arabe ............................................................7

Partie II : Modèle profond pour la reconnaissance de la parole .............................................8


Chapitre I L’apprentissage profond .........................................................................................8
1. Les réseaux de neurones convolutifs ......................................................................................8
1.1 Origine des réseaux de neurones convolutifs .................................................................8
1.2 Principe des réseaux de neurones convolutifs ................................................................9
2. Les réseaux de neurones récurrents bidirectionnels (BLSTM) ..........................................9
2.1 Origine en reconnaissance de la parole ....................................................................... 10
2.2 Le réseau récurrent LSTM ............................................................................................ 10
Chapitre II Architecture bout-en-bout pour la reconnaissance de parole ........................ 11
1 Contributions .......................................................................................................................... 11
2 Corpus ...................................................................................................................................... 14
3 Evaluation et Résultats …………………… .................................................................................... 15
4 Conclusion …………………… ........................................................................................................ 15

Conclusion et perspectives .............................................................................................................. 16


Bibliographie...................................................................................................................................... 17
Annexe ................................................................................................................................................. 18
Table des figures

Figure 1.1. Organigramme d’un système de R.A.P

Figure 1.2 Schéma du principe d’un neurone de type mémoire court-terme et long terme
(adaptée de [Graves 13a]).

Figure 1.3 Les principaux blocs de construction d’une architecture utilisant un réseau de
neurones convolutif simple

Figure 1.4Les principaux blocs de construction d’une architecture hybride utilisant un CNN et
LSTM

Figure 1.5 – Exemple de d’utilisations d’un signal acoustique à l’entrée des réseaux de
neurones convolutifs

Figure 2 Le corpus de discours arabe pour les mots isolés

Figure 3 Evaluation système Mfcc+CNN

Figure 3 Evaluation système Mfcc+CNN+LSTM

Tableau 1. Récapitulation des résultats d’apprentissage

RAFIK AMARI 3
Introduction

1. Introduction générale

L'un des développements les plus intéressants récents dans le domaine de


l'apprentissage profond, a été la montée de l'apprentissage profond de bout en bout. Alors,
quel est l'apprentissage de bout en bout ?
En bref, il y a eu certains systèmes de traitement de données, ou systèmes
d'apprentissage qui nécessitent plusieurs étapes de traitement. Et ce que fait l'apprentissage
profond de bout en bout, est qu'il peut prendre toutes ces étapes multiples, et le remplacer
généralement par un seul réseau neuronal. Regardons quelques exemples. Prenez la
reconnaissance vocale comme exemple, où votre objectif est de prendre une entrée X comme
un clip audio, et de la mapper à une sortie Y, qui est une transcription du clip audio.
Traditionnellement, la reconnaissance vocale exigeait de nombreuses étapes de traitement.
Tout d'abord, vous allez extraire quelques fonctionnalités, quelques fonctionnalités conçues à
la main de l'audio. Donc, si vous avez entendu parler de MFCC, c'est un algorithme pour
extraire un certain ensemble de fonctionnalités conçues à la main pour l'audio. Et après avoir
extrait quelques fonctionnalités de bas niveau, vous pouvez appliquer un algorithme
d'apprentissage automatique, pour trouver les phonèmes dans le clip audio. Donc les
phonèmes sont les unités de base du son. Ainsi, par exemple, le mot chat est composé de trois
sons. Les Cu- Ah- et Tu- afin qu'ils les extraient. Et puis vous enchaînez des phonèmes pour
former des mots individuels. Et puis vous les enchaînez ensemble pour former les
transcriptions du clip audio.
Donc, contrairement à ce pipeline avec beaucoup d'étapes, ce que fait l'apprentissage
profond de bout en bout, est que vous pouvez former un énorme réseau neuronal pour
simplement entrer le clip audio, et le faire sortir directement la transcription. Un effet
sociologique intéressant dans l'IA est : alors que l'apprentissage profond de bout en bout
commençait à mieux fonctionner, il y avait des chercheurs qui avaient par exemple passé de
nombreuses années de leur carrière à concevoir des étapes individuelles du pipeline. Il y avait
donc des chercheurs dans différentes disciplines et pas seulement dans la reconnaissance de la
parole. Peut-être dans la vision informatique, et d'autres domaines aussi bien, qui avait passé
beaucoup de temps vous savez, écrit plusieurs articles, peut-être même construit une grande
partie de leur carrière, caractéristiques d'ingénierie ou ingénierie d'autres pièces du pipeline.
Et quand l'apprentissage profond de bout en bout vient de prendre le dernier ensemble
d'entraînement et a appris la cartographie des fonctions de x et y directement, contournant
vraiment beaucoup de ces étapes intermédiaires, il était difficile pour certaines disciplines de
venir à accepter cette façon alternative de construire l'IA systèmes. Parce qu'il est vraiment
obsolète dans certains cas, de nombreuses années de recherche dans certains des composants
intermédiaires. Il s'avère que l'un des défis de l'apprentissage profond de bout en bout est que
vous pourriez avoir besoin de beaucoup de données avant qu'il ne fonctionne bien. Donc, par
exemple, si vous vous entraînez sur 3 000 heures de données pour construire un système de
reconnaissance vocale, alors le pipeline traditionnel, le pipeline traditionnel complet
fonctionne très bien.

C'est seulement quand vous avez un très grand ensemble de données, vous connaissez
un pour dire 10 000 heures de données, tout ce qui peut aller jusqu'à 100 000 heures de
données que l'approche de bout à bout puis commence soudainement à fonctionner très bien.
Regardons quelques exemples supplémentaires. Prendre la traduction automatique.
Traditionnellement, les systèmes de traduction automatique avaient aussi un long pipeline
compliqué, où vous prenez d'abord dire anglais, texte, puis faites une analyse de texte.

RAFIK AMARI 4
Fondamentalement, extrayez un tas de fonctionnalités du texte, et ainsi de suite. Et après de
nombreuses étapes, vous finiriez par dire, une traduction du texte anglais en français. Parce
que, pour la traduction automatique, vous avez beaucoup de paires de phrases anglaises
virgules françaises. L'apprentissage profond de bout en bout fonctionne assez bien pour la
traduction automatique. Et c'est parce qu'aujourd'hui, il est possible de rassembler de grands
ensembles de données de paires X-Y où c'est la phrase anglaise et c'est la traduction française
correspondante

2. Problématique

La Reconnaissance Automatique de la Parole (R.A.P.) consiste à identifier, par des


moyens informatiques, ce qui est dit par un locuteur humain. C’est une activité prometteuse
par ses multiples applications possibles : commande vocale de machines, saisie de données,
sécurité, interface homme-machine, aide aux handicapés, apprentissage assisté par
ordinateur... Ces technologies sont encore peu développées car l’opération de reconnaissance
automatique de la parole par les machines s’avère difficile du fait des caractéristiques
humaines du signal de parole. Les trois principales difficultés sont la diversité des
informations (acoustique, lexique, syntaxe, émotions, appartenance sociale...), la continuité de
l’information acoustique et la grande variabilité du signal de parole. Du fait de ces difficultés,
la R.A.P. ne fonctionne actuellement que dans des situations contraintes où une partie des
obstacles est supprimée : mots isolés, locuteur unique, élocution non spontanée.

RAFIK AMARI 5
Partie I : Etat de l’art

1.La reconnaissance de la parole

1. 1. Introduction à la RAP

La reconnaissance automatique de la parole (RAP) est le processus par lequel la


machine tente de « décoder » le signal de la parole qui lui est destiné. Les recherches relatives
à la RAP débutèrent dans les années 1950, dans une conjoncture optimiste, car on pensait que
les avancées technologiques des ordinateurs rendraient la RAP une tâche aisée. Quelques
dizaines d’années plus tard, on se rendait compte que c’était faux, et que la RAP, demeure un
problème difficile. Aujourd’hui encore nombre de questions restent posées, les difficultés
majeures étant associées à la taille du vocabulaire à reconnaître, la reconnaissance de la parole
spontanée, à la reconnaissance indépendamment du locuteur, la parole bruitée, …
La reconnaissance automatique de la parole est très souvent basée sur une
représentation paramétrique du signal, son but étant la communication en langue naturel avec
une machine. Il s’agit là de deux objectifs différents que l’on peut assigner à un système La
reconnaissance conduisant à une application du type dictée vocale, et la compréhension, qui
consiste à accéder à la signification de l’énoncé parlé.

1. 2. Concepts de base

La démarche classique suivie lors du processus de reconnaissance automatique de la


parole est illustrée par la figure 1.1, ce schéma fait ressortir les étapes principales dans un tel
processus.

Figure 1.1. Organigramme d’un système de R.A.P

RAFIK AMARI 6
Ainsi, étant donné un signal en entrée du système, celui-ci va subir un prétraitement
qui consiste généralement en un filtrage et un échantillonnage qui permet de passer d’un
signal continu à des valeurs discrètes, de ces valeurs dont le nombre est important seront
extraites des caractéristiques qui permettent de représenter de façon compacte et pertinente le
signal originel. Cette étape permet d’avoir une première représentation du signal, ensuite et
selon l’approche adoptée par le système de reconnaissance, ce modèle représentatif du signal
sera comparé à des formes d’autres signaux que le système « connaît ». Sur la base du résultat
de cette comparaison une décision quant au mot reconnu sera prise, celle-ci sera
éventuellement validée en considérant les connaissances du domaine.

1. 3. Quelques systèmes de RAP

Les programmes de reconnaissances de la parole ont été développés principalement


aux Etats-Unis dans le cadre du projet ARPA. Quatre programmes principaux sont
opérationnels : Il s’agit de HARPY et HEARSAY II de CMU qui sont des programmes de
reconnaissance de la parole continue, le système de BBN (Bolt, Berenek and Newman)
comprend un analyseur phonétique basé sur un treillis phonétique, l’analyse syntaxique étant
réalisé grâce aux ATN, et le système SDC (systems development corporation) où l’analyseur
est basé sur le treillis probabilisé des syllabes.
D’autres systèmes sont apparus par la suite, en particulier : Tangora qui est un système multi-
locuteurs développé par IBM. Il fonctionne en temps réel suivant une approche globale en
utilisant les modèles de Markov cachés (HMM). Le logiciel Dragon Naturally Speaking est un
produit compétitif sur le marché, il utilise aussi une approche globale par les HMMs.

1. 4. Reconnaissance de la parole Arabe

1. 4. 1. Problèmes rencontrés en reconnaissance de l’Arabe


De nombreux aspects de l’Arabe tels que la phonologie ou la syntaxe ne posent pas de
problèmes particuliers en reconnaissance automatique de la parole [Kirshhoff, 02]. Les
techniques standards de la modélisation acoustique et de la prononciation indépendamment du
langage peuvent tout à fait être appliquées pour la modélisation acoustique et phonétique de
l’Arabe. D’autres aspects pour l’apprentissage du système de reconnaissance sont mêmes plus
faciles que pour d’autres langages, en particulier la construction du lexique car il y’a une
quasi correspondance un-à-un entre lettre et phonème.
Les difficultés majeures rencontrées lors de développement de systèmes performants de
reconnaissance pour l’Arabe sont la prédominance de textes non voyellés, d’énormes variétés
dialectales, et une complexité morphologique.
En particulier, la complexité de la morphologie de l’Arabe est bien connue pour présenter
d’énormes problèmes lors de la modélisation linguistique, ceci en raison d’un nombre élevé
de préfixes et de suffixes que l’on peut greffer à une racine ce qui conduit à une explosion des
formes que l’on peut associer à un mot [Mrayati, 84].

RAFIK AMARI 7
Partie II : Modèle profond pour la reconnaissance de la parole
Chapitre I L’apprentissage profond

1.Les réseaux de neurones convolutifs

Les réseaux neuronaux convolutifs (Convolutional Neural Network, CNN ou


ConvNet) sont utilisés avec succès dans un grand nombre d’applications. La tâche de
reconnaissance de l’écriture manuscrite a été l’une des premières applications de l’analyse
d’image par réseaux de neurones convolutifs [LeCun 98]. En plus de fournir des bons
résultats sur des tâches de détection d’objet et de classification d’images [LeCun 98,
Krizhevsky 12, Girshick 13], ils réussissent également bien lorsqu’ils sont appliqués à la
reconnaissance faciale [Parkhi 15, Hu 15], à l’analyse vidéo [Karpathy 14, Simonyan 14], ou
encore à la reconnaissance de texte [Wang 12, Kim 14].

1.1Origine des réseaux de neurones convolutifs

Le réseau neuronal convolutif est inspiré par le cortex visuel des vertébrés [Hubel 68].
En 1990 le réseau neuronal convolutif dédié spécifiquement à la classification d’images de
chiffres manuscrits qui ne nécessite qu’un prétraitement minimal des données [LeCun 90].
Contrairement à la plupart des travaux qui se faisaient jusque-là, ce réseau reçoit directement
des données à deux dimensions 2D, à savoir des images, plutôt que des données à une
dimension 1D (vecteurs). Cela met en jeu une capacité de ces nouveaux réseaux à traiter de
grandes quantités d’information de bas niveau, c’est à dire sans besoin de convertir
lourdement la donnée brute via des fonctions mathématiques finement choisies qui ferait
appel à un savoir-faire ou une expertise humaine. Ainsi, bien choisir le type d’architecture de
réseau neuronal selon la tâche de prédiction à effectuer évite d’avoir à effectuer un important
prétraitement des données nécessitant une ingénierie détaillée. Ce dernier était et reste en effet
une tâche longue et fastidieuse à effectuer pour le scientifique. En 1998, LeCun montrent que
si on compare diverses méthodes de classification automatique appliquées à la reconnaissance
de caractères manuscrits, on observe que les réseaux neuronaux convolutifs, spécialement
conçus pour traiter la variabilité des formes à deux dimensions, sont plus performants que les
autres techniques standards [LeCun 98].
Depuis le début des années 2000, les réseaux neuronaux convolutifs ou ConvNets
s’appliquent avec succès à la détection, à la segmentation et à la reconnaissance d’objets et de
régions dans des images [LeCun 15]. (Peut-être dire pourquoi c’est revenu en 2012, ou au
moins des hypothèses : disponibilité de gros volumes de données, disponibilité de puissance
de calcul, plus quelques "tricks" en plus par rapport aux réseaux de 98)
Malgré ces succès, les ConvNets ont été en grande partie délaissés par l’industrie
jusqu’au concours ImageNet de 2012.

À partir de 2012, les performances des systèmes de reconnaissance automatique


visuelle basés sur les ConvNets ont amené la plupart des grandes entreprises technologiques,
notamment Google, Facebook, Microsoft, IBM, Yahoo ! Twitter et Adobe, ainsi qu’un
nombre grandissant de jeunes entreprises à entreprendre des projets de recherche et
développement et à déployer des produits et services de compréhension d’images basés sur les
ConvNets.

RAFIK AMARI 8
1.2Principe des réseaux de neurones convolutifs

Les réseaux neuronaux convolutifs ou ConvNets sont conçus pour traiter des
données qui se présentent sous la forme de tableaux de valeurs en Ndimensions. Par exemple,
une image couleur se compose de trois tableaux 2D contenant des intensités de pixels dans les
trois canaux de couleur RVB (rouge, vert, bleu). Mais de nombreux autres types de données
se présentent sous la forme de tableaux à multiples dimensions :
— 1D pour les signaux et les séquences, y compris la langue ;
— 2D pour images ou spectrogrammes audios ;
— et 3D pour les images vidéo ou volumétriques.
Le principe des ConvNets repose sur quatre idées clés qui exploitent les propriétés des
signaux naturels [LeCun 90] :
— les connexions locales,
— les poids partagés (expliqué ci-après),
— et la couche de regroupement (pooling) (expliquée ci-après), facultative.
L’architecture d’un ConvNet typique est structurée en une série d’étapes. Les
premières étapes sont composées de deux types de couches : les couches convolutives
et les couches de regroupement (pooling). La couche de convolution est l’élément
central des réseaux neuronaux convolutifs. Elle compose au minimum leur première couche.
Son objectif est de détecter la présence de caractéristiques (features) dans les images d’entrée.
Cela est réalisé grâce à un filtrage par convolution qui consiste à faire glisser une fenêtre
représentative de la caractéristique sur l’image d’entrée et à calculer produit de convolution
entre la caractéristique et chaque portion de l’image balayée.

Dans ce contexte, le concept de caractéristique est assimilé au filtre.


Dans chaque couche convolutive, chaque filtre est répliqué sur tout le champ
La couche de regroupement (pooling) se place entre les couches convolutives. Elle permet
d’appliquer à chacune des cartes de caractéristiques une réduction de leur taille tout en
préservant les caractéristiques les plus importantes (en ne gardant que les valeurs maximales
par exemple). Elle permet ainsi de réduire le nombre de paramètres du réseau et donc les
calculs nécessaires. Elle permet aussi de rendre le réseau moins sensible à la position des
caractéristiques.
La couche de convolution est caractérisée par trois hyperparamètres :
— la profondeur de la couche c’est à dire le nombre de noyaux de convolution (ou nombre de
neurones associés à un même champ récepteur) ;
— le pas : il contrôle le chevauchement des champs récepteurs. Plus le pas est petit,
plus les champs récepteurs se chevauchent et plus le volume de sortie sera grand
— le remplissage à zéro (zero padding) : parfois, il est commode de mettre des zéros à la
frontière du volume d’entrée. Cela contrôle la dimension spatiale du volume de sortie. En
particulier, il est parfois souhaitable de conserver la même surface que celle du volume
d’entrée.

2 Les réseaux de neurones récurrents bidirectionnels (BLSTM)

Les réseaux de neurones récurrents à mémoire court-terme et long terme (Long short-
term memory, LSTM) [Hochreiter 97] sont un modèle neuronal efficace pour un grand
nombre d’applications impliquant des données temporelles ou séquentielles [Karpathy 15].
Parmi les multiples applications existantes, on trouve la modélisation du langage [Mikolov
10], la reconnaissance de l’écriture manuscrite ou sa génération [Graves 13a], la traduction

RAFIK AMARI 9
automatique, l’analyse vidéo, les sous-titrages des images, ou encore la reconnaissance de la
parole.

2.1 Origine en reconnaissance de la parole

En 2013, Graves, Mohamed et Hinton montrent qu’un système neuronal bout-en- bout
composé de couches LSTM sont à la pointe en termes de performance dans le cadre d’une
tâche de reconnaissance des phonèmes dans la base de données
TIMIT [Graves 13b]. Ils incitent alors la communauté de la reconnaissance de la parole
(Automatic Speech Recognition, ASR) à combiner des réseaux neuronaux convolutifs (CNN)
à des réseaux LSTM suite aux travaux de [Abdel-Hamid 12].
Ces derniers utilisent des CNN afin d’améliorer les performances de reconnaissance
vocale de plusieurs locuteurs dans le cadre d’un modèle hybride {modèle de Markov caché +
réseau neuronal convolutif}. Les résultats expérimentaux obtenus avec un tel modèle
permettent une réduction d’erreur de plus de 10% sur les ensembles de test du jeu de données
TIMIT comparé avec un réseau neuronal non convolutif [Abdel-Hamid 12].

2.2 Le réseau récurrent LSTM

L’idée des LSTM est de permettre au réseau « d’oublier » ou de ne pas prendre en


compte certaines observations passées afin de pouvoir donner du poids aux informations
importantes dans la prédiction actuelle. L’intérêt du LSTM est ainsi de modéliser
efficacement les dépendances longue distance. Cette idée se traduit par des portes qui sont
chargées de déterminer l’importance d’une entrée, afin de savoir si on enregistre l’information
qui en sort ou pas. De plus, le LSTM a la capacité de pondérer les informations qu’il reçoit et
qu’il émet, via ces portes.
Chaque unité LSTM est composée d’une mémoire interne appelée cellule et de trois
portes. Le réseau peut piloter cette cellule selon les situations et ainsi maintenir un état aussi
longtemps que nécessaire. La porte d’oubli f (forget) contrôle la partie de la cellule précédente
qui sera oubliée. La porte d’entrée i (input) choisit les informations pertinentes transmises à la
mémoire. La sortie o (output) contrôle la partie de l’état de la cellule qui sera exposée en tant
qu’état caché.

Figure 1.2 – Schéma du principe d’un neurone de type mémoire court-terme et


long terme (adaptée de [Graves 13a]).

L’algorithme LSTM originel utilise un calcul du gradient approximatif qui permet aux
poids d’être mis à jour après chaque pas de temps. La méthode que nous utilisons et la même
que chez [Graves 13a], à savoir que la totalité des gradients sont recalculés au cours de la
rétropropagation du gradient.

RAFIK AMARI 10
Chapitre II Architecture bout-en-bout pour la reconnaissance de parole

Dans ce chapitre, nous nous sommes intéressés aux réseaux de neurones convolutifs
que nous allons utiliser pour proposer une approche hybride pour des systèmes de
reconnaissance automatique de la parole discontinu pour la langue arabe.

1 Contributions

Architecture des approche relaissé consiste :


En premier lieu, un empilement de deux couches CNN, une couche de sortie Softmax.
En deuxième lieu, un empilement d’une couche CNN, deux couche LSTM et une couche de
sortie Softmax.

Contrairement aux approches d’apprentissage standards qui sont fondées sur des
caractéristiques pré-définies, les réseaux de neurones convolutifs sont capables de détecter,
d’extraire et d’apprendre des traits spécifiques adaptés à la tâche visée au moment de
l’apprentissage sans avoir besoin de ressources, d’implémentation des algorithmes ou d’outils
pour extraire des « traits pré-définis » (engineered features).

Figure 1.3 – Les principaux blocs de construction d’une architecture utilisant un réseau de neurones convolutif simple

Comme illustré dans la figure 1.3, l’architecture d’un réseau de neurones convolutif simple est
caractérisée principalement par deux blocs :
— Extraction des caractéristiques : ce bloc est composé d’une entrée de dimension n_k qui
représente une instance (une séquence de mots ou un signal de parole dans notre cas d’usage),
des opérations de convolution permettant d’extraire un grand nombre de caractéristiques qui
seront par la suite compressées par des opérations de pooling (appelées aussi sous-
échantillonnages).
— Modélisation et prédiction : ce bloc est caractérisé par une suite de couches cachées
entièrement connectées pour prédire une unité qui peut être une catégorie ou une valeur, selon
la tâche.
L’architecture CNN LSTM consiste à utiliser des couches Convolutional Neural Network
(CNN) pour l’extraction de fonctionnalités sur les données d’entrée combinées à des LSTM
pour soutenir la prédiction de séquences.
Cette architecture a également été utilisée sur la reconnaissance vocale et les problèmes de
traitement du langage naturel où les CNN sont utilisés comme extracteurs de fonctionnalités
pour les LSTM sur les données d’entrée audio et textuelle.
Cette architecture convient aux problèmes qui :

RAFIK AMARI 11
Avoir une structure spatiale dans leur entrée comme la structure 2D ou des pixels dans une
image ou la structure 1D des mots dans une phrase, un paragraphe ou un document.
Avoir une structure temporelle dans leur entrée comme l’ordre des images dans une vidéo ou
des mots dans le texte, ou nécessitent la génération de sortie avec une structure temporelle
telle que les mots dans une description textuelle.

Figure 1.4 – Les principaux blocs de construction d’une architecture hybride utilisant un CNN et LSTM

Après avoir unifié la durée des signaux bruts, plusieurs travaux ont proposé d’utiliser des
paramètres acoustiques à l’entrée d’un réseau de neurones convolutif comme les MFCC, les
PLP, etc. (voir la section 1.5). Par exemple pour une transformation de signal en MFCC
(utilisé dans notre cas), nous obtenons une matrice 2D de dimension n _ k, dont n la durée de
la piste dans les trames et k le nombre de MFCC

RAFIK AMARI 12
Figure 1.5 – Exemple de d’utilisations d’un signal acoustique à l’entrée des réseaux de neurones convolutifs

RAFIK AMARI 13
2 Corpus
Les données utilisées dans notre protocole proviennent de l’université de Stirling
Le corpus de discours arabe pour les mots isolés contient 9992 déclarations de 20 mots
prononcés par 50 arabophones natifs.450 itération pour chaque mots . Il a été
enregistré avec un taux d’échantillonnage de 44100 Hz et une résolution de 16 bits.

Figure 2 Le corpus de discours arabe pour les mots isolés

RAFIK AMARI 14
3 Evaluation et Résultats

Figure 3 Evaluation système Mfcc+CNN

Figure 4 Evaluation système Mfcc+CNN+LSTM

Systéme Taux Apprentissage


Mfcc+Cnn 0.79
Mfcc+Cnn+Lstm 0.86

Tableau 1 .récapitulation des résultats d’apprentissage

4 Conclusion
Enfin, nous avons proposé un système de reconnaissance automatique de la
parole discontinu pour la langue arabe hybride CNN-LSTM pour obtenir des
transcriptions automatiques. En premier lieu notre système obtient respectivement 79%
et en deuxième lieu 086 %sur les données TrainPred et TestPred .

RAFIK AMARI 15
Conclusion et perspectives

La reconnaissance automatique de la parole est un domaine qui est intéressant à plus


d’un titre. Tout d’abord pour sa possibilité à donner naissance à une quantité d’applications
diverses. Dans ce cadre-là, les contraintes économiques ont conduit la plupart des ingénieurs
et chercheurs en reconnaissance automatique de la parole à utiliser massivement les méthodes
stochastiques, celles-ci donnant à court terme de bien meilleures performances. Cependant, de
plus en plus d’observations laissent penser que la RAP ne pourra pas fonctionner uniquement
sur la base de méthodes stochastiques fondées sur les traditionnels Coefficients Cepstraux sur
une échelle Mel (MFCC). Il faut d’une part envisager de nouvelles représentations du signal
de parole. D’autre part, il serait souhaitable de penser à de nouvelles techniques de RAP
capables d’intégrer simultanément diverses sources d’information, surtout pour être en mesure
de prendre en considération la plupart des aspects de la communication parlée, phénomène
très complexe en fin de compte.

Notre travail s’est inscrit dans un courant scientifique destiné à faire état de l’art sur recherche
fondamentale pour système de reconnaissance de parole pour la langue arabe. Nous regrettons
de n’avoir pas pu approfondir ces notions.

À partir des connaissances présentées dans ce manuscrit, diverses perspectives peuvent être
envisagées :

— À court terme : nous prévoyons dans un premier temps, particulière de la langue arabe
pour reconnaissance automatique de parole ainsi que différentes approche et mécanismes pour
système RAP en se basant apprentissage profond

— À long terme : nous pourrions envisager de contribuer à l’organisation d’un système


d’évaluation sur la tâche de prédiction de performances des systèmes de reconnaissance
automatique de la parole de la langue arabe et générer des représentations spécifiques et les
intégrer dans un système de prédiction. Son architecture consiste en un empilement plus des
couches CNN et des couches BLSTM. En basant sur une combinaison CNN et BLSTM appris
sur des données arabes, l’objectif sera d’évaluer l’impact de ces informations au moment de la
prédiction de performances, de minimiser le coût de développement des systèmes de RAP
appris sur la langue arabe

RAFIK AMARI 16
Bibliographie

[Abdel-Hamid 12] O. Abdel-Hamid, A. Mohamed, H. Jiang & G. Penn. Applying


Convolutional Neural Networks concepts to hybrid NNHMM
model for speech recognition. In 2012 IEEE International
Conference on Acoustics, Speech and Signal Processing
(ICASSP), pages 4277–4280, March 2012.

[Hochreiter 97] S. Hochreiter & J. Schmidhuber. Long Short-Term Memory.


Neural Comput., vol. 9, no. 8, pages 1735–1780, November
1997

[Hu 15] G. Hu, Y. Yang, D. Yi, J. Kittler, S. Li & T. Hospedales. When


Face Recognition Meets with Deep Learning : an Evaluation of
Convolutional Neural Networks for Face Recognition. 04 2015.

[Karpathy 14] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar


& L. Fei-Fei. Large-Scale Video Classification with Convolutional
Neural Networks. pages 1725–1732, 06 2014.

[Krizhevsky 12] A. Krizhevsky, I. Sutskever & G. E. Hinton. ImageNet Classification


with Deep Convolutional Neural Networks. In F. Pereira,
C. J. C. Burges, L. Bottou & K. Q. Weinberger, editeurs,
Advances in Neural Information Processing Systems 25, pages
1097–1105. Curran Associates, Inc., 2012.

[LeCun 90] Y. LeCun, B. Boser, J. S. Denker, R. E. Howard, W. Habbard,


L. D. Jackel & D. Henderson. Advances in Neural Information
Processing Systems 2. chapitre Handwritten Digit Recognition
with a Back-propagation Network, pages 396–404.
Morgan Kaufmann Publishers Inc., San Francisco, CA, USA,
1990

[LeCun 98] Y. LeCun, L. Bottou, Y. Bengio & P. Haffner. Gradient-based


learning applied to document recognition. In Proceedings of
the IEEE, pages 2278–2324, 1998.

[LeCun 15] Y. LeCun, Y. Bengio & G. Hinton. Deep Learning. Nature,


vol. 521, pages 436–44, 05 2015.

[Simonyan 14] K. Simonyan & A. Zisserman. Two-Stream Convolutional Networks


for Action Recognition in Videos. Advances in Neural
Information Processing Systems, vol. 1, 06 2014.

RAFIK AMARI 17
Annexe

Parameters MFCC

Model CNN

RAFIK AMARI 18
Model CNN+LSTM

RAFIK AMARI 19

Vous aimerez peut-être aussi