Vous êtes sur la page 1sur 5

Courrier du Savoir N17, Dcembre 2013, pp.

87-91

MODELISATION NEURO-PREDICTIVE POUR LA CLASSIFICATION


PHONETIQUE DE LA LANGUE ARABE

M.DIDICHE1 & A.DEBILOU 2


Laboratoire de lidentification commande, contrle et communication lI3C
Universit Med Khider Biskra ALGERIE
m.didiche@hotmail.fr

RSUM
La modlisation neuro-prdictive pour la classification phontique de la langue arabe est une branche de la reconnaissance
automatique de la parole qui suppose lapplication de deux processus fondamentaux : la para mtrisation du signal de parole et
le dcodage phontique. La para mtrisation acoustique a pour but dextraire linformation pertinente du signal acoustique afin
de fournir une description aussi complte et reprsentative que possible. Sa mise en uvre repose essentiellement sur des
mthodes issues du traitement du signal. Le dcodage phontique consiste classifier des formes acoustiques en vue de la
reconnaissance. Diffrents dcodeurs ont t utilis (Modles de Markov Cachs, Ondelettes, Rseaux de neuronesetc.)
ayant chacun leur propre algorithme dapprentissage. Dans la littrature, nous avons constat que le processus de
paramtrisation acoustique et le processus dcodage (classification) utilisent des critres doptimisation diffrents, alors quils
ont pour objectif commun la reconnaissance des units phontiques. Dans ce papier, Nous allons procder la mise en forme
dun signal de parole que lon injectera dans un rseau de neurone MLP(Multi Layer Perceptron) et ensuite faire une
comparaison entre les rsultats obtenus par les MFCC()Mel Frequency Cepstral Coding et NPC(Neuronal Predictive
Coding).Notre contribution sera sans doute limplication da le langue arabe dans ce processus.

Mots Cls : extraction de caractristique, reconnaissance de la parole, MFCC, NPC et MLF

1 INTRODUCTION 2 TRAITEMENT DE LINFORMATION VOCAL


Dans lobjectif damliorer les rsultats en reconnaissance
2.1 PRETRAITEMENT
de la parole, plusieurs mthode peuvent tre adopt. Lune
delle est lextraction de caractristiques, dont les vecteurs Le but des prtraitements acoustiques pour la
dobservation sont dtermins laide de mthode reconnaissance de la parole est de rduire la quantit
temporelles comme le LPC (linear Predictive coding) ou dinformation du signal de parole et de faciliter la
MFCC (Mel Frequency Cepstral Coding). De nombreux classification en mettant en vidence des invariants par
travaux ont montr limportance de ltape dextraction de rapport aux vnements acoustiques. La procdure
caractristique [4,1,8] qui est un lment de mise au point disolation consiste dterminer les limites du mot en
dun systme de reconnaissance. ralisant une segmentation parole/non parole du signal
vocal car il est assez coteux en temps et inutile danalyser
Mais comme la parole nest pas stationnaire, donc notre
la totalit du signal. On utilisera les critres dnergie et de
approche est une extension au domaine non linaire du
passage par zro. Lintroduction dune pr-emphase sur le
codage LPC par les rseaux de neurones multicouche. Les
signal de parole avant son analyse tient au souci de
rseaux de neurones sont des outils puissants et commodes
rehausser les amplitudes frquentielles faibles par rapport
pour rsoudre des problmes complexes.
aux hautes amplitudes afin de tenir compte de lensemble
Ltape la plus importante lors de la construction dun du signal. Le procd le plus simple, cest dappliquer un
systme de reconnaissance connexionniste est filtre de praccentuation donne par fonction de transfert.
lapprentissage, qui consiste a mettre a jours les valeurs des
connexions de ce rseaux afin de russir la tache qui lui est
assign. Sachant que cet apprentissage est bas sur 2.1.1 PREACCENTUATION :
lalgorithme de la rtro propagation du gradient. Dans cette
La praccentuation est une opration de filtrage dun signal
article, nous nous intressons aux traitements de
de parole s(n) avec un filtre dont la fonction de transfert
linformation vocal et aux algorithmes pour lextraction des
H(Z) est donne par :
LPC, MFCC, FFT, et enfin MLP.
H(Z) = 1 - Z-1

Universit Mohamed Khider Biskra, Algrie, 2013


M.DIDICHE & al

La valeur la plus utilise pour est 0,95. Sons voiss


Excitation
Si s(n) est le signal de la parole praccentu alors : Priodique
Sp(n)=s(n) 0,95 S(n-1)
Cette opration permet daccentuer les hautes frquences du Signal de
Parole
signal.

Bruit blanc
Filtre AR
2.1.2 FENETRAGE
Sons non
Le signal de la parole est de nature non stationnaire, il est vois
donc ncessaire, avant dextraire les paramtres de la
Figure 1: Modle autorgressif de production de la parole
reconnaissance de la subdiviser en segments. Cette tape
permet dobtenir pour chaque segment de parole un signal
quasi stationnaire. Comme le conduit vocale peut tre assimil un filtre
Les discontinuits aux extrmits des segments peuvent tre rcursif, ple seulement dfini par :
amoindries en multipliant chaque segment par une fentre
de Hamming. La fentre de Hamming est donne par
lquation suivante :
Et
Ou : G est le gain, G/A(Z) est la fonction de transfert du
s2(n) = s1(n).(0,54+0,46.cos( - )) filtre, les paramtres ai sont les coefficients de prdiction,
O N est le nombre dchantillons du segment. Y(Z) est le signal de sortie du filtre et U(Z) reprsente le
signal dexcitation, qui est form dimpulsion priodique
2.1.3 FFT : pour le son vois.
Cette tape transforme le signal de parole en domaine
frquentiel [1] avec la formule :
Lquation donne :
Dans le domaine temporel, lquation devient :
Xn= k , n=0,1.,N-1 o j =

Ou y est le signal estim partir de la composition linaire


des p chantillons passs.
Pour lestimation des paramtres ai, on doit minimiser
lerreur quadratique suivante :

Figure 2: FFT (bleu riche en harmonique) et Cepstre (vert) pour le


phonme i: dune locutrice

2.2 CALCUL DES COEFFICIENTS


Dans cette tape, nous survolerons les deux mthodes les Pour rsoudre ces quations, on peut utiliser la matrice
plus utilises dextraction des paramtres. La premire est dautocorrlation qui est une matrice de Toeplitz. Elle
base sur le principe de production de la parole et la permet de rsoudre lquation laide de lalgorithme
deuxime sur le principe de perception de la parole. Levinson-Durbin comme suite :
Initialisation : E(0)= r(0)
2.2.1 CODAGE LINEAIRE PREDICTIF LPC
Le codage linaire prdictif est une mthode dextraction
base sur le principe quun chantillon du signal peut tre Bo
estim laide dune composition linaire de p chantillons
prcdentes. Elle est fonde sur un modle Autorgressif Avec : ,
[1,8].

88
Modlisation neuro-prdictive pour la classification phontique de la langue arabe

3 METHODE UTILISEE
Le codage neuro-prdictif est une extension du codage
Coefficients : LPC, donc une mthode de codage temporelle, le codeur
NPC extrait les caractristiques non linaires dun
phonme. Il est bas sur un MLP une couche cache suivi
dune couche de sortie 1 neurone appel cellule de
prdiction. Ltape dapprentissage consiste prdire un
chantillon (extrait du signal acoustique dun phonme)
2.2.2 MFCC partir des n chantillons prcdents. Tous ces coefficients
sont inject dans un rseau de neurone MLP [6,7] qui doit
La methode MFCC est une mthode d'extraction des dterminer lerreur quadratique afin de rajuster les poids
paramtres selon l'echelle MEL. En effet, la perception de de la couche dentr jusqu' pouvoir avoir une erreur
la parole par le systme auditif humain est fonde sur une dsire acceptable, cette algorithme est bas sur la rtro
echelle frquentielle semblable a l'echelle MEL. Cette propagation du gradient.
echelle est linaire aux basses frquences et logarithmique
en hautes frquences et elle est donne selon l'equation
suivante:

B = 2595 et C = 700, f reprsente la frquence


Aprs une praccentuation et une subdivision en diffrents
segments avec fentrage du signal de parole, on applique la
mthode MFCC qui consiste calculer la transforme de
Fourier de chaque segment. Puis utiliser des filtres
triangulaire, espacs suivant l'chelle Mel, pour filtrer cette
transforme est obtenir les nergies partir du module au
carr de la transforme de Fourier.
Finalement, on calcul la transforme discrte en cosinus
(DCT) des logarithmes des nergies obtenues par les filtres
triangulaires afin d'extraire les coefficients MFCC utiliss Figure 4 : Codeur NPC
pour la reconnaissance. Ces coefficients sont donns par
l'quation suivante:
La rtro propagation de lerreur:

Wijl(k+1)=Wijl(k) - Wijl

Ci= j) cos ( (j-0.5))

4 RESULTAT ET DISCUTION
Afin de tester les performances de notre systme, nous
allons lappliquer sur notre base de donnes. Pour cela,
nous allons extraire une suite de vecteurs de coefficients
(MFCC/NPC) de nos fichiers wav, et lancer le mcanisme
(apprentissage/test).

4.1 Base de voyelle avec un MLP


Commentaire
Sur 1000 itrations avec 12 coefficient NPC, et 16
coefficient MFCC. Les rsultats montrent une supriorit
des MFCC que soit en taux dapprentissage (89%MFCC,
85%NPC) ou en taux de reconnaissance (66%MFCC,
58%NPC). Le codage MFCC tant une mthode
frquentielle arrive mieux reconnatre les voyelles que le
Figure 3: tapes de calcul des coefficients MFCC
codage NPC.les coefficients MFCC montre une meilleure
rsistance au bruit que les coefficients NPC.

89
M.DIDICHE & al

Figure 5: rsultat avec MFCC et NPC

4.2 Base de mot avec un MLP

MFCC : Taux de reconnaissance sur les consonnes

Tableau 1: rsultat par MFCC

15% 46% 55% 33% 13% 85% 0% 98% 71% 97% 97% 67%

NPC : Taux de reconnaissance sur les consonnes

Tableau 2: rsultat par NPC


72% 62% 82% 62% 68% 94% 63% 98% 73% 63% 65% 69%

MLP et qui ont montr des faiblesses en taux de


Commentaire reconnaissance.
Une large avance en taux de reconnaissance NPC pour les
plosives, ce qui veut dire quon arrive mieux prendre en
compte les phonmes rapides dans le temps, contrairement REFERENCE
au codage MFCC qui arrive plutt prendre en compte les
[1] Matine Bergounioux Mathmatiques pour le
consonnes de longue dure comme les nasales. traitement du signal :cours et exrcices corrigs
Dunod, paris 2010 p :270-279
5 CONCLUSION [2] Z.Hamaiza et M.Bedda Analyse et synthse de la
parole Arabe universit annaba et biskra, 2011
Jai prsent la mise en uvre de deux mthodes de codage
destines la reconnaissance de parole et qui sont les [3] Abdelkader Benyattou et Hiba Khelil Application du
paramtres qui se sont imposs lors de lextraction des rseau de neurone gamma la reconnaissance de la
caractristiques dans lanalyse de la parole. A savoir le parole USTO oran SETIT 2007
NPC tir de la phase de production et le MFCC tir de la [4] O.Deroo Modles Dependant du context et Mthodes
perception. Cette tude nous a montr limportance du de Fusion de donnes Appliques la reconnaissance
contexte en reconnaissance de la parole, donc l o des de la parole par Modles Hybrides HMM/MPL,
classifieurs ne prennent pas en compte le temps tel que le Facult Polytechnique de Mons, 1998

90
Modlisation neuro-prdictive pour la classification phontique de la langue arabe

[5] Rimah Amani, Dorra Ben Ayed et Noureddine Ellouz [10] Tahar Saidane, Mounir Zrigui et Mohamed Ben
Application de la mthode Adaboost la Ahmed La transcription orthographique phontique
reconnaissace Automatique de la parole dpartement de la langue arabe 1999
de genie electrique, ENIT tunis Tunisie 2011
[11] AMROUCHE A., DEBIECHE M., TALEB-AHMED
[6] Patrice Wira Rseaux de Neurones artificiels : A., (2010). An efficient speech recognition system in
architectures et applications , universit de haute adverse conditions using the nonparametric regression.
Alsace, laboratoire MIPS avril 2009, p : 32, 49-56, Engineering application of artificiel intelligence,
23(1), pp 85-94.
[7] Claude Touzet Introduction au connexionnisme:
cours, exercices et travaux pratiques juillet 1992, p: [12] AMROUCHE A., TALEB-AHMED A., ROUVAEN.
65-67,112 J-M., YAGOUB M. (2009) improvement of the speech
recognition in noisy environments using a
[8] M.Bellanger Traitement Numrique du signal : nonparametric regression. International journal of
Thorie et pratique edition Masson 1987, p : 363 parallel , emergent and distributed system, vol 34,
[9] D.E.Kouloughli Grammaire de larabe issue 1, pp .49-67
daujourdhui 2001

91

Vous aimerez peut-être aussi