Académique Documents
Professionnel Documents
Culture Documents
.
.
kataba Il a crit CV CV CV
.
.<
.
.
i :aktobo Il crit CVC CV CV
.
.
.
. s
.
abr patience CVCC
Table 1.1 exemple danalyse syllabique de quelques mots arabes
ralit une entit abstraite, qui peut correspondre plusieurs sons. Il est en eet sus-
ceptible dtre prononc de faon dirente selon les locuteurs ou selon sa position et
son environnement au sein du mot. Les phones sont dailleurs les direntes ralisations
dun phonme. Larabe classique standard a 34 phonmes parmi lesquels 6 sont des
voyelles et 28 sont des consonnes [2]. Les phonmes arabes se distinguent par la pr-
sence de deux classes qui sont appeles pharyngales et emphatiques. Ces deux classes
sont caractristiques des langues smitiques comme lhbreu [2][3]. Les syllabes per-
mises dans la langue arabe sont : CV, CVC et CVCC [4] . O le V dsigne une voyelle
courte ou longue et le C reprsente une consonne [2]. La langue arabe comporte cinq
types de syllabes classes selon les trais ouvert/ferm et court/long. Une syllabe est
dite ouverte (respectivement ferme) si elle se termine par une voyelle (respectivement
une consonne). Toutes les syllabes commencent par une consonne suivie dune voyelle
et elles comportent une seule voyelle. La syllabe CV peut se trouver au dbut, au milieu
ou la n du mot [3] [5]. Le tableau (tab. 1.1) reprsente quelques exemples de mots
arabes avec leurs prononciation en Alphabet Phontique Internationale[6]
1.6 Traitement du signal vocal
Linformation contenue dans le signal de parole peut tre analyse de bien des fa-
ons. Si nous observons la forme que produit la parole selon laudiogramme prsent par
la gure (g. 1.3) nous remarquons une forme priodique avec des amplitudes variantes
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 13
ou pseudopriodiques. Ainsi, aux cots droit et gauche du signal principal nous distin-
Figure 1.3 Audiogramme dun signal vocal
guons des petites courbes non identies, ce que nous appelons le bruit. Il y a plusieurs
travaux sur le sujet de reconnaissance de parole/ non parole bass sur le bruit (Speech/-
NONSpeech) [7]. En plus, chaque individu possde sa propre information vocale qui le
caractrise. Et cette information peut tre extraite partir des signaux sortant du rso-
nateur. Les traits acoustiques du signal de parole sont directement lis sa production
dans lappareil phonatoire. Tout dabord, nous avons lnergie du son [8] ; celle-ci est
lie la pression de lair en amont du larynx. Puis nous avons la frquence fondamentale
F0 [9] ; cette frquence correspond la frquence du cycle douverture/fermeture des
cordes vocales. Enn, nous avons le spectre du signal de parole [10] ; celui-ci rsulte du
ltrage dynamique du signal en provenance du larynx par le conduit vocal qui peut tre
considr comme une succession de tubes ou de cavits acoustiques de sections diverses
(g. 1.4). Chacun de ces traits acoustiques est lui-mme intimement li une autre
grandeur perceptuelle, savoir lintensit, le rythme, et le timbre. Le spectrogramme
est la reprsentation temps-frquence qui permet de mettre en vidence les direntes
composantes frquentielles du signal un instant donn. Lensemble des spectres consti-
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 14
Figure 1.4 un signal vocal et la spectogramme associ
tuant le spectrogramme sont calcul par la transform de Fourier que nous allons voir
plus en dtails par la suite.
1.6.1 Intensit dun signal vocal
Lintensit dun son, appele aussi volume, permet de distinguer un son fort dun
son faible. Elle correspond lamplitude de londe. Lamplitude est donne par lcart
maximal de la grandeur qui caractrise londe. Pour le son, onde de compression, cette
grandeur est la pression. Lamplitude sera donc donne par lcart entre la pression la
plus forte et la plus faible exerce par londe acoustique. Lorsque lamplitude de londe
est grande, lintensit est grande et donc le son est plus fort. Lintensit du son se
mesure en dcibels (dB). On distingue direntes faons de mesurer lamplitude dun
son :
La puissance acoustique : La puissance acoustique est associe une notion phy-
sique. Il sagit de lnergie transporte par londe sonore par unit de temps et de
surface. Elle sexprime en Watt par mtre carr (W.m
-2
).
Addition de sons : Lchelle des dcibels est une chelle dite logarithmique, ce qui
signie quun doublement de la pression sonore implique une augmentation de
lindice denviron 3 : avec 3 dB de plus, lintensit est en fait double [11].
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 15
1.6.2 Le rythme
Le rythme est la dure des silences et des phones. Il est dicile de les en extraire
car un mot prononc dune faon naturelle, sans aucun traitement, donne un mlange
de phones chevauchs entre eux et un silence dintensit non nulle (le bruit).
1.6.3 Le timbre
Le timbre est lensemble des caractristiques qui permettent de direncier une voix.
Il provient en particulier de la rsonance dans la poitrine, la gorge la cavit buccale et le
nez ; ce sont les amplitudes relatives des harmoniques du fondamental qui dterminent
le timbre du son. Les lments physiques du timbre comprennent :
la rpartition des frquences dans le spectre sonore,
les relations entre les parties du spectre, harmoniques ou non,
les bruits existant dans le son (qui nont pas de frquence particulire, mais dont
lnergie est limite une ou plusieurs bandes de frquence),
lvolution dynamique globale du son,
lvolution dynamique de chacun des lments les uns par rapport aux autres.
1.7 Automatisation de la Parole
La parole est produite par larticulation des membres phonatoires de lhomme et
prend une forme analogique apriodique ; ce qui est impossible pour que la machine
puisse linterprter ou le prdire car elle ne comprend que du numrique. Pour cela
on doit faire un traitement de numrisation sur ce signal. Lune des mthodes les plus
utiliss dans la numrisation est la mthode Delta ou MIC qui consiste en trois tapes :
lchantillonnage, la quantication et le codage.
1.7.1 Lchantillonnage
Lchantillonnage consiste transformer une fonction a(t) valeurs continues en
une fonction (t) discrte constitue par la suite des valeurs a(t) aux instants dchan-
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 16
tillonnage t = kT avec k un entier naturel (g. 1.5). Le choix de la frquence dchan-
tillonnage nest pas alatoire car une petite frquence nous donne une prsentation
pauvre du signal. Par contre une trs grande frquence nous donne des mmes valeurs,
redondance, de certains chantillons voisins donc il faut prlever susamment de va-
leurs pour ne pas perdre linformation contenue dans a(t). Le thorme suivant traite
cette problmatique :
Thorme (de Shannon). La frquence dchantil lonnage assurant un non repliement
du spectre doit tre suprieure 2 fois la frquence haute du spectre du signal analogique.
F
ech
= 2 F
max
Figure 1.5 un signal chantillonn
Pour la tlphonie, on estime que le signal garde une qualit susante lorsque son
spectre est limit 3400 Hz et lon choisit fe = 8000 Hz. Pour les techniques danalyse, de
synthse ou de reconnaissance de la parole, la frquence peut varier de 6000 16000 Hz.
Par contre pour le signal audio (parole et musique), on exige une bonne reprsentation
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 17
du signal jusque 20 kHz et lon utilise des frquences dchantillonnage de 44.1 ou 48
kHz. Pour les applications multimdia, les frquences sous-multiples de 44.1 kHz sont
de plus en plus utilises : 22.5 kHz, 11.25 kHz [12].
1.7.2 Quantication
Cette tape consiste approximer les valeurs relles des chantillons selon une chelle
de n niveaux appele chelle de quantication. Il y a donc 2
n
valeurs possibles comprises
entre 2n1 et 2n1 pour les chantillons quantis (g. 1.6). Lerreur systmatique
que lon commet en assimilant les valeurs relles de lcart au niveau du quantiant le
plus proche est appel bruit de quantication.
Figure 1.6 un signal quanti
1.7.3 Codage
Cest la reprsentation binaire des valeurs quanties qui permet le traitement du
signal sur machine (g. 1.6).
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 18
1.8 Paramtrisation du signal vocal
Lobjectif de cette phase de reconnaissance est dextraire des coecients reprsen-
tatifs du signale de la parole. Ces coecients sont calculs intervalles rguliers. En
simpliant les choses, le signal de la parole est transform en une srie de vecteurs de
coecients, ces coecients doivent reprsenter au mieux ce quils sont cens modliser
et doivent extraire le maximum dinformations utiles pour la reconnaissance. Parmi les
coecients les plus utiliss et qui reprsentent au mieux le signal de la parole, nous
trouvons les coecients ceptraux, appels galement ceptres. Les deux mthodes les
plus connus pour lextraction du ceptres sont : lanalyse spectrale et lanalyse param-
trique. Pour lanalyse spectrale (par exemple, Mel-Scale Frequency Ceptral Coecients
(MFCC)) comme pour lanalyse paramtrique (par exemple, le codage prdictif linaire
(LPC)), le signal de parole est transform en une srie de vecteurs calculs pour chaque
trame. Il existe dautres types de coecients qui sont surtout utiliss dans des milieux
bruits, nous citons par exemple les coecients PLP (Perceptual Linear Predective). Ces
coecients permettent destimer les paramtres dun ltre autorgressif en modlisant
au mieux le spectre auditif [13]. Il existe plusieurs techniques permettant lamliora-
tion de la qualit des coecients, nous trouvons par exemple ; lanalyse discriminante
linaire (LDA), lanalyse discriminante non linaire (NLDA), etc.[14] Ces coecients
jouent un rle capital dans les approches utilises pour la reconnaissance de la parole.
En eet, ces paramtres qui modlisent le signal seront fournis au systme de recon-
naissance pour lestimation de la probabilit P(squence|message). Dans notre travail,
nous utilisons les coecients MFCC pour tester leur rendement dans un environnement
bruit. Lutilisation des MFCC est motive par les deux proprits suivantes :
Dconvolution : les MFCC dcouplent les caractristiques du conduit vocal (qui
vhicule la plus grande partie de linformation disponible sur les traits distinctifs
de la parole) des caractristiques gnres par lexcitation (information prosodique
et linformation dpendante du locuteur).
Dcorrlation : La transforme en cosinus discrte possde un eet de dcorrla-
tion entre les lments du vecteur de traits. Les MFCC sont une reprsentation
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 19
dnie comme tant la transforme cosinus inverse du logarithme du spectre de
lnergie du segment de la parole. Lnergie spectrale est calcule en appliquant
un banc de ltres uniformment espacs sur une chelle frquentielle modie,
appele chelle Mel. Lchelle Mel redistribue les frquences selon une chelle non
linaire qui simule la perception humaine des sons.[15]
tapes de calcul du vecteur caractristique de types MFCC :
Dans ce qui suit, nous dcrivons chacune des tapes ncessaires pour lobtention dun
vecteur caractristique tir des coecients MFCC, tel quillustr par la Figure (g. 1.7)
Figure 1.7 tapes de calcul dun vecteur caractristique de type MFCC
1.8.1 Groupement en trames (Frame blocking)
Le signal acoustique continu est segment en trames de N chantillons, avec un
pas davancement de M trames (M < N), cest--dire que deux trames conscutives
se chevauchent sur N M chantillons. Les valeurs couramment utilises pour M et
N sont respectivement 10 et 20. Comme prtraitement, il est dusage de procder la
praccentuation du signal en appliquant lquation de dirence du premier ordre aux
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 20
chantillons x(n), avec lquation (1.1)
x
_
0.54 0.46 cos(
2n
N1
) 0 n N 1
0 sinon
(1.3)
Fentre rectangulaire :(1.4)
w(n) =
_
_
1 0 n N 1
0 sinon
(1.4)
Fentre triangulaire :(1.5)
w(n) =
_
_
2n
N1
si0 n
N1
2
2(Nn1)
N1
si
N1
2
< n N 1
0 sinon
(1.5)
Fentre de Hann :(1.6)
w(n) =
_
_
0.5 0.5 cos
2n
N1
si0 n N 1
0 sinon
(1.6)
Fentre de Blackman :(1.7)
w(n) =
_
_
0.42 0.5 cos
2n
N1
+ 0.08 cos
4n
N1
si0 n N 1
0 sinon
(1.7)
La gure (g. 1.8) illustre la forme que prennent les fonctions dnies ci-dessus
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 21
Figure 1.8 Les fonctions de fentrage
1.8.3 Calcul de la transforme de Fourier rapide (Fast Fourier
Transform, FFT)
Au cours de cette tape chacune des trames, de N valeurs, est convertie du domaine
temporel au domaine frquentiel. La FFT est un algorithme rapide pour le calcul de la
transforme de Fourier discret (DFT) et est dnie par la formule (1.8). Les valeurs
obtenues sont appeles le spectre.
x[k] =
N1
n=0
x
a
[n]e
2j
N
kn
, 0 k N 1 (1.8)
En gnral, les valeurs X[k] sont des nombres complexes et nous nous utilisons que
leurs valeurs absolues (nergie de la frquence).
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 22
1.8.4 Filtrage sur lchelle Mel
Le spectre damplitude est pondr par un banc de M ltres triangulaires espacs
selon lchelle Mel. Dans lchelle de mesure Mel, la correspondance est approximative-
ment linaire sur les frquences au-dessous de 1kHz et logarithmique sur les frquences
suprieures celle-ci. Cette relation est donne par la formule (1.9) [16] :
m = 2595 log
10
(1 +
f
700
) (1.9)
Le logarithme de lnergie de chaque ltre est calcul selon lquation 1.10 :
S[m] = ln[
N1
k=0
X
a
[k]H
m
[k]], 0 < m M (1.10)
1.8.5 Calcul du cepstre sur lchelle Mel
Le cepstre sur lchelle de frquence Mel est obtenu par le calcul de la transforme en
cosinus discrte (equation (1.11)) du logarithme de la sortie des M ltres (reconversion
du log-Mel-spectre vers le domaine temporel).
c[n] =
t
(i) = P(o(1), o(2), ..., o(t)|Q(t) = q
i
, ).
Puis la probabilit inconditionnelle de la squence partielle dobservation est la somme
de P
t
(i) sur tous les tats N. Lalgorithme Forward est un algorithme rcursif pour
calculer
t
(i) pour la squence dobservation linstant t. Tout dabord, on calcule
la probabilit de gnrer le premier symbole de la squence par la formule
t
(i) =
(i).P(o1|i), puis chaque tape de linduction,
t
(i) = (
S
t1
(i
).P(i
i)P(o
t
|i)
on rajoute un symbole et on ritre la procdure jusqu ce que lon ait calcule la
probabilit de gnration de la squence entire et par la suite P(O|) par la formule
P(O|) =
iS
T
(i)
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 28
2.2.5 Lalgorithme BACKWARD
Cest un algorithme qui peut tre utilis pour faire lopration inverse de lalgorithme
FORWARD. On utilise alors la variable backward dnie par
t
(i) = P(o
t+1
, o
t+2
, ..., o
T
|i
t
= s, )
qui exprime la probabilit de gnrer la squence O = o
t+1
...o
T
en partant de ltat s.
Linduction suit alors le schma :
1. initialisation :
T
(i) = 1
2. induction :
t
(i) =
S
t+1
(i
)P(i i
)P(o
t+1
|i
)
En connaissant la probabilit de gnrer la squence O en partant de ltat s, le calcul
de P(O | H) peut alors tre ralis suivant la formule.[23]
P(O|) =
iS
(i)
1
(i)
2.2.6 LAlgorithme de Viterbi
An de rsoudre le problme de dcodage, lalgorithme de Viterbi est employ. Le
critre doptimalit ici est de rechercher un meilleur ordre simple dtat par la technique
modie de la programmation dynamique. Lalgorithme de Viterbi est un algorithme
de recherche parallle, savoir il recherche le meilleur ordre dtat en traitant tous les
tats en parallle. Nous devons maximiser P(Q|O, ) pour dtecter le meilleur ordre
dtat. Soie la probabilit
t
(i) qui reprsente la probabilit maximale le long du meilleur
chemin probable dordre dtat dune squence dobservation donn aprs t instants et
en tant ltat i ;
t
(i) = max
q
1
,q
2
...q
t1
P[q
1
, q
2
...q
t1
, q
t
= S
i
, o
1
...o
t
|]
La meilleure squence dtats et retourne par une autre fonction
t
(j). Cette fonction
tient lindex de linstant t 1, partir duquel la meilleure transition est faite ltat
actuel. Lalgorithme complet est comme suit :
1. Initialisation :
1
(i) = 0;
1
(i) = (i)P(o
1
|i);
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 29
2. Induction :
t
(i) = max
i
S
(
t1
(i
)P(i
i))P(o
t
|i)
t
(i) = arg max
i
S
(
t1
(i
)P(i
i))
Une fois les variables
t
(i) et
t
(j) calcules pour chaque tape de linduction et pour
chaque tat, il ne reste plus qu lancer une procdure inductive de retro-propagation
pour drouler le chemin de Viterbi s
1
*
...s
T
*
:
1. Initialisation : s
T
*
= arg max
iS
(
T
(i))
2. Induction : s
t
*
=
t+1
(s
t+1
*
), t {T 1...1}
Cet algorithme a eu beaucoup dextensions [25], parmi lesquels nous allons voir lalgo-
rithme passage de jeton.
2.2.7 Lalgorithme de Baum-Welch
Cet algorithme est li au problme dapprentissage qui est le plus dicile. Le but est
dajuster des paramtres du modle selon un critre doptimalit. Lalgorithme Baum-
Welch est strictement li lalgorithme FORWARD-BACKWARD et il essaye dat-
teindre le maximum local de la fonction de probabilit P(O|). Le modle converge
toujours mais la maximisation globale nest pas garantie. Cest pourquoi le point initial
de recherche est trs important. Soit
t
(i, i
) =
P(i
t
= i, i
t+1
= i
|O, )
P(O|)
La probabilit quen gnrant O avec on passe par ltat i linstant t et par ltat
i
0
linstant t + 1. et en utilisant les variables forward et backward :
t
(i, i
) =
t
(i)P(i i
)P(o
t+1
|i
)
t+1
(i
)
P(O|)
=
t
(i)P(i i
)P(o
t+1
|i
)
t+1
(i
qS
rS
t
(q)P(q r)P(o
t+1
|r)
t+1
(r)
On dnit ainsi la quantit
t
(i) = P(i
t
= i|O, H) la probabilit quen gnrant O avec
H on se trouve sur ltat s linstant t, on a :
t
(i) =
i
t
(i, i
)
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 30
Si lon somme
t
(i) sur lensemble des instants t, on obtient une quantit que lon peut
interprter comme lesprance du nombre de fois o ltat i est utilis pour gnrer la
squence O. De mme, si on somme
t
(i, i
0
) sur lensemble des instants t, on obtient une
quantit que lon peut interprter comme lesprance du nombre de fois o la transition
s s
0
est utilise pour gnrer la squence O. On a donc un estimateur
H du HMM
dni par les expressions suivantes :
(i) =
1
(i)
P(i i
) =
T1
t=1
t
(i, i
T1
t=1
t
(i
P(o|i) =
T
t=1,ot=o
t
(i)
T
t=1
t
(i)
Aprs la re-estimation des paramtres du modle, nous allons avoir un nouveau modle
plus adapt gnrer la squence dobservation O. Le procd itratif de re-estimation
continue jusqu ce quaucune amlioration de P(O|) ne soit ralise.[19]
2.2.8 Algorithme passage de Jeton (Token passing algorithm)
Introduit par Young en 1989 [26], lalgorithme passage de jeton est une amlio-
ration du dcodage de Viterbi qui se base sur la DTW, or cette dernire fait que des
calculs et des comparaisons et en consquence, par exemple au traitement de la parole
continue, une fausse dcision un instant t induit un faut rsultat nale. Lavantage de
lalgorithme passage de jeton est quil fait une recherche parallle en profondeur avec
des retours en arrire des jetons. Lalgorithme est prsent comme suit (g. 2.2)[27] :
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 31
Figure 2.2 Token Passing Algorithm
2.2.9 Les limites des HMMs
Il devrait noter ici que les HMMs ont quelques limitations :
1. La probabilit de transition dpend seulement de lorigine et de la destination.
2. Le choix priori de la topologie des modles (nombre dtats, transitions autori-
ses et rgles de transition) limite la souplesse des modles
3. Ignorance complte de la dure relative des vnements du signal.
4. Dgradation des performances sil y a problme lapprentissage.
Certains recherches [28][29] ont trouvs que lhybridation des HMMs avec les rseaux
de neurones articiels a donne de meilleurs rsultats avec un taux de reconnaissance
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 32
suprieur 85.8 % par rapport 83.4% dun HMM simple. Nous trouvons aussi des
extensions des HMMs par la notion de Hidden semi-Markov model [30]avec la redni-
tion de ses propre algorithmes destimation, dapprentissage et de paramtrisation[31]
,etc.
2.3 Support Vector Machines (SVM)
Introduite au dbut des annes 90 par Vladimir Vapnik et qui connat jusqu nos
jours un trs grand succs dans la reconnaissance des formes. Elle repose sur une thorie
solide dapprentissage statistique qui vise trouver des hyperplans sparant les donnes
dans un espace appropri des caractristiques[32]. Et en consquence elle donne une
solution aux limites des classieurs sparation linaire par des sparations base sur
les hyperplans (g. 2.3). Selon Jaume Padrell-Sendra et son quipe[33], lutilisation du
Figure 2.3 Le principe du SVM
svm pour prendre les dcisions et lutilisation de lalgorithme passage de jetons pour
dterminer la suite de mots dans la reconnaissance de chires composs a donne un
rsultat meilleur que celui dun HMM classique avec un taux 96,96% pour les svm
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 33
et 96,47% pour les HMMs. Par contre ils dmontrs que les performances des SVMs
dpendent sur le nombre de support utilis.
2.4 Dynamic Time Warpping (DTW)
Appele aussi Alignement de Viterbi, introduite par H.Sakoe et S.Chiba[34], ore
de meilleures performances car elle tient compte des compressions et extensions tem-
porelles qui sont observes lors de la prononciation plus ou moins rapide dun mot.
Le principe de base est dessayer de trouver le chemin optimal parcourir parmi len-
semble des distances entre les vecteurs. Au traitement de la parole un mot nest jamais
prononc deux fois de la mme manire, cest pourquoi il est dicile de le reprer. La
reconnaissance base sur la DTW est plus able dans la reconnaissance de parole conti-
nue car elle tient compte des compressions et extensions temporelles. Le principe tant
de crer une matrice de dimension N J(k) (N et J(k) sont respectivement le nombre
de vecteurs dans la squence de test et de rfrence) Une fois cette matrice obtenue,
le but est de partir du point (1.1) et darriver au point nal (N.J(k)) en minimisant le
chemin parcourir.
D(n, j) = d(n, j) + min p(n, j)D(p(n, j))
Avec :
1. p(n, j) : ensemble des prdcesseurs possibles de llment (n, j)
2. D(n, j) : distance globale
3. d(n, j) : distance locale
La gure 2.4 rsume le fonctionnement de la DTW
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 34
Figure 2.4 Processus DTW
O les c
i
reprsentent les paramtres de la forme reconnaitre, les coecients MFCC
par exemple , et les q
j
reprsentent les paramtres dune rfrence dune forme connue.
Aprs le calcul du taux de dissemblance de la donne prononce reconnaitre par
rapport toutes les rfrences, nous choisissons celle avec la plus grande valeur(g. 2.5).
Figure 2.5 Reconnaissance base de la DTW
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 35
Il est claire que les HMMs sont plus adapts au traitement de la parole mais a ne
laisse pas la DTW hors comptition car ils ont trouvs dans une recherche au traitement
de la parole de la langue Punjabi [35] que la DTW est bien meilleure que les HMMs
classiques avec un taux de reconnaissance 92,3% par rapport 87,5%.
2.5 Rseaux de neurones dlai temporel (TDNN)
Propos par A.Waibel en 1989 pour la reconnaissance de la parole, il est constitu
de sous rseau agissant comme des extracteurs de formes sur une priode dnie de la
fentre dentre, chaque sous rseaux ayant pour tche de reconnaitre des squences.
Le rseau se base sur la dtection de groupe dvnements, dont la position absolue
est moins importante que la disposition relative de leurs composantes. Les TDNN sont
constitus comme les Perceptrons Multicouches dune couche dentre, de couches ca-
ches et dune couche de sortie. Il se singularise dun perceptron multicouche classique
par le fait quil prend en compte une certaine notion de temps. Cest dire quau lieu
de prendre en compte tous les neurones de la couche dentre en mme temps, il va
eectuer un balayage temporel. La couche dentre du TDNN prend une fentre du
spectre et balaie le signal ; cette fentre sappelle fentre de spcialisation. Le TDNN
permet ainsi de reconnatre le signal tout en tant moins strict que le PMC classique
(cest dire quil pourra y avoir des petits dcalages). Aussi, Les neurones de la couche
i +1 sont relis aux neurones de la couche i par des connexions retard. Ce nombre de
retard dnit la largeur de la fentre de spcialisation. Le TDNN se caractrise par :
Le nombre de couches (Chaque couche a deux directions : direction temporelle et
direction caractristique).
Le nombre de neurones de chaque couche selon la direction temporelle, fentre
dobservation.
Le nombre de neurones de chaque couche selon la direction caractristique.
La taille de la fentre temporelle qui se traduit par le nombre de neurones de la
couche i suivant la caractristique temporelle vue par un neurone de la couche
i + 1.
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 36
Le dlai temporel (nombre de neurones) entre deux fentres successives dans une
couche donne.
La dtermination du nombre de neurones de la couche i + 1 selon la direction tem-
porelle (Nbt
i
+ 1) se dduit du nombre de neurones de la couche i selon la direction
temporelle (Nbt
i
) et de la largeur de la fentre de spcialisation (D) de la manire sui-
vante (g. 2.6) : Les TDNNs introduisent des contraintes qui leurs permettent davoir
Figure 2.6 Time Delay Neural Network (TDNN)
un certain degr dinvariance par dcalage temporel et dformation. Celles-ci utilisent
trois ides : poids partags, fentre temporelle et dlai.
Les units dlais : Les units retard sont des units de base de ce modle
(TDNN) qui comportent des liaisons avec des retards, une sommation spatiotem-
porelle est donc eectue au niveau de chaque neurone.
Fentre de spcialisation : Le concept de fentre temporelle implique que chaque
neurone de la couche i + 1 nest connect qu un sous ensemble de la couche
i. La longueur de cette fentre est la mme entre deux couches donnes selon la
caractristique temporelle. Cette fentre temporelle permet que chaque neurone
nait quune vision locale du signal, cette zone de vision sappelle champs rcep-
teurs du neurone ; ce dernier peut tre vu comme une unit de dtection dune
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 37
caractristique locale du signal.
Les poids partags : Les poids partags permettent de rduire le nombre de para-
mtres du rseau neuronal et induisent ainsi une capacit de gnralisation plus
importante. Les poids sont partags suivant la direction temporelle, cest dire
que pour une caractristique donne, la fentre associe celle-ci aura les mmes
poids selon la direction temporelle ceci est appel linvariance en translation.[36]
Pour rsoudre les problmes de prdiction et classication phontique lis au rseaux
de neurones dlai temporel, nous pouvons utilis les algorithmes gntique[37]
2.6 Conclusion
Les algorithmes de classication ont gnralement donns des rsultats convaincants
mais quelques critiques lies aux SVM, DTW et le TDNN nous ont permis de travailler
avec les HMMs. Tout dabord, l inconvnient des SVMs est le choix empirique de la
fonction noyau adapte au problme, et la DTW ne fait pas lapprentissage et nest
pas base sur une base mathmatique solide, et enn pour les TDNNs, ils ncessitent
un long temps dapprentissage avec une architecture dicile dterminer. Par contre
pour les HMMs, ce sont les plus performants pour le traitement de la parole car ils
prennent en considration lalignement temporel et lordre des squences des donnes,
et grce leur architecture nous pouvons introduire les proprits linguistiques de la
langue tudie.
Chapitre 3
Expriences sur les mots connects
et continus
3.1 Introduction
Le traitement de la parole ore deux possibilits dutiliser les mots dun vocabulaire.
La premire ne dpend pas de la langue et prend la forme de chaque mot tel quil est ;on
dit que ce sont des mots connects. La deuxime utilise les caractristiques linguistiques
et dcoupe chaque mot en syllabes ou en phonmes ; on dit que ce sont des mots continus.
Dans ce chapitre nous allons faire une comparaison entre ces deux modes de traitement
dans domaine de la reconnaissance de parole isole et de parole continue sur des bases
dapprentissage de tailles variables pour tester linuence de ses dernires sur le taux de
russite de chacun. Lapproche utilise comme technique de classication est les modles
de Markov Cachs pour lesquels nous allons utiliser loutil HTK (annexe A).
3.2 Construction de la base de donnes
Tout travail sappuyant sur lapprentissage ncessite une base de donnes pour en
apprendre le systme et ensuite de lvaluer. Ils existent plusieurs base de donnes in-
ternationales dans domaine de la parole tels que TIMIT qui a t dveloppe par la
commission DARPA pour langlais amricain. Et nous trouvons aussi dautres base
38
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 39
de donnes de direntes langues connus, comme le franais et lallemand, et inconnus,
comme le vietnamiens et le turque. Pour la langue arabe, nous navons pas dcouvert une
base de donnes standard, mais nous avons quand mme repr quelques rfrences. La
base KACST dveloppe par linstitut du roi Abdul-Aziz en Arabie Saoudite, construite
base dinstruments mdicaux [38]. Et la base ALGERIAN ARABIC SPEECH DA-
TABASE (ALGASD)[39] dveloppe en Algrie pour le traitement de la parole arabe
en prenant en compte les dirents accents de direntes rgions du pays. La non dis-
ponibilit et le manque de moyens pour avoir une base de donnes audio nous a pouss
construire notre propre base de donnes destine faire la reconnaissance des chires
et les oprations dune calculatrice standard en arabe pour un seul utilisateur. Nous
avons fait 27 enregistrements de 28 mots de vocabulaire.
3.3 Introduction des chiers sons
Nous avons pu utiliser nimporte quel outil dacquisition des chiers audio mais nous
avons choisi un outil qui est dvelopp pour le traitement de la parole. Cet outil sappelle
Praat tlchargeable librement partir du site http://www.fon.hum.uva.nl/praat/
download_win.html.Praat fait en plus de lacquisition des donnes audio, des analyses
du pitch, lanalyse spectrale du signal et dautres fonctionnalits dont la plus intres-
sante et la reconnaissance vocale base sur lanalyse phontique et syntaxique (g. 3.1).
Mais cette dernire nest disponible que pour quelques langues et, malheureusement,
larabe nen fait pas partie.
3.4 Etiquetage manuel des donnes
Notre systme fait un apprentissage supervis pour lequel les donnes doivent tre
reprsentes par leurs caractristiques et leurs classes associes. Ces donnes sont de
nature audio et leurs caractristiques sont les coecients MFCC avec leurs drivs
primaires et secondaires. Et la classe de sortie contient des tiquettes. Loutil HTK
met disposition une fonction intitule HSLAB qui permet de visualiser un chier
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 40
Figure 3.1 Quelques fonctionnalits de Praat
audio dans une interface graphique pour ensuite tiqueter les zones signicatives en
slectionnant leurs parties associs. Il y a deux manires dtiquetage de la parole :
3.4.1 Etiquetage pour la reconnaissance de mots connects
Cest la mthode pour laquelle chaque mot est reprsent par sa forme lexicale sans
prendre en compte la phonation (g. 3.2)
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 41
Figure 3.2 tiquetage de mots connects
3.4.2 tiquetage pour la reconnaissance de mots continue
Pour ce type dtiquetage chaque mot est dcoup en syllabes ou en phonmes, et
les caractristiques linguistique de ce mot sont introduits par la suite (g. 3.3).
Le tableau (tab. 3.1) reprsente le vocabulaire et les tiquettes selon les deux formes
dtiquetage
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 42
Figure 3.3 tiquetage de mots continus
Le mot Prononciation en Arabe tiquetage connects tiquetage continus
0
..
cifr cifr
1 .-
.
.
.
.
.v
.
. thalaatha tha laa tha
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 43
Le mot Prononciation en Arabe tiquetage connects tiquetage continus
4
.
arbaaa ar ba aa
5
.
..
-
khamsa kham sa
6
.
.
..
sitsa si tsa
7
.
..
. sabaa sa b aa
8
.
.
.
..
.
thamaania tha maa nia
9
.
..
.
.
tisaa tis aa
10
.
..
.
.
. aachar aa char
11 .
.
.
.
.
-
.
.
..
.
.
.
.
.
..
.
.v
.
. thalaathoun tha laa thoun
40
arba3oun ar ba 3oun
50
..
-
khamsoun kham soun
60
.
..
sitsoun si tsoun
70
..
. sab3oun sa b 3oun
80
..
.
thamaavoun tha maa noun
90
..
.
.
zaaid zaa id
-
.
. dharb dharb
/
.
..
.
.
.
.
.
yosaawii yo saa wii
<- _
rojou3 ro jou3
wa
wa wa
Table 3.1 tiquetage connect et continu des mots de vocabulaire
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 44
3.5 Paramtrisation
Selon certaines recherches[40], la mthode MFCC est la meilleure pour la reconnais-
sance de la parole, et les drivs primaires et secondaires fournissent des informations
supplmentaires. Ces paramtres sont calculables par le biais dune fonction dont dis-
pose loutil HTK. Cette fonction est HCOPY qui prend en entre un chier audio et
calcule ses coecients suivant une conguration de la taille des fentres, nombre de
ceptres, le type de fentrage, et dautres paramtres introduits par lutilisateur. Cer-
tains travaux utilisent mme des algorithme de Boosting comme AdaBoost pour pallier
les carences des donnes dapprentissage[41].
Dans notre cas nous avons calcul les paramtres des 27 28 chiers audio. Ces
paramtres sont : Le nombre de coecients MFCC utilis est 8 + lenergie + les drivs
(donc 18) choisi a partir des travaux similaires sur la parole arabe[42]
3.6 Dnition du HMM
La fonction de principe de HTK est de manuvrer des ensembles de modles de
Markov cachs (HMMs). La dnition dun HMM doit spcier la topologie du mo-
dle, les paramtres de transition et les paramtres de distribution de rendement. Les
vecteurs dobservation du HMM peuvent tre diviss en multiples trames de donnes
indpendantes et chaque trame peut avoir son propre poids.[43] Pour loutil HTK, les
chaines de Markov caches sont dabord estimes par des prototypes (g. 3.4). La fonc-
tion dune dnition de prototype est de dcrire la forme et la topologie du HMM,
les nombres rels utiliss dans la dnition ne sont pas importants. Par consquent, la
taille du vecteur (VecSize) et le type de paramtre (MFCC) devraient tre spcis et
le nombre dtats doit tre choisi (NumStates). Les transitions permises entre les tats
devraient tre indiques en mettant des valeurs direntes de zro dans les lments cor-
respondants la matrice de transition (TransP) et zros ailleurs. La somme de chaque
ligne de la matrice de transition doit tre gale 1, sauf la dernire qui devrait tre 0.
Toutes les valeurs moyennes peuvent tre zro mais les variances diagonales devraient
tre positifs et les matrices de covariance devraient avoir les lments diagonaux posi-
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 45
tifs. Toutes les dnitions dtat peuvent tre identiques. Rappelons que notre but est
Figure 3.4 Prototype dun HMM
de faire une comparaison entre la reconnaissance de mots connects et les mots continus
dont chacun ncessite une modlisation de son HMM
3.6.1 HMM de reconnaissance de mots connects
Nous avons modliss un mot connect par le nombre de syllabes quil contient,
cest--dire que chaque syllabe reprsente un tat du HMM associ au mot en plus les
deux tats dentre et de sortie. La gure (g. 3.5)reprsente un prototype du mot
sabaa (sept).
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 46
Figure 3.5 Prototype dun HMM de mot connect
3.6.2 HMM de reconnaissance de mots continus
Pour les mots continus, chaque syllabe est spcie par un HMM. Notre systme
contient 42 syllabes et pour leur modliss nous nous somme bas sur les classes de
syllabes de la langue arabe vues au premier chapitre. Nous avons mentionns que la
langue arabe comporte 3 types de syllabes qui sont : CV, CVC et CVCC. Pour cette
raison nous ne dnissons que 3 types de HMM pour la reconnaissance de mots continus
(g. 3.6). Le tableau (g. 3.2) reprsente les HMM utiliss des 42 syllabes.
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 47
Syllabe Reprsentation
syllabique
Numro du
HMM
Syllabe Reprsentation
syllabique
Numro du
HMM
cifr CVCC 3 iich CV 1
waa CV 1 roun CVC 2
hid CVC 2 thoun CVC 2
ith CV 1 3oun CVC 2
naan CVC 2 soun CVC 2
tha CV 1 tsoun CVC 2
laa CV 1 noun CVC 2
ar CV 1 zaa CV 1
ba CV 1 id CV 1
aa CV 1 naa CV 1
kham CVC 2 kis CVC 2
sa CV 1 dharb CVCC 3
b CV 1 mats CVCC 3
si CV 1 yo CV 1
tsa CV 1 saa CV 1
maa CV 1 wii CV 1
nia CV 1 ro CV 1
tis CVC 2 jou3 CVC 2
char CVC 2 wa CV 1
a CV 1 daa CV 1
7a CV 1
Table 3.2 Les HMMs des syllabes du vocabulaire
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 48
Figure 3.6 Prototypes des mots continus
Dans le HMM associ au silence on ajoute un lien du 2
me
tat au 4
me
tat et un
autre du 4
me
au 2
me
pour rendre le modle plus robuste en absorbant les variations
des impulsions nasales de lensemble dapprentissage [43]
3.7 Initialisation
Avant de dmarrer le processus dapprentissage, les paramtres des HMMs doivent
tre correctement initialiss en utilisant la base dapprentissage an de permettre une
convergence rapide et prcise de lalgorithme dapprentissage.[44] La commande HInit
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 49
de loutil HTK permet dinitialiser les HMMs par alignement temporel en utilisant lal-
gorithme de Viterbi partir des prototypes, et les donnes dapprentissage dans leur
forme MFCC et leur chier tiquet associ. Lorganigramme suivant rsume le proces-
sus (g. 3.7) : Premirement, HTK charge le prototype du HMM dnir, ensuite il
Figure 3.7 Lopration HInit
cherche dans la base des tiquettes le label portant le nom de ce HMM; noter quun
chier label contient le temps de dbut et de n dune tiquette dans un enregistre-
ment. Et par le biais du chier de conguration il trouve le lien avec les coecients
MFCC calculs prcdemment et en prend ensuite ce dont il a besoin (g. 3.8). Quand
le systme charge tout ce dont il a besoin lalgorithme de Viterbi est employ pour
trouver lordre le plus susceptible dtat correspondant chaque exemple dapprentis-
sage, puis les paramtres de HMM sont estims. Nous pouvons calculer le logarithme
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 50
de vraisemblance de lensemble dapprentissage pour viter leet de bord de trouver
lalignement Viterbi des tats. Par consquent, le procd entier dvaluation peut tre
rpt jusqu ce quaucun accroissement plus ultrieur de probabilit ne soit obtenu.
Figure 3.8 Processus de chargement de donnes pour la commande HInit
3.8 Apprentissage
Nous avons vu que linitialisation nest quun calcul de distance ; car lalgorithme
de Viterbi se base essentiellement sur la DTW. Et pour lapprentissage nous allons
appliquer lalgorithme de Baum-Welch vu en deuxime chapitre. Cette tape est assure
par la commande HRest de loutil HTK, qui est dsign la manipulation des HMMs
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 51
isols. Son fonctionnement est trs semblable HInit sauf que, suivant les indications
de la gue(g. 3.9), en partant dun HMM initialis elle emploie la rvaluation Baum-
Welch au lieu de lapprentissage de Viterbi. Ceci implique de trouver que la probabilit
dtre dans un tat donn en une fentre de temps donne en utilisant lalgorithme
Baum-Welch (forward-backward). Cette probabilit est alors employe pour former des
moyennes pondres pour les paramtres du HMM.
Figure 3.9 Le processus dapprentissage
3.9 Dnition de la grammaire
Il est ncessaire de donner au systme des indications pour quil puisse dterminer
une solution satisable. A noter que la grammaire ne dpend pas du type dtiquetage
des mots (connects ou continus). Nous avons construit nos grammaire en suivant le
format du HTK. O les variables sont prcdes par un $, les {} aux extrmits des
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 52
mots dnotent zro ou plusieurs rptitions permises, les [] pour au plus une rptition,
le trait verticale signie une alternative, et la parenthse ouverte reprsente le dbut de
larbre de drivation et la parenthse fermante pour ltat nale.[44]
3.9.1 Grammaire pour la reconnaissance de parole isole
(g. 3.10) Ici tous les mots du langage ont la mme probabilit.
Figure 3.10 grammaire de parole isole
3.9.2 Grammaire pour la reconnaissance de parole continue
Il est clair que plus la grammaire est complexe, plus le systme plus dalterna-
tives de reconnaissance et par la suite le taux derreur augmente. Nous avons choisi de
travailler avec une grammaire simple qui permet de gnrer les mots de type A op B
(g. 3.11) avec A et B deux oprandes et op une opration. La liste suivante donne
plus de dtail.
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 53
Figure 3.11 grammaire de parole continue
A noter que cette grammaire, au contraire de la grammaire des mots isols, dbute
avec le mot SENT-START et se termine par SENT-END .
3.10 Construction du dictionnaire
Le systme doit naturellement savoir quel HMM correspond chacune des variables de
grammaire cifr, waahid, . . . , rojou3, wa . Cette information est stocke dans un chier
texte appel le dictionnaire de tche. Dans une tche si simple, la correspondance est
franche, et le dictionnaire de tche joint simplement les mots ou les syllabes(Tab. 3.3).
Dictionnaire des mots continus Dictionnaire des mots connects
SENT-START [] SENT-START []
SENT-END [] SENT-END []
cifr [0] cifr cifr [0] cifr
waahid [1] waa hid waahid [1] waahid
ithnaan [2] ith naan ithnaan [2] ithnaan
thalaatha [3] tha laa tha thalaatha [3] thalaatha
arbaaa [4] ar ba aa arbaaa [4] arbaaa
khamsa [5] kham sa khamsa [5] khamsa
sitsa [6] si tsa sitsa [6] sitsa
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 54
Dictionnaire des mots continus Dictionnaire des mots connects
sabaa [7] sa b aa sabaa [7] sabaa
thamaania [8] tha maa nia thamaania [8] thamaania
tisaa [9] tis aa tisaa [9] tisaa
aachar [10] aa char aachar [10] aachar
a7adaaaachar [11] a 7a daa aa char a7adaaaachar [11] a7adaaaachar
ithnaaaachar [12] ith naa aa char ithnaaaachar [12] ithnaaaachar
iichroun [20] iich roun iichroun [20] iichroun
thalaathoun [30] tha laa thoun thalaathoun [30] thalaathoun
arba3oun [40] ar ba 3oun arba3oun [40] arba3oun
khamsoun [50] kham soun khamsoun [50] khamsoun
sitsoun [60] si tsoun sitsoun [60] sitsoun
sab3oun [70] sa b 3oun sab3oun [70] sab3oun
thamaanoun [80] tha maa noun thamaanoun [80] thamaanoun
tis3oun [90] tis 3oun tis3oun [90] tis3oun
zaaid [+] zaa id zaaid [+] zaaid
naakis [-] naa kis naakis [-] naakis
dharb [x] dharb dharb [x] dharb
kismats [/] kis mats kismats [/] kismats
yosawi [=] yo saa wii yosawi [=] yosaawii
rojou3 [<-] ro jou3 rojou3 [<-] rojou3
wa wa wa wa
sil sil sil sil
Table 3.3 Dictionnaires du systme
Les lments de gauches se rapportent aux noms des variables de grammaire. Les l-
ments de droite se rapportent aux noms du HMM (prsent par le h dans la dnition
du HMM). Les lments encadrs au milieu sont facultatifs, ils indiquent les symboles
qui seront achs par le systme de reconnaissance : les noms des tiquettes sont em-
ploys ici (par dfaut, les noms des variables de la grammaire sont achs.)
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 55
3.11 Gnration du rseau de mots (Word Network)
ce stade, notre tche de reconnaissance de la parole, compltement dnie par
son rseau, son dictionnaire, et son ensemble de HMMs, est oprationnelle. La gure
(g. 3.12) est le rseau complet utilis par le systme. Chaque cercle reprsente le HMM
de ltiquette quil contient.
Figure 3.12 le rseau de mots associ la grammaire de la parole continue
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 56
3.12 La reconnaissance
Aprs avoir entr le chier de la parole reconnaitre via le microphone, il est trans-
form en un chier de caractristiques (MFCC pour notre cas) par la commande HCopy
de la mme manire que ce qui a t fait avec les donnes dapprentissage (tape acous-
tique danalyse). Pour une expression donne avec T fentres possibles, chaque nud
du chemin de dbut la n du rseau qui traverse exactement T mettant des tats
du HMM est une hypothse potentielle didentication. Chacun de ces chemins a une
probabilit logarithmique qui est calcule en additionnant la probabilit de notation de
chaque transition individuelle dans le chemin et la probabilit logarithmique de chaque
tat dmission produisant lobservation correspondante. Dans un HMM, les transitions
qui sont dtermines par les paramtres du HMM, et les transitions entre les modles
sont constantes et les transitions des extrmits des mots sont dtermines par les pro-
babilits de vraisemblance avec le modle de langage. A Chaque tape en appliquant
lalgorithme passage du jeton vu au chapitre prcdent, les jetons sont propags le
long des transitions permises et sarrtent lors dun tat dmission du HMM. Quand
il y a les sorties multiples dun nud, le jeton est copie de sorte que tous les chemins
possibles soient explors en parallle. Pendant que le jeton passe travers des transi-
tions et par des nuds, sa probabilit logarithmique est incrmente par les probabilits
correspondantes de transition et dmission. Lorsque chaque jeton traverse le rseau il
doit maintenir un historique enregistrant son itinraire. La quantit de dtail dans cet
historique dpend du rendement voulu didentication dni par la grammaire [43]. Ce
travail est assur par la commande HVite de loutil HTK. Cette commande permet
partir dun chier de paramtres de produire un chier contenant les tiquettes aec-
tes par le systme aux direntes parties du chier audio, en plus dun achage sur
la fentre console.
3.13 Lvaluation
Nous avons opts pour une comparaison entre la reconnaissance de mots connects
et la reconnaissance de mots continus dans les domaines de la parole isole et la parole
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 57
continue avec une taille de corpus dapprentissage variante, et mono-locuteur. Nous
avons fait lvaluation pour un corpus de 5, 10, 15 et 20 enregistrements et pour le
corpus de test nous avons utilis 7 enregistrements, pour tous les tests, pour la parole
isole et pour la parole continue nous avons choisi des combinaisons de mots de type A
opration B avec A et B des oprandes, qui ont eu le plus grand taux de reconnaissance
la parole isole. Le tableau suivant donne les rsultats que nous avons obtenus sur ces
corpus pour la parole isole.
Mots connects Mots continus
base de
5
base de
10
base de
15
base de
20
base de
5
base de
10
base de
15
base de
20
0 0 0 0 0 3 4 2 2
1 6 6 6 6 7 7 7 7
2 4 5 7 7 4 7 7 7
3 0 0 0 0 5 6 6 6
4 2 1 2 0 6 7 6 7
5 0 7 7 7 2 2 0 0
6 4 7 7 7 2 0 0 0
7 1 1 0 0 5 5 5 5
8 5 5 5 7 7 7 7 7
9 7 7 7 7 7 7 7 7
10 7 7 7 7 6 5 5 6
11 6 6 7 7 7 7 7 7
12 1 4 4 4 7 7 7 7
20 4 6 6 7 6 7 7 7
30 0 1 1 1 3 3 3 4
40 3 4 1 2 7 7 6 7
50 7 3 4 5 0 0 0 0
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 58
Mots connects Mots continus
base de
5
base de
10
base de
15
base de
20
base de
5
base de
10
base de
15
base de
20
60 4 6 6 6 4 1 0 2
70 3 0 0 1 6 5 6 7
80 4 1 2 3 6 5 6 7
90 6 7 7 7 7 7 7 7
+ 6 7 7 7 6 4 5 4
- 7 7 7 7 6 6 7 7
0 0 0 0 0 0 0 0
/ 7 7 7 7 7 6 7 7
= 1 1 1 3 7 7 7 7
rojou3 7 5 6 7 6 7 7 7
wa 6 6 6 6 6 6 6 7
Table 3.4 Rsultats avec dirents corpus de la parole isole
Au-dessous chaque tableau donne les rsultats pour la parole continue de chaque base
de chaque corpus
La base Mots connects parole continue Mots continus parole continue
1+9 0.33 0.67
28/91 1 0.85
10+18 0.75 0.5
99-48 0.85 1
22+11 1 1
98-12 0.8 1
14-49 0.67 0.5
Taux 0.771428571 0.788571429
Table 3.5 Rsultat du corpus de 5
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 59
La base Mots connects parole continue Mots continus parole continue
1+2 0.33 0.33
22/91 0.85 0.85
10+18 0.75 0.5
99-42 1 0.85
22+11 0.8 0.8
92-12 0.8 0.8
15-29 0.83 0.83
Taux 0.765714286 0.708571429
Table 3.6 Rsultat du corpus de 10
La base Mots connects parole continue Mots continus parole continue
1+2 0.66 0.33
22/91 0.85 0.85
10+18 0.75 0.5
99-82 0.85 0.85
28+11 0.2 0.8
92-12 0.8 0.8
18-29 0.67 0.83
Taux 0.682857143 0.708571429
Table 3.7 Rsultat du corpus de 15
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 60
La base Mots connects parole continue Mots continus parole continue
1+2 0.33 0.33
22/91 0.85 0.85
10+18 0.75 0.5
99-82 0.85 0.85
28+11 0.8 0.8
92-12 0.8 0.8
18-29 0.67 0.83
Taux 0.72 0.708571429
Table 3.8 Rsultat du corpus de 20
3.14 Analyse des rsultats
Il est clair que nous avons obtenus un taux de reconnaissance trop lev avec les
mots continus par rapport aux mots connects. Ceci revient dire que les mots sont
traits avec plus de prcision en prenant en compte leurs caractristiques linguistiques.
Il y a des mots avec un taux de reconnaissance trop petit ou nul comme pour le cas de
cifr et dharb, et ceci sexplique par le besoin de plus dapprentissage.
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 61
La gure (g. 3.13)montre des amliorations en fonction de la taille du corpus pour
les mots connects mais pour arriver un taux concurrent aux mots continus nous avons
besoin de plus de donnes dapprentissage. Aussi, nous remarquons une dgradation aux
mots continus et ceci est d aux ambiguts phonatoires. Par exemple arbaaa et sabaa
se terminent par la mme syllabe aa.
Figure 3.13 Variation du taux de reconnaissance de parole isole en fonction de la
taille du corpus
La gure(g. 3.14) montre des alternatives des meilleurs taux de reconnaissance
entre les mots connects et les mots continus. Et plus la base slargit le taux diminue
pour le cas des mots connects pour ensuite samliorer aprs le corpus 15. Ceci sex-
plique par le mauvais choix de la base de test cest dire que ce qui a donn de bon
rsultats en mode isol ne donne pas forcement de meilleurs rsultats au mode continu.
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 62
Figure 3.14 Variation du taux de reconnaissance de parole continue en fonction de
la taille du corpus
3.15 Implmentation dune calculatrice vocale
Nous avons raliss une calculatrice vocale du vocabulaire prcdant en prenant les
meilleurs modles de Markov qui ont donns les meilleurs taux de reconnaissance dans
dirents corpus. Notre calculatrice (g. 3.15) fonctionne en mode mono locuteur avec
le choix de parole isole ou parole continue. Elle contient les boutons des chires de
0 9, les boutons des oprations, de recule (<-) et le bouton clear pour quon puisse
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 63
intervenir. Pour commencer le traitement il faut appuyer sur
.v
..
.
.. .
, et pour
terminer on presse
.v
..
.
.
.
.
.
Figure 3.15 Calculatrice vocale
Par dfaut la calculatrice fait la reconnaissance de mots isols, et pour la rendre de
mots continus il faut aller au menu
.
.
.
.
.
.
.
.
.
.