Traitement Automatique de La Parole Arabe PDF

Traitement Automatique De La Parole Arabe
Par Les HMMs:

Calculatrice Vocale
BENAMMAR Ryadh
25 Septembre 2012
Remerciements
En prambule ce mmoire, je souhaite adresser mes remerciements les plus sincres
aux personnes qui mont apport leur aide et qui ont contribu llaboration de ce
mmoire ainsi qu la russite de cette formidable anne universitaire.
Je tiens remercier sincrement Monsieur CHIKH Amine dabord en tant quencadreur
de ce mmoire ensuite pour mavoir donn plus de conance en moi en voulant bien
accepter un thme qui me tenait cur, pour sa gnrosit et la grande patience dont
il a fait preuve tout le long de mon travail malgr ses nombreuses charges acadmiques
et professionnelles.
Mes remerciements sadressent galement Monsieur BENAZZOUZ Mortada co-encadreur
qui ma appris tre rigoureux dans mes travaux an dviter les obstacles qui pou-
vaient se prsenter, qui sest toujours montr attentif et disponible tout au long de la
ralisation de ce mmoire, ainsi que pour linspiration, laide et le temps quil a bien
voulu me consacrer sans quoi ce mmoire naurait jamais eu autant de succs.
Jexprime toute ma gratitude tous les consultants et internautes rencontrs lors des
recherches eectues et qui ont accept de rpondre mes questions avec gentillesse.
Je noublie pas mes parents pour leur contribution, leur soutien et leur patience.
Enn, jadresse mes plus sincres remerciements tous mes proches et amis, qui mont
toujours soutenue et encourag au cours de la ralisation de ce mmoire.
Merci tous.
ddicaces
A mes parents et mes frres et surs ; le petit ange Wissem, Choukri, Djazia, et
Rachad. Vous vous tes dpenss pour moi sans compter. En reconnaissances de tous
les sacrices consentis par tous et par chacun pour me permettre datteindre cette
tape de ma vie.
A mes oncles, tantes, cousins et cousines aectueuses reconnaissances.
A mes enseignants de lcole primaire jusqu luniversit dont les conseils prcieux
mont guid ; quils trouvent ici lexpression de ma reconnaissance.
A mes amis ; Nabil, Abdelkrim, Taquieddine, Abderrahmen, Khaled, Anes, et toute
la promo mastre informatique 2011/2012 et leurs familles.
Je vous remercie pour votre patience et pour mavoir aid avancer. Vous tes tous
pour moi comme une seconde famille.
Merci dtre toujours prs de moi dans mes joies et mes peines
A tous mes camarades de dpartement dinformatique. A tout le personnel de la
facult des sciences et de luniversit de Tlemcen.
Table des matires
Introduction 7
1 Traitement automatique de la parole 8
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Le son naturel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Perception du son . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Systme de production de la parole chez ltre humain . . . . . . . . . . 10
1.5 Phonme et Phontique . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Traitement du signal vocal . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1 Intensit dun signal vocal . . . . . . . . . . . . . . . . . . . . . 14
1.6.2 Le rythme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.6.3 Le timbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7 Automatisation de la Parole . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7.1 Lchantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7.2 Quantication . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.3 Codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.8 Paramtrisation du signal vocal . . . . . . . . . . . . . . . . . . . . . . 18
1.8.1 Groupement en trames (Frame blocking) . . . . . . . . . . . . . 19
1.8.2 Fentrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.8.3 Calcul de la transforme de Fourier rapide (Fast Fourier Trans-
form, FFT) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.8.4 Filtrage sur lchelle Mel . . . . . . . . . . . . . . . . . . . . . . 22
1.8.5 Calcul du cepstre sur lchelle Mel . . . . . . . . . . . . . . . . . 22
1
TABLE DES MATIRES 2
1.8.6 Calcul des caractristiques dynamiques des MFCC . . . . . . . . 22
1.9 conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Techniques de classication 24
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Chanes de Markov cachs . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Les processus stochastiques . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Les modles de Markov . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Les problmes fondamentaux dun HMM . . . . . . . . . . . . . 27
2.2.4 Lalgorithme FORWARD . . . . . . . . . . . . . . . . . . . . . . 27
2.2.5 Lalgorithme BACKWARD . . . . . . . . . . . . . . . . . . . . 28
2.2.6 LAlgorithme de Viterbi . . . . . . . . . . . . . . . . . . . . . . 28
2.2.7 Lalgorithme de Baum-Welch . . . . . . . . . . . . . . . . . . . 29
2.2.8 Algorithme passage de Jeton (Token passing algorithm) . . . . 30
2.2.9 Les limites des HMMs . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Support Vector Machines (SVM) . . . . . . . . . . . . . . . . . . . . . 32
2.4 Dynamic Time Warpping (DTW) . . . . . . . . . . . . . . . . . . . . . 33
2.5 Rseaux de neurones dlai temporel (TDNN) . . . . . . . . . . . . . . 35
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Expriences sur les mots connects et continus 38
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Construction de la base de donnes . . . . . . . . . . . . . . . . . . . . 38
3.3 Introduction des chiers sons . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Etiquetage manuel des donnes . . . . . . . . . . . . . . . . . . . . . . 39
3.4.1 Etiquetage pour la reconnaissance de mots connects . . . . . . 40
3.4.2 tiquetage pour la reconnaissance de mots continue . . . . . . . 41
3.5 Paramtrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6 Dnition du HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6.1 HMM de reconnaissance de mots connects . . . . . . . . . . . . 45
3.6.2 HMM de reconnaissance de mots continus . . . . . . . . . . . . 46
TABLE DES MATIRES 3
3.7 Initialisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.8 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.9 Dnition de la grammaire . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.9.1 Grammaire pour la reconnaissance de parole isole . . . . . . . . 52
3.9.2 Grammaire pour la reconnaissance de parole continue . . . . . . 52
3.10 Construction du dictionnaire . . . . . . . . . . . . . . . . . . . . . . . . 53
3.11 Gnration du rseau de mots (Word Network) . . . . . . . . . . . . . . 55
3.12 La reconnaissance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.13 Lvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.14 Analyse des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.15 Implmentation dune calculatrice vocale . . . . . . . . . . . . . . . . . 62
3.16 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Conclusion gnrale 65
Perspectives 66
A Loutil HTK 67
Liste des tableaux
1.1 exemple danalyse syllabique de quelques mots arabes . . . . . . . . . . 12
3.1 tiquetage connect et continu des mots de vocabulaire . . . . . . . . 43
3.2 Les HMMs des syllabes du vocabulaire . . . . . . . . . . . . . . . . . . 47
3.3 Dictionnaires du systme . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Rsultats avec dirents corpus de la parole isole . . . . . . . . . . . . 58
3.5 Rsultat du corpus de 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4
Table des gures
1.1 Perception et analyse du son par ltre humain . . . . . . . . . . . . . . 10
1.2 Conduit vocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Audiogramme dun signal vocal . . . . . . . . . . . . . . . . . . . . . . 13
1.4 un signal vocal et la spectogramme associ . . . . . . . . . . . . . . . . 14
1.5 un signal chantillonn . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.6 un signal quanti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7 tapes de calcul dun vecteur caractristique de type MFCC . . . . . . 19
1.8 Les fonctions de fentrage . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1 Squences observs et caches . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Token Passing Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 Le principe du SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Processus DTW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5 Reconnaissance base de la DTW . . . . . . . . . . . . . . . . . . . . . 34
2.6 Time Delay Neural Network (TDNN) . . . . . . . . . . . . . . . . . . . 36
3.1 Quelques fonctionnalits de Praat . . . . . . . . . . . . . . . . . . . . . 40
3.2 tiquetage de mots connects . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 tiquetage de mots continus . . . . . . . . . . . . . . . . . . . . . . . . 42
3.4 Prototype dun HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Prototype dun HMM de mot connect . . . . . . . . . . . . . . . . . . 46
3.6 Prototypes des mots continus . . . . . . . . . . . . . . . . . . . . . . . 48
3.7 Lopration HInit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5
TABLE DES FIGURES 6
3.8 Processus de chargement de donnes pour la commande HInit . . . . . 50
3.9 Le processus dapprentissage . . . . . . . . . . . . . . . . . . . . . . . . 51
3.10 grammaire de parole isole . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.11 grammaire de parole continue . . . . . . . . . . . . . . . . . . . . . . . 53
3.12 le rseau de mots associ la grammaire de la parole continue . . . . . 55
3.13 Variation du taux de reconnaissance de parole isole en fonction de la
taille du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.14 Variation du taux de reconnaissance de parole continue en fonction de la
taille du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.15 Calculatrice vocale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
A.1 Fonctionnement du HTK . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Introduction gnrale
Le traitement de la parole est un vaste domaine de recherche qui demande linter-
vention des experts de plusieurs spcialits. Malgr le dveloppement remarquable des
outils et les programmes informatiques, les systmes commandes vocales nont eu du
succs que ces dernires annes. Avec lapparition de la nouvelle gnration des smart
phones les utilisateurs peuvent parler avec leurs tlphones avec des langues spciques.
Labsence de la langue arabe parmi ces langues rete la pauvret des recherches sur la
parole arabe.
Nous avons donc dcid, partir de ce travail, de nous pencher sur la parole arabe en
nous basant sur les travaux raliss sur les autres langues. Vu que la parole peut tre
utilise pour la commande vocale, la dicte, dtection Parole/Non Parole, empreinte
vocale et autres, nous avons choisi de comparer le traitement avec les mots connects ;
o chaque mot est pris avec sa forme globale, et les mots continus ; o chaque mot est
dcoup en units atomiques. Ainsi, nous avons tudi linuence de la taille de la base
dapprentissage sur le taux de classication dans la parole continue et isole et mots
connects et continus.
Dans le premier chapitre, nous avons dni des notions linguistiques, le mcanisme de
production de la parole, et la mthode MFCC pour automatiser la parole et dextraire
les paramtres pour ensuite faire la classication. Au deuxime chapitre, nous avons
prsent les classieurs clbres utiliss dans direntes recherches au traitement auto-
matique de la parole. Et enn, le troisime chapitre, prsente les expriences que nous
avons ralise avec les rsultats obtenus pour nir avec la prsentation dune calculatrice
vocale que nous avons dvelopp en Java.
7
Chapitre 1
Traitement automatique de la
parole
1.1 Introduction
Le traitement automatique des langues (T.A.L.) ou NLP (Natural Language Pro-
cessing) est un domaine de recherche pluridisciplinaire, qui fait collaborer linguistes,
informaticiens, logiciens, psychologues, documentalistes, lexicographes ou traducteurs,
et qui appartient au domaine de lIntelligence articielle (I.A). Dans le monde nous
trouvons plusieurs langues. De chaque langue drivent plusieurs dialectes. A cet eet
le traitement automatique de la parole est un domaine pour lequel un eort important
a t approuv au cours des cinq dernires dcennies. Le traitement automatique de
la parole ou Speech processing est lun des lires du traitement automatique de la
langue naturelle qui a comme objectif fondamental lamlioration de la communica-
tion Homme-Machine. Selon Shannon dans sa thorie de linformation [1], un message
reprsent comme une squence de symboles discrets peut quantier son contenu din-
formation en bits, et le dbit de transmission de linformation est mesur en bits par
secondes (bps). Mais en traitement de la parole linformation est dune forme analo-
gique continue Speech Signal ce qui est impossible de lintroduire directement dans
la machine ; cest pour cette raison quil faut faire des transformations (prtraitements)
de numrisation de ce signal an que nous puissions lexploiter sur machine.
8
CHAPITRE 1. TRAITEMENT AUTOMATIQUE DE LA PAROLE 9
1.2 Le son naturel
Nous percevons les voix des personnes qui nous entourent, le bruit du vent ou de
la cascade, le chant des oiseaux, les bruits de lactivit humaine tels que les moteurs.
Nous entendons la musique produite par les instruments de musique, par la radio et
les CD et diuse dans des haut-parleurs, etc. Et si nous tentons dmettre un son
soutenu, une note chante par exemple, et si nous sommes attentifs, nous sentons des
parties du corps vibrer. Cela peut tre dans la poitrine, dans le ventre, dans la tte,
dans la gorge ou ailleurs. La voix produit des vibrations qui se rpercutent dans le corps
parce que la voix humaine est elle-mme une vibration engendre par les cordes vocales.
Celles-ci vibrent sous leet de lintention mentale. Elles sont mises en action ainsi que
le soue, par notre volont. Il faut soit aner notre sensibilit, soit nous mettre dans
des conditions un peu excessives pour se rendre compte que tous les sons sont des
vibrations. Ainsi, plaons-nous proximit dun haut-parleur qui diuse une musique
trs forte, par exemple lors dun festival de Andalous ou de Anachide en plein air.
Nous sentons immdiatement notre ventre vibrer sous leet du son. Nous voyons la
membrane du haut-parleur vibrer elle aussi. Cest elle qui, par sa vibration, produit
le son. Le son produit se propage dans tous les sens avec une vitesse variante selon la
nature de lenvironnement cest--dire plus la matire est dense, plus la vibration sonore
est plus rapide.
1.3 Perception du son
Une vibration mcanique de la matire et de lair qui met en alternance le tympan
ou le micro ne constitue pas en elle-mme un son. Car cest dans le cerveau que nat et
se forme le son. Le son nexiste pas en-dehors de notre cerveau, de nous-mme. Loreille
recueille les vibrations de lair, les transforme en impulsion lectrique au moyen des
cellules nerveuses, impulsion qui est perue et interprte en son par le cerveau (g.
1.1). Le son est donc essentiellement une perception. Si lattention se dirige vers cette
perception, la perception arrive la conscience. Un son est un phnomne psychique,
li la conscience des tres vivants. Entre larrive des signaux vibratoires aux oreilles
Figure 1.1 Perception et analyse du son par ltre humain
et la sensation de son dans le cerveau, a lieu le phnomne de traitement des signaux
par le systme nerveux. Cela signie que la vibration physique de lair ne parvient pas
de faon brute au cerveau. Elle est transforme.
1.4 Systme de production de la parole chez ltre
humain
La production des sons de parole se fait juste dans la partie mobile du conduit vocal
sur laquelle on peut agir volontairement. En partant du bas en haut du conduit vocal
(g. 1.2) nous distinguons lensemble des organes suivants :
Le Trache : Cest le conduit lastique (bro-cartilagineux) qui, chez les vertbrs,
permet lors de linspiration, de conduire lair depuis le larynx dans les bronches.
Elle est constitue dun pithlium respiratoire ainsi que de cellules musculaires
lisses.
Le larynx : organe essentiel de la phonation, constitue, avec les cordes vocales,
la source vocale responsable de la production du ux laryng (son priodique
complexe).
LEpiglotte : Cest une structure cartilagineuse relie au larynx qui coulisse vers
le haut quand les voies ariennes sont ouvertes, et aide fermer lentre de la
trache au moment de la dglutition. Elle descend lgrement vers le bas, an
dentrer en contact avec le larynx qui slve, formant ainsi un verrou au-dessus
Figure 1.2 Conduit vocal
du larynx.
Le Pharynx : Cest un organe situ au fond de la cavit buccale, qui a pour rle
de modier les sons produits dans le larynx par les cordes vocales. Louverture
de la trompe deustache est galement situe au niveau du pharynx, et le relie
loreille interne.
La Langue : est un organe situ dans la cavit buccale. Il intervient dans la parole
par ces mouvements.
Les dents : Par leurs formes jouent le rle de ltre des sons venant de lintrieur
Les Lvres : Par leurs mouvements douvertures et de fermetures produisent des
sons spciques.
Le Nez : cest un auxiliaire dans la production de la parole (pour les sons nasaux).
1.5 Phonme et Phontique
La phontique est le domaine de la linguistique qui a pour objet ltude des langues
naturelles dans leurs dimensions sonores. Le phonme est la plus petite unit discrte
ou que lon puisse isoler par segmentation dans la chane parle. Un phonme est en
Mots en Arabe Prononciation Signication Reprsentation syllabique
.
.
kataba Il a crit CV CV CV
.
.<
.
.
i :aktobo Il crit CVC CV CV
.
.
.
ka :tibon crivain CV CV CVC

.
_.
.
.
jami :lon beau CV CV CVC

. s
.
abr patience CVCC
Table 1.1 exemple danalyse syllabique de quelques mots arabes
ralit une entit abstraite, qui peut correspondre plusieurs sons. Il est en eet sus-
ceptible dtre prononc de faon dirente selon les locuteurs ou selon sa position et
son environnement au sein du mot. Les phones sont dailleurs les direntes ralisations
dun phonme. Larabe classique standard a 34 phonmes parmi lesquels 6 sont des
voyelles et 28 sont des consonnes [2]. Les phonmes arabes se distinguent par la pr-
sence de deux classes qui sont appeles pharyngales et emphatiques. Ces deux classes
sont caractristiques des langues smitiques comme lhbreu [2][3]. Les syllabes per-
mises dans la langue arabe sont : CV, CVC et CVCC [4] . O le V dsigne une voyelle
courte ou longue et le C reprsente une consonne [2]. La langue arabe comporte cinq
types de syllabes classes selon les trais ouvert/ferm et court/long. Une syllabe est
dite ouverte (respectivement ferme) si elle se termine par une voyelle (respectivement
une consonne). Toutes les syllabes commencent par une consonne suivie dune voyelle
et elles comportent une seule voyelle. La syllabe CV peut se trouver au dbut, au milieu
ou la n du mot [3] [5]. Le tableau (tab. 1.1) reprsente quelques exemples de mots
arabes avec leurs prononciation en Alphabet Phontique Internationale[6]
1.6 Traitement du signal vocal
Linformation contenue dans le signal de parole peut tre analyse de bien des fa-
ons. Si nous observons la forme que produit la parole selon laudiogramme prsent par
la gure (g. 1.3) nous remarquons une forme priodique avec des amplitudes variantes
ou pseudopriodiques. Ainsi, aux cots droit et gauche du signal principal nous distin-
Figure 1.3 Audiogramme dun signal vocal
guons des petites courbes non identies, ce que nous appelons le bruit. Il y a plusieurs
travaux sur le sujet de reconnaissance de parole/ non parole bass sur le bruit (Speech/-
NONSpeech) [7]. En plus, chaque individu possde sa propre information vocale qui le
caractrise. Et cette information peut tre extraite partir des signaux sortant du rso-
nateur. Les traits acoustiques du signal de parole sont directement lis sa production
dans lappareil phonatoire. Tout dabord, nous avons lnergie du son [8] ; celle-ci est
lie la pression de lair en amont du larynx. Puis nous avons la frquence fondamentale
F0 [9] ; cette frquence correspond la frquence du cycle douverture/fermeture des
cordes vocales. Enn, nous avons le spectre du signal de parole [10] ; celui-ci rsulte du
ltrage dynamique du signal en provenance du larynx par le conduit vocal qui peut tre
considr comme une succession de tubes ou de cavits acoustiques de sections diverses
(g. 1.4). Chacun de ces traits acoustiques est lui-mme intimement li une autre
grandeur perceptuelle, savoir lintensit, le rythme, et le timbre. Le spectrogramme
est la reprsentation temps-frquence qui permet de mettre en vidence les direntes
composantes frquentielles du signal un instant donn. Lensemble des spectres consti-
Figure 1.4 un signal vocal et la spectogramme associ
tuant le spectrogramme sont calcul par la transform de Fourier que nous allons voir
plus en dtails par la suite.
1.6.1 Intensit dun signal vocal
Lintensit dun son, appele aussi volume, permet de distinguer un son fort dun
son faible. Elle correspond lamplitude de londe. Lamplitude est donne par lcart
maximal de la grandeur qui caractrise londe. Pour le son, onde de compression, cette
grandeur est la pression. Lamplitude sera donc donne par lcart entre la pression la
plus forte et la plus faible exerce par londe acoustique. Lorsque lamplitude de londe
est grande, lintensit est grande et donc le son est plus fort. Lintensit du son se
mesure en dcibels (dB). On distingue direntes faons de mesurer lamplitude dun
son :
La puissance acoustique : La puissance acoustique est associe une notion phy-
sique. Il sagit de lnergie transporte par londe sonore par unit de temps et de
surface. Elle sexprime en Watt par mtre carr (W.m
-2
).
Addition de sons : Lchelle des dcibels est une chelle dite logarithmique, ce qui
signie quun doublement de la pression sonore implique une augmentation de
lindice denviron 3 : avec 3 dB de plus, lintensit est en fait double [11].
1.6.2 Le rythme
Le rythme est la dure des silences et des phones. Il est dicile de les en extraire
car un mot prononc dune faon naturelle, sans aucun traitement, donne un mlange
de phones chevauchs entre eux et un silence dintensit non nulle (le bruit).
1.6.3 Le timbre
Le timbre est lensemble des caractristiques qui permettent de direncier une voix.
Il provient en particulier de la rsonance dans la poitrine, la gorge la cavit buccale et le
nez ; ce sont les amplitudes relatives des harmoniques du fondamental qui dterminent
le timbre du son. Les lments physiques du timbre comprennent :
la rpartition des frquences dans le spectre sonore,
les relations entre les parties du spectre, harmoniques ou non,
les bruits existant dans le son (qui nont pas de frquence particulire, mais dont
lnergie est limite une ou plusieurs bandes de frquence),
lvolution dynamique globale du son,
lvolution dynamique de chacun des lments les uns par rapport aux autres.
1.7 Automatisation de la Parole
La parole est produite par larticulation des membres phonatoires de lhomme et
prend une forme analogique apriodique ; ce qui est impossible pour que la machine
puisse linterprter ou le prdire car elle ne comprend que du numrique. Pour cela
on doit faire un traitement de numrisation sur ce signal. Lune des mthodes les plus
utiliss dans la numrisation est la mthode Delta ou MIC qui consiste en trois tapes :
lchantillonnage, la quantication et le codage.
1.7.1 Lchantillonnage
Lchantillonnage consiste transformer une fonction a(t) valeurs continues en
une fonction (t) discrte constitue par la suite des valeurs a(t) aux instants dchan-
tillonnage t = kT avec k un entier naturel (g. 1.5). Le choix de la frquence dchan-
tillonnage nest pas alatoire car une petite frquence nous donne une prsentation
pauvre du signal. Par contre une trs grande frquence nous donne des mmes valeurs,
redondance, de certains chantillons voisins donc il faut prlever susamment de va-
leurs pour ne pas perdre linformation contenue dans a(t). Le thorme suivant traite
cette problmatique :
Thorme (de Shannon). La frquence dchantil lonnage assurant un non repliement
du spectre doit tre suprieure 2 fois la frquence haute du spectre du signal analogique.
F
ech
= 2 F
max
Figure 1.5 un signal chantillonn
Pour la tlphonie, on estime que le signal garde une qualit susante lorsque son
spectre est limit 3400 Hz et lon choisit fe = 8000 Hz. Pour les techniques danalyse, de
synthse ou de reconnaissance de la parole, la frquence peut varier de 6000 16000 Hz.
Par contre pour le signal audio (parole et musique), on exige une bonne reprsentation
du signal jusque 20 kHz et lon utilise des frquences dchantillonnage de 44.1 ou 48
kHz. Pour les applications multimdia, les frquences sous-multiples de 44.1 kHz sont
de plus en plus utilises : 22.5 kHz, 11.25 kHz [12].
1.7.2 Quantication
Cette tape consiste approximer les valeurs relles des chantillons selon une chelle
de n niveaux appele chelle de quantication. Il y a donc 2
n
valeurs possibles comprises
entre 2n1 et 2n1 pour les chantillons quantis (g. 1.6). Lerreur systmatique
que lon commet en assimilant les valeurs relles de lcart au niveau du quantiant le
plus proche est appel bruit de quantication.
Figure 1.6 un signal quanti
1.7.3 Codage
Cest la reprsentation binaire des valeurs quanties qui permet le traitement du
signal sur machine (g. 1.6).
1.8 Paramtrisation du signal vocal
Lobjectif de cette phase de reconnaissance est dextraire des coecients reprsen-
tatifs du signale de la parole. Ces coecients sont calculs intervalles rguliers. En
simpliant les choses, le signal de la parole est transform en une srie de vecteurs de
coecients, ces coecients doivent reprsenter au mieux ce quils sont cens modliser
et doivent extraire le maximum dinformations utiles pour la reconnaissance. Parmi les
coecients les plus utiliss et qui reprsentent au mieux le signal de la parole, nous
trouvons les coecients ceptraux, appels galement ceptres. Les deux mthodes les
plus connus pour lextraction du ceptres sont : lanalyse spectrale et lanalyse param-
trique. Pour lanalyse spectrale (par exemple, Mel-Scale Frequency Ceptral Coecients
(MFCC)) comme pour lanalyse paramtrique (par exemple, le codage prdictif linaire
(LPC)), le signal de parole est transform en une srie de vecteurs calculs pour chaque
trame. Il existe dautres types de coecients qui sont surtout utiliss dans des milieux
bruits, nous citons par exemple les coecients PLP (Perceptual Linear Predective). Ces
coecients permettent destimer les paramtres dun ltre autorgressif en modlisant
au mieux le spectre auditif [13]. Il existe plusieurs techniques permettant lamliora-
tion de la qualit des coecients, nous trouvons par exemple ; lanalyse discriminante
linaire (LDA), lanalyse discriminante non linaire (NLDA), etc.[14] Ces coecients
jouent un rle capital dans les approches utilises pour la reconnaissance de la parole.
En eet, ces paramtres qui modlisent le signal seront fournis au systme de recon-
naissance pour lestimation de la probabilit P(squence|message). Dans notre travail,
nous utilisons les coecients MFCC pour tester leur rendement dans un environnement
bruit. Lutilisation des MFCC est motive par les deux proprits suivantes :
Dconvolution : les MFCC dcouplent les caractristiques du conduit vocal (qui
vhicule la plus grande partie de linformation disponible sur les traits distinctifs
de la parole) des caractristiques gnres par lexcitation (information prosodique
et linformation dpendante du locuteur).
Dcorrlation : La transforme en cosinus discrte possde un eet de dcorrla-
tion entre les lments du vecteur de traits. Les MFCC sont une reprsentation
dnie comme tant la transforme cosinus inverse du logarithme du spectre de
lnergie du segment de la parole. Lnergie spectrale est calcule en appliquant
un banc de ltres uniformment espacs sur une chelle frquentielle modie,
appele chelle Mel. Lchelle Mel redistribue les frquences selon une chelle non
linaire qui simule la perception humaine des sons.[15]
tapes de calcul du vecteur caractristique de types MFCC :
Dans ce qui suit, nous dcrivons chacune des tapes ncessaires pour lobtention dun
vecteur caractristique tir des coecients MFCC, tel quillustr par la Figure (g. 1.7)
Figure 1.7 tapes de calcul dun vecteur caractristique de type MFCC
1.8.1 Groupement en trames (Frame blocking)
Le signal acoustique continu est segment en trames de N chantillons, avec un
pas davancement de M trames (M < N), cest--dire que deux trames conscutives
se chevauchent sur N M chantillons. Les valeurs couramment utilises pour M et
N sont respectivement 10 et 20. Comme prtraitement, il est dusage de procder la
praccentuation du signal en appliquant lquation de dirence du premier ordre aux
chantillons x(n), avec lquation (1.1)
x
(n) = x(n) kx(n 1), 0 < n < N 1 (1.1)

k reprsente un coecient de praccentuation qui peut prendre une valeur dans lten-
due 0 < k < 1.
1.8.2 Fentrage
Si nous dnissons w(n) comme fentre o 0 < n < N1 et N reprsente le nombre
dchantillons dans chacune des trames, alors le rsultat du fentrage est le signal x
a
,
donn par la formule (1.2).
x
a
= x(n)w(n), 0 < n < N 1 (1.2)
Les fentres les plus utilises sont :
Fentre de Hamming :(1.3)
w(n) =
_
_
0.54 0.46 cos(
2n
N1
) 0 n N 1
0 sinon
(1.3)
Fentre rectangulaire :(1.4)
w(n) =
_
_
1 0 n N 1
0 sinon
(1.4)
Fentre triangulaire :(1.5)
w(n) =
_
_
2n
N1
si0 n
N1
2
2(Nn1)
N1
si
N1
2
< n N 1
0 sinon
(1.5)
Fentre de Hann :(1.6)
w(n) =
_
_
0.5 0.5 cos
2n
N1
si0 n N 1
0 sinon
(1.6)
Fentre de Blackman :(1.7)
w(n) =
_
_
0.42 0.5 cos
2n
N1
+ 0.08 cos
4n
N1
si0 n N 1
0 sinon
(1.7)
La gure (g. 1.8) illustre la forme que prennent les fonctions dnies ci-dessus
Figure 1.8 Les fonctions de fentrage
1.8.3 Calcul de la transforme de Fourier rapide (Fast Fourier
Transform, FFT)
Au cours de cette tape chacune des trames, de N valeurs, est convertie du domaine
temporel au domaine frquentiel. La FFT est un algorithme rapide pour le calcul de la
transforme de Fourier discret (DFT) et est dnie par la formule (1.8). Les valeurs
obtenues sont appeles le spectre.
x[k] =
N1
n=0
x
a
[n]e
2j
N
kn
, 0 k N 1 (1.8)
En gnral, les valeurs X[k] sont des nombres complexes et nous nous utilisons que
leurs valeurs absolues (nergie de la frquence).
1.8.4 Filtrage sur lchelle Mel
Le spectre damplitude est pondr par un banc de M ltres triangulaires espacs
selon lchelle Mel. Dans lchelle de mesure Mel, la correspondance est approximative-
ment linaire sur les frquences au-dessous de 1kHz et logarithmique sur les frquences
suprieures celle-ci. Cette relation est donne par la formule (1.9) [16] :
m = 2595 log
10
(1 +
f
700
) (1.9)
Le logarithme de lnergie de chaque ltre est calcul selon lquation 1.10 :
S[m] = ln[
N1
k=0
X
a
[k]H
m
[k]], 0 < m M (1.10)
1.8.5 Calcul du cepstre sur lchelle Mel
Le cepstre sur lchelle de frquence Mel est obtenu par le calcul de la transforme en
cosinus discrte (equation (1.11)) du logarithme de la sortie des M ltres (reconversion
du log-Mel-spectre vers le domaine temporel).
c[n] =
S[n] cos n(m

1
2
)/M, 0 n < M (1.11)
Le premier coecient, c[0], reprsente lnergie moyenne dans la trame de la parole ;
c[1] rete la balance dnergie entre les basses et hautes frquences ; pour i > 1, c[i]
reprsente des dtails spectraux de plus en plus ns [16].
1.8.6 Calcul des caractristiques dynamiques des MFCC
Les changements temporels dans le cepstre (c) jouent un rle important dans la
perception humaine et cest travers les drives des coecients (
c
, coecients delta
ou vlocit) et les drives secondes (
c
, coecients delta du second ordre ou accl-
ration) des MFFC statiques que nous pouvons mesurer ces changements. En rsum, un
systme de parole typique de ltat de lart eectue premirement un chantillonnage
une frquence de 16 kHz et extrait les traits suivants [17]
_
_
_
_
_
_
_
c
k
c
k
c
k
_
_
_
_
_
_
_
O` u :
c
k
est le vecteur MFCC de la k
ime
trame
c
k
= c
k+2
c
k2
, drive premire des MFCCs calcule partir des vecteurs
MFCC de la k
ime
+ 2 trames et k
ime
- 2
c
k
= c
k1
c
k+1
, seconde drive des MFCCs.
1.9 conclusion
Le traitement automatique de la parole repose sur des donnes analogiques en fonc-
tion du temps. Lextraction des meilleurs paramtres aide, sans aucun doute, ce
traitement.
Lintelligence articielle peut intervenir pour trouver les paramtres pertinents ou uti-
liser nimporte quels reprsentants de la parole pour faire la segmentation ou la classi-
cation.
Chapitre 2
Techniques de classication
2.1 Introduction
La classication est une partie de lintelligence articielle qui rend le comportement
de la machine plus intelligent. Tout classieur assurant la classication ncessite la
dnition des classes, des attributs, lalgorithme de dcision et un moyen pour mesurer
ses performances ; partir dun ensemble de rgles dtat explicites ou bien travers
des exemples dapprentissage.
Le traitement de la parole est un vaste domaine de recherche auquel plusieurs travaux
ont t faits pour trouver les meilleures techniques qui donnent de meilleurs taux de
classication sur dirents types de traitements que ce soit parole continue ou discrte,
bas sur les mots connects ou mots continus, petit ou grand vocabulaire.
2.2 Chanes de Markov cachs
2.2.1 Les processus stochastiques
Un processus stochastique est une fonction, ou plus gnralement une application
X(, t), dnie dans lensemble fondamental valeurs dans F(t), ensemble des fonc-
tions dune variable t. Lvolution dun processus stochastique est une suite de transi-
tions dtats : s
0
s
1
. . . s
T
, pour laquelle on note s
0
ltat du processus linstant 0. Sa
24
CHAPITRE 2. TECHNIQUES DE CLASSIFICATION 25
loi dvolution est obtenue laide de la probabilit P(s
0
. . . s
T
) dnie successivement
de la manire suivante (eq. (2.1)) :
P(s
0
...s
T
) = P(s
0
) P(s
1
|s
0
) P(s
2
|s
0
s
1
) ... P(s
T
|s
0
...s
T1
) (2.1)
La caractrisation du processus se rsume donc par lobtention des probabilits initiales
P(s
0
) et des probabilits des tats conditionns par leurs volutions antrieures. La loi
de probabilit des tats, un instant t, dpend de lhistoire du processus qui garde
la mmoire de son pass. Lespace des tats S est lensemble dnombrable des valeurs
prises par lensemble des variables alatoires du processus stochastique. Ces valeurs,
tout comme celles prises dans lespace du temps T, peuvent tre discrtes ou continues,
ce qui permet de les classer respectivement par rapport et t [18] :
T et S sont continus : X(, t) est continu, on parle alors de processus de renou-
vellement ou de diusion.
T est continu, S est discret : X(, t) discontinu en , pour ltude des les dat-
tente.
T est discret, S est continu : X(, t) discontinu en t, pour ltude des sries
temporelles.
T et S sont discrets : X(, t) est discontinu en et en t, ce sont les processus
markovien ou chanes de Markov qui nous intressent particulirement.[19]
2.2.2 Les modles de Markov
Les modles de Markov cachs (Hidden Markov Models ou HMMs) ont t introduits
par Baum et al. la n des annes 60. Un HMM est un processus stochastique dni
par le quintupl = (S, , T, G, ) o :
S : est un ensemble de N tats,
: est un alphabet de M symboles,
T = S S [0, 1] est la matrice de transition, indiquant les probabilits de
transition dun tat lautre ; on note P(s s
0
) la probabilit de transition de
ltat s vers ltat s
0
,
G = S [0, 1] est la matrice de gnration, indiquant les probabilits de
gnration associes aux tats ; on note P(o|s) la probabilit de gnrer le symbole
o appartenant partir de ltat s S.
: S [0, 1] est un vecteur de probabilits initiales de visite.
Il ny a pas de rgle stricte pour choisir larchitecture du HMM, par consquent nous
trouvons des travaux sur lapprentissage dynamique du nombre dtats dun Modle
de Markov Cach observations continues au traitement de signal et au traitement
dimages[20][21].
La procdure de gnration dune squence o
1
...o
T
de symboles laide dun HMM
consiste partir dun tat s en suivant la distribution , de se dplacer dtat en tat
suivant les probabilits de transition, et gnrer un symbole sur chaque tat rencontr en
utilisant la distribution de probabilit de gnration associe ltat. Lorsquun symbole
a t gnr, on choisit une transition sortante suivant la distribution de probabilit
de transition associe ltat courant, et la procdure est ritre jusqu la T
ime
gnration de symbole (g. 2.1).[22][23]
Au traitement de la parole la suite dtats cachs est la suite des paramtres tirs des
Figure 2.1 Squences observs et caches
donnes audio qui caractrisent le spectre de la parole.[24]
2.2.3 Les problmes fondamentaux dun HMM
Pour quun HMM puisse tre utilis ecacement dans les applications relles il
faut bien dnir sa topologie et les paramtres des quintupl vus prcdemment. A
partir de ce point les spcialistes ont tirs trois problmes : lvaluation, dcodage, et
lapprentissage.
Lvaluation : cest le fait de trouver lvaluation dune probabilit P(O|) de la
suite dobservations O selon le modle
Dcodage : Cest lestimation de la suite dtats cachs appartenant S sachant
quon a lensemble dobservations O et le modle
Lapprentissage : Cest le problme dajustement des paramtres du modle
pour maximiser la probabilit P(O|).
2.2.4 Lalgorithme FORWARD
Soit
t
(i) la probabilit de la squence dobservation partielle O
t
= o(1), o(2), ..., o(t)
produite par lensemble des squences dtats possibles qui se terminent au i
me
tat.
t
(i) = P(o(1), o(2), ..., o(t)|Q(t) = q
i
, ).
Puis la probabilit inconditionnelle de la squence partielle dobservation est la somme
de P
t
(i) sur tous les tats N. Lalgorithme Forward est un algorithme rcursif pour
calculer
t
(i) pour la squence dobservation linstant t. Tout dabord, on calcule
la probabilit de gnrer le premier symbole de la squence par la formule
t
(i) =
(i).P(o1|i), puis chaque tape de linduction,
t
(i) = (
S

t1
(i
).P(i
i)P(o
t
|i)
on rajoute un symbole et on ritre la procdure jusqu ce que lon ait calcule la
probabilit de gnration de la squence entire et par la suite P(O|) par la formule
P(O|) =
iS
T
(i)
2.2.5 Lalgorithme BACKWARD
Cest un algorithme qui peut tre utilis pour faire lopration inverse de lalgorithme
FORWARD. On utilise alors la variable backward dnie par
t
(i) = P(o
t+1
, o
t+2
, ..., o
T
|i
t
= s, )
qui exprime la probabilit de gnrer la squence O = o
t+1
...o
T
en partant de ltat s.
Linduction suit alors le schma :
1. initialisation :
T
(i) = 1
2. induction :
t
(i) =
S

t+1
(i
)P(i i
)P(o
t+1
|i
)
En connaissant la probabilit de gnrer la squence O en partant de ltat s, le calcul
de P(O | H) peut alors tre ralis suivant la formule.[23]
P(O|) =
iS
(i)
1
(i)
2.2.6 LAlgorithme de Viterbi
An de rsoudre le problme de dcodage, lalgorithme de Viterbi est employ. Le
critre doptimalit ici est de rechercher un meilleur ordre simple dtat par la technique
modie de la programmation dynamique. Lalgorithme de Viterbi est un algorithme
de recherche parallle, savoir il recherche le meilleur ordre dtat en traitant tous les
tats en parallle. Nous devons maximiser P(Q|O, ) pour dtecter le meilleur ordre
dtat. Soie la probabilit
t
(i) qui reprsente la probabilit maximale le long du meilleur
chemin probable dordre dtat dune squence dobservation donn aprs t instants et
en tant ltat i ;
t
(i) = max
q
1
,q
2
...q
t1
P[q
1
, q
2
...q
t1
, q
t
= S
i
, o
1
...o
t
|]
La meilleure squence dtats et retourne par une autre fonction
t
(j). Cette fonction
tient lindex de linstant t 1, partir duquel la meilleure transition est faite ltat
actuel. Lalgorithme complet est comme suit :
1. Initialisation :
1
(i) = 0;
1
(i) = (i)P(o
1
|i);
2. Induction :
t
(i) = max
i
S
(
t1
(i
)P(i
i))P(o
t
|i)
t
(i) = arg max
i
S
(
t1
(i
)P(i
i))
Une fois les variables
t
(i) et
t
(j) calcules pour chaque tape de linduction et pour
chaque tat, il ne reste plus qu lancer une procdure inductive de retro-propagation
pour drouler le chemin de Viterbi s
1
*
...s
T
*
:
1. Initialisation : s
T
*
= arg max
iS
(
T
(i))
2. Induction : s
t
*
=
t+1
(s
t+1
*
), t {T 1...1}
Cet algorithme a eu beaucoup dextensions [25], parmi lesquels nous allons voir lalgo-
rithme passage de jeton.
2.2.7 Lalgorithme de Baum-Welch
Cet algorithme est li au problme dapprentissage qui est le plus dicile. Le but est
dajuster des paramtres du modle selon un critre doptimalit. Lalgorithme Baum-
Welch est strictement li lalgorithme FORWARD-BACKWARD et il essaye dat-
teindre le maximum local de la fonction de probabilit P(O|). Le modle converge
toujours mais la maximisation globale nest pas garantie. Cest pourquoi le point initial
de recherche est trs important. Soit
t
(i, i
) =
P(i
t
= i, i
t+1
= i
|O, )
P(O|)
La probabilit quen gnrant O avec on passe par ltat i linstant t et par ltat
i
0
linstant t + 1. et en utilisant les variables forward et backward :
t
(i, i
) =

t
(i)P(i i
)P(o
t+1
|i
)
t+1
(i
)
P(O|)
=

t
(i)P(i i
)P(o
t+1
|i
)
t+1
(i
qS
rS

t
(q)P(q r)P(o
t+1
|r)
t+1
(r)
On dnit ainsi la quantit
t
(i) = P(i
t
= i|O, H) la probabilit quen gnrant O avec
H on se trouve sur ltat s linstant t, on a :
t
(i) =

i
t
(i, i
)
Si lon somme
t
(i) sur lensemble des instants t, on obtient une quantit que lon peut
interprter comme lesprance du nombre de fois o ltat i est utilis pour gnrer la
squence O. De mme, si on somme
t
(i, i
0
) sur lensemble des instants t, on obtient une
quantit que lon peut interprter comme lesprance du nombre de fois o la transition
s s
0
est utilise pour gnrer la squence O. On a donc un estimateur

H du HMM
dni par les expressions suivantes :
(i) =
1
(i)
P(i i
) =
T1
t=1

t
(i, i
T1
t=1

t
(i
P(o|i) =
T
t=1,ot=o
t
(i)
T
t=1
t
(i)
Aprs la re-estimation des paramtres du modle, nous allons avoir un nouveau modle
plus adapt gnrer la squence dobservation O. Le procd itratif de re-estimation
continue jusqu ce quaucune amlioration de P(O|) ne soit ralise.[19]
2.2.8 Algorithme passage de Jeton (Token passing algorithm)
Introduit par Young en 1989 [26], lalgorithme passage de jeton est une amlio-
ration du dcodage de Viterbi qui se base sur la DTW, or cette dernire fait que des
calculs et des comparaisons et en consquence, par exemple au traitement de la parole
continue, une fausse dcision un instant t induit un faut rsultat nale. Lavantage de
lalgorithme passage de jeton est quil fait une recherche parallle en profondeur avec
des retours en arrire des jetons. Lalgorithme est prsent comme suit (g. 2.2)[27] :
Figure 2.2 Token Passing Algorithm
2.2.9 Les limites des HMMs
Il devrait noter ici que les HMMs ont quelques limitations :
1. La probabilit de transition dpend seulement de lorigine et de la destination.
2. Le choix priori de la topologie des modles (nombre dtats, transitions autori-
ses et rgles de transition) limite la souplesse des modles
3. Ignorance complte de la dure relative des vnements du signal.
4. Dgradation des performances sil y a problme lapprentissage.
Certains recherches [28][29] ont trouvs que lhybridation des HMMs avec les rseaux
de neurones articiels a donne de meilleurs rsultats avec un taux de reconnaissance
suprieur 85.8 % par rapport 83.4% dun HMM simple. Nous trouvons aussi des
extensions des HMMs par la notion de Hidden semi-Markov model [30]avec la redni-
tion de ses propre algorithmes destimation, dapprentissage et de paramtrisation[31]
,etc.
2.3 Support Vector Machines (SVM)
Introduite au dbut des annes 90 par Vladimir Vapnik et qui connat jusqu nos
jours un trs grand succs dans la reconnaissance des formes. Elle repose sur une thorie
solide dapprentissage statistique qui vise trouver des hyperplans sparant les donnes
dans un espace appropri des caractristiques[32]. Et en consquence elle donne une
solution aux limites des classieurs sparation linaire par des sparations base sur
les hyperplans (g. 2.3). Selon Jaume Padrell-Sendra et son quipe[33], lutilisation du
Figure 2.3 Le principe du SVM
svm pour prendre les dcisions et lutilisation de lalgorithme passage de jetons pour
dterminer la suite de mots dans la reconnaissance de chires composs a donne un
rsultat meilleur que celui dun HMM classique avec un taux 96,96% pour les svm
et 96,47% pour les HMMs. Par contre ils dmontrs que les performances des SVMs
dpendent sur le nombre de support utilis.
2.4 Dynamic Time Warpping (DTW)
Appele aussi Alignement de Viterbi, introduite par H.Sakoe et S.Chiba[34], ore
de meilleures performances car elle tient compte des compressions et extensions tem-
porelles qui sont observes lors de la prononciation plus ou moins rapide dun mot.
Le principe de base est dessayer de trouver le chemin optimal parcourir parmi len-
semble des distances entre les vecteurs. Au traitement de la parole un mot nest jamais
prononc deux fois de la mme manire, cest pourquoi il est dicile de le reprer. La
reconnaissance base sur la DTW est plus able dans la reconnaissance de parole conti-
nue car elle tient compte des compressions et extensions temporelles. Le principe tant
de crer une matrice de dimension N J(k) (N et J(k) sont respectivement le nombre
de vecteurs dans la squence de test et de rfrence) Une fois cette matrice obtenue,
le but est de partir du point (1.1) et darriver au point nal (N.J(k)) en minimisant le
chemin parcourir.
D(n, j) = d(n, j) + min p(n, j)D(p(n, j))
Avec :
1. p(n, j) : ensemble des prdcesseurs possibles de llment (n, j)
2. D(n, j) : distance globale
3. d(n, j) : distance locale
La gure 2.4 rsume le fonctionnement de la DTW
Figure 2.4 Processus DTW
O les c
i
reprsentent les paramtres de la forme reconnaitre, les coecients MFCC
par exemple , et les q
j
reprsentent les paramtres dune rfrence dune forme connue.
Aprs le calcul du taux de dissemblance de la donne prononce reconnaitre par
rapport toutes les rfrences, nous choisissons celle avec la plus grande valeur(g. 2.5).
Figure 2.5 Reconnaissance base de la DTW
Il est claire que les HMMs sont plus adapts au traitement de la parole mais a ne
laisse pas la DTW hors comptition car ils ont trouvs dans une recherche au traitement
de la parole de la langue Punjabi [35] que la DTW est bien meilleure que les HMMs
classiques avec un taux de reconnaissance 92,3% par rapport 87,5%.
2.5 Rseaux de neurones dlai temporel (TDNN)
Propos par A.Waibel en 1989 pour la reconnaissance de la parole, il est constitu
de sous rseau agissant comme des extracteurs de formes sur une priode dnie de la
fentre dentre, chaque sous rseaux ayant pour tche de reconnaitre des squences.
Le rseau se base sur la dtection de groupe dvnements, dont la position absolue
est moins importante que la disposition relative de leurs composantes. Les TDNN sont
constitus comme les Perceptrons Multicouches dune couche dentre, de couches ca-
ches et dune couche de sortie. Il se singularise dun perceptron multicouche classique
par le fait quil prend en compte une certaine notion de temps. Cest dire quau lieu
de prendre en compte tous les neurones de la couche dentre en mme temps, il va
eectuer un balayage temporel. La couche dentre du TDNN prend une fentre du
spectre et balaie le signal ; cette fentre sappelle fentre de spcialisation. Le TDNN
permet ainsi de reconnatre le signal tout en tant moins strict que le PMC classique
(cest dire quil pourra y avoir des petits dcalages). Aussi, Les neurones de la couche
i +1 sont relis aux neurones de la couche i par des connexions retard. Ce nombre de
retard dnit la largeur de la fentre de spcialisation. Le TDNN se caractrise par :
Le nombre de couches (Chaque couche a deux directions : direction temporelle et
direction caractristique).
Le nombre de neurones de chaque couche selon la direction temporelle, fentre
dobservation.
Le nombre de neurones de chaque couche selon la direction caractristique.
La taille de la fentre temporelle qui se traduit par le nombre de neurones de la
couche i suivant la caractristique temporelle vue par un neurone de la couche
i + 1.
Le dlai temporel (nombre de neurones) entre deux fentres successives dans une
couche donne.
La dtermination du nombre de neurones de la couche i + 1 selon la direction tem-
porelle (Nbt
i
+ 1) se dduit du nombre de neurones de la couche i selon la direction
temporelle (Nbt
i
) et de la largeur de la fentre de spcialisation (D) de la manire sui-
vante (g. 2.6) : Les TDNNs introduisent des contraintes qui leurs permettent davoir
Figure 2.6 Time Delay Neural Network (TDNN)
un certain degr dinvariance par dcalage temporel et dformation. Celles-ci utilisent
trois ides : poids partags, fentre temporelle et dlai.
Les units dlais : Les units retard sont des units de base de ce modle
(TDNN) qui comportent des liaisons avec des retards, une sommation spatiotem-
porelle est donc eectue au niveau de chaque neurone.
Fentre de spcialisation : Le concept de fentre temporelle implique que chaque
neurone de la couche i + 1 nest connect qu un sous ensemble de la couche
i. La longueur de cette fentre est la mme entre deux couches donnes selon la
caractristique temporelle. Cette fentre temporelle permet que chaque neurone
nait quune vision locale du signal, cette zone de vision sappelle champs rcep-
teurs du neurone ; ce dernier peut tre vu comme une unit de dtection dune
caractristique locale du signal.
Les poids partags : Les poids partags permettent de rduire le nombre de para-
mtres du rseau neuronal et induisent ainsi une capacit de gnralisation plus
importante. Les poids sont partags suivant la direction temporelle, cest dire
que pour une caractristique donne, la fentre associe celle-ci aura les mmes
poids selon la direction temporelle ceci est appel linvariance en translation.[36]
Pour rsoudre les problmes de prdiction et classication phontique lis au rseaux
de neurones dlai temporel, nous pouvons utilis les algorithmes gntique[37]
2.6 Conclusion
Les algorithmes de classication ont gnralement donns des rsultats convaincants
mais quelques critiques lies aux SVM, DTW et le TDNN nous ont permis de travailler
avec les HMMs. Tout dabord, l inconvnient des SVMs est le choix empirique de la
fonction noyau adapte au problme, et la DTW ne fait pas lapprentissage et nest
pas base sur une base mathmatique solide, et enn pour les TDNNs, ils ncessitent
un long temps dapprentissage avec une architecture dicile dterminer. Par contre
pour les HMMs, ce sont les plus performants pour le traitement de la parole car ils
prennent en considration lalignement temporel et lordre des squences des donnes,
et grce leur architecture nous pouvons introduire les proprits linguistiques de la
langue tudie.
Chapitre 3
Expriences sur les mots connects
et continus
3.1 Introduction
Le traitement de la parole ore deux possibilits dutiliser les mots dun vocabulaire.
La premire ne dpend pas de la langue et prend la forme de chaque mot tel quil est ;on
dit que ce sont des mots connects. La deuxime utilise les caractristiques linguistiques
et dcoupe chaque mot en syllabes ou en phonmes ; on dit que ce sont des mots continus.
Dans ce chapitre nous allons faire une comparaison entre ces deux modes de traitement
dans domaine de la reconnaissance de parole isole et de parole continue sur des bases
dapprentissage de tailles variables pour tester linuence de ses dernires sur le taux de
russite de chacun. Lapproche utilise comme technique de classication est les modles
de Markov Cachs pour lesquels nous allons utiliser loutil HTK (annexe A).
3.2 Construction de la base de donnes
Tout travail sappuyant sur lapprentissage ncessite une base de donnes pour en
apprendre le systme et ensuite de lvaluer. Ils existent plusieurs base de donnes in-
ternationales dans domaine de la parole tels que TIMIT qui a t dveloppe par la
commission DARPA pour langlais amricain. Et nous trouvons aussi dautres base
38
CHAPITRE 3. EXPRIENCES SUR LES MOTS CONNECTS ET CONTINUS 39
de donnes de direntes langues connus, comme le franais et lallemand, et inconnus,
comme le vietnamiens et le turque. Pour la langue arabe, nous navons pas dcouvert une
base de donnes standard, mais nous avons quand mme repr quelques rfrences. La
base KACST dveloppe par linstitut du roi Abdul-Aziz en Arabie Saoudite, construite
base dinstruments mdicaux [38]. Et la base ALGERIAN ARABIC SPEECH DA-
TABASE (ALGASD)[39] dveloppe en Algrie pour le traitement de la parole arabe
en prenant en compte les dirents accents de direntes rgions du pays. La non dis-
ponibilit et le manque de moyens pour avoir une base de donnes audio nous a pouss
construire notre propre base de donnes destine faire la reconnaissance des chires
et les oprations dune calculatrice standard en arabe pour un seul utilisateur. Nous
avons fait 27 enregistrements de 28 mots de vocabulaire.
3.3 Introduction des chiers sons
Nous avons pu utiliser nimporte quel outil dacquisition des chiers audio mais nous
avons choisi un outil qui est dvelopp pour le traitement de la parole. Cet outil sappelle
Praat tlchargeable librement partir du site http://www.fon.hum.uva.nl/praat/
download_win.html.Praat fait en plus de lacquisition des donnes audio, des analyses
du pitch, lanalyse spectrale du signal et dautres fonctionnalits dont la plus intres-
sante et la reconnaissance vocale base sur lanalyse phontique et syntaxique (g. 3.1).
Mais cette dernire nest disponible que pour quelques langues et, malheureusement,
larabe nen fait pas partie.
3.4 Etiquetage manuel des donnes
Notre systme fait un apprentissage supervis pour lequel les donnes doivent tre
reprsentes par leurs caractristiques et leurs classes associes. Ces donnes sont de
nature audio et leurs caractristiques sont les coecients MFCC avec leurs drivs
primaires et secondaires. Et la classe de sortie contient des tiquettes. Loutil HTK
met disposition une fonction intitule HSLAB qui permet de visualiser un chier
Figure 3.1 Quelques fonctionnalits de Praat
audio dans une interface graphique pour ensuite tiqueter les zones signicatives en
slectionnant leurs parties associs. Il y a deux manires dtiquetage de la parole :
3.4.1 Etiquetage pour la reconnaissance de mots connects
Cest la mthode pour laquelle chaque mot est reprsent par sa forme lexicale sans
prendre en compte la phonation (g. 3.2)
Figure 3.2 tiquetage de mots connects
3.4.2 tiquetage pour la reconnaissance de mots continue
Pour ce type dtiquetage chaque mot est dcoup en syllabes ou en phonmes, et
les caractristiques linguistique de ce mot sont introduits par la suite (g. 3.3).
Le tableau (tab. 3.1) reprsente le vocabulaire et les tiquettes selon les deux formes
dtiquetage
Figure 3.3 tiquetage de mots continus
Le mot Prononciation en Arabe tiquetage connects tiquetage continus
0
..
cifr cifr
1 .-
waahid waa hid

2

.
.
.
.
ithnaan ith naan

3
.
.
.v

.
. thalaatha tha laa tha
Le mot Prononciation en Arabe tiquetage connects tiquetage continus
4
.
arbaaa ar ba aa
5
.

..
-
khamsa kham sa
6
.
.
..
sitsa si tsa
7
.
..

. sabaa sa b aa
8
.
.
.
..
.
thamaania tha maa nia
9
.
..
.
.
tisaa tis aa
10
.
..
.
.
. aachar aa char
11 .
.
.
.

.

-
a7adaaaachar a 7a daa aa char

12 .
.
.
..
.
.
.
ithnaaaachar ith naa aa char

20

.
.
..
iichroun iich roun

30

.
.v

.
. thalaathoun tha laa thoun
40

arba3oun ar ba 3oun
50

..
-
khamsoun kham soun
60

.
..
sitsoun si tsoun
70

..

. sab3oun sa b 3oun
80

..
.
thamaavoun tha maa noun
90

..
.
.
tis3oun tis 3oun

+ .
.
.
zaaid zaa id
-
.
. naakis naa kis

. dharb dharb
/
.
..
.
kismats kis mats

=
.

.

.
.
.
yosaawii yo saa wii
<- _

rojou3 ro jou3
wa

wa wa
Table 3.1 tiquetage connect et continu des mots de vocabulaire
3.5 Paramtrisation
Selon certaines recherches[40], la mthode MFCC est la meilleure pour la reconnais-
sance de la parole, et les drivs primaires et secondaires fournissent des informations
supplmentaires. Ces paramtres sont calculables par le biais dune fonction dont dis-
pose loutil HTK. Cette fonction est HCOPY qui prend en entre un chier audio et
calcule ses coecients suivant une conguration de la taille des fentres, nombre de
ceptres, le type de fentrage, et dautres paramtres introduits par lutilisateur. Cer-
tains travaux utilisent mme des algorithme de Boosting comme AdaBoost pour pallier
les carences des donnes dapprentissage[41].
Dans notre cas nous avons calcul les paramtres des 27 28 chiers audio. Ces
paramtres sont : Le nombre de coecients MFCC utilis est 8 + lenergie + les drivs
(donc 18) choisi a partir des travaux similaires sur la parole arabe[42]
3.6 Dnition du HMM
La fonction de principe de HTK est de manuvrer des ensembles de modles de
Markov cachs (HMMs). La dnition dun HMM doit spcier la topologie du mo-
dle, les paramtres de transition et les paramtres de distribution de rendement. Les
vecteurs dobservation du HMM peuvent tre diviss en multiples trames de donnes
indpendantes et chaque trame peut avoir son propre poids.[43] Pour loutil HTK, les
chaines de Markov caches sont dabord estimes par des prototypes (g. 3.4). La fonc-
tion dune dnition de prototype est de dcrire la forme et la topologie du HMM,
les nombres rels utiliss dans la dnition ne sont pas importants. Par consquent, la
taille du vecteur (VecSize) et le type de paramtre (MFCC) devraient tre spcis et
le nombre dtats doit tre choisi (NumStates). Les transitions permises entre les tats
devraient tre indiques en mettant des valeurs direntes de zro dans les lments cor-
respondants la matrice de transition (TransP) et zros ailleurs. La somme de chaque
ligne de la matrice de transition doit tre gale 1, sauf la dernire qui devrait tre 0.
Toutes les valeurs moyennes peuvent tre zro mais les variances diagonales devraient
tre positifs et les matrices de covariance devraient avoir les lments diagonaux posi-
tifs. Toutes les dnitions dtat peuvent tre identiques. Rappelons que notre but est
Figure 3.4 Prototype dun HMM
de faire une comparaison entre la reconnaissance de mots connects et les mots continus
dont chacun ncessite une modlisation de son HMM
3.6.1 HMM de reconnaissance de mots connects
Nous avons modliss un mot connect par le nombre de syllabes quil contient,
cest--dire que chaque syllabe reprsente un tat du HMM associ au mot en plus les
deux tats dentre et de sortie. La gure (g. 3.5)reprsente un prototype du mot
sabaa (sept).
Figure 3.5 Prototype dun HMM de mot connect
3.6.2 HMM de reconnaissance de mots continus
Pour les mots continus, chaque syllabe est spcie par un HMM. Notre systme
contient 42 syllabes et pour leur modliss nous nous somme bas sur les classes de
syllabes de la langue arabe vues au premier chapitre. Nous avons mentionns que la
langue arabe comporte 3 types de syllabes qui sont : CV, CVC et CVCC. Pour cette
raison nous ne dnissons que 3 types de HMM pour la reconnaissance de mots continus
(g. 3.6). Le tableau (g. 3.2) reprsente les HMM utiliss des 42 syllabes.
Syllabe Reprsentation
syllabique
Numro du
HMM
Syllabe Reprsentation
syllabique
Numro du
HMM
cifr CVCC 3 iich CV 1
waa CV 1 roun CVC 2
hid CVC 2 thoun CVC 2
ith CV 1 3oun CVC 2
naan CVC 2 soun CVC 2
tha CV 1 tsoun CVC 2
laa CV 1 noun CVC 2
ar CV 1 zaa CV 1
ba CV 1 id CV 1
aa CV 1 naa CV 1
kham CVC 2 kis CVC 2
sa CV 1 dharb CVCC 3
b CV 1 mats CVCC 3
si CV 1 yo CV 1
tsa CV 1 saa CV 1
maa CV 1 wii CV 1
nia CV 1 ro CV 1
tis CVC 2 jou3 CVC 2
char CVC 2 wa CV 1
a CV 1 daa CV 1
7a CV 1
Table 3.2 Les HMMs des syllabes du vocabulaire
Figure 3.6 Prototypes des mots continus
Dans le HMM associ au silence on ajoute un lien du 2
me
tat au 4
me
tat et un
autre du 4
me
au 2
me
pour rendre le modle plus robuste en absorbant les variations
des impulsions nasales de lensemble dapprentissage [43]
3.7 Initialisation
Avant de dmarrer le processus dapprentissage, les paramtres des HMMs doivent
tre correctement initialiss en utilisant la base dapprentissage an de permettre une
convergence rapide et prcise de lalgorithme dapprentissage.[44] La commande HInit
de loutil HTK permet dinitialiser les HMMs par alignement temporel en utilisant lal-
gorithme de Viterbi partir des prototypes, et les donnes dapprentissage dans leur
forme MFCC et leur chier tiquet associ. Lorganigramme suivant rsume le proces-
sus (g. 3.7) : Premirement, HTK charge le prototype du HMM dnir, ensuite il
Figure 3.7 Lopration HInit
cherche dans la base des tiquettes le label portant le nom de ce HMM; noter quun
chier label contient le temps de dbut et de n dune tiquette dans un enregistre-
ment. Et par le biais du chier de conguration il trouve le lien avec les coecients
MFCC calculs prcdemment et en prend ensuite ce dont il a besoin (g. 3.8). Quand
le systme charge tout ce dont il a besoin lalgorithme de Viterbi est employ pour
trouver lordre le plus susceptible dtat correspondant chaque exemple dapprentis-
sage, puis les paramtres de HMM sont estims. Nous pouvons calculer le logarithme
de vraisemblance de lensemble dapprentissage pour viter leet de bord de trouver
lalignement Viterbi des tats. Par consquent, le procd entier dvaluation peut tre
rpt jusqu ce quaucun accroissement plus ultrieur de probabilit ne soit obtenu.
Figure 3.8 Processus de chargement de donnes pour la commande HInit
3.8 Apprentissage
Nous avons vu que linitialisation nest quun calcul de distance ; car lalgorithme
de Viterbi se base essentiellement sur la DTW. Et pour lapprentissage nous allons
appliquer lalgorithme de Baum-Welch vu en deuxime chapitre. Cette tape est assure
par la commande HRest de loutil HTK, qui est dsign la manipulation des HMMs
isols. Son fonctionnement est trs semblable HInit sauf que, suivant les indications
de la gue(g. 3.9), en partant dun HMM initialis elle emploie la rvaluation Baum-
Welch au lieu de lapprentissage de Viterbi. Ceci implique de trouver que la probabilit
dtre dans un tat donn en une fentre de temps donne en utilisant lalgorithme
Baum-Welch (forward-backward). Cette probabilit est alors employe pour former des
moyennes pondres pour les paramtres du HMM.
Figure 3.9 Le processus dapprentissage
3.9 Dnition de la grammaire
Il est ncessaire de donner au systme des indications pour quil puisse dterminer
une solution satisable. A noter que la grammaire ne dpend pas du type dtiquetage
des mots (connects ou continus). Nous avons construit nos grammaire en suivant le
format du HTK. O les variables sont prcdes par un $, les {} aux extrmits des
mots dnotent zro ou plusieurs rptitions permises, les [] pour au plus une rptition,
le trait verticale signie une alternative, et la parenthse ouverte reprsente le dbut de
larbre de drivation et la parenthse fermante pour ltat nale.[44]
3.9.1 Grammaire pour la reconnaissance de parole isole
(g. 3.10) Ici tous les mots du langage ont la mme probabilit.
Figure 3.10 grammaire de parole isole
3.9.2 Grammaire pour la reconnaissance de parole continue
Il est clair que plus la grammaire est complexe, plus le systme plus dalterna-
tives de reconnaissance et par la suite le taux derreur augmente. Nous avons choisi de
travailler avec une grammaire simple qui permet de gnrer les mots de type A op B
(g. 3.11) avec A et B deux oprandes et op une opration. La liste suivante donne
plus de dtail.
Figure 3.11 grammaire de parole continue
A noter que cette grammaire, au contraire de la grammaire des mots isols, dbute
avec le mot SENT-START et se termine par SENT-END .
3.10 Construction du dictionnaire
Le systme doit naturellement savoir quel HMM correspond chacune des variables de
grammaire cifr, waahid, . . . , rojou3, wa . Cette information est stocke dans un chier
texte appel le dictionnaire de tche. Dans une tche si simple, la correspondance est
franche, et le dictionnaire de tche joint simplement les mots ou les syllabes(Tab. 3.3).
Dictionnaire des mots continus Dictionnaire des mots connects
SENT-START [] SENT-START []
SENT-END [] SENT-END []
cifr [0] cifr cifr [0] cifr
waahid [1] waa hid waahid [1] waahid
ithnaan [2] ith naan ithnaan [2] ithnaan
thalaatha [3] tha laa tha thalaatha [3] thalaatha
arbaaa [4] ar ba aa arbaaa [4] arbaaa
khamsa [5] kham sa khamsa [5] khamsa
sitsa [6] si tsa sitsa [6] sitsa
Dictionnaire des mots continus Dictionnaire des mots connects
sabaa [7] sa b aa sabaa [7] sabaa
thamaania [8] tha maa nia thamaania [8] thamaania
tisaa [9] tis aa tisaa [9] tisaa
aachar [10] aa char aachar [10] aachar
a7adaaaachar [11] a 7a daa aa char a7adaaaachar [11] a7adaaaachar
ithnaaaachar [12] ith naa aa char ithnaaaachar [12] ithnaaaachar
iichroun [20] iich roun iichroun [20] iichroun
thalaathoun [30] tha laa thoun thalaathoun [30] thalaathoun
arba3oun [40] ar ba 3oun arba3oun [40] arba3oun
khamsoun [50] kham soun khamsoun [50] khamsoun
sitsoun [60] si tsoun sitsoun [60] sitsoun
sab3oun [70] sa b 3oun sab3oun [70] sab3oun
thamaanoun [80] tha maa noun thamaanoun [80] thamaanoun
tis3oun [90] tis 3oun tis3oun [90] tis3oun
zaaid [+] zaa id zaaid [+] zaaid
naakis [-] naa kis naakis [-] naakis
dharb [x] dharb dharb [x] dharb
kismats [/] kis mats kismats [/] kismats
yosawi [=] yo saa wii yosawi [=] yosaawii
rojou3 [<-] ro jou3 rojou3 [<-] rojou3
wa wa wa wa
sil sil sil sil
Table 3.3 Dictionnaires du systme
Les lments de gauches se rapportent aux noms des variables de grammaire. Les l-
ments de droite se rapportent aux noms du HMM (prsent par le h dans la dnition
du HMM). Les lments encadrs au milieu sont facultatifs, ils indiquent les symboles
qui seront achs par le systme de reconnaissance : les noms des tiquettes sont em-
ploys ici (par dfaut, les noms des variables de la grammaire sont achs.)
3.11 Gnration du rseau de mots (Word Network)
ce stade, notre tche de reconnaissance de la parole, compltement dnie par
son rseau, son dictionnaire, et son ensemble de HMMs, est oprationnelle. La gure
(g. 3.12) est le rseau complet utilis par le systme. Chaque cercle reprsente le HMM
de ltiquette quil contient.
Figure 3.12 le rseau de mots associ la grammaire de la parole continue
3.12 La reconnaissance
Aprs avoir entr le chier de la parole reconnaitre via le microphone, il est trans-
form en un chier de caractristiques (MFCC pour notre cas) par la commande HCopy
de la mme manire que ce qui a t fait avec les donnes dapprentissage (tape acous-
tique danalyse). Pour une expression donne avec T fentres possibles, chaque nud
du chemin de dbut la n du rseau qui traverse exactement T mettant des tats
du HMM est une hypothse potentielle didentication. Chacun de ces chemins a une
probabilit logarithmique qui est calcule en additionnant la probabilit de notation de
chaque transition individuelle dans le chemin et la probabilit logarithmique de chaque
tat dmission produisant lobservation correspondante. Dans un HMM, les transitions
qui sont dtermines par les paramtres du HMM, et les transitions entre les modles
sont constantes et les transitions des extrmits des mots sont dtermines par les pro-
babilits de vraisemblance avec le modle de langage. A Chaque tape en appliquant
lalgorithme passage du jeton vu au chapitre prcdent, les jetons sont propags le
long des transitions permises et sarrtent lors dun tat dmission du HMM. Quand
il y a les sorties multiples dun nud, le jeton est copie de sorte que tous les chemins
possibles soient explors en parallle. Pendant que le jeton passe travers des transi-
tions et par des nuds, sa probabilit logarithmique est incrmente par les probabilits
correspondantes de transition et dmission. Lorsque chaque jeton traverse le rseau il
doit maintenir un historique enregistrant son itinraire. La quantit de dtail dans cet
historique dpend du rendement voulu didentication dni par la grammaire [43]. Ce
travail est assur par la commande HVite de loutil HTK. Cette commande permet
partir dun chier de paramtres de produire un chier contenant les tiquettes aec-
tes par le systme aux direntes parties du chier audio, en plus dun achage sur
la fentre console.
3.13 Lvaluation
Nous avons opts pour une comparaison entre la reconnaissance de mots connects
et la reconnaissance de mots continus dans les domaines de la parole isole et la parole
continue avec une taille de corpus dapprentissage variante, et mono-locuteur. Nous
avons fait lvaluation pour un corpus de 5, 10, 15 et 20 enregistrements et pour le
corpus de test nous avons utilis 7 enregistrements, pour tous les tests, pour la parole
isole et pour la parole continue nous avons choisi des combinaisons de mots de type A
opration B avec A et B des oprandes, qui ont eu le plus grand taux de reconnaissance
la parole isole. Le tableau suivant donne les rsultats que nous avons obtenus sur ces
corpus pour la parole isole.
Mots connects Mots continus
base de
5
base de
10
base de
15
base de
20
base de
5
base de
10
base de
15
base de
20
0 0 0 0 0 3 4 2 2
1 6 6 6 6 7 7 7 7
2 4 5 7 7 4 7 7 7
3 0 0 0 0 5 6 6 6
4 2 1 2 0 6 7 6 7
5 0 7 7 7 2 2 0 0
6 4 7 7 7 2 0 0 0
7 1 1 0 0 5 5 5 5
8 5 5 5 7 7 7 7 7
9 7 7 7 7 7 7 7 7
10 7 7 7 7 6 5 5 6
11 6 6 7 7 7 7 7 7
12 1 4 4 4 7 7 7 7
20 4 6 6 7 6 7 7 7
30 0 1 1 1 3 3 3 4
40 3 4 1 2 7 7 6 7
50 7 3 4 5 0 0 0 0
Mots connects Mots continus
base de
5
base de
10
base de
15
base de
20
base de
5
base de
10
base de
15
base de
20
60 4 6 6 6 4 1 0 2
70 3 0 0 1 6 5 6 7
80 4 1 2 3 6 5 6 7
90 6 7 7 7 7 7 7 7
+ 6 7 7 7 6 4 5 4
- 7 7 7 7 6 6 7 7
0 0 0 0 0 0 0 0
/ 7 7 7 7 7 6 7 7
= 1 1 1 3 7 7 7 7
rojou3 7 5 6 7 6 7 7 7
wa 6 6 6 6 6 6 6 7
Table 3.4 Rsultats avec dirents corpus de la parole isole
Au-dessous chaque tableau donne les rsultats pour la parole continue de chaque base
de chaque corpus
La base Mots connects parole continue Mots continus parole continue
1+9 0.33 0.67
28/91 1 0.85
10+18 0.75 0.5
99-48 0.85 1
22+11 1 1
98-12 0.8 1
14-49 0.67 0.5
Taux 0.771428571 0.788571429
Table 3.5 Rsultat du corpus de 5
1+2 0.33 0.33
22/91 0.85 0.85
10+18 0.75 0.5
99-42 1 0.85
22+11 0.8 0.8
92-12 0.8 0.8
15-29 0.83 0.83
Taux 0.765714286 0.708571429
1+2 0.66 0.33
22/91 0.85 0.85
10+18 0.75 0.5
99-82 0.85 0.85
28+11 0.2 0.8
92-12 0.8 0.8
18-29 0.67 0.83
Taux 0.682857143 0.708571429
1+2 0.33 0.33
22/91 0.85 0.85
10+18 0.75 0.5
99-82 0.85 0.85
28+11 0.8 0.8
92-12 0.8 0.8
18-29 0.67 0.83
Taux 0.72 0.708571429
3.14 Analyse des rsultats
Il est clair que nous avons obtenus un taux de reconnaissance trop lev avec les
mots continus par rapport aux mots connects. Ceci revient dire que les mots sont
traits avec plus de prcision en prenant en compte leurs caractristiques linguistiques.
Il y a des mots avec un taux de reconnaissance trop petit ou nul comme pour le cas de
cifr et dharb, et ceci sexplique par le besoin de plus dapprentissage.
La gure (g. 3.13)montre des amliorations en fonction de la taille du corpus pour
les mots connects mais pour arriver un taux concurrent aux mots continus nous avons
besoin de plus de donnes dapprentissage. Aussi, nous remarquons une dgradation aux
mots continus et ceci est d aux ambiguts phonatoires. Par exemple arbaaa et sabaa
se terminent par la mme syllabe aa.
Figure 3.13 Variation du taux de reconnaissance de parole isole en fonction de la
taille du corpus
La gure(g. 3.14) montre des alternatives des meilleurs taux de reconnaissance
entre les mots connects et les mots continus. Et plus la base slargit le taux diminue
pour le cas des mots connects pour ensuite samliorer aprs le corpus 15. Ceci sex-
plique par le mauvais choix de la base de test cest dire que ce qui a donn de bon
rsultats en mode isol ne donne pas forcement de meilleurs rsultats au mode continu.
Figure 3.14 Variation du taux de reconnaissance de parole continue en fonction de
la taille du corpus
3.15 Implmentation dune calculatrice vocale
Nous avons raliss une calculatrice vocale du vocabulaire prcdant en prenant les
meilleurs modles de Markov qui ont donns les meilleurs taux de reconnaissance dans
dirents corpus. Notre calculatrice (g. 3.15) fonctionne en mode mono locuteur avec
le choix de parole isole ou parole continue. Elle contient les boutons des chires de
0 9, les boutons des oprations, de recule (<-) et le bouton clear pour quon puisse
intervenir. Pour commencer le traitement il faut appuyer sur

.v
..
.
.. .
, et pour
terminer on presse

.v
..
.

.
.
.
.
Figure 3.15 Calculatrice vocale
Par dfaut la calculatrice fait la reconnaissance de mots isols, et pour la rendre de
mots continus il faut aller au menu
.
.
.
.

.

.
.
.
.
.
. et slectionner parole continue et

ensuite ne faire entrer que les mots respectant la grammaire de A op B vue prcdem-
ment.
3.16 Conclusion
Dans ce chapitre nous avons ralis un ensemble dexperiences pour examiner la
dirence entre la reconnaissance des mots connects et des mots continus, en tenant
compte de deux critres : la taille du corpus dapprentissage et le type de traitement.
Pour la classication, nous avons utilis les chaines de Markov caches (HMM), les plus
adaptes au traitement de la parole ; les traitements associs aux HMMs ont t fait
par loutil HTK.
Daprs les rsultats de nos expriences, nous pouvons dire que la reconnaissance
base sur les mots continues est bien meilleure que celle des mots connects en mode
parole isole car pour la premire, avec une petite base dapprentissage nous avons
obtenus un taux de russite acceptable par contre la deuxime nous avons besoin de
beaucoup plus de donnes dapprentissage. Dans le mode de la parole continue les mots
connects se sont bien comports et montre une concurrence avec les mots continus. La
diminution de la reconnaissance de la parole continue peut se traduire par une faiblesse
de la base de test.
Conclusion gnrale
Dans ce travail nous avons abord un domaine en cours dexpansion cette dernire
dcennie : cest la reconnaissance automatique de la parole et particulirement en arabe.
Aprs avoir lu dirents documents sur ce domaine, nous avons pris le choix de travailler
avec les chaines de Markov caches (HMM) qui reprsentent un outil trs robuste en
sappuyant sur des fondements mathmatiques trs solides et qui se caractrise par
la notion dtats/transitions ; qui permet de traiter les phnomnes temporels dont la
parole fait partie. Nous avons opt pour loutil HTK an de manipuler les HMMs.
Nous avons construit un systme de reconnaissance dun vocabulaire dune calcula-
trice vocale en arabe. Ce systme se compose dune base dapprentissage et dune base
de test. Les donnes sont reprsentes par des vecteurs caractristiques de type MFCC.
Nous avons mis en place un classieur HMM pour lequel nous avons construit plusieurs
modles ainsi que leur apprentissage. Les testes raliss nous ont donn les rsultats
vus au troisime chapitre.
Ce projet nous a permis dapprendre et surtout de toucher plusieurs domaines tels
que le traitement de signal, la programmation, le traitement de la langue, etc.
65
Perspectives
Ce travail peut tre perfectionn en passant du monolocuteurs aux multilocuteurs et
en largissant le vocabulaire. Ainsi une intervention des experts linguistes peut mieux
modliser les classes de mots, syllabes, ou phonmes.
Nous pouvons aussi utiliser les amliorations en traitement de signale sur la mthode
MFCC. Et refaire le travail sur dautres techniques de classication et en introduisant
les hybridations.
66
Annexe A
Loutil HTK
HTK ou Hidden Markov Model ToolKit est un outil puissant, dvelopp par Cam-
bridge University Engineering Department (CUED), de construction et de manipulation
des modles de Markov cachs. HTK est principalement employ pour la recherche de
reconnaissance de la parole bien quil ait t employ pour nombreux dautres appli-
cations comprenant la recherche dans la synthse de la parole, la reconnaissance de
caractres et lordonnancement dADN.
HTK se compose dun ensemble de bibliothque et les outils disponibles dveloppes
en langage C. Les outils fournissent les quipements sophistiqus pour lanalyse de la
parole, apprentissage des HMMs, expriences et analyse des rsultats. La gure (g. A.1)
rsume les processus dapprentissage et de dcodage utilis dans ce manuscrit.
67
ANNEXE A. LOUTIL HTK 68
Figure A.1 Fonctionnement du HTK
Rfrences bibliographiques
[1] C.E Shannon and W.Weaver. The mathematical theory of communication. Ur-
bana : University of Illinois Press, 1949.
[2] A. Muhammad. Alaswaat Alaghawaiyah. Daar Alfalah, 1990. Jordan.
[3] M. Elshafei. Toward an arabic text-to-speech system. 1991. vol. 4B no. 16,pp.
565583.
[4] D. E. Kouloughli. Sur la structure interne des syllabes lourdes en arabe classique.
1986.
[5] S. Baloul. Dveloppement dun systme automatique de synthse de la parole
partir du texte arabe standard voyell. PhD thesis, 2003. Thse de Doctorat.
[6] http ://veloschola.e-monsite.com/pages/etudiants-de-langue/alphabet-
phonetique-international-la-langue-arabe.html. universit de Biskra.
[7] J.Ramrez and al. Speech/non-speech discrimination based on contextual informa-
tion integrated bispectrum lrt. august 2006. VOL. 13, NO. 8.
[8] Van Den Heuvel H., Rietveld T., and Cranen B. Methodological aspects of segment
and speaker-related variability. a study of segmentai durations in dutch. 1994. no
22, pp 389-406.
[9] Atal B. S. Text-independent speaker recognition. April 1972. Paper presented at
the Program of the 83rd meeting of the Acoustical Society of America , Bualo,
NY, USA.
[10] T.Matsui and S.Furui. Text-independent speaker recognition using vocal tract and
pitch information. 1990. pp 13 7-140.
69
RFRENCES BIBLIOGRAPHIQUES 70
[11] A.Malraux. http://andremalrauxtpeson.e-monsite.com/pages/
la-physique-du-son/l-intensite-du-son.html.
[12] Bernard Gosselin. Reprsentation de linformation et quantication des signaux.
Facult Polytechniques de Mons, 2000. Belgique.
[13] Furui. Ceptral analysis technique for automatic speaker verication. 1981. volume
29, pages 254-272.
[14] Y.Ben Ayed. Dtection de mots cls dans un ux de parole. PhD thesis, dcembre
2003.
[15] Attabi yazid. Reconnaissance automatique des motions partir du signal
acoustique. PhD thesis, Fvrier 2008.
[16] OShaughnessy. Speech communication human and machine. 2000. second edition,
New York, USA.
[17] Huang and al. Spoken language processing : a guide to theory, algorithm, and
system development. 2001. United states of America.
[18] julien michot. http://www.webfractales.org/RapportMMC/node4.html, aout
2006.
[19] Florian AGEN and Julien MICHOT. Projet de Mathmatiques :Chanes de
Markov caches Algorithme de Baum-Welch. Universit Franois Rabelois TOURS,
Jan 2005.
[20] S. Ramdane, B. Taconet, and A. Zahour. Apprentissage dynamique du nombre
dtats dun modle de markov cach observations continues. 2003. 19
ime
Col-
loque sur le traitement du signal et des images.
[21] T. BROUARD, M. Slimane, G. Venturini, and J. P. ASSELIN DE BEAUVILLE.
Apprentissage du nombre dtats dune chane de markov cache pour la reconnais-
sance dimages. 1997. 16
ime
Colloque sur le traitement du signal et des images.
[22] Nikolai Shokhirev. Hidden markov models, Fvrier 2010. http://www.shokhirev.
com/nikolai.html.
[23] Vincent BARRA. Apprentissage. Institut Suprieur dInformatique, de Modlisa-
tion et de leurs Applications, 2006.
[24] LAWRENCE R. RABINER and FELLOW. A Tutorial on Hidden Markov Models
and Selected Applications in Speech Recognition, fvrier 1989. USA.
[25] M.J. Castro-Bleda and al. Ecient viterbi algorithms for lexical tree based models.
2007. Valencia, Spain.
[26] S.J. Young, N.H.Russell, and J.H.S Thornton. Token passing : a simple conceptual
model for connected speech ecognition systems. July 1989.
[27] MURAT AL MEZ. LARGE VOCABULARY CONTINUOUS SPEECH
RECOGNITION FOR TURKISH USING HTK. PhD thesis, June 2003.
[28] Lilia Lazli and Mohamed Tayeb Laskri. Nouvelle mthode de fusion de donnes
pour lapprentissage des systmes hybrides mmc/rna. novembre 2005.
[29] Emilie POISSON. Architecture et Apprentissage dun Systme Hybride
Neuro-Markovien pour la Reconnaissance de lcriture Manuscrite En-Ligne. PhD
thesis, ECOLE DOCTORALE STIM, dcembre 2005. Universit de Nante, France.
[30] Shun-Zheng Yu. Hidden semi-markov models. 2010. PR China.
[31] Y. Xie, S. Tang, C. Tang, and X. Huang. An ecient algorithm for parameterizing
hsmm with gaussian and gamma distributions. 2012. China, USA.
[32] Djear Abdelhamid and al. Un systme de tri automatique des dattes par svm.
International Conference On Industrial Engineering and Manufacturing ICIEM10,
May 2010. Batna, Algeria.
[33] Jaume Padrell-Sendra, Dario Martin-Iglesias, and Fernando Diaz de Maria. Sup-
port vector machines for continuous speech recognition. Septembre 2006. Florence,
Italy.
[34] H.Sakoe and S.Chiba. A dynamic programming approach to continious recognition.
1971. Budapest,Hungary.
[35] Ravinder Kumar. Comparaison of hmm and dtw for isolated word recognition
system of punjabi language. 2010.
[36] mc-chapitre-7-tdnn.pdf.
[37] Asmaa OURDIGHI and Abeldelkader BENYETTOU. Lintgration des algo-
rithmes gntiques dans lapprentissage des rseaux de neurones dlais temporels
adaptatifs. 2007. Algrie.
[38] Mansour M.Alghmadi. Kacst arabic phonetics database. 2004. Riyadh, Kingdom
of Saudi Arabia.
[39] G.Droua-Hamdani and al. Algerian arabic speech database (algasd). decembre
2010.
[40] Zaz Fouzi and al. Calculatrice vocale base sur les svm.
[41] L. Wang, K. Chen, and Y.S. Ong. Boosting input/output hidden markov models
for sequence classication. 2005. United Kingdom.
[42] Mounir Gragy. Rapport de Projet sous HTK : Reconnaissance de mots isols Et
Reconnaissance de mots connects. Universit Mohammed 1
er
Oujda, 2006.
[43] S.Young and al. The HTK Book (for HTK version 3.4). Cambridge University
Engineering Department, december 2006.
[44] Nicolas Moreau. HTK (v.3.1) : Basic Tutorial, February 2002.

Traitement Automatique de La Parole Arabe PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Traitement Automatique de La Parole Arabe PDF

Transféré par

Droits d'auteur :

Formats disponibles

Traitement Automatique De La Parole Arabe

Par Les HMMs:

ka :tibon crivain CV CV CVC

jami :lon beau CV CV CVC

(n) = x(n) kx(n 1), 0 < n < N 1 (1.1)

S[n] cos n(m

waahid waa hid

ithnaan ith naan

a7adaaaachar a 7a daa aa char

ithnaaaachar ith naa aa char

iichroun iich roun

tis3oun tis 3oun

. naakis naa kis

kismats kis mats

. et slectionner parole continue et

Vous aimerez peut-être aussi